Google continúa detrás de su objetivo de indexar toda la red. Sea lo que sea, nada está quedando fuera de las garras del buscador. Porque, a partir de ahora, también se podrán realizar búsquedas dentro de los textos que se encuentran en documentos del tipo PDF, gracias al uso de un software OCR, capaz de convertir imágenes en texto.
A diferencia de lo que ocurre con los documentos de texto estándar, o con formato HTML, los archivos en formato PDF no pueden ser indexados directamente por los robots de búsqueda (comúnmente llamados arañas) de Google. Es cierto que desde hace mucho Google indexaba PDF, pero lo hacía leyendo la metadata de los mismos, no su contenido. Pero ahora, y gracias a un procedimiento llamado Reconocimiento Óptico de Caracteres (u OCR, por Optical character recognition), una tecnología bastante antigua y probada, el buscador puede convertir las palabras que se encuentran dentro de una imagen en texto plano.
Google emplea su propio software de código abierto OCRopus, que a su vez está basado en una aplicación desarrollada por HP llamada Tesseract. Dicha tecnología le permitirá a la empresa indexar documentos previamente escaneados, que contengan una mezcla de texto e imágenes. El motor de reconocimiento de texto es bastante bueno, por lo que se supone que los resultados que obtengamos en el buscador también lo serán.
A pesar de lo reciente de la noticia, algunas universidades y organizaciones que habitualmente publican documentos PDF en línea ya hicieron notar que esta tecnología podría hacer peligrar la privacidad, ya que el material en ese formato que cuente con derechos de autor (o información personal) será mucho más fácil de usar por personas que no tienen el derecho correspondiente. Como ocurre a menudo, ante una nueva herramienta se plantean algunas incógnitas, pero es de suponer que, en general, ésta noticia será bienvenida por los internautas.
Espero que funcone bien, pero seguro que sera asi porque lo0 que crea google funciona muy bien.
Es raro que lo hagan ahora, sabiendo que los OCR datan de la época de Jesucristo por lo menos.
no se decia indizar?
Bueno siempre lei la palabra indexar,eso de que el OCR sea muy antiguo y que recien lo haya implemnetado en sus busquedas google es de esperar porque seguro ellos estan creando nuevos algoritmos mas eficientes para el OCR e idelaes para el buscado lo cual no parece ser tan facil de conseguir