Menu
in

Google indexa documentos escaneados

Google continúa detrás de su objetivo de indexar toda la red. Sea lo que sea, nada está quedando fuera de las garras del buscador. Porque, a partir de ahora, también se podrán realizar búsquedas dentro de los textos que se encuentran en documentos del tipo PDF, gracias al uso de un software OCR, capaz de convertir imágenes en texto.

A diferencia de lo que ocurre con los documentos de texto estándar, o con formato HTML, los archivos en formato PDF no pueden ser indexados directamente por los robots de búsqueda (comúnmente llamados arañas) de Google. Es cierto que desde hace mucho Google indexaba PDF, pero lo hacía leyendo la metadata de los mismos, no su contenido. Pero ahora, y gracias a un procedimiento llamado Reconocimiento Óptico de Caracteres (u OCR, por Optical character recognition), una tecnología bastante antigua y probada, el buscador puede convertir las palabras que se encuentran dentro de una imagen en texto plano.

Google emplea su propio software de código abierto OCRopus, que a su vez está basado en una aplicación desarrollada por HP llamada Tesseract. Dicha tecnología le permitirá a la empresa indexar documentos previamente escaneados, que contengan una mezcla de texto e imágenes. El motor de reconocimiento de texto es bastante bueno, por lo que se supone que los resultados que obtengamos en el buscador también lo serán.

A pesar de lo reciente de la noticia, algunas universidades y organizaciones que habitualmente publican documentos  PDF en línea ya hicieron notar que esta tecnología podría hacer peligrar la privacidad, ya que el material en ese formato que cuente con derechos de autor (o información personal) será mucho más fácil de usar por personas que no tienen el derecho correspondiente. Como ocurre a menudo, ante una nueva herramienta se plantean algunas incógnitas, pero es de suponer que, en general, ésta noticia será bienvenida por los internautas.

Escrito por Ariel Palazzesi

Leave a Reply