in Internet

Google indexa documentos escaneados

por Ariel Palazzesi 3 noviembre, 2008, 5:53 pm

Google continúa detrás de su objetivo de indexar toda la red. Sea lo que sea, nada está quedando fuera de las garras del buscador. Porque, a partir de ahora, también se podrán realizar búsquedas dentro de los textos que se encuentran en documentos del tipo PDF, gracias al uso de un software OCR, capaz de convertir imágenes en texto.

OCR, una tecnología bastante antigua y probada

A diferencia de lo que ocurre con los documentos de texto estándar, o con formato HTML, los archivos en formato PDF no pueden ser indexados directamente por los robots de búsqueda (comúnmente llamados arañas) de Google. Es cierto que desde hace mucho Google indexaba PDF, pero lo hacía leyendo la metadata de los mismos, no su contenido. Pero ahora, y gracias a un procedimiento llamado Reconocimiento Óptico de Caracteres (u OCR, por Optical character recognition), una tecnología bastante antigua y probada, el buscador puede convertir las palabras que se encuentran dentro de una imagen en texto plano.

Google emplea su propio software de código abierto OCRopus, que a su vez está basado en una aplicación desarrollada por HP llamada Tesseract. Dicha tecnología le permitirá a la empresa indexar documentos previamente escaneados, que contengan una mezcla de texto e imágenes. El motor de reconocimiento de texto es bastante bueno, por lo que se supone que los resultados que obtengamos en el buscador también lo serán.

A pesar de lo reciente de la noticia, algunas universidades y organizaciones que habitualmente publican documentos PDF en línea ya hicieron notar que esta tecnología podría hacer peligrar la privacidad, ya que el material en ese formato que cuente con derechos de autor (o información personal) será mucho más fácil de usar por personas que no tienen el derecho correspondiente. Como ocurre a menudo, ante una nueva herramienta se plantean algunas incógnitas, pero es de suponer que, en general, ésta noticia será bienvenida por los internautas.

Viapcmag.com

Reportar

Buscadores Internet

¿Qué te pareció?

0 Points

Voto Positivo Voto Negativo

Escrito por Ariel Palazzesi

4 Comments

Deja una respuesta Cancelar la respuesta

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Sí hay pruebas de que causamos el calentamiento

Radus: Interfaz multimedia para tu navegador

Populares

in Internet

Stimulation Clicker: El nuevo clicker que destruirá tu productividad

… lo siento mucho

Pocos clickers han alcanzado el nivel del impresionante Cookie Clicker. Con una lista inagotable de ítems, achievements, estrategias y planos celestiales, es difícil imaginar un rival directo… pero Neal Agarwal acaba de publicar en su sitio oficial a Stimulation Clicker. Todo comienza con un simple botón, sin embargo, una vez que liberamos funciones adicionales, el […] More

por Lisandro Pardo 8 enero, 2025, 4:53 pm
Trending

in Internet

Cuando Burger King le dio Internet gratis a sus clientes… en 1998

El principio… para muchas cosas

Hoy, encontrar una red WiFi que habilite el acceso gratuito a la Web no es tan complicado que digamos. Una plaza, un centro comercial, una cafetería, un restaurante de comidas rápidas… en mayor o menor medida, siempre hay un enlace disponible. Sin embargo, la historia era muy diferente en 1998. De hecho, muy pocas personas […] More

por Lisandro Pardo 12 enero, 2025, 5:32 am
Hot Geeky Thug life No me gusta ¡Pero qué c...!

in Artilugios

Conoce la verdadera «trampa» de las máquinas de peluches

¿Crees que estás «jugando»? Piénsalo de nuevo…

Sabemos que hacen trampa. De hecho, en algunos casos ni siquiera se toman la molestia de esconder ese detalle. Pero las máquinas de peluches, máquinas de garra, claw machines, o como sea que se llamen, siempre nos hacen regresar por más. Ahora, ¿cuál es el truco? ¿Cómo es que la máquina se sale con la […] More

por Lisandro Pardo 6 enero, 2025, 8:42 am
in Juegos

DOOM, The Gallery Experience: Una obra de arte

¿«Rip and tear»? Oh no no, «Sip and spend»

El Doomguy suele ser presentado como un ser brutal e implacable, una fuerza de la naturaleza enfocada en la destrucción de las hordas infernales… pero no esta vez. Hoy, el Doomguy es alguien sensible y sofisticado, conmovido por la belleza expresada en el lienzo y el mármol. Un hombre de percepción aguda, capaz de perforar […] More

por Lisandro Pardo 6 enero, 2025, 10:32 am
Trending Hot Thug life

in Artilugios

¿Quieres un adaptador de cassette con Bluetooth? ¡Hazlo tú mismo!

Un mod sencillo, y con gran potencial

Una gran ironía en el mundo del audio es que los «viejos» reproductores estéreo para coches resultaron ser más resistentes al paso del tiempo que los equipos «modernos» gracias al uso de adaptadores de cassette. Ya hemos hablado sobre ellos en dos ocasiones, pero esta vez vamos a explorar la posibilidad de construir uno por […] More

por Lisandro Pardo 7 enero, 2025, 7:26 pm
in Entretenimiento

Doble Tráiler Flash: Heart Eyes y Newtopia

¿Rom-coms de San Valentín con asesinos seriales y zombies? ¿Por qué no?

La temporada de tráilers se está reactivando lentamente, y con el 14 de febrero a un piedrazo de distancia, algunos proyectos han decidido mezclar la magia del amor con situaciones extremas. Por un lado, tenemos a Heart Eyes, película en la que dos compañeros de trabajo confundidos como pareja son perseguidos por un asesino serial. […] More

por Lisandro Pardo 7 enero, 2025, 8:46 pm

Cuando Burger King le dio Internet gratis a sus clientes… en 1998

El «tesoro» de von Toll: La sopa enterrada que sobrevivió al Ártico

Tráiler Flash: A Working Man

Famicom Titler: Reparando una de las consolas más raras de Sharp y Nintendo

Tráiler Flash: Companion

Conoce a uno de los últimos videoclubs del Reino Unido

Google indexa documentos escaneados

¿Qué te pareció?

Escrito por Ariel Palazzesi

4 Comments

Deja una respuesta Cancelar la respuesta

Top 10 – Los bulos más memorables de Google

Microsoft y Yahoo se unen contra Google

Microsoft compra Yahoo!

Google agrega búsquedas por voz a iPhone

YouTube y Hollywood: Comienza una nueva era

Google Chrome: Más trucos y paranoia

Cuando Burger King le dio Internet gratis a sus clientes… en 1998

Stimulation Clicker: El nuevo clicker que destruirá tu productividad

Las predicciones para 2025… en 1995

The Pulp Magazine Archive: Archivo de revistas pulp gratuitas (Galería)

Todo lo que entrará al dominio público en 2025

Un vistazo a las nuevas palabras de la lengua española

Los mejores buscadores de la Deep Web

Conoce al modelo original del Enterprise que estuvo desaparecido por décadas

Hackean el Raspberry Pi 500 para instalar una unidad NVMe

Cómo saber el nombre de una película

«Traductor élfico» en línea: Tengwar y Sindarin a tu alcance

¿Quieres un adaptador de cassette con Bluetooth? ¡Hazlo tú mismo!

Sí hay pruebas de que causamos el calentamiento

Radus: Interfaz multimedia para tu navegador

Stimulation Clicker: El nuevo clicker que destruirá tu productividad

Cuando Burger King le dio Internet gratis a sus clientes… en 1998

Conoce la verdadera «trampa» de las máquinas de peluches

DOOM, The Gallery Experience: Una obra de arte

¿Quieres un adaptador de cassette con Bluetooth? ¡Hazlo tú mismo!

Doble Tráiler Flash: Heart Eyes y Newtopia

¿Qué te pareció?

4 Comments

Deja una respuesta Cancelar la respuesta

Hemos detectado un bloqueador de publicidad.

Entrar

Sign In

¿Has olvidado la clave?

Your password reset link appears to be invalid or expired.

Entrar

Privacy Policy

Agregar a Colección

No Collections