Google sigue mejorando sus productos. Parece que el futuro motor de búsqueda de la compañía de Mountain View funcionará en “tiempo real”, indexando los contenidos de la red mediante sindicación ATOM en cuestión de segundos. El nuevo sistema, conocido como PuSH, promete hacer de internet un lugar más “vivo”, reflejando segundo a segundo lo que ocurre en sitios de noticias y redes sociales. Según los responsables de este cambio, la adopción del nuevo protocolo mejorará enormemente la eficacia con la que el buscador actualiza el contenido de su base de datos. ¿Cómo será el Google del futuro?
A pesar de lo bien que funciona el motor de búsqueda de Google -sobre todo si tenemos en cuenta la astronómica cantidad de páginas que se crean (y abandonan) cada día en la red-, el sistema que emplea para crear sus índices puede ser mejorado. Uno de los “puntos flacos” de su sistema es el tiempo que transcurre entre que una web modifica alguno de sus contenidos y el momento en que dicho cambio aparece reflejado en los resultados que arrojan las búsquedas. Algunas páginas demoran una o dos horas hasta ver correctamente indexado su nuevo contenido, mientras que otras deben esperar días o -en el peor de los casos- hasta semanas. En general, dicha demora no es demasiado grave, pero si tu sitio es un portal de noticias o una red social, una demora de solo 30 minutos puede ser inaceptable.
Para hacer su magia, Google utiliza una clase de software al que comúnmente se lo conoce como “araña”. Se trata de un programa que va añadiendo contenidos a su motor de búsqueda a medida que recorre página web tras página web de forma automática, a la vez que visita las que están enlazadas desde ellas, siguiendo los enlaces presentes. No es precisamente el método más inteligente del mundo para hacer este trabajo -al fin y al cabo, se trata de una estrategia de “fuerza bruta” en la que no se tienen en cuenta un montón de factores que podrían optimizar su eficiencia- pero funciona bastante bien. Gran parte del éxito se debe a que Google utiliza para esta tarea un número impresionante de ordenadores distribuidos por todo el mundo, que se reparten el trabajo. Pero todo eso no evita que se revisen una y otra vez páginas que no reciben prácticamente cambios, y se demore en analizar aquellas que se actualizan permanentemente. ¿Cual es el motivo de esta deficiencia? Simplemente, Google no tiene forma de saber si una página ha cambiado hasta que la visita y la compara con la versión de ella que tiene almacenada en su “cache”. Si a esto le sumamos el elevado número de páginas a visitar, llegamos al estado actual, en que las más afortunadas reciben la “visita de la araña” varias veces al día mientras que otras solo lo hacen una o dos veces a la semana. Afortunadamente, esto podría cambiar en el corto plazo.
El principal problema es la ausencia de un mecanismo que “avise” a Google que el contenido de una página ha sido modificado. Para solucionarlo, Bret Slatkin, quien ostenta el cargo de desarrollador jefe de PuSH, un acrónimo de PubSubHubbub, ha confirmado la implementación de este nuevo protocolo de sindicación en tiempo real en el buscador. No se trata de nada nuevo: algunas empresas, como Technorati, realizan la indexación de cada página en el momento que es creada. Se necesita un sistema rápido, ágil y -sobre todo- normalizado y abierto, que permita a las páginas enviar una señal al buscador cada vez que se crea un contenido nuevo. Google ha hecho algo así en el pasado, cuando puso en marcha su Google Blogsearch. Pero si bien lograba indexar el contenido que los medios generaban constantemente, no tuvo en cuenta el advenimiento de nuevos canales de comunicación como el microblogging. PuSH debería solucionar todo esto. Como explica Slatkin, en este protocolo existen tres entidades principales: las que publican contenidos, los suscriptores que reciben esos datos, y los nodos. La diferencia con los anteriores sistemas es que en lugar de ser los suscriptores los encargados de comprobar periódicamente si el feed ha cambiado, el protocolo PubSubHubbub provee a los nodos de la capacidad de avisar a sus suscriptores de la existencia de algun tipo de contenido nuevo, permitiendo a las actualizaciones propagarse de forma casi instantánea.
Dentro de este esquema, Google simplemente seria un subscriptor más de los nodos PubSubHubbub de aquellas páginas que necesiten ser indexadas en tiempo real. Por supuesto, las “arañas” seguirían existiendo, ya que se encargan -por ejemplo- de “descubrir” sitios nuevos. Pero PuSH mantendría los índices de Google mucho más al día. Lo interesante de todo esto es que será un protocolo abierto, por lo que otros motores de búsqueda podrán utilizar los mismos feeds para ofrecer resultados actualizados también. ¿Constituye PuSH la solución definitiva al problema de la indexación de internet? Por supuesto que no. Por ejemplo, no ayudará demasiado con aquellas páginas que se construyen dinámicamente al ser consultadas. Pero en general, PuSH hará de Google y de cualquier otro buscador que se apoye en este estándar algo muy diferente. Y mejor. ¿Que te parece?