Menu
in

¿Cuánto se archivó de la Web hasta ahora?

Piezas históricas protegidas con recelo. Ejemplos artísticos preservados y restaurados. Lugares icónicos del globo que son declarados patrimonio de la humanidad. Son varias las formas a través de las cuales nuestra civilización busca dejar un legado, una referencia duradera para las próximas generaciones. ¿Pero qué hay de la Web? Es sin lugar a dudas una de nuestras creaciones más importantes. Entonces, ¿qué tanto de ella se ha preservado? Un grupo de investigadores de la Old Dominion University se ha hecho esa misma pregunta, y a decir verdad, la respuesta es tan irregular como la Web misma…

El equipo comienza rindiéndose a la realidad: Descubrir cada URI disponible en la Web es imposible. Sabemos cuál es la primera página de la Web, al igual que conocemos la primera fotografía de la Web, pero son millones los enlaces que aparecen y desaparecen en tiempo récord, al igual que su contenido. Los motores de búsqueda guardan una enorme cantidad de páginas en su caché, pero en promedio tiene una duración de treinta días. Por lo tanto, lo mejor que pueden hacer los investigadores de la Old Dominion University en Virginia es desarrollar la mejor estimación posible sobre cuánto se ha archivado de la Web.

Para ello tomaron una muestra de mil direcciones Web, utilizando como fuente al Proyecto Open Directory, a los favoritos más recientes del portal Delicious, al servicio de reducción de direcciones Bit.ly, y a los tres buscadores principales: Google, Yahoo! y Bing. Con el tamaño de la muestra establecido, buscaron versiones archivadas de esas direcciones con la ayuda del agregador Memento, que se concentra sobre portales como el Internet Archive. La parte final de la estimación requiere saber el porcentaje de direcciones que han sido archivadas, la cantidad de veces que cada una de ellas fue archivada, y qué tan atrás en el tiempo llega el registro.

En líneas generales, la calidad del proceso depende de cada sitio. El Internet Archive está sin dudas por encima del resto, pero hay algunos portales especializados que se concentran en una porción específica de la Web, ignorando el resto. Los números que publicaron los investigadores hablan de que entre el 35 y el 90 por ciento de la Web tiene al menos una copia archivada. Entre el 17 y el 49 por ciento tiene de dos a cinco copias, del 1 al 8 por ciento entre seis y diez copias, y del 8 al 63 por ciento cuenta con más de diez copias de acceso público. La cantidad de copias de los URI varía mucho en relación con el tiempo, pero establecieron que no más del 31,3 por ciento de los URI es archivado en más de una oportunidad durante un mes. Dicho en otras palabras: Los valores son muy amplios e imprecisos, y se está perdiendo mucho de la Web. Seguramente alguien pensará que no todo en la Web merece ser archivado, pero correr el riesgo de perder algo que pueda ser fundamental para las próximas generaciones… no sé si vale la pena.

Escrito por Lisandro Pardo

Leave a Reply