in Internet

Dotbot: Índice completo y abierto de toda la red

por Lisandro Pardo 5 febrero, 2009, 10:51 am

Las guías telefónicas son consideradas como piezas de museo en estos días de digitalización rampante. Con datos mínimos alguien puede averiguar el número telefónico de otra persona, gracias a las capacidades de la red de redes. Ahora, ¿qué tan loco sería pensar en una guía, pero de todas las direcciones de Internet existentes? No es una locura, dicen estos sujetos de Seattle.

El sitio Dotbot presenta un proyecto de proporciones siderales: Generar un índice que contenga la dirección de cada sitio web existente en la red. De acuerdo a sus desarrolladores, sólo unas pocas corporaciones contadas con los dedos tienen un índice completo y con información útil, y que por supuesto no está disponible bajo ninguna circunstancia para el usuario común. Ahí es en donde entra Dotbot con su masivo "webcrawling", consultando y registrando cada página que encuentra, para que cualquier usuario pueda acceder a él.

El proyecto está activo desde junio del año pasado, y llevan indexadas más de siete mil millones de páginas. Estamos seguros de que quedan muchísimas direcciones más, y obviamente no se pueden incluir a aquellas protegidas contra cualquier clase de webcrawling. Incluso en el mismo sitio de Dotbot explican cómo bloquear un sitio del rastreo a través de un simple archivo robots.txt. Ya hay una gran cantidad de información en la "guía" que esta gente ha generado. ¿Quieres descargarla? Puedes hacerlo sin ningún problema, pero prepárate para hacer un poco de espacio en tu disco duro. Hasta ahora, el tamaño del índice alcanza los 68 gigabytes.

Porcentaje de los códigos HTTP devueltos por los sitios indexados

La razón para hacer algo así puede ser muy sencilla, o muy siniestra. La gente detrás de Dotbot declara que lo hace solamente para hacer de Internet un lugar más abierto y libre, en el cual todos los usuarios puedan acceder a un índice de esta clase. Pero al mismo tiempo no podemos descartar la sensación de que es demasiada información concentrada en un solo lugar. Esperamos que sepan manejar dicha información con responsabilidad, y que no caiga en malas manos.

Dotbot:Haz clic aquí

Reportar

Internet