Las guías telefónicas son consideradas como piezas de museo en estos días de digitalización rampante. Con datos mínimos alguien puede averiguar el número telefónico de otra persona, gracias a las capacidades de la red de redes. Ahora, ¿qué tan loco sería pensar en una guía, pero de todas las direcciones de Internet existentes? No es una locura, dicen estos sujetos de Seattle.
El sitio Dotbot presenta un proyecto de proporciones siderales: Generar un índice que contenga la dirección de cada sitio web existente en la red. De acuerdo a sus desarrolladores, sólo unas pocas corporaciones contadas con los dedos tienen un índice completo y con información útil, y que por supuesto no está disponible bajo ninguna circunstancia para el usuario común. Ahí es en donde entra Dotbot con su masivo "webcrawling", consultando y registrando cada página que encuentra, para que cualquier usuario pueda acceder a él.
El proyecto está activo desde junio del año pasado, y llevan indexadas más de siete mil millones de páginas. Estamos seguros de que quedan muchísimas direcciones más, y obviamente no se pueden incluir a aquellas protegidas contra cualquier clase de webcrawling. Incluso en el mismo sitio de Dotbot explican cómo bloquear un sitio del rastreo a través de un simple archivo robots.txt. Ya hay una gran cantidad de información en la "guía" que esta gente ha generado. ¿Quieres descargarla? Puedes hacerlo sin ningún problema, pero prepárate para hacer un poco de espacio en tu disco duro. Hasta ahora, el tamaño del índice alcanza los 68 gigabytes.
La razón para hacer algo así puede ser muy sencilla, o muy siniestra. La gente detrás de Dotbot declara que lo hace solamente para hacer de Internet un lugar más abierto y libre, en el cual todos los usuarios puedan acceder a un índice de esta clase. Pero al mismo tiempo no podemos descartar la sensación de que es demasiada información concentrada en un solo lugar. Esperamos que sepan manejar dicha información con responsabilidad, y que no caiga en malas manos.
Disculpen mi ignorancia, pero para que serviria dicha información?
No le acabo de ver el punto… para eso estan ya los servidores DNS no?
A ver pensemos, estas sentado buscando informacion sobre X cosa, buscas en google pero te aparecen miles de entradas escuetas que simplemente tienen referencia a esa palabra que buscas, entras a 15 y no encuentras nada interesante, entonces te acuerdad de dotbot y decides darle una mirada, buscas tu palabra y te aparecen decenas de paginas que no solo tienen referncia a tu pagina sino que se DEDICAN a eso, quiza entre otras cosas.
Es solo una alternativa de buscador, es como mirar las paginas amarillas de la web, en veaz de numeros telefonicos de locales, casas o empresas, ves su sitio web.
Salu2
Suponiendo que el robot respete la entrada robots.txt o las páginas cifradas
o qué? un ataque por fuerza bruta o aprovechando algúno que otro bug de MySQL, Apache, PHP, ASP o win… er, eso despues; sí estaría muy de preocupar concentrar tanta información en un sitio @_@