Dice la historia que en el año 1997, el desaparecido motor de búsqueda AltaVista implementó el primer sistema de bloqueo destinado a bots y crawlers, al que conocemos generalmente como CAPTCHA. Esta solución para contener a las plataformas automáticas resultó ser muy efectiva, pero con el paso de los años se convirtió en una carrera armamentista. Bots más complejos llevaron a la creación de variantes tal vez demasiado robustas para nuestro propio bien, y que ahora incluyen análisis de movimiento sobre el cursor.
Antes de explorar el verdadero valor del CAPTCHA y la controversia que rodea a su invención, debemos considerar el estado de la Web a fines de los ‘90. En esencia, era algo muy parecido a un carnaval. El spam estaba en un ascenso meteórico, bots y crawlers recolectaban información, creaban cuentas de manera automática… las cosas eran más simples, y con menos defensas. Históricamente, dos grupos se han identificado como «inventores» del CAPTCHA. El primero estuvo formado por Mark D. Lillibridge, Martín Abadi, Krishna Bharat, y Andrei Broder, y se encargó de la primera implementación para el buscador AltaVista, impidiendo así el ingreso automático de direcciones URL a su base de datos. El segundo nos presenta a Luis von Ahn, Manuel Blum, Nicholas J. Hopper, and John Langford. Von Ahn y Blum también son conocidos por el desarrollo de reCAPTCHA, sistema al que Google adquirió en septiembre del año 2009.
El significado de CAPTCHA es «Completely Automated Public Turing test to tell Computers and Humans Apart», y desde un punto de vista general podría extenderse a cualquier recurso cuya misión sea interrumpir y/o perturbar el análisis automático de datos, o como alternativa, ofuscar el contenido y dificultar su localización. En el vídeo que Linus creó para Techquickie menciona al leetspeak, que rodea los filtros de obscenidades. El CAPTCHA tradicional toma a una tarea en la que humanos y ordenadores son muy buenos (o sea, el reconocimiento óptico de caracteres), y la distorsiona a un punto tal que se vuelva imposible para sistemas artificiales. El CAPTCHA también debió enfrentar otros desafíos y mejorar en gran medida su seguridad. Las primeras opciones renderizaban la imagen deformada en el ordenador local, y las siguientes generaciones de bots lograron interceptar el resultado del CAPTCHA enviado en segundo plano.
Esto dio lugar a los CAPTCHA de audio, al reconocimiento de objetos en imágenes, y el famoso «No soy un robot», que apenas requiere colocar una tilde. Esa es la variante No CAPTCHA de reCAPTCHA, la cual analiza los movimientos del cursor antes de marcar la casilla. En el caso de los humanos, el movimiento es errático y dubitativo, mientras que los bots no exhiben ese comportamiento. A esto se suma el análisis de cookies y comparaciones sobre el número de IP. Funciona bastante bien, pero en nombre de la comodidad para el usuario final, es probable que No CAPTCHA obtenga demasiada información, generando así un problema de privacidad. Nada parece indicar que el CAPTCHA vaya a desaparecer, por lo tanto, será mejor que sigamos entrenando. Algunos CAPTCHA son sencillamente imposibles…
pero por que se llama no soy un robot que acso los robots ahora son inteligentes o que