Un grupo de investigadores del MIT creó un software llamado SCIgen, que genera en forma automática papers o escritos técnico-científicos. A primera vista, los textos parecen bien escritos, pero en realidad no tienen ningún sentido. Y lo más interesante es que… ¡consiguieron que los trabajos fueran aceptados en congresos científicos y publicados en revistas especializadas!
El software creado por estos graduados del Laboratorio de Inteligencia Artificial del MIT utiliza una gramática libre de contexto con la cual se generan textos que, si bien están correctamente escritos desde el punto de vista ortográfico y gramátical, no tienen ningún sentido. En pocas palabras, una gramática libre de contexto consta de una serie de reglas (que en el caso del lenguaje natural indican la estructura de cómo se forman las oraciones) y un conjunto de datos que “rellenan” los espacios creados por esas estructuras. Para esto último, SCIgen posee una base de datos de abstrusas palabras y conceptos tecnológicos. Para ver un ejemplo de lo que se puede obtener con este software, creé un paper especialmente para esta nota.
<TECH-NERD INFO> Para definir estas gramáticas, usualmente se recurre a la notación BNF (Backus-Naur), que es la que se usa habitualmente para definir lenguajes. Para los que quieran acceder al código fuente de SCIgen con cvs, pueden bajarlo desde acá. </TECH-NERD INFO>
La cuestión es que estos investigadores comenzaron a enviar los textos generados por el software a diferentes simposios y conferencias… ¡y consiguieron que uno de los papers fuera aceptado en primera instancia en la WMSCI (World Multiconference on Systemics, Cybernetics and Informatics), de los Estados Unidos! (Cuatro o cinco revisores de la conferencia aceptaron el escrito en primera instancia, ¡lo que presupone que, al menos, leyeron el resumen!). El trabajo aceptado se llama “Rooter: A Methodology for the Typical Unification of Access Points and Redundancy”. He aquí la traducción de ese resumen o abstract:
Muchos físicos concordarán con que, si no fuese por el control de congestión, la evaluación de navegadores web nunca hubiese ocurrido. De hecho, pocos hackers de todo el mundo estarían en desacuerdo con la unificación esencial entre voz sobre IP y los pares de claves públicas/privadas. Para resolver este acertijo, confirmamos que el multiprocesamiento simétrico puede ser estocástico, cacheable e interponible.
¡De no creer! Este mismo trabajo fue aceptado, evaluado y publicado en una revista científica rusa. Aquí está (en inglés) la historia completa.
Hubo más textos publicados que fueron generados por este software, como el caso del que fue enviado por el profesor Genco Gülan a un simposio. ¡Incluso cuando aclaraba en el texto que en realidad este había sido generado por SCIgen!
Existen otros antecedentes, aunque no todos realizados por sistemas automáticos, como el de Alan Sokal, un profesor de física de la Universidad de Nueva York, famoso por un paper paródico que fue publicado en una revista especializada.
¿Cuál fue la motivación de estos investigadores? Entre otras, demostrar que los estándares de aceptación de los papers en los simposios científicos son muy bajos. Es interesante leer este artículo (en inglés) con un análisis pormenorizado de los correos intercambiados entre los investigadores y uno de los representandes de un simposio que aceptó el artículo falso. Entre otras cuestiones se plantea que, generalmente, los investigadores deben pagar para participar, lo que a su vez les reditúa “un renglón más” en sus currículums, y un ingreso adicional a los organizadores.
Como siempre, todos los caminos llevan al dinero.
Aclaración importante para los lectores: esta nota también fue escrita por un software automático.