A mediados de 2016 hablamos sobre Deep-Q, la inteligencia artificial de Google que entrenaba con un clásico de los videojuegos como el Montezuma’s Revenge. La clave detrás de su éxito inicial es una especie de curiosidad artificial que reemplaza (desde cierto punto de vista) al sistema tradicional de recompensas. Esto funciona bien en muchos juegos… pero hay un problema: La inteligencia artificial puede volverse adicta a ese «impulso» de buscar nuevas experiencias y elementos aleatorios, incluyendo una señal de televisión con ruido o que cambia de canal constantemente…
Una inteligencia artificial puede ser buena identificando rostros o imágenes, automatizando tareas, y hasta creando arte o gente, pero muchos expertos volcaron su interés hacia los videojuegos. El potencial de convertir a una de ellas en una máquina de destrucción absoluta dentro de un juego competitivo es gigantesco, y ya quedó demostrado en entornos como DotA 2 y StarCraft 2. Por supuesto, cada título carga con sus propias reglas, lo cual lleva al inevitable proceso de entrenamiento. Sin embargo, hay casos en los que las recompensas son escasas, y los objetivos finales no poseen una definición clara. Para esos desafíos existe el concepto de curiosidad artificial. En términos sencillos, la inteligencia artificial trata de predecir qué es lo que encontrará en el juego. Si la predicción es correcta, entonces ya lo ha visto (y tiene la capacidad de resolverlo). En cambio, cuanto más alejada está su predicción del evento real, mayor es la recompensa. Dicho de otro modo, el objetivo de la inteligencia artificial es ver y encontrar cosas nuevas. Suena muy bien… pero esa estrategia tiene un lado oscuro.
Inteligencias suicidas y adictas a la TV
Si el hecho de experimentar algo nuevo se convierte en un pilar fundamental de la obtención de recompensas, esto puede llevar a resultados inesperados, y no del todo positivos. Por ejemplo, una inteligencia simplemente llegaría a la conclusión de perder una partida a propósito o «suicidarse» para conocer las consecuencias y obtener una recompensa igual. Otro caso es el de la falta de estímulo o motivación: Si el juego no brinda recursos que desafíen sus predicciones o le permitan avanzar, la inteligencia artificial podría caer en el clásico «la única jugada ganadora es no jugar». Finalmente, llegamos al extremo opuesto, conocido como el «Problema de la Televisión con Ruido».
El «problema» identifica a una adicción casi permanente. La inteligencia artificial toma esas nuevas experiencias de donde pueda encontrarlas, y si es expuesta a una fuente inagotable de aleatoriedad como una señal de televisión con estática o con el mando a distancia libre para que cambie de canal cuando quiera… no se moverá. Todo lo que necesita está ahí. No importa cuánto trate de predecir, el resultado será otro y recibirá su dosis. ¿Cómo se quiebra el vicio? Con una motivación adicional, algo pequeño, aleatorio y desconocido que obligue a la inteligencia a continuar. Detectar el color de una sección en la pantalla o establecer la cantidad de enemigos en cada nivel son opciones viables, y la mejor parte es que no demandan una gran cantidad de cálculos.
Fuente: Quartz
Fuente: The Verge
“La única jugada ganadora es no jugar”.. “Juegos de Guerra”?
¡Muy bien!
No estoy versado en el tema de teoría de la información (y si alguien lo es que me corrija) pero creo que viene a colación decir que, en otras palabras, en “escenarios” con bastante aleatoriedad, es decir con mayor entropía, la información “ofrecida” a la IA es mucho mayor y dicho de otro modo, a la IA se le recompensa por cantidad de información que puede “adquirir”, lo cual no necesariamente indica no encontrar patrones, pero en un mayor grado de especulación es sabido que las computadoras pueden manejar un mucho mayor volumen de datos que cualquier persona y que pueden encontrar patrones más fácilmente, así es que muy interesante saber que pueden encontrar entre los mares de información de los escenarios aleatorios o mejor dicho, sería interesante ver como una IA puede manejar de “buena forma” la aleatoriedad.
Como dato interesante: se publicaba en Quanta Magazine (18/04/2018) de un algoritmo de ML que pudo predecir el caos hasta 8 unidades de tiempo.