En esta era de políticos adictos a la post-verdad y la falacia del ad hominem, un nuevo proyecto bajo el ala de la Universidad de Washington creó algoritmos que generan vídeos con una sincronización de labios muy avanzada, a partir de un simple clip de audio. El ojo entrenado detectará errores en el proceso sin dificultades, pero ese no es el punto. Después de todo, lo único que se necesita es una simulación lo suficientemente buena, y repetirla hasta el cansancio…
Para aquellos que aún no han leído «1984» de George Orwell, el personaje de Winston Smith es un editor en el Ministerio de la Verdad encargado de realizar revisionismo histórico, o sea, alterar registros previos con el objetivo de adaptarlos a la visión y la voluntad del Estado. En la actualidad, la creencia de que «nadie sobrevive al archivo» se mantiene firme, pero si sumamos la posibilidad de editar el archivo o crearlo desde cero que habilita la digitalización, separar a la verdad de la mentira se vuelve mucho más difícil. Dicho eso, un nuevo proyecto de la Universidad de Washington demuestra el asombroso poder de las redes neurales aplicado al procesamiento visual y la sincronización labial. También nos deja preocupados.
Básicamente, lo que hace el software es generar movimientos labiales y bucales precisos a partir de un clip de audio, para luego colocarlos sobre el rostro de una persona en un vídeo preexistente. Los responsables del proyecto dicen que esta «conversión realista de audio a vídeo» posee aplicaciones prácticas como la optimización de videoconferencias (en vez de transmitir una señal de vídeo entera, se recibe sólo el audio y un modelo local nos «habla»), o en un futuro no muy lejano, mantener una conversación con figuras históricas y actores vía realidad virtual. ¿Por qué escogieron a Barack Obama? Una simple cuestión de material disponible. La red neural necesita ser entrenada, y hay una enorme cantidad de vídeos del ex presidente en dominio público.
No, la sincronización no es perfecta y sus creadores lo saben, pero es cuestión de tiempo para que los efectos del Valle Inquietante queden atrás. Ahora, la red neural sólo puede ser entrenada con los datos de una sola persona a la vez. De acuerdo con el profesor y coautor Steve Seitz, «no es posible» tomar la voz de cualquiera y transformarla en un vídeo del presidente Obama. Sin embargo, si nos guiamos por los comentarios en los vídeos (uno ya los tiene deshabilitados), la gente piensa distinto.