La explosión algorítmica nos ha permitido crear imágenes y música, sin embargo, también demostró cierta fortaleza en la transformación de voz a texto. Si alguien busca un subtítulo o una transcripción, lo cierto es que hay muchos servicios gratuitos disponibles, pero la pregunta es, ¿cómo funciona en la otra dirección? Me refiero al text-to-speech, la clásica conversión de texto a voz que un gran número de usuarios necesita con frecuencia. Hoy vamos a explorar algunas plataformas en línea, estudiar de cerca sus modos gratuitos, y en lo posible, comparar resultados.
Texto a Voz: Mejor con cada generación
Aún recuerdo bien cuando la primera versión de Dragon NaturallySpeaking salió al mercado. Debíamos luchar durante horas para «entrenar» al sistema, y con un poco de suerte, terminaba reconociendo el 25 por ciento de las palabras. En estos días, hablar con un dispositivo y transmitir comandos verbales es tan sencillo que nadie se detiene a pensar sobre el complejo proceso evolutivo que nos trajo hasta aquí.
La síntesis de voz es aún más antigua (podemos pensar en el vocoder de Bell Labs, o cierto ordenador IBM cantando «Daisy Bell» en los ’60), pero con la aparición de nuevos modelos basados en inteligencia artificial, no es una locura decir que se encuentra en su mejor momento. De hecho, la conversión de texto a voz está más cerca que nunca, y hoy vamos a explorar la oferta gratuita de algunas plataformas especialmente diseñadas para esta tarea.
Cómo convertir texto a voz: ElevenLabs
El modo gratuito de ElevenLabs limita su procesamiento a diez mil caracteres mensuales y no autoriza el uso comercial, pero eso debería ser más que suficiente para cualquier proyecto personal. La lista de idiomas disponibles se extiende a 28, mientras que las voces habilitadas en la demo (máximo de 333 caracteres) son 29.
Esta demo no sólo es impresionante por sí sola, sino que además ElevenLabs nos permite descargar una copia del resultado en formato MP3. Para ingresar a la plataforma, lo más sencillo es usar credenciales de Google, y en su interior encontramos parámetros avanzados como modelos alternativos, estabilidad y claridad. Ahora, ElevenLabs no es perfecto (algunas voces convierten el 25 a «twenty-five» en vez de «veinticinco»), pero ofrece un excelente punto de partida para toda clase de usuarios.
Speechify
Speechify es una criatura diferente al resto. Desde cierto punto de vista, se divide en dos partes: Una enfocada en el text-to-speech tradicional con nueve voces en español, y la «webapp» completa, en la que debemos ingresar texto como un enlace a una página web, un documento nuevo, un archivo local, un documento físico escaneado, o una copia guardada en la nube. Dicho de otro modo, Speechify es una herramienta de productividad que nos ayudará a procesar textos con mayor velocidad.
El idioma español cuenta con un total de doce voces en la webapp, y personalmente recomiendo probarlas a todas. Las diferencias de calidad pueden ser muy importantes aún entre voces similares, y el control de velocidad es esencial para optimizar los resultados. Speechify no habilita la descarga del audio en su modo gratuito, pero nada nos impide grabarlo con una herramienta compatible en segundo plano.
Bark
Bark es una creación de Suno AI, plataforma mucho mejor conocida por sus virtudes a la hora de generar música con inteligencia artificial a través de la herramienta Chirp. Su tecnología de text-to-speech es open source, y eso significa que cualquier jinete de Python puede ir a cruzar espadas con el código en GitHub, además de explorar demos, muestras, y otros detalles técnicos.
La alternativa más sencilla es, obviamente, dirigirse a su servidor en Discord, ingresar al canal de la beta de Bark, y comenzar a generar voces. Los comandos se dividen en /bark para activar al motor, seguido por prompt (el texto que deseamos procesar), y voice, en el que podemos tirar los dados usando la opción random, o elegir una voz de la lista. En menos de un minuto, Bark compartirá la conversación, disponible en MP3 y MP4.
En resumen
Espero que esta selección y sus muestras sirvan para tener una idea sólida sobre la conversión de texto a voz usando inteligencia artificial, y cuáles son las limitaciones de mayor importancia. Más allá de las inevitables restricciones en los perfiles gratuitos, creo que las condiciones son definitivamente apropiadas para cubrir la mayoría de nuestras necesidades, sin gastar un solo centavo.