in Software

Spleeter: Nueva herramienta para quitar la voz de una canción

Gratuita y abierta, basada en Python y TensorFlow

por Lisandro Pardo 9 noviembre, 2019, 10:24 am

Quitar la voz de una canción probablemente sea uno de los primeros procesos que todo entusiasta de la música desea aprender. Con el paso del tiempo han surgido herramientas diseñadas para ellos, pero en general cuestan cientos de dólares. La gente del servicio de streaming Deezer decidió lanzar una alternativa en la forma de Spleeter, un motor de separación de fuentes que además de quitar la voz de una canción, también puede aislar otros elementos específicos. La herramienta es muy nueva, sin embargo, algunos resultados publicados en la Web son impresionantes.

Te gusta una canción. Obtienes una copia digital. La abres dentro de un editor de audio. Un cambio aquí, un ajuste allá… y luego tomas otra canción. Empiezas a recortar, modificas el pitch, la amplitud, el tiempo. Decides fusionar diferentes partes, escuchas y regresas al editor. Ida y vuelta hasta que nace un mashup. Lo cargas en YouTube (que seguramente comenzará a gritar por copyright), y si tienes un poco de suerte, se viralizará.

¿Suena bien, no? Sucede que este es un caso ideal en el que todo sale perfecto. En la vida real, el usuario debe luchar para obtener buenos samples, y a veces, eso requiere algo tan directo como quitar la voz de una canción. En otras palabras, separar fuentes. Algunos entusiastas han obtenido buenos resultados con Audacity (énfasis en «algunos», porque muchos comentarios describen un «efecto bajo el agua» luego del procesamiento), y después hay plugins con la capacidad de aislar voces, pero no son gratuitos (ej., iZotope RX 7 cuesta 399 dólares en su edición estándar). Hoy, la gente de Deezer nos ofrece una tercera opción: Spleeter.

Cómo quitar la voz de una canción con Spleeter

¿Qué tiene de diferente Spleeter? Aprendizaje de máquinas. Deezer entrenó al algoritmo usando su catálogo, un recurso al que otros investigadores y proyectos simplemente no pueden acceder por cuestiones de copyright (eso sin olvidar el tiempo y la energía), y al compartir su trabajo con la comunidad, eliminan esa sensación de «competencia desleal». Los dos detalles principales que por el momento limitan el alcance de Spleeter son un proceso de instalación relativamente complejo, y la ausencia de una interfaz. En el caso específico de Windows, primero hay que instalar la edición completa de la plataforma Anaconda, y luego un cliente git. Spleeter está disponible en dos versiones, una para procesadores, y otra que aprovecha las tarjetas gráficas (el hardware Nvidia necesita un controlador CUDA compatible).

Los tres comandos principales de Spleeter en la consola son separate para separar fuentes, train para entrenar un modelo de separación alternativo con un dataset propio, y evaluation, que prueba el modelo frente al set de MusDB. Bajo las condiciones correctas, Spleeter ha demostrado ser muy rápido: En un servidor Xeon de 32 núcleos con una GTX 1080, Spleeter masticó las tres horas y media de musDB en 90 segundos. Si el plan es procesar un par de tracks a la vez, calculo que no tendrás problemas con tu hardware.

Los primeros mashups basados en Spleeter ya aparecieron en la Web. Algunos son muy interesantes, mientras que otros deberían permanecer en la oscuridad. Andy Baio del portal Waxy nos da una idea bastante precisa:

nobody should have this kind of power pic.twitter.com/4vbl2MGK4Z
— Andy Baio (@waxpancake) November 5, 2019

El resto es cuestión de esperar a un entorno más amigable para el usuario promedio. El potencial de Spleeter para quitar la voz de una canción y separar otras fuentes es gigantesco, especialmente siendo gratuito y open source.

Anuncio oficial: Haz clic aquí

Fuente: Waxy.org