Una IA para editar música en videos

Los músicos aficionados y profesionales pueden pasar horas vertiendo sobre los clips de YouTube para descubrir exactamente cómo tocar ciertas partes de sus canciones favoritas. Pero, ¿y si hubiera una manera de reproducir un video y aislar el único instrumento que quieres escuchar?

Ese es el resultado de un nuevo proyecto de inteligencia artificial (IA) del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT: un sistema de aprendizaje profundo que puede mirar un video musical y aislar los sonidos de instrumentos específicos y hacerlos más fuertes o más suaves . El sistema, que es “auto-supervisado”, no requiere anotaciones humanas sobre qué son los instrumentos o cómo suenan.

Entrenado en más de 60 horas de videos, el sistema “PixelPlayer” puede ver una actuación musical nunca antes vista, identificar instrumentos específicos a nivel de píxel y extraer los sonidos que están asociados con esos instrumentos.

Por ejemplo, puede tomar un video de una tuba y una trompeta tocando la canción de tema “Super Mario Brothers”, y separar las ondas de sonido asociadas con cada instrumento.

Los investigadores dicen que la capacidad de cambiar el volumen de los instrumentos individuales significa que, en el futuro, sistemas como este podrían ayudar a los ingenieros a mejorar la calidad de audio del metraje del viejo concierto. Incluso podría imaginar a los productores tomando partes de instrumentos específicos y previsualizando cómo sonarían con otros instrumentos (es decir, una guitarra eléctrica sustituida por una acústica).

En un nuevo documento, el equipo demostró que PixelPlayer puede identificar los sonidos de más de 20 instrumentos comúnmente vistos. El autor principal, Hang Zhao, dice que el sistema podría identificar muchos más instrumentos si tuviera más datos de entrenamiento, aunque todavía podría tener problemas para manejar diferencias sutiles entre las subclases de instrumentos (como un saxofón alto versus un tenor).

Los esfuerzos anteriores para separar las fuentes de sonido se han centrado exclusivamente en el audio, que a menudo requiere un amplio etiquetado humano. En contraste, PixelPlayer presenta el elemento de visión, que según los investigadores hace que las etiquetas humanas sean innecesarias, ya que la visión proporciona auto supervisión.

El sistema localiza primero las regiones de imagen que producen sonidos, y luego separa los sonidos de entrada en un conjunto de componentes que representan el sonido de cada píxel.

“Esperábamos el mejor escenario donde pudiéramos reconocer qué instrumentos hacen qué tipo de sonidos”, dice Zhao, estudiante de doctorado de CSAIL. “Nos sorprendió que pudiéramos localizar espacialmente los instrumentos a nivel de píxel. Ser capaz de hacer eso abre muchas posibilidades, como poder editar la banda sonora de instrumentos individuales con un solo clic en el video”.

PixelPlayer utiliza métodos de “aprendizaje profundo”, lo que significa que encuentra patrones en los datos utilizando las llamadas “redes neuronales” que se han entrenado en videos existentes. Específicamente, una red neuronal analiza las imágenes del video, una analiza el audio y un tercer “sintetizador” asocia píxeles específicos con ondas de sonido específicas para separar los diferentes sonidos.

El hecho de que PixelPlayer utilice el aprendizaje profundo denominado “auto-supervisado” significa que el equipo del MIT no comprende explícitamente todos los aspectos de cómo aprende qué instrumentos hacen qué sonidos.

Sin embargo, Zhao dice que puede decir que el sistema parece reconocer los elementos reales de la música. Por ejemplo, ciertas frecuencias armónicas parecen correlacionarse con instrumentos como el violín, mientras que patrones rápidos de pulso corresponden a instrumentos como el xilófono.

Zhao dice que un sistema como PixelPlayer podría incluso usarse en robots para comprender mejor los sonidos ambientales que producen otros objetos, como animales o vehículos.

Coescribió el trabajo con los profesores del MIT Antonio Torralba y Josh McDermott, así como con el investigador asociado Chuang Gan, el estudiante de pregrado Andrew Rouditchenko y el doctorado Carl Vondrick. Recientemente fue aceptado en la Conferencia Europea de Visión por Computador (ECCV), que se lleva a cabo en septiembre en Munich, Alemania.