Oportunidades de la IA para la representación de audio
La inteligencia artificial está revolucionando el trabajo de representación de audio. Y los modelos preentrenados facilitan de algún modo el análisis y procesamiento automático de sonidos. En esta nota Leonardo Pepino, investigador en formación del Laboratorio de Inteligencia Artificial Aplicada (LIAA ICC-UBA), nos cuenta cuáles son los desafíos y oportunidades actuales que presenta el análisis y desarrollo de representaciones de audio, un área en permanente evolución.
Actualmente la mejora en la naturalidad de los sistemas de diálogo hablado, en los cuales una persona interactúa con una computadora mediante la voz, pasó a ser una de las funciones más comunes y exitosas de los asistentes virtuales.
Detrás de estas mejoras en la interacción con las computadoras mediante diálogo, el aprendizaje de representaciones o embeddings que convierten el sonido en vectores matemáticos jugó un papel fundamental.
Estos vectores son una representación del significado subyacente de los sonidos, permitiendo que las computadoras procesen los mismos de manera más efectiva, y facilitando la resolución de tareas como el reconocimiento de habla, identificación del hablante y transcripción de música.
Evolución del análisis de habla: un campo en transformación
En este contexto de fuerte evolución de las técnicas y herramientas de análisis del habla, la Maestría en Ciencia de Datos conversó con Leonardo Pepino -ingeniero en sonido (UNTREF), investigador en formación del LIAA y ex docente de la Maestría- quien está finalizando su tesis de doctorado sobre Análisis y desarrollo de representaciones generales de audio, bajo la dirección de Luciana Ferrer y Pablo Riera.
Los principales desafíos de esta área de investigación incluyen reconocimiento de voz (transformación de palabras habladas en texto), síntesis de voz (transformación de texto en palabras habladas), gestión de diálogo (interpretación de la entrada y decisión de cómo responder) y modelado de prosodia (comprensión de la relación entre ‘qué’ se dice y ‘cómo’ se dice) en los idiomas inglés y español.
El investigador en formación comenzó su doctorado en un momento en el que el procesamiento del lenguaje natural (NLP) comenzó a cobrar un fuerte impulso con el surgimiento de modelos de embeddings de texto como BERT. Este tipo de innovaciones en el campo del NLP se comenzaron a replicar en el campo del habla, dando a lugar a modelos como Wav2Vec 2.0, que aprende representaciones de habla mejorando el desempeño de sistemas de reconocimiento de voz.
“Supongamos que nuestra representación usual de las cantidades son números romanos. Y quizás sumar dos números romanos así como están es muy difícil, y hay que pensar algoritmos y técnicas complejas para hacer cuentas directamente con números romanos. Entonces, lo que uno puede hacer es cambiar la representación, usando números arábigos como los dígitos que usamos en la mayoría de los países, donde para nosotros se vuelve más fácil la tarea”, ejemplifica Pepino. Y complementa, “en el mundo del aprendizaje automático y del habla y en general también del texto, imágenes y otras señales, es importante encontrar representaciones de las cosas que luego faciliten resolver otras tareas y en este punto es donde hubo un montón de avances”.
De este modo el investigador señala que al comienzo de su investigación trabajaba con procesamiento de señales y redes neuronales convolucionales hasta que llegó la IA Generativa y los conocidos “transformers”, un tipo de arquitectura de red neuronal que se enfoca en procesar secuencias de datos, como texto, de manera eficiente. Es allí donde se introdujeron varios modelos nuevos y técnicas para aprender estas representaciones o embeddings provenientes no sólo del texto sino del audio y las imágenes.
Ventajas y desventajas de los modelos preentrenados para el habla
En un principio, el investigador Pepino explica que previamente a la revolución del aprendizaje de representaciones y el uso de técnicas de transferencia de aprendizaje, se debía realizar un gran trabajo de recolección de datos y preprocesamiento de los mismos, y se requería de un gran conocimiento experto del dominio para poder resolver una tarea específica. No obstante, a partir de esta revolución del aprendizaje de representaciones, el investigador puede tomar un modelo preentrenado de representaciones y hacer un ajuste fino (fine-tuning) adaptando el modelo a la tarea que se quiere resolver. “Evidentemente cada vez se requiere menos conocimiento experto específico de la tarea que uno quiere resolver. Y, en este sentido, los modelos se vuelven más generalistas”, describe el integrante del Laboratorio de IA Aplicada.
Ahora bien, ¿cuáles serían los pros y los contras de utilizar estos modelos preentrenados para el análisis y desarrollo de representaciones generales de audio? En cuanto a las ventajas, “es mucho más fácil trabajar con un modelo preentrenado que desarrollarlo de cero. Si uno quiere resolver un problema usual como transcripción de habla (alguien habla y tienen que aparecer los subtítulos automáticos de lo que dice), suele ser una tarea muy compleja y estos modelos la facilitan ya que internamente entienden el lenguaje, conocen la estructura del mismo, como palabras y fonemas y saben en cierta manera escuchar. Uno parte de algo ya desarrollado, y con menos esfuerzo, menos datos, menos cómputo y, por ende, más velocidad y menos necesidad de ser un experto en el dominio”, plantea Pepino.
Al mismo tiempo, para resolver tareas de reconocimiento del habla o similares como reconocer al hablante, la tendencia actual es integrar un modelo único que resuelva todo junto. “A veces alcanza con tomar el modelo que ya está preentrenado y utilizarlo como viene, haciendo algo como prompt engineering o demás técnicas y en el audio está empezando a pasar eso también: empiezan a salir modelos, como ChatGPT, que no solamente trabajan con texto sino que uno puede hablarles o enviarles un audio y te devuelven una descripción del audio o le podés hacer preguntas sobre lo que está sonando en el audio. En ese sentido cada vez es menor la barrera de entrada y el esfuerzo para encarar estos problemas”, advierte el especialista.
En relación a las desventajas, una contra puntual de estos modelos generalistas sería que es difícil entender claramente cuáles son sus limitaciones y capacidades, ya que al usarlos para prácticamente cualquiera de las tareas, no se puede reconocer fielmente su desempeño en todas ellas.
“Antes uno se enfocaba en una sola tarea específica donde podía tener mucho feedback y entendimiento de cuán bueno era el modelo en esa tarea. Era un modelo que lo entrenabas sólo para reconocer habla y lo evaluabas para ese fin y lo testeabas de muchas maneras posibles, sabías dónde se equivocaba, dónde no y qué tipo de errores cometía”, puntualiza.
El investigador aclara que hoy en día se pierde interpretabilidad en estos modelos preentrenados, porque como pueden hacer tantas tareas distintas y son tan grandes y complejos, es difícil saber cómo ChatGPT (o cualquier otro modelo) llega a la respuesta que llega. “Y el tema de las alucinaciones en las respuestas, más allá de que se está empezando a resolver, sigue siendo un problema cuando el modelo de lenguaje da respuestas erróneas totalmente convencido”, afirma Pepino.
Posibles aplicaciones durante el doctorado en representación de audio
El trabajo doctoral de Leonardo Pepino, en su fase final, consiste en la representación efectiva del audio para resolver distintos problemas a través de un modelo generalista; representación que no sólo incluye al habla sino también a la música y los sonidos ambiente.
Para ello, el investigador desarrolló un modelo que fue entrenado con 12 mil horas de audio (que a una persona le llevaría más de un año escuchar), y que luego puede ser utilizado para resolver una gran cantidad de tareas de audio. Este modelo aprende una representación general de los sonidos, la cual luego puede ser utilizada por otros modelos mucho más pequeños y sencillos para resolver distintas tareas de audio con pocos datos y en poco tiempo. Esto lleva a que un mismo modelo pueda reutilizarse, extrayendo activaciones de las capas intermedias para representar a los sonidos, y entrenando a los modelos más pequeños para que utilicen estas representaciones del modelo grande como entrada. Esto lleva a una simplificación del proceso de entrenamiento, y ahorra tiempo, datos y recursos, ayudando a los ingenieros y científicos que trabajan con audio.
“A partir de este trabajo presentaremos un paper en la reconocida conferencia InterSpeech (EnCodecMAE: Leveraging Neural Codecs for Universal Audio Representation Learning) y teniendo en cuenta que es un modelo que devuelve representaciones de todo tipo de audio lo evaluamos de forma eficiente en seis tareas distintas”, expresa entusiasmado el tesista de doctorado.
Estas tareas son diversas y abarcan los dominios del habla, la música y los sonidos ambientales:
1) Clasificación de notas musicales: suena un instrumento y el modelo debe indicar qué nota se está tocando.
2) Clasificación de género musical: dada una canción, el modelo debe clasificar a qué género musical pertenece, por ejemplo, rock, música clásica, metal y jazz.
3) Reconocimiento de comandos de voz: dada una grabación de un usuario diciendo un comando, el modelo debe identificar cuál es. Una aplicación es controlar dispositivos, como una cámara, si esta puede reconocer los comandos ‘arriba’, ‘abajo’, ‘derecha’, ‘izquierda’, ‘grabar’.
4) Reconocimiento de emociones en la voz: dada una grabación de una persona hablando, busca determinar si se encuentra feliz, triste, enojada o neutra. Identificar estos estados mentales puede ayudar a mejorar la comunicación con asistentes virtuales, los cuales pueden responder de una forma más empática.
5) Clasificación de eventos acústicos generales: dada una grabación, el modelo identifica qué sonidos están sonando y los asigna a una de 200 categorías posibles. Por ejemplo, el modelo puede indicar si hay una persona hablando, o si ladra un perro de fondo, si suena una alarma o si se cierra una puerta, entre muchas otras clases de sonidos.
6) Reconocimiento de habla: dada una grabación de una persona hablando, el modelo realiza una transcripción de la misma transformándola a texto.
Por último, Pepino aclara que estas aplicaciones tuvieron un alto desempeño en las pruebas que realizaron, y que el modelo se podría integrar con los LLM actuales ofreciendo muchas oportunidades de proyección en la industria y en dominios variados como educación, salud y entretenimiento.
Leonardo Pepino es ingeniero de sonido de la Universidad Nacional de Tres de Febrero (UNTREF). Es becario doctoral bajo la supervisión de los investigadores Luciana Ferrer y Pablo Riera, y fue docente auxiliar de la materia “Aprendizaje Automático” de la Maestría en Ciencia de Datos (UBA). Actualmente trabaja en el aprendizaje de representaciones de audio mediante redes neuronales profundas. En sus tiempos libres toca la guitarra y confiesa que su gran afición por la música, desde una edad temprana, fue fundamentalmente lo que le llevó a especializarse en sonido y representación de audio.


Muy interesante el trabajo. Soy técnico de sonido, trabajo con un archivo sonoro grande de un teatro público, y estoy buscando posibles herramientas de IA para mejorar algunos aspectos.