Irvin Dongo Escalante
Director del Centro de Investigación e Innovación en Electrónica y Telecomunicaciones de la Universidad Católica San Pablo
En la actualidad, los robots sociales permiten mejorar la calidad de vida de las personas en diversas áreas, tales como la medicina y la educación. Estos robots, diseñados para interactuar y comunicarse con seres humanos, han demostrado su eficacia en tareas como el acompañamiento a personas mayores, la enseñanza a niños, o el guiado en museos.
De hecho, en cierto sentido, todos tenemos una especie de “robot social de bolsillo”, el cual hemos utilizado con alguna aplicación de asistencia, pero ¿cómo funciona la tecnología detrás de estos procesos?
La Interacción Humano-Robot (HRI) surge como una línea de investigación en la búsqueda de nuevas estrategias para mejorar y enriquecer el comportamiento de los robots. Una de las claves para avanzar hacia una HRI más natural es el reconocimiento de emociones. Si los robots pueden interpretar cómo se siente una persona, por su rostro o su voz, pueden responder de forma más adecuada. Sin embargo, lograr esto fuera del laboratorio, en entornos reales y ruidosos, representa todavía un gran desafío.
Uno de los principales obstáculos en estos sistemas es la reducción de la precisión en escenarios no controlados. Por ejemplo, espacios donde el ruido ambiental y la presencia de múltiples interlocutores dificultan la detección precisa de emociones. Para resolver este problema, los investigadores han desarrollado técnicas de separación de fuentes de voz, es decir, métodos para distinguir diferentes voces dentro de una misma grabación.
Estas técnicas se clasifican en dos tipos: multicanal y monocanal. Mientras que la separación multicanal usa múltiples micrófonos (como en salas de conferencias), la separación monocanal —más común en dispositivos comerciales— busca aislar voces usando una sola fuente de audio.
En sus inicios, la separación de voces se basaba en modelos estadísticos que no eran aptos para su uso en tiempo real. Hoy, gracias al desarrollo de algoritmos de inteligencia artificial, especialmente modelos de aprendizaje profundo, es posible superar estas limitaciones. Estas redes neuronales pueden aprender de grandes volúmenes de datos y adaptarse a distintos tipos de voces y entornos, mejorando significativamente la precisión.
Los enfoques más modernos trabajan en dos dominios: el tiempo-frecuencia y el temporal. En el primero, se transforma la señal en una representación compleja que permite distinguir las voces por su contenido en distintas frecuencias. Sin embargo, esto puede generar demoras en sistemas que requieren respuestas rápidas.
En cambio, los métodos de aprendizaje profundo en el dominio temporal trabajan en tres pasos: convierten el audio en datos, separan las voces y luego las reconstruyen de forma clara y entendible. Los algoritmos de aprendizaje profundo más utilizados para esta tarea son las Redes Neuronales Recurrentes (RNN), Redes Neuronales Convolucionales (CNN) y Transformers.
El avance continuo de la inteligencia artificial permite diseñar soluciones más eficientes para la separación de fuentes de voz, lo que mejora la capacidad de percibir y responder de los robots, representando un paso clave hacia interacciones más naturales, empáticas y efectivas con los seres humanos. En definitiva, separar bien las voces no es solo un desafío técnico, sino que es un factor clave para que los robots entiendan y se adapten mejor a las personas.











Discusión sobre el post