Los auriculares de audición selectiva: Escucha con claridad entre la multitud

Unos auriculares que utilizan la inteligencia artificial para distinguir una voz en un espacio abarrotado.
Universidad de Washington
Unos investigadores han integrado la IA con unos auriculares estándar para aislar la voz de un solo interlocutor en una multitud ruidosa con sólo mirarlo. El sistema avanzado de cancelación de ruido está disponible gratuitamente para quien quiera construir su propia versión.
Puede ser difícil oír a una persona en un entorno ruidoso y abarrotado en el que habla mucha gente, sobre todo para quienes tienen dificultades auditivas. Aunque los audífonos modernos utilizan tecnología de cancelación de ruido, no pueden eliminar por completo el ruido de fondo.
Mejorar la audición en entornos ruidosos
Algunos investigadores de la Universidad de Washington (UW) han creado una solución para mejorar la audición en entornos ruidosos. Al dotar de inteligencia artificial a unos auriculares normales con cancelación de ruido, desarrollaron un sistema que puede centrarse en la voz de un orador cuando el usuario lo mira.
«Hoy en día, solemos asociar la IA con los chatbots de Internet que responden a preguntas», explica Shyam Gollakota, profesor de la Facultad de Informática e Ingeniería Paul G. Allen de la UW y autor principal del estudio. «Sin embargo, en este proyecto, desarrollamos IA para mejorar la percepción auditiva de cualquier persona que lleve auriculares según sus preferencias. Nuestros dispositivos permiten oír claramente a un solo orador incluso en un entorno ruidoso con mucha gente hablando.»

imagen
Unos auriculares corrientes llevan micrófonos y un botón
Universidad de Washington
Los investigadores han creado un sistema de audición selectiva del habla (THS, por sus siglas en inglés) sencillo pero muy eficaz. Los auriculares estándar están equipados con dos micrófonos, uno en cada casco.
Cuando la persona que los lleva mira a la persona que quiere oír y pulsa un botón en el lateral de los auriculares durante tres a cinco segundos, las ondas sonoras de la voz de ese interlocutor llegan a ambos micrófonos simultáneamente (con un margen de error de 16 grados).
Análisis de la señal y aislamiento de la voz
A continuación, las señales se envían a un ordenador de a bordo, donde un software de aprendizaje automático analiza los patrones vocales del orador. A continuación, el sistema aísla la voz del orador y la canaliza a través de los auriculares, aunque se mueva, al tiempo que filtra el ruido de fondo.
En el siguiente vídeo se demuestra la eficacia de los auriculares, que eliminan rápidamente el ruido ambiental y se centran en el orador. Esto incluye eliminar el ruido de una persona cercana que habla por teléfono en interiores y el sonido de una fuente exterior muy ruidosa.
imagen
Los auriculares con IA filtran el ruido para que oigas una sola voz entre la multitud
¿ Con qué rapidez puede la IA procesar la voz del interlocutor y eliminar los sonidos no deseados? En las pruebas, los investigadores descubrieron que su sistema presentaba una latencia de extremo a extremo de 18,24 milisegundos. Un parpadeo suele durar entre 300 y 400 milisegundos.
Esto significa que prácticamente no hay retardo entre mirar a alguien a quien se quiere oír y escuchar sólo su voz a través de los auriculares; el proceso se produce en tiempo real.
Evaluación por los participantes
Los investigadores proporcionaron su sistema THS a 21 participantes, que evaluaron la capacidad de supresión de ruido de los auriculares en entornos interiores y exteriores reales.
De media, los participantes valoraron la claridad de la voz del orador casi el doble que cuando no se procesaba.
La tecnología THS se basa en la tecnología de «audición semántica» desarrollada anteriormente por los investigadores de la UW. De forma similar al THS, esta tecnología utilizaba un algoritmo de inteligencia artificial que funcionaba en un teléfono inteligente conectado de forma inalámbrica a unos auriculares con cancelación de ruido. El sistema de audición semántica podía identificar ruidos específicos como cantos de pájaros, sirenas y alarmas.
En la actualidad, el nuevo sistema sólo puede filtrar un altavoz de destino a la vez y únicamente cuando no hay otra voz alta que emane de la misma dirección que el altavoz. No obstante, si el usuario de los auriculares no está satisfecho con la calidad del sonido, tiene la opción de remuestrear la voz del orador para mejorar la claridad.
Estos investigadores están trabajando para ampliar el sistema a auriculares y audífonos. Además, han publicado el código del THS en GitHub para fomentar su desarrollo. Es importante señalar que el sistema aún no está disponible para su adquisición comercial.
A principios de este mes, los investigadores presentaron sus resultados en la conferencia Computer-Human Interaction (CHI) de la Association of Computing Machinery (ACM) sobre factores humanos en sistemas informáticos, celebrada en Honolulu (Hawai), donde recibieron una mención honorífica. El artículo de investigación inédito puede consultarse aquí.