Auriculares con supresión de ruido y tecnología de inteligencia artificial que sólo dejan pasar una voz

Auriculares con supresión de ruido y tecnología de inteligencia artificial que sólo dejan pasar una voz

Crédito: STEPHANIE ARNETT/MITTR | DOMINIO PÚBLICO, ENVATO

En nuestro ajetreado mundo moderno, los auriculares con supresión de ruido ofrecen un respiro de la cacofonía. Sin embargo, su reducción indiscriminada del sonido puede ahogar sin querer voces importantes. He aquí un nuevo prototipo de sistema de IA llamado «Target Speech Hearing». Permite a los usuarios seleccionar la voz de una persona concreta para que siga siendo audible incluso en medio de la cancelación de ruido. Aunque todavía es una prueba de concepto, esta tecnología podría mejorar pronto los populares auriculares con cancelación de ruido e incluso los audífonos, garantizando que oigamos lo que de verdad importa.

Un nuevo sistema de IA para auriculares pretende solucionar este problema. Denominado Target Speech Hearing, el sistema permite a los usuarios elegir la voz de una persona para oírla con claridad al tiempo que cancela todos los demás sonidos.

Esta tecnología aún está en sus primeras fases, pero sus creadores están hablando con marcas populares de auriculares con cancelación de ruido y también quieren que esté disponible para audífonos.

Escuchar a determinadas personas es una parte fundamental de nuestra forma de comunicarnos e interactuar con los demás», afirma Shyam Gollakota, profesor de la Universidad de Washington que ha trabajado en el proyecto. «Puede ser muy difícil centrarse en determinadas personas en entornos ruidosos, incluso si no tienes problemas de audición».

Entrenando a la IA para reconocer y filtrar

Los mismos investigadores habían entrenado previamente a una IA para reconocer y filtrar sonidos específicos como el llanto de los bebés, el piar de los pájaros o el sonido de las alarmas. Sin embargo, separar voces humanas es más difícil y requiere una IA más compleja. Esta complejidad es un problema porque los modelos de IA deben trabajar en tiempo real en auriculares con una potencia de cálculo y una duración de la batería limitadas. Para hacer frente a estos límites, las redes neuronales tenían que ser pequeñas y de bajo consumo. Así que el equipo utilizó una técnica llamada destilación de conocimientos. Se trata de tomar un gran modelo de inteligencia artificial entrenado con millones de voces (el «maestro») y utilizarlo para entrenar un modelo mucho más pequeño (el «alumno») que funcione igual de bien.

A continuación, se enseñó al modelo más pequeño a distinguir voces concretas del ruido circundante utilizando los micrófonos de unos auriculares normales con cancelación de ruido.

Cómo funciona

Para utilizar el sistema Target Speech Hearing, el usuario mantiene pulsado un botón de los auriculares durante unos segundos mientras mira a la persona en la que quiere centrarse. Durante este tiempo, llamado «inscripción», el sistema graba una muestra de audio de ambos auriculares para identificar la voz del hablante, aunque haya otras voces y ruidos alrededor.

Estas características de la voz se envían a una red neuronal en un pequeño ordenador conectado a los auriculares mediante un cable USB. Esta red funciona todo el tiempo, separando la voz elegida de las demás y reproduciéndola al oyente. Una vez que el sistema se fija en un interlocutor, sigue centrándose en la voz de esa persona, incluso si el usuario se da la vuelta. Cuanto más escucha el sistema a un interlocutor, mejor consigue aislar esa voz.

Actualmente, el sistema sólo puede centrarse en un interlocutor si su voz es la más alta. Sin embargo, el equipo está trabajando para que funcione incluso cuando la voz más alta no sea la del hablante objetivo.

Avances en la separación del habla: Aplicaciones prácticas y perspectivas de futuro

Identificar una voz en un lugar ruidoso es muy difícil, dice Sefik Emre Eskimez, investigador principal de Microsoft que trabaja en el campo del habla y la inteligencia artificial, pero no participó en este estudio. «Sé que las empresas quieren hacerlo», afirma. «Si lo consiguen, podría ser útil en muchos ámbitos, sobre todo durante las reuniones».

Aunque la investigación sobre la separación del habla suele ser más teórica que práctica, este estudio tiene claros usos prácticos, dice Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon que tampoco trabajó en este estudio. «Creo que es un paso en la dirección correcta», afirma Cornell. «Es un cambio refrescante».


Read the Original Article MIT Technology Review

Read more Kilnam Chon Predicts AI Surpassing Human Intelligence in 30 Years

    Share this post