La tecnología de IA de la Universidad de Washington permite a los usuarios de auriculares elegir sonidos específicos para escuchar

La tecnología de auriculares con inteligencia artificial de la Universidad de Washington sólo deja pasar determinados sonidos. (Fuente de la imagen: Paul G. Allen School en YouTube)

Un equipo dirigido por la Universidad de Washington ha desarrollado una tecnología de auriculares con inteligencia artificial que permite a los usuarios elegir sonidos específicos para oír mientras bloquea todos los demás. Esta avanzada supresión de ruidos se dirige a cualquier sonido, desde animales hasta máquinas, creando un nuevo tipo de orientación sonora denominada audición semántica.

David Chien (traducido por Ninh Duy), Publicado 11/15/2023 🇺🇸 🇨🇳 ...

AI Audio Wearable

Un equipo dirigido por investigadores de informática de la Universidad de Washington (UofW) ha creado un software de IA para auriculares que permite a los usuarios seleccionar sonidos específicos para escuchar. A diferencia de los auriculares con cancelación de ruido que simplemente filtran todo excepto las voces, la nueva red neuronal permite a los usuarios seleccionar sonidos específicos como el gorjeo de un pájaro.

Los auriculares anteriores, como los capullos INZONE de Sony(disponibles en Amazon), utilizan DSEE Extreme, Speak-to-Chaty AI DNNtecnología de IA para mejorar la calidad de la música y el habla, al tiempo que dejan pasar automáticamente las voces a través de la cancelación de ruido cuando comienzan las conversaciones. El trabajo de la UofW avanza sobre esto permitiendo a los oyentes elegir entre 20 tipos diferentes de sonidos para escuchar, como el piar de los pájaros, el océano, el golpe de la puerta y la cisterna del váter, mientras filtra todo lo demás. Denominada audición semántica, esto permite a los usuarios disfrutar del piar de los pájaros en un parque sin oír a la gente hablar o los coches pasar.

En la actualidad, la aplicación de la UofW utiliza micrófonos binaurales para captar la posición en tiempo real de los sonidos externos antes de enviar los sonidos filtrados a los auriculares. Dado que este software se ejecuta en teléfonos inteligentes, su aplicación puede aprovechar CPU más potentes que las que se encuentran en los auriculares, sin embargo, es sólo cuestión de tiempo que los auriculares con cancelación de ruido vengan con la audición semántica incorporada.

La audición semántica de la IA de la UofW sólo permite el paso de sonidos específicos, como un golpe. (Fuente de la imagen: Paul G. Allen School en YouTube)

La anulación del ruido mediante IA de la UofW filtra 20 tipos diferentes de sonidos. (Fuente de la imagen: artículo de investigación de la UofW publicado en ACM)

La tecnología de auriculares con IA de la UofW utiliza redes neuronales para filtrar los sonidos. (Fuente de la imagen: Paul G. Allen School en YouTube)

▶ load Youtube video

Fuente(s)

Universidad de Washington, ACM, y Escuela Paul G. Allen (YouTube)

▶ ▼ Comunicado de prensa

9 de noviembre de 2023

La nueva tecnología de auriculares con supresión de ruido por IA permite a los usuarios elegir qué sonidos escuchan

Stefan Milne

Noticias de la UW

Cualquiera que haya utilizado auriculares con supresión de ruido sabe que oír el ruido adecuado en el momento adecuado puede ser vital. Alguien puede querer borrar las bocinas de los coches cuando trabaja en interiores, pero no cuando camina por calles concurridas. Sin embargo, la gente no puede elegir qué sonidos cancelan sus auriculares.

Ahora, un equipo dirigido por investigadores de la Universidad de Washington ha desarrollado algoritmos de aprendizaje profundo que permiten a los usuarios elegir qué sonidos se filtran a través de sus auriculares en tiempo real. El equipo llama al sistema "audición semántica" Los auriculares transmiten el audio capturado a un teléfono inteligente conectado, que cancela todos los sonidos ambientales. Mediante comandos de voz o una aplicación del smartphone, los usuarios de los auriculares pueden seleccionar qué sonidos quieren incluir de entre 20 clases, como sirenas, llantos de bebé, habla, aspiradoras y gorjeos de pájaros. Sólo los sonidos seleccionados se reproducirán a través de los auriculares.

El equipo presentó sus hallazgos el 1 de noviembre en el UIST '23 de San Francisco. En el futuro, los investigadores planean lanzar una versión comercial del sistema.

"Entender cómo suena un pájaro y extraerlo de todos los demás sonidos de un entorno requiere una inteligencia en tiempo real que los actuales auriculares antirruido no han conseguido", afirma el autor principal Shyam Gollakota, profesor de la UW en la Escuela Paul G. Allen de Informática e Ingeniería. "El reto es que los sonidos que oyen los usuarios de auriculares tienen que sincronizarse con sus sentidos visuales. No puedes estar oyendo la voz de alguien dos segundos después de que te hable. Esto significa que los algoritmos neuronales deben procesar los sonidos en menos de una centésima de segundo"

Debido a esta escasez de tiempo, el sistema de audición semántica debe procesar los sonidos en un dispositivo como un smartphone conectado, en lugar de en servidores en la nube más robustos. Además, como los sonidos procedentes de distintas direcciones llegan a los oídos de las personas en momentos diferentes, el sistema debe preservar estos retardos y otras señales espaciales para que las personas puedan seguir percibiendo de forma significativa los sonidos de su entorno.

Probado en entornos como oficinas, calles y parques, el sistema fue capaz de extraer sirenas, gorjeos de pájaros, alarmas y otros sonidos de objetivos, al tiempo que eliminaba el resto de ruidos del mundo real. Cuando 22 participantes calificaron la salida de audio del sistema para el sonido objetivo, dijeron que, de media, la calidad mejoraba en comparación con la grabación original.En algunos casos, el sistema tuvo problemas para distinguir entre sonidos que comparten muchas propiedades, como la música vocal y el habla humana. Los investigadores señalan que el entrenamiento de los modelos con más datos del mundo real podría mejorar estos resultados.

Otros coautores del artículo son Bandhav Veluri y Malek Itani, ambos estudiantes de doctorado de la UW en la Escuela Allen; Justin Chan, que completó esta investigación como estudiante de doctorado en la Escuela Allen y ahora está en la Universidad Carnegie Mellon; y Takuya Yoshioka, director de investigación de AssemblyAI.

Para más información, póngase en contacto con [email protected].