Écouteurs antibruit AI : une seule voix passe

Écouteurs antibruit AI : une seule voix passe

Crédit : STEPHANIE ARNETT/MITTR | DOMAINE PUBLIC, ENVATO

Dans notre monde moderne animé, les écouteurs antibruit offrent un répit face à la cacophonie. Cependant, leur réduction de bruit indiscriminée peut involontairement étouffer des voix importantes. Entre en scène un nouveau système AI prototype appelé “Target Speech Hearing”. Il permet aux utilisateurs de sélectionner la voix spécifique d’une personne à rester audible même au milieu de l’annulation du bruit. Bien qu’il soit encore à l’étape de concept, cette technologie pourrait bientôt améliorer les écouteurs antibruit populaires et même les aides auditives, assurant que nous entendions ce qui compte vraiment.

Un nouveau système AI pour les écouteurs vise à résoudre ce problème. Appelé Target Speech Hearing, le système permet aux utilisateurs de choisir la voix d’une personne à entendre clairement tout en annulant tous les autres sons.

Cette technologie en est encore à ses débuts, mais ses créateurs discutent avec des marques populaires d’écouteurs antibruit et souhaitent également la rendre disponible pour les aides auditives.

“Écouter des personnes spécifiques est un élément clé de notre façon de communiquer et d’interagir avec les autres”, déclare Shyam Gollakota, professeur à l’Université de Washington, qui a travaillé sur le projet. “Il peut être très difficile de se concentrer sur certaines personnes dans des environnements bruyants, même si vous n’avez pas de problèmes auditifs.”

Entraîner l’IA à reconnaître et filtrer

Les mêmes chercheurs avaient précédemment entraîné une IA à reconnaître et filtrer des sons spécifiques comme les pleurs de bébés, le chant des oiseaux ou les alarmes sonores. Cependant, séparer les voix humaines est plus difficile et nécessite une IA plus complexe. Cette complexité pose problème car les modèles d’IA doivent fonctionner en temps réel sur des écouteurs avec une puissance de calcul limitée et une autonomie de batterie limitée. Pour gérer ces limites, les réseaux neuronaux devaient être petits et économes en énergie. Ainsi, l’équipe a utilisé une technique appelée distillation des connaissances. Cela impliquait de prendre un grand modèle d’IA entraîné sur des millions de voix (le “professeur”) et de l’utiliser pour entraîner un modèle beaucoup plus petit (“l’élève”) à fonctionner aussi bien.

Le modèle plus petit a ensuite été enseigné à sélectionner des voix spécifiques parmi le bruit ambiant en utilisant des microphones sur une paire d’écouteurs antibruit classiques.

Comment ça fonctionne

Pour utiliser le système Target Speech Hearing, le porteur appuie sur un bouton sur les écouteurs pendant quelques secondes tout en faisant face à la personne sur laquelle il souhaite se concentrer. Pendant ce temps, appelé “enrôlement”, le système enregistre un échantillon audio à partir des deux écouteurs pour identifier la voix du locuteur, même s’il y a d’autres voix et bruits autour.

Ces caractéristiques vocales sont envoyées à un réseau neuronal sur un petit ordinateur connecté aux écouteurs par un câble USB. Ce réseau fonctionne en permanence, séparant la voix choisie des autres et la jouant pour l’auditeur. Une fois que le système se verrouille sur un locuteur, il continue de se concentrer sur la voix de cette personne, même si le porteur se détourne. Plus le système écoute un locuteur, mieux il parvient à isoler cette voix.

Actuellement, le système ne peut réussir à se concentrer sur un locuteur que si sa voix est la plus forte. Cependant, l’équipe travaille pour le faire fonctionner même lorsque la voix la plus forte n’est pas celle du locuteur cible.

Avancement de la Séparation Vocale : Applications Pratiques et Perspectives Futures

“Sélectionner une voix dans un endroit bruyant est très difficile”, déclare Sefik Emre Eskimez, chercheur principal chez Microsoft travaillant sur la parole et l’IA mais n’ayant pas participé à cette étude particulière. “Je sais que les entreprises veulent faire cela”, dit-il. “S’ils peuvent le résoudre, cela pourrait être utile dans de nombreux domaines, surtout pendant les réunions.”

Bien que la recherche sur la séparation de la parole soit généralement plus théorique que pratique, cette étude présente des utilisations pratiques claires, déclare Samuele Cornell, chercheur à l’Institut de technologie du langage de l’Université Carnegie Mellon, qui n’a pas non plus participé à cette étude. “Je pense que c’est un pas dans la bonne direction”, déclare Cornell. “C’est un changement rafraîchissant.”


Lire l’article original sur MIT Technology Review

En savoir plus Kilnam Chon Prédit que l’IA Dépassera l’Intelligence Humaine dans 30 Ans

Partager cette publication

Comments (2)

Les commentaires sont fermés.