Crédit :Oticon
Pour les personnes malentendantes, il peut être très difficile de comprendre et de séparer les voix dans des environnements bruyants. Ce problème pourrait bientôt appartenir à l'histoire grâce à un nouvel algorithme révolutionnaire conçu pour reconnaître et séparer efficacement les voix dans des environnements sonores inconnus.
Les personnes ayant une audition normale sont généralement capables de se comprendre sans effort lorsqu'elles communiquent dans des environnements bruyants. Cependant, pour les personnes malentendantes, il est très difficile de comprendre et de séparer les voix dans des environnements bruyants, et une aide auditive peut vraiment aider. Mais il reste encore du chemin à parcourir en ce qui concerne le traitement général du son dans les aides auditives, explique Morten Kolbæk :
"Quand le scénario est connu à l'avance, comme dans certaines configurations de tests cliniques, les algorithmes existants peuvent déjà battre les performances humaines lorsqu'il s'agit de reconnaître et de distinguer les locuteurs. Cependant, dans des situations d'écoute normales sans aucune connaissance préalable, le cerveau auditif humain reste la meilleure machine."
Mais c'est exactement ce que Morten Kolbæk a travaillé à changer avec son nouvel algorithme.
"En raison de sa capacité à fonctionner dans des environnements inconnus avec des voix inconnues, l'applicabilité de cet algorithme est tellement plus forte que ce que nous avons vu avec la technologie précédente. C'est un pas en avant important lorsqu'il s'agit de résoudre des situations d'écoute difficiles dans la vie quotidienne, " dit l'un des deux superviseurs de Morten Kolbæk, Jesper Jensen, Chercheur senior chez Oticon et professeur au Center for Acoustic Signal Processing Research (CASPR) à AAU.
Professeur Zheng-Hua Tan, qui est également affilié au CASPR et superviseur du projet, s'accorde sur le potentiel majeur de l'algorithme au sein d'une recherche solide.
"La clé du succès de cet algorithme est sa capacité à apprendre à partir de données, puis à construire des modèles statistiques puissants capables de représenter des situations d'écoute complexes. Cela conduit à des solutions qui fonctionnent très bien même dans des situations d'écoute nouvelles et inconnues, " explique Zheng-Hua Tan.
Réduction du bruit et séparation de la parole
Spécifiquement, Le doctorat de Morten Kolbæk. Le projet a traité de deux scénarios d'écoute différents mais bien connus.
La première piste vise à résoudre les défis des conversations en tête-à-tête dans des espaces bruyants tels que les cabines de voiture. Les utilisateurs d'aides auditives sont régulièrement confrontés à de tels défis.
"Pour les résoudre, nous avons développé des algorithmes qui peuvent amplifier le son du haut-parleur tout en réduisant le bruit de manière significative sans aucune connaissance préalable de la situation d'écoute. Les aides auditives actuelles sont préprogrammées pour un certain nombre de situations différentes, mais dans la vraie vie, l'environnement est en constante évolution et nécessite une aide auditive capable de lire instantanément la situation spécifique, " explique Morten Kolbæk.
La deuxième piste du projet tourne autour de la séparation de la parole. Ce scénario implique plusieurs locuteurs, et l'utilisateur d'aides auditives peut être intéressé à en entendre certains ou tous. La solution est un algorithme qui peut séparer les voix tout en réduisant le bruit. Cette piste peut être considérée comme une extension de la première piste, mais maintenant avec deux ou plusieurs voix.
"Vous pouvez dire que Morten a compris cela en peaufinant quelques choses ici et là, l'algorithme fonctionne avec plusieurs locuteurs inconnus dans des environnements bruyants. Les deux pistes de recherche de Morten sont importantes et ont attiré beaucoup d'attention, " dit Jesper Jensen.
Réseaux de neurones profonds
La méthode utilisée pour créer les algorithmes est appelée « deep learning, " qui relève de la catégorie de l'apprentissage automatique. Plus précisément, Morten Kolbæk a travaillé avec des réseaux de neurones profonds, un type d'algorithme que vous entraînez en lui fournissant des exemples des signaux qu'il rencontrera dans le monde réel.
"Si, par exemple, on parle de parole dans le bruit, vous fournissez à l'algorithme un exemple de voix dans un environnement bruyant et un exemple de voix sans bruit. De cette façon, l'algorithme apprend à traiter le signal bruité afin d'obtenir un signal vocal clair. Vous alimentez le réseau avec des milliers d'exemples, et pendant ce processus, il apprendra à traiter une voix donnée dans un environnement réaliste, ", explique Jesper Jensen.
« La puissance de l'apprentissage en profondeur vient de sa structure hiérarchique capable de transformer des signaux vocaux bruyants ou mixtes en voix claires ou séparées grâce à un traitement couche par couche. L'utilisation généralisée de l'apprentissage en profondeur aujourd'hui est due à trois facteurs principaux :augmenter la puissance de calcul, quantité croissante de mégadonnées pour les algorithmes de formation et de nouvelles méthodes pour la formation de réseaux de neurones profonds, " dit Zheng-Hua Tan.
Un ordinateur derrière l'oreille
Une chose est de développer l'algorithme, une autre consiste à le faire fonctionner dans une véritable aide auditive. Actuellement, L'algorithme de séparation de la parole de Morten Kolbæk ne fonctionne qu'à plus grande échelle.
"Quand il s'agit d'appareils auditifs, le défi est toujours de faire fonctionner la technologie sur un petit ordinateur derrière l'oreille. Et maintenant, L'algorithme de Morten nécessite trop d'espace pour cela. Même si l'algorithme de Mortens peut séparer plusieurs voix inconnues les unes des autres, il n'est pas en mesure de choisir la voix à présenter à l'utilisateur de l'aide auditive. Il y a donc quelques problèmes pratiques que nous devons résoudre avant de pouvoir l'introduire dans une solution d'aide auditive. Cependant, la chose la plus importante est que ces problèmes semblent maintenant résolubles."
Le phénomène des cocktails
Les personnes ayant une audition normale sont souvent capables de se concentrer sur un locuteur d'intérêt, même dans des situations acoustiquement difficiles où d'autres personnes parlent simultanément. Connu comme le phénomène des cocktails, le problème a généré un domaine de recherche très actif sur la façon dont le cerveau humain est capable de si bien résoudre ce problème. Avec ce doctorat. projet, nous faisons un pas de plus vers la résolution de ce problème, Jesper Jensen explique :
« On entend parfois que le problème du cocktail est résolu. Ce n'est pas encore le cas. Si l'environnement et les voix sont totalement inconnus, ce qui est souvent le cas dans le monde réel, la technologie actuelle ne peut tout simplement pas correspondre au cerveau humain qui fonctionne extrêmement bien dans des environnements inconnus. Mais l'algorithme de Morten est une étape majeure pour faire fonctionner les machines et aider les personnes ayant une audition normale et celles ayant une perte auditive dans de tels environnements, " il dit.