Illustration conceptuelle du cadre de lecture labiale proposé. Le cadre utilise les technologies Wi-Fi et radar comme catalyseurs de la lecture labiale basée sur la détection RF. Un ensemble de données comprenant les voyelles A, E, I, O, U et vide (lèvres statiques/fermées) est collecté à l'aide des deux technologies, avec un masque facial. Les données collectées sont utilisées pour former des modèles ML et DL. Crédit :Nature Communications (2022). DOI :10.1038/41467-022-32231-1. https://www.nature.com/articles/s41467-022-32231-1
Un nouveau système capable de lire les lèvres avec une précision remarquable même lorsque les locuteurs portent des masques faciaux pourrait aider à créer une nouvelle génération d'aides auditives.
Une équipe internationale d'ingénieurs et d'informaticiens a développé la technologie, qui associe pour la première fois la détection par radiofréquence à l'intelligence artificielle pour identifier les mouvements des lèvres.
Le système, lorsqu'il est intégré à la technologie des aides auditives conventionnelles, pourrait aider à lutter contre "l'effet cocktail", une lacune courante des aides auditives traditionnelles.
Actuellement, les aides auditives aident les personnes malentendantes en amplifiant tous les sons ambiants qui les entourent, ce qui peut être utile dans de nombreux aspects de la vie quotidienne.
Cependant, dans des situations bruyantes telles que des cocktails, le large spectre d'amplification des aides auditives peut rendre difficile pour les utilisateurs de se concentrer sur des sons spécifiques, comme une conversation avec une personne en particulier.
Une solution potentielle à l'effet cocktail est de fabriquer des aides auditives "intelligentes", qui combinent une amplification audio conventionnelle avec un deuxième appareil pour collecter des données supplémentaires pour des performances améliorées.
Alors que d'autres chercheurs ont réussi à utiliser des caméras pour faciliter la lecture labiale, la collecte de séquences vidéo de personnes sans leur consentement explicite soulève des inquiétudes pour la vie privée des individus. Les caméras sont également incapables de lire les lèvres à travers les masques, un défi quotidien pour les personnes qui portent des couvre-visages à des fins culturelles ou religieuses et un problème plus large à l'ère du COVID-19.
Dans un nouvel article publié aujourd'hui dans la revue Nature Communications , l'équipe dirigée par l'Université de Glasgow décrit comment elle a entrepris d'exploiter une technologie de détection de pointe pour lire les lèvres. Leur système préserve la confidentialité en collectant uniquement des données de radiofréquence, sans séquence vidéo d'accompagnement.
Pour développer le système, les chercheurs ont demandé à des volontaires masculins et féminins de répéter les cinq voyelles (A, E, I, O et U) d'abord sans masque, puis en portant un masque chirurgical.
Alors que les volontaires répétaient les sons des voyelles, leurs visages étaient scannés à l'aide de signaux radiofréquence provenant à la fois d'un capteur radar dédié et d'un émetteur wifi. Leurs visages ont également été scannés tandis que leurs lèvres sont restées immobiles.
Ensuite, les 3 600 échantillons de données collectés lors des scans ont été utilisés pour "enseigner" aux algorithmes d'apprentissage automatique et d'apprentissage en profondeur comment reconnaître les mouvements caractéristiques des lèvres et de la bouche associés à chaque son de voyelle.
Étant donné que les signaux radiofréquence peuvent facilement traverser les masques des volontaires, les algorithmes pourraient également apprendre à lire la formation des voyelles des utilisateurs masqués.
Le système s'est avéré capable de lire correctement les lèvres des volontaires la plupart du temps. Les données Wifi ont été correctement interprétées par les algorithmes d'apprentissage jusqu'à 95% du temps pour les lèvres non masquées, et 80% pour les masquées. Pendant ce temps, les données radar ont été interprétées correctement jusqu'à 91% sans masque et 83% du temps avec un masque.
Le Dr Qammer Abbasi, de la James Watt School of Engineering de l'Université de Glasgow, est l'auteur principal de l'article. Il a déclaré :"Environ 5 % de la population mondiale, soit environ 430 millions de personnes, souffrent d'une forme ou d'une autre de déficience auditive.
"Les aides auditives ont apporté des avantages transformateurs à de nombreuses personnes malentendantes. Une nouvelle génération de technologie qui collecte un large éventail de données pour augmenter et améliorer l'amplification du son pourrait être une autre étape majeure dans l'amélioration de la qualité de vie des personnes malentendantes.
"With this research, we have shown that radio-frequency signals can be used to accurately read vowel sounds on people's lips, even when their mouths are covered. While the results of lip-reading with radar signals are slightly more accurate, the Wi-Fi signals also demonstrated impressive accuracy.
"Given the ubiquity and affordability of Wi-Fi technologies, the results are highly encouraging which suggests that this technique has value both as a standalone technology and as a component in future multimodal hearing aids."
Professor Muhammad Imran, head of the University of Glasgow's Communications, Sensing and Imaging research group and a co-author of the paper, added, "This technology is an outcome from two research projects funded by the Engineering and Physical Sciences Research Council (EPSRC), called COG-MHEAR and QUEST.
"Both aim to find new methods of creating the next generation of health care devices, and this development will play a major role in supporting that goal."
The team's paper, titled "Pushing the Limits of Remote RF Sensing by Reading Lips Under the Face Mask," is published in Nature Communications . How to know if you need an over-the-counter hearing aid, or a doctor