Les ingénieurs traduisent les signaux cérébraux directement en parole

Crédit :CC0 Domaine public

Dans une première scientifique, Les neuro-ingénieurs de Columbia ont créé un système qui traduit la pensée en intelligible, discours reconnaissable. En surveillant l'activité cérébrale de quelqu'un, la technologie peut reconstituer les mots qu'une personne entend avec une clarté sans précédent. Cette percée, qui exploite la puissance des synthétiseurs vocaux et de l'intelligence artificielle, pourrait conduire à de nouvelles façons pour les ordinateurs de communiquer directement avec le cerveau. Il jette également les bases pour aider les personnes qui ne peuvent pas parler, comme ceux qui vivent avec la sclérose latérale amyotrophique (SLA) ou qui se remettent d'un AVC, retrouver leur capacité à communiquer avec le monde extérieur.

Ces résultats ont été publiés aujourd'hui dans Rapports scientifiques .

"Nos voix nous aident à nous connecter à nos amis, famille et le monde qui nous entoure, c'est pourquoi perdre le pouvoir de sa voix à cause d'une blessure ou d'une maladie est si dévastateur, " dit Nima Mesgarani, Doctorat., l'auteur principal de l'article et chercheur principal au Mortimer B. Zuckerman Mind Brain Behaviour Institute de l'Université Columbia. "Avec l'étude d'aujourd'hui, nous avons un moyen potentiel de restaurer ce pouvoir. Nous l'avons montré, avec la bonne technologie, les pensées de ces personnes pourraient être décodées et comprises par n'importe quel auditeur."

Des décennies de recherche ont montré que lorsque les gens parlent - ou même imaginent parler - des modèles d'activité révélateurs apparaissent dans leur cerveau. Des modèles de signaux distincts (mais reconnaissables) émergent également lorsque nous écoutons quelqu'un parler, ou imaginez écouter. Experts, essayer d'enregistrer et de décoder ces modèles, voyez un avenir dans lequel les pensées n'ont pas besoin de rester cachées à l'intérieur du cerveau, mais pourraient plutôt être traduites en discours verbal à volonté.

Mais accomplir cet exploit s'est avéré difficile. Les premiers efforts pour décoder les signaux du cerveau par le Dr Mesgarani et d'autres se sont concentrés sur des modèles informatiques simples qui ont analysé des spectrogrammes, qui sont des représentations visuelles des fréquences sonores.

Mais parce que cette approche n'a pas réussi à produire quoi que ce soit qui ressemble à un discours intelligible, L'équipe du Dr Mesgarani s'est plutôt tournée vers un vocodeur, un algorithme informatique qui peut synthétiser la parole après avoir été formé sur des enregistrements de personnes parlant.

"C'est la même technologie utilisée par Amazon Echo et Apple Siri pour donner des réponses verbales à nos questions, " a déclaré le Dr Mesgarani, qui est également professeur agrégé de génie électrique à la Fu Foundation School of Engineering and Applied Science de Columbia.

Une représentation des premières approches pour reconstruire la parole, qui utilisent des modèles linéaires et des spectrogrammes. Crédit :Nima Mesgarani/Columbia's Zuckerman Institute

Apprendre au vocodeur à interpréter l'activité cérébrale, Le Dr Mesgarani a fait équipe avec Ashesh Dinesh Mehta, MARYLAND, Doctorat., neurochirurgien au Northwell Health Physician Partners Neuroscience Institute et co-auteur de l'article d'aujourd'hui. Le Dr Mehta traite des patients épileptiques, dont certains doivent subir des interventions chirurgicales régulières.

"En travaillant avec le Dr Mehta, nous avons demandé à des patients épileptiques déjà opérés du cerveau d'écouter des phrases prononcées par différentes personnes, alors que nous mesurions les schémas de l'activité cérébrale, " a déclaré le Dr Mesgarani. " Ces schémas neuronaux ont entraîné le vocodeur. "

Prochain, les chercheurs ont demandé à ces mêmes patients d'écouter des haut-parleurs récitant des chiffres entre 0 et 9, tout en enregistrant des signaux cérébraux qui pourraient ensuite passer par le vocodeur. Le son produit par le vocodeur en réponse à ces signaux a été analysé et nettoyé par des réseaux de neurones, un type d'intelligence artificielle qui imite la structure des neurones du cerveau biologique.

Représentation de la nouvelle approche du Dr Mesgarani qui utilise un vocodeur et un réseau de neurones profonds pour reconstruire la parole. Crédit :Nima Mesgarani/Columbia's Zuckerman Institute

Le résultat final était une voix aux sonorités robotiques récitant une séquence de chiffres. Pour tester l'exactitude de l'enregistrement, Le Dr Mesgarani et son équipe ont chargé des personnes d'écouter l'enregistrement et de rapporter ce qu'elles avaient entendu.

« Nous avons découvert que les gens pouvaient comprendre et répéter les sons environ 75 % du temps, ce qui est bien au-delà de toutes les tentatives précédentes, " a déclaré le Dr Mesgarani. L'amélioration de l'intelligibilité était particulièrement évidente lorsque l'on compare les nouveaux enregistrements aux précédents, tentatives basées sur le spectrogramme. "Le vocodeur sensible et les puissants réseaux de neurones représentaient les sons que les patients avaient initialement écoutés avec une précision surprenante."

Le Dr Mesgarani et son équipe prévoient de tester ensuite des mots et des phrases plus compliqués, et ils veulent effectuer les mêmes tests sur les signaux cérébraux émis lorsqu'une personne parle ou s'imagine parler. Finalement, ils espèrent que leur système pourrait faire partie d'un implant, similaires à ceux portés par certains patients épileptiques, qui traduit les pensées du porteur directement en mots.

"Dans ce scénario, si le porteur pense 'J'ai besoin d'un verre d'eau, ' notre système pourrait prendre les signaux cérébraux générés par cette pensée, et les transformer en synthétisés, discours verbal, " a déclaré le Dr Mesgarani. " Cela changerait la donne. Cela donnerait à quiconque a perdu sa capacité de parler, que ce soit par blessure ou maladie, la chance renouvelée de se connecter au monde qui les entoure."

Cet article s'intitule "Vers la reconstruction de la parole intelligible à partir du cortex auditif humain".

De nouvelles méthodes d'analyse facilitent l'évaluation de données d'ingénierie complexes

Windows Lite :Whispers se concentre sur la rationalisation, amerrissage forcé et confort de type Windows 7

Électronique

Un système de planification de mouvement contraint par hasard pour les robots de grande dimension

La nouvelle batterie lithium-ion aqueuse améliore la sécurité sans sacrifier les performances

Un cadre d'acquisition de morsure pour les systèmes d'alimentation assistés par robot

Science

Des chercheurs en IA étudient les liens du regard et de la personnalité en dehors du laboratoire

La division démocrate/républicain est la pire qu'elle ait jamais été

Une nouvelle méthode prédit quels trous noirs échappent à leurs galaxies