• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Le système informatique transcrit les mots que les utilisateurs prononcent en silence

    Arnav Kapur, chercheur dans le groupe Fluid Interfaces du MIT Media Lab, démontre le projet AlterEgo. Crédit :Lorrie Lejeune/MIT

    Les chercheurs du MIT ont développé une interface informatique qui peut transcrire des mots que l'utilisateur verbalise en interne mais ne parle pas réellement à haute voix.

    Le système se compose d'un appareil portable et d'un système informatique associé. Les électrodes de l'appareil captent des signaux neuromusculaires dans la mâchoire et le visage qui sont déclenchés par des verbalisations internes — disant des mots « dans votre tête » — mais sont indétectables à l'œil humain. Les signaux sont transmis à un système d'apprentissage automatique qui a été formé pour corréler des signaux particuliers avec des mots particuliers.

    L'appareil comprend également une paire d'écouteurs à conduction osseuse, qui transmettent des vibrations à travers les os du visage à l'oreille interne. Parce qu'ils n'obstruent pas le conduit auditif, les écouteurs permettent au système de transmettre des informations à l'utilisateur sans interrompre la conversation ou interférer autrement avec l'expérience auditive de l'utilisateur.

    L'appareil fait donc partie d'un système informatique silencieux complet qui permet à l'utilisateur de poser et de recevoir des réponses à des problèmes de calcul difficiles de manière indétectable. Dans l'une des expériences des chercheurs, par exemple, les sujets ont utilisé le système pour rapporter silencieusement les mouvements des adversaires dans un jeu d'échecs et recevoir tout aussi silencieusement des réponses recommandées par l'ordinateur.

    "La motivation pour cela était de construire un dispositif d'IA - un dispositif d'augmentation de l'intelligence, " dit Arnav Kapur, un étudiant diplômé du MIT Media Lab, qui a dirigé le développement du nouveau système. « Notre idée était :pourrions-nous avoir une plate-forme informatique plus interne, qui fusionne l'humain et la machine d'une certaine manière et qui ressemble à une extension interne de notre propre cognition ? »

    "En gros, nous ne pouvons pas vivre sans nos téléphones portables, nos appareils numériques, " dit Pattie Maes, professeur d'arts et sciences médiatiques et directeur de thèse de Kapur. "Mais en ce moment, l'utilisation de ces appareils est très perturbatrice. Si je veux rechercher quelque chose en rapport avec une conversation que j'ai, Je dois trouver mon téléphone et taper le mot de passe et ouvrir une application et taper un mot-clé de recherche, et tout cela exige que je déplace complètement l'attention de mon environnement et des personnes avec qui je suis vers le téléphone lui-même. Donc, mes étudiants et moi expérimentons depuis très longtemps de nouveaux facteurs de forme et de nouveaux types d'expérience qui permettent aux gens de continuer à bénéficier de toutes les merveilleuses connaissances et services que ces appareils nous offrent, mais faites-le d'une manière qui leur permet de rester dans le présent."

    Les chercheurs décrivent leur appareil dans un article qu'ils ont présenté à la conférence ACM Intelligent User Interface de l'Association for Computing Machinery. Kapur est le premier auteur sur le papier, Maes est l'auteur principal, et ils sont rejoints par Shreyas Kapur, une majeure de premier cycle en génie électrique et en informatique.

    Signaux subtils

    L'idée que les verbalisations internes ont des corrélats physiques existe depuis le 19ème siècle, et il a fait l'objet d'une enquête sérieuse dans les années 1950. L'un des objectifs du mouvement de lecture rapide des années 1960 était d'éliminer la verbalisation interne, ou "sous-vocalisation, " comme on dit.

    Mais la subvocalisation en tant qu'interface informatique est largement inexplorée. La première étape des chercheurs consistait à déterminer quels endroits sur le visage sont les sources des signaux neuromusculaires les plus fiables. Ils ont donc mené des expériences dans lesquelles on a demandé aux mêmes sujets de subvocaliser quatre fois la même série de mots, avec un réseau de 16 électrodes à différents endroits du visage à chaque fois.

    Crédit :Massachusetts Institute of Technology

    Les chercheurs ont écrit du code pour analyser les données résultantes et ont découvert que les signaux provenant de sept emplacements d'électrodes particuliers étaient toujours capables de distinguer les mots sous-vocalisés. Dans le document de conférence, les chercheurs rapportent un prototype d'interface de parole silencieuse portable, qui s'enroule autour de la nuque comme un casque téléphonique et a des appendices incurvés en forme de tentacules qui touchent le visage à sept endroits de chaque côté de la bouche et le long des mâchoires.

    Mais dans les expériences actuelles, les chercheurs obtiennent des résultats comparables en utilisant seulement quatre électrodes le long d'une mâchoire, ce qui devrait conduire à un appareil portable moins intrusif.

    Après avoir sélectionné les emplacements des électrodes, les chercheurs ont commencé à collecter des données sur quelques tâches de calcul avec des vocabulaires limités, environ 20 mots chacun. L'un était arithmétique, dans lequel l'utilisateur subvocaliserait de gros problèmes d'addition ou de multiplication ; un autre était l'application d'échecs, dans lequel l'utilisateur signalerait les coups en utilisant le système de numérotation standard des échecs.

    Puis, pour chaque candidature, ils ont utilisé un réseau neuronal pour trouver des corrélations entre des signaux neuromusculaires particuliers et des mots particuliers. Comme la plupart des réseaux de neurones, celui que les chercheurs ont utilisé est organisé en couches de nœuds de traitement simples, dont chacun est connecté à plusieurs nœuds dans les couches ci-dessus et ci-dessous. Les données sont introduites dans la couche inférieure, dont les nœuds le traitent et les transmettent à la couche suivante, dont les nœuds le traitent et les transmettent à la couche suivante, etc. La sortie des rendements de la couche finale est le résultat d'une tâche de classification.

    La configuration de base du système des chercheurs comprend un réseau de neurones entraîné à identifier les mots sous-vocalisés à partir de signaux neuromusculaires, mais il peut être personnalisé pour un utilisateur particulier grâce à un processus qui ne recycle que les deux dernières couches.

    Questions pratiques

    En utilisant le prototype d'interface portable, les chercheurs ont mené une étude d'utilisabilité dans laquelle 10 sujets ont passé environ 15 minutes chacun à personnaliser l'application arithmétique à leur propre neurophysiologie, puis passé encore 90 minutes à l'utiliser pour exécuter des calculs. Dans cette étude, le système avait une précision de transcription moyenne d'environ 92 pour cent.

    Mais, Kapur dit, les performances du système devraient s'améliorer avec plus de données d'entraînement, qui pourraient être collectées lors de son utilisation normale. Bien qu'il n'ait pas calculé les chiffres, il estime que le système mieux entraîné qu'il utilise pour les démonstrations a un taux de précision supérieur à celui rapporté dans l'étude d'utilisabilité.

    Dans les travaux en cours, les chercheurs collectent une mine de données sur des conversations plus élaborées, dans l'espoir de créer des applications avec des vocabulaires beaucoup plus étendus. « Nous sommes en train de collecter des données, et le résultat est sympa, " Kapur dit. "Je pense que nous allons parvenir à une conversation complète un jour."

    "Je pense qu'ils sous-estiment un peu ce que je pense être un réel potentiel pour le travail, " dit Thad Starner, professeur au College of Computing de Georgia Tech. "Comme, dire, contrôler les avions sur le tarmac de l'aéroport de Hartsfield ici à Atlanta. Vous avez le bruit des jets tout autour de vous, vous portez ces grosses protections auditives, ne serait-il pas formidable de communiquer avec la voix dans un environnement où vous ne pourriez normalement pas le faire ? Vous pouvez imaginer toutes ces situations où vous avez un environnement très bruyant, comme le pont d'envol d'un porte-avions, ou même des endroits avec beaucoup de machines, comme une centrale électrique ou une presse à imprimer. C'est un système qui aurait du sens, surtout parce que souvent, dans ces types de situations ou de situations, les gens portent déjà un équipement de protection. Par exemple, si vous êtes pilote de chasse, ou si vous êtes pompier, vous portez déjà ces masques."

    "L'autre chose où cela est extrêmement utile, ce sont les opérations spéciales, " Starner ajoute. " Il y a beaucoup d'endroits où ce n'est pas un environnement bruyant mais un environnement silencieux. Beaucoup de temps, les agents des opérations spéciales ont des gestes de la main, mais vous ne pouvez pas toujours les voir. Ne serait-il pas formidable d'avoir un discours silencieux pour la communication entre ces gens ? Le dernier concerne les personnes handicapées qui ne peuvent pas vocaliser normalement. Par exemple, Roger Ebert n'avait plus la capacité de parler car il a perdu sa mâchoire à cause d'un cancer. Pourrait-il faire ce genre de discours silencieux et ensuite avoir un synthétiseur qui prononcerait les mots ?"

    Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.




    © Science https://fr.scienceaq.com