En utilisant l'IA, les personnes aveugles sont capables de trouver des visages familiers dans une pièce

Théo, la gauche, un garçon de 12 ans qui est aveugle, interagit avec les ingénieurs de développement de logiciels de recherche senior de Microsoft Tim Regan, milieu, et Martin Grayson, droit, lors des tests utilisateurs du système Project Tokyo. Crédit :Jonathan Banks

Théo, un garçon de 12 ans qui est aveugle, est assis à une table dans une cuisine bondée par une journée grise et dégoulinante de la mi-décembre. Un bandeau qui abrite des caméras, un capteur de profondeur et des haut-parleurs sonnent dans ses cheveux brun sable. Il fait pivoter sa tête de gauche à droite jusqu'à ce que la caméra à l'avant du bandeau pointe vers le nez d'une personne de l'autre côté d'un comptoir.

Théo entend un bruit sourd suivi du nom "Martin" dans les haut-parleurs du bandeau, qui sont placés au-dessus de ses oreilles.

"Ça m'a pris environ cinq secondes pour t'avoir, Martin, " Théo dit, sa tête et son corps fixés dans la direction de Martin Grayson, un ingénieur principal en développement de logiciels de recherche avec le laboratoire de recherche de Microsoft à Cambridge. Grayson se tient à côté d'un coffre noir à hauteur de genou qui contient le matériel informatique requis pour exécuter les modèles d'apprentissage automatique qui alimentent le système prototype utilisé par Theo pour le reconnaître.

Éline, la mère de Théo, qui se tient contre un mur à l'opposé de Théo, dit, « J'aime la façon dont tu t'es retourné pour le trouver. C'est si gentil.

Alors que Théo commence à se tourner pour faire face à sa mère, les haut-parleurs sonnent une autre bosse et le nom "Tim."

"Tim, te voilà, " dit Theo avec ravissement alors que son regard se pose sur Tim Regan, un autre ingénieur principal en développement de logiciels de recherche au laboratoire, qui a pris Theo sous son aile pour lui enseigner des compétences avancées en codage informatique. Theo et sa mère étaient chez Regan pour un cours de codage bimensuel. Ils se sont rencontrés alors qu'ils travaillaient sur un projet de recherche qui a conduit au développement de Code Jumper, un langage de programmation physique qui inclut les enfants avec toutes les gammes de vision.

Theo est maintenant l'un des nombreux membres de la communauté des aveugles et des malvoyants qui travaillent avec Regan, Grayson, la chercheuse Cecily Morrison et son équipe sur le projet Tokyo, un effort de recherche à plusieurs volets pour créer une technologie d'agent personnel intelligent qui utilise l'intelligence artificielle pour étendre les capacités existantes des personnes.

Pour Théo, cela signifie des outils pour reconnaître qui est autour de lui.

"C'est tellement excitant de pouvoir découvrir où se trouvent les gens dans mon environnement, " dit Théo. " Pas seulement qui choisit de parler, mais tous les gens qui sont silencieux que vous pouvez voir par leur visage, mais je ne peux pas."

Mais finalement, a noté Morrison, Le projet Tokyo est un effort de recherche dont l'objectif à long terme est de démontrer comment créer des agents personnels intelligents qui étendent les capacités de tous les utilisateurs. Plutôt que de créer des systèmes de bout en bout capables d'accomplir des tâches spécifiques, elle voit l'avenir de l'IA comme un ensemble de ressources que les gens utilisent comme bon leur semble.

"Tout d'un coup, nous n'avons plus à dire, « Hé, vous êtes aveugle et je viens de vous rendre cela accessible. » Nous disons, 'Hey, vous êtes vous et je viens de construire un système qui fonctionne pour vous, '" dit-elle. "Je n'ai pas besoin de savoir quoi que ce soit sur toi. Je n'ai pas besoin d'étiquette sur toi. Je peux faire quelque chose qui vous convient parce que j'ai un système que vous pouvez prendre et adapter à vous-même."

Jeux paralympiques au Brésil

Project Tokyo est né d'un défi, début 2016, des hauts dirigeants de Microsoft pour créer des systèmes d'IA qui iraient au-delà de l'accomplissement de tâches telles que la récupération de résultats sportifs et de prévisions météorologiques ou l'identification d'objets. Morrison a déclaré que la création d'outils pour les personnes aveugles et malvoyantes était une solution naturelle pour le projet, parce que les personnes handicapées sont souvent les premiers à adopter les nouvelles technologies.

"Il ne s'agit pas de dire, 'Construisons quelque chose pour les aveugles, '", a déclaré Morrison. "Nous travaillons avec des personnes aveugles pour nous aider à imaginer l'avenir, et cet avenir repose sur de nouvelles expériences avec l'IA."

Morrison et son collègue Ed Cutrell, chercheur principal au laboratoire de recherche de Microsoft à Redmond, Washington, ont été sollicités pour diriger le projet. Tous deux ont une expertise dans la conception de technologies avec des personnes aveugles ou malvoyantes et ont décidé de commencer par essayer de comprendre comment une technologie d'agent pourrait augmenter, ou prolonger, les capacités de ces utilisateurs.

Ed Cutrell, un chercheur principal senior avec l'organisation de recherche de Microsoft à Redmond, Washington, est co-responsable du Projet Tokyo. Sur son bureau se trouvent plusieurs HoloLenses Microsoft modifiés que les chercheurs du projet utilisent pour aider les personnes aveugles et malvoyantes à savoir qui se trouve où dans leur environnement social. Crédit :Dan DeLong

Commencer, ils ont suivi un groupe d'athlètes et de spectateurs avec différents niveaux de vision lors d'un voyage du Royaume-Uni aux Jeux Paralympiques de 2016 à Rio de Janeiro, Brésil, observer comment ils interagissaient avec d'autres personnes lorsqu'ils naviguaient dans les aéroports, fréquenter des sites sportifs et faire du tourisme, entre autres activités. Un apprentissage clé, a noté Cutrell, était de savoir comment une compréhension enrichie du contexte social pouvait aider les personnes aveugles ou malvoyantes à donner un sens à leur environnement.

"Nous, en tant qu'humains, avoir ça très, sens très nuancé et élaboré de la compréhension sociale de la façon d'interagir avec les gens - avoir une idée de qui est dans la pièce, que font-ils, quelle est leur relation avec moi, comment puis-je comprendre s'ils sont pertinents pour moi ou non, " a-t-il dit. " Et pour les personnes aveugles, beaucoup d'indices que nous tenons pour acquis disparaissent tout simplement. "

Cette compréhension a stimulé une série d'ateliers avec la communauté des aveugles et des malvoyants qui se sont concentrés sur les technologies potentielles qui pourraient fournir une telle expérience. Pierre Bosher, un ingénieur du son d'une cinquantaine d'années qui a été aveugle la majeure partie de sa vie et a travaillé avec l'équipe du Projet Tokyo, a déclaré que le concept d'une technologie fournissant des informations sur les personnes autour de lui a immédiatement résonné.

"Chaque fois que je suis dans une situation avec plus de deux ou trois personnes, surtout si je n'en connais pas certains, cela devient exponentiellement plus difficile à gérer car les gens utilisent de plus en plus le contact visuel et le langage corporel pour signaler qu'ils veulent parler à telle ou telle personne, qu'ils veulent parler maintenant, " a-t-il dit. " C'est vraiment très difficile en tant qu'aveugle. "

Un HoloLens modifié

Une fois que les chercheurs du Project Tokyo ont compris le type d'expérience d'IA qu'ils voulaient créer, ils ont entrepris de construire la technologie habilitante. Ils ont commencé avec le Microsoft HoloLens original, un casque de réalité mixte qui projette des hologrammes dans le monde réel que les utilisateurs peuvent manipuler.

"HoloLens nous donne une tonne de ce dont nous avons besoin pour créer un agent d'IA en temps réel qui peut communiquer l'environnement social, " a déclaré Grayson lors d'une démonstration de la technologie au laboratoire de recherche de Microsoft à Cambridge.

Par exemple, l'appareil dispose d'une gamme de caméras en niveaux de gris qui offrent une vue à près de 180 degrés de l'environnement et d'une caméra couleur haute résolution pour une reconnaissance faciale de haute précision. En outre, les haut-parleurs au-dessus des oreilles de l'utilisateur permettent un son spatialisé, c'est-à-dire la création de sons qui semblent provenir d'emplacements spécifiques autour de l'utilisateur.

Les experts en apprentissage automatique de l'équipe Project Tokyo ont ensuite développé des algorithmes de vision par ordinateur qui fournissent différents niveaux d'informations sur qui est où dans l'environnement de l'utilisateur. Les modèles fonctionnent sur des unités de traitement graphique, connu sous le nom de GPU, qui sont logés dans le coffre noir que Grayson a transporté chez Regan pour le test utilisateur avec Theo.

Un modèle, par exemple, détecte la pose des personnes dans l'environnement, qui donne une idée de l'endroit et de la distance entre les personnes et l'utilisateur. Un autre analyse le flux de photos de la caméra haute résolution pour reconnaître les personnes et déterminer si elles ont choisi de faire connaître leur nom au système. Toutes ces informations sont transmises à l'utilisateur par des signaux audio.

Par exemple, si l'appareil détecte une personne à un mètre du côté gauche de l'utilisateur, le système jouera un clic qui sonne comme s'il venait d'un mètre sur la gauche. Si le système reconnaît le visage de la personne, il jouera un son de bosse, et si cette personne est également connue du système, il annoncera leur nom.

Lorsque l'utilisateur n'entend qu'un clic mais veut savoir qui est la personne, une seconde couche sonore qui ressemble à une bande élastique qui s'étire guide le regard de l'utilisateur vers le visage de la personne. Lorsque la caméra centrale de l'objectif se connecte au nez de la personne, l'utilisateur entend un clic aigu et, si la personne est connue du système, leur nom.

"J'aime particulièrement la chose qui vous donne l'angle de vue parce que je ne suis jamais vraiment sûr de l'angle raisonnable pour votre tête, " dit Bosher, qui a travaillé avec l'équipe du Project Tokyo sur l'expérience audio au début du processus de conception et est retourné au laboratoire de Cambridge pour discuter de son expérience et découvrir la dernière itération. "Ce serait un excellent outil pour apprendre le langage corporel."

Prototypage avec des adultes

Au fur et à mesure que l'équipe du projet Tokyo a développé et fait évoluer la technologie, les chercheurs invitent régulièrement des adultes aveugles ou malvoyants à tester le système et à donner leur avis. Pour faciliter une interaction sociale plus directe, par exemple, l'équipe a retiré les lentilles de l'avant de l'HoloLens.

Pierre Bosher, milieu, un ingénieur du son aveugle qui a travaillé avec l'équipe du projet Tokyo au début du processus de conception, vérifie la dernière itération du système au laboratoire de recherche de Microsoft à Cambridge, ROYAUME-UNI, avec les chercheurs Martin Grayson, la gauche, et Cecily Morrison, droit. Crédit :Jonathan Banks

Plusieurs utilisateurs ont exprimé le souhait d'obtenir discrètement les informations collectées par le système sans constamment tourner la tête, qui se sentait socialement maladroit. Les commentaires ont incité l'équipe de Project Tokyo à travailler sur des fonctionnalités qui aident les utilisateurs à savoir rapidement qui les entoure, par exemple, demander une vue d'ensemble et obtenir une lecture spatiale de tous les noms des personnes qui ont donné la permission d'être reconnues par le système.

Une autre fonctionnalité expérimentale alerte l'utilisateur avec un carillon spatialisé lorsque quelqu'un le regarde, parce que les personnes ayant une vision typique établissent souvent un contact visuel pour engager une conversation. Contrairement à la bosse, cependant, le carillon n'est pas suivi d'un nom.

"Nous utilisons déjà le nom quand vous regardez quelqu'un, " Grayson a expliqué à Emily, une testeuse dans la vingtaine qui a une basse vision et a visité le laboratoire de Cambridge pour en savoir plus sur les fonctionnalités les plus récentes. "Mais aussi, en ne donnant pas le nom, cela pourrait attirer votre attention de vous tourner vers quelqu'un qui essaie d'attirer votre attention. Et en se tournant vers eux, tu découvres leur nom."

"Je suis tout à fait d'accord avec ça. C'est ainsi que réagissent les voyants. Ils capturent quelqu'un du coin de l'œil, ou vous obtenez ce sens, et aller, 'Cécily, '", a déclaré Émilie.

L'HoloLens modifié que les chercheurs ont montré à Emily comprenait également une bande LED apposée au-dessus de la bande des caméras. Une lumière blanche suit la personne la plus proche de l'utilisateur et devient verte lorsque la personne a été identifiée auprès de l'utilisateur. La fonctionnalité permet aux partenaires de communication ou aux passants de savoir qu'ils ont été vus, ce qui rend plus naturel d'engager une conversation.

La bande LED offre également aux gens la possibilité de sortir du champ de vision de l'appareil et de ne pas être vu, s'ils le souhaitent. "Quand vous savez que vous êtes sur le point d'être vu, vous pouvez aussi décider de ne pas être vu, " a noté Morrison. " Si vous savez quand vous êtes vu, vous savez quand vous n'êtes pas vu."

Un outil pour enseigner les compétences d'interaction sociale

Alors que la recherche technique se poursuit, Le projet Tokyo explore une piste révélée dans le processus de recherche :utiliser la technologie pour aider les enfants aveugles ou malvoyants à développer des compétences d'interaction sociale.

Les deux tiers des enfants aveugles ou malvoyants présentent des comportements sociaux cohérents avec ceux des enfants autistes, selon la recherche académique. Par exemple, de nombreux enfants aveugles ou malvoyants semblent désengagés des interlocuteurs, posant souvent leur tête sur une table avec une oreille exposée.

Morrison et Cutrell ont fait pivoter le projet Tokyo pour déterminer si une version réduite du système pourrait être utilisée pour aider les enfants aveugles ou malvoyants à comprendre comment ils peuvent utiliser leur corps pour initier et maintenir des interactions avec les gens.

Parce que les chercheurs de Microsoft avaient déjà une relation avec Theo, ils l'ont recruté pour aider à adapter le système pour fonctionner avec les enfants, comme expliquer la tendance des enfants à s'asseoir les uns contre les autres et, à la fois, reste rarement assis.

"Quand il annonçait les noms des gens, il essayait d'annoncer deux noms à la fois et j'ai demandé que cela soit changé parce que, essentiellement, il était très, très difficile d'entendre le nom de quelqu'un, " se souvient Théo.

Les chercheurs ont également exploré comment Theo a utilisé le système. Par exemple, lors d'un repas de famille, il a commencé à subtilement, mais à plusieurs reprises, déplacer sa tête d'un côté à l'autre pour forcer le système à lire les noms des personnes à qui il parlait.

"Nous pensons qu'il utilisait cela pour soutenir son attention spatiale envers une personne en rafraîchissant sa mémoire de travail de l'endroit où elle se trouvait, " Morrison a déclaré. "C'est quelque chose que nous n'aurions jamais pu prédire, mais une stratégie très puissante pour l'aider à maintenir son attention, et s'il peut maintenir son attention, il peut maintenir un sujet de conversation."

D'autres utilisations de la technologie étaient plus conformes à l'hypothèse des chercheurs selon laquelle cela l'aiderait à développer des compétences pour interagir socialement dans un monde dominé par des personnes voyantes.

Martin Grayson, la gauche, un ingénieur senior en développement de logiciels de recherche avec le laboratoire de recherche de Microsoft à Cambridge, ROYAUME-UNI, inscrit la chercheuse de Microsoft Cecily Morrison, droit, dans le système Project Tokyo pour les tests utilisateurs. Crédit :Jonathan Banks

Par exemple, comme les autres enfants aveugles ou malvoyants, Théo mettait sa tête sur la table lors de situations sociales, une oreille tendue vers le monde. Les chercheurs ont joué avec Theo à une série de jeux conçus pour mettre en évidence le pouvoir social qui pourrait résulter de l'utilisation de son corps et de sa tête pour engager une conversation avec des personnes voyantes.

Dans un jeu joué au laboratoire, les chercheurs avaient un problème de groupe à résoudre. Théo connaissait la réponse. Les chercheurs ne connaissaient que le sujet et ils ne pouvaient parler que lorsque Théo les regardait. Quand Théo détourna le regard, ils ont dû arrêter de parler.

"Tout d'un coup, il s'est rendu compte qu'il pouvait gérer une conversation, " Morrison a déclaré. "Il est venu à comprendre le pouvoir de pouvoir regarder quelqu'un, le pouvoir qui lui a été donné dans une conversation et par cela, il a ensuite activé un tout nouvel ensemble de capacités sociales qu'il n'avait pas été en mesure d'atteindre auparavant."

Aujourd'hui, Théo parle rarement la tête sur la table. Que vous portiez ou non l'HoloLens modifié, il tourne son corps et son visage vers la personne qu'il veut engager. On ne sait pas si le changement persistera à long terme, les chercheurs ne sont pas non plus certains que d'autres enfants aveugles ou malvoyants réagiront de la même manière.

« D'après ce qu'on voit avec Théo, nous en avons un bon pressentiment, parce que nous l'avons vu avec lui, mais c'est un cas d'un. Et qui sait si cela serait arrivé de toute façon, " Cutrell a déclaré. "C'est pourquoi nous passons à cette prochaine phase, qui s'intéressera à beaucoup plus d'enfants et à une tranche d'âge plus large également."

L'avenir de Tokyo

L'effort de recherche plus large du Projet Tokyo se poursuit, y compris les nouvelles orientations de l'apprentissage automatique qui permettent aux utilisateurs d'adapter le système à leurs préférences personnelles. Sébastien Tschiatschek, un chercheur en apprentissage automatique au laboratoire de Cambridge, travaille sur des fonctionnalités qui permettent aux utilisateurs de montrer au système le type et la quantité d'informations qu'ils souhaitent entendre.

Le développement de la personnalisation oblige Tschiatschek à adopter une approche non conventionnelle de l'apprentissage automatique.

"Ce que nous aimons faire, c'est formaliser un problème sous une forme mathématique, " dit-il. " Vous ne pouvez pas faire cela si facilement dans ce problème. Une grande partie du développement passe par l'essai de choses, avoir cette interaction avec les gens, voir ce qu'ils aiment, n'aime pas, et l'amélioration des algorithmes."

Le désir de personnalisation, il expliqua, existe parce que les personnes aveugles ou malvoyantes ont des niveaux de vision différents et donc des besoins d'information différents. Quoi de plus, les utilisateurs du système sont frustrés lorsqu'il fournit des informations qu'ils connaissent déjà.

"Pour concrétiser la vision du Projet Tokyo, il faut combiner tant de choses qui ne se résolvent pas d'elles-mêmes, " a déclaré Tschiatschek.

Finalement, Le projet Tokyo consiste à démontrer comment créer des agents personnels intelligents qui étendent les capacités de tous les utilisateurs. Pour y arriver, Morrison, Cutrell et ses collègues continueront à travailler avec des personnes aveugles ou malvoyantes, y compris plus d'enfants.

"Ce que nous avons vu avec Theo est assez puissant, " Morrison a déclaré dans son bureau le lendemain du test du système chez Regan. "C'était puissant parce qu'il contrôlait son monde d'une manière qu'il ne pouvait pas être auparavant."

Parmi la cohorte croissante d'enfants à participer au Projet Tokyo se trouve le fils de 7 ans de Morrison, Ronan, qui est aveugle depuis sa naissance.

"Je pense qu'on va voir ça avec Ronan, " a-t-elle ajouté. " Je suis super excitée d'essayer. "

Pomme, Broadcom condamné à payer 1,1 milliard de dollars pour contrefaçon de brevet

IBMs Watson Center présente l'IA pour tout le monde, des chefs aux ingénieurs

Électronique