Crédit :CC0 Domaine public
Dans le livre de l'auteure canadienne Margaret Atwood L'assassin aveugle , elle dit que "le toucher passe avant la vue, avant la parole. C'est la première langue et la dernière, et il dit toujours la vérité."
Alors que notre sens du toucher nous donne un canal pour ressentir le monde physique, nos yeux nous aident à comprendre immédiatement l'image complète de ces signaux tactiles.
Les robots qui ont été programmés pour voir ou sentir ne peuvent pas utiliser ces signaux de manière aussi interchangeable. Pour mieux combler cette lacune sensorielle, des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont mis au point une intelligence artificielle (IA) prédictive qui peut apprendre à voir en touchant, et apprendre à ressentir en voyant.
Le système de l'équipe peut créer des signaux tactiles réalistes à partir d'entrées visuelles, et prédire quel objet et quelle partie est touché directement à partir de ces entrées tactiles. Ils ont utilisé un bras robotique KUKA avec un capteur tactile spécial appelé GelSight, conçu par un autre groupe du MIT.
A l'aide d'une simple webcam, l'équipe a enregistré près de 200 objets, tels que des outils, produits menagers, tissus, et plus, être touché plus de 12, 000 fois. Briser ces 12, 000 clips vidéo en images statiques, l'équipe a compilé "VisGel, " un ensemble de données de plus de 3 millions d'images appariées visuelles/tactiles.
"En regardant la scène, notre modèle peut imaginer la sensation de toucher une surface plane ou une arête vive, " dit Yunzhu Li, Doctorat CSAIL étudiant et auteur principal d'un nouvel article sur le système. "En touchant aveuglément autour, notre modèle peut prédire l'interaction avec l'environnement uniquement à partir de sensations tactiles. Rassembler ces deux sens pourrait renforcer le robot et réduire les données dont nous pourrions avoir besoin pour des tâches impliquant la manipulation et la saisie d'objets. »
Des travaux récents pour doter les robots de sens physiques plus humains, comme le projet 2016 du MIT utilisant l'apprentissage en profondeur pour indiquer visuellement les sons, ou un modèle qui prédit les réponses des objets aux forces physiques, les deux utilisent de grands ensembles de données qui ne sont pas disponibles pour comprendre les interactions entre la vision et le toucher.
La technique de l'équipe contourne ce problème en utilisant le jeu de données VisGel, et quelque chose appelé réseaux accusatoires génératifs (GAN).
Yunzhu Li est doctorant au Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL). Crédit :Massachusetts Institute of Technology
Les GAN utilisent des images visuelles ou tactiles pour générer des images dans l'autre modalité. Ils fonctionnent en utilisant un "générateur" et un "discriminateur" qui se font concurrence, où le générateur vise à créer des images réalistes pour tromper le discriminateur. Chaque fois que le discriminateur "attrape" le générateur, il doit exposer la motivation interne de la décision, ce qui permet au générateur de s'améliorer à plusieurs reprises.
Vision au toucher
Les humains peuvent déduire ce que ressent un objet simplement en le voyant. Pour mieux donner ce pouvoir aux machines, le système devait d'abord localiser la position du toucher, puis en déduire des informations sur la forme et la sensation de la région.
Les images de référence, sans aucune interaction robot-objet, ont aidé le système à coder les détails sur les objets et l'environnement. Puis, lorsque le bras du robot fonctionnait, le modèle pourrait simplement comparer la trame actuelle avec son image de référence, et identifiez facilement l'emplacement et l'échelle du toucher.
Cela peut ressembler à donner au système l'image d'une souris d'ordinateur, puis « voir » la zone où le modèle prédit que l'objet doit être touché pour le ramassage, ce qui pourrait grandement aider les machines à planifier des actions plus sûres et plus efficaces.
Toucher pour voir
Pour toucher à la vision, l'objectif était que le modèle produise une image visuelle basée sur des données tactiles. Le modèle a analysé une image tactile, puis déterminé la forme et le matériau de la position de contact. Il s'est ensuite retourné vers l'image de référence pour "halluciner" l'interaction.
Par exemple, si lors des tests, le modèle a été alimenté en données tactiles sur une chaussure, cela pourrait produire une image de l'endroit où cette chaussure était le plus susceptible d'être touchée.
Ce type de capacité pourrait être utile pour accomplir des tâches dans les cas où il n'y a pas de données visuelles, comme quand une lumière est éteinte, ou si une personne atteint aveuglément une boîte ou une zone inconnue.
Regarder vers l'avant
L'ensemble de données actuel ne contient que des exemples d'interactions dans un environnement contrôlé. L'équipe espère améliorer cela en collectant des données dans des domaines moins structurés, ou en utilisant un nouveau gant tactile conçu par le MIT, pour mieux augmenter la taille et la diversité de l'ensemble de données.
Il y a encore des détails qui peuvent être difficiles à déduire des modes de commutation, comme dire la couleur d'un objet en le touchant simplement, ou dire à quel point un canapé est mou sans réellement appuyer dessus. Les chercheurs disent que cela pourrait être amélioré en créant des modèles plus robustes pour l'incertitude, pour élargir la distribution des résultats possibles.
À l'avenir, ce type de modèle pourrait aider à une relation plus harmonieuse entre la vision et la robotique, notamment pour la reconnaissance d'objets, saisir, meilleure compréhension de la scène, et aider à l'intégration transparente homme-robot dans un environnement d'assistance ou de fabrication.
« C'est la première méthode qui peut traduire de manière convaincante entre les signaux visuels et tactiles, " dit Andrew Owens, un post-doctorat à l'Université de Californie à Berkeley. "Des méthodes comme celle-ci ont le potentiel d'être très utiles pour la robotique, où vous devez répondre à des questions telles que "cet objet est-il dur ou mou ?", ou 'si je soulève cette tasse par son anse, à quel point ma prise sera-t-elle bonne ?" C'est un problème très difficile, puisque les signaux sont si différents, et ce modèle a fait preuve d'une grande capacité."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.