Figure expliquant le fonctionnement de la démarche d'apprentissage proposée par les chercheurs. Crédit :Bonardi, James &Davison.
La plupart des humains peuvent apprendre à accomplir une tâche donnée en observant une autre personne l'exécuter une seule fois. Des robots programmés pour apprendre en imitant les humains, cependant, doivent généralement être formés sur une série de démonstrations humaines avant de pouvoir reproduire efficacement le comportement souhaité.
Les chercheurs ont récemment pu apprendre à des robots à exécuter de nouvelles tâches en leur faisant observer une seule démonstration humaine, en utilisant des approches de méta-apprentissage. Cependant, ces techniques d'apprentissage nécessitent généralement des données du monde réel qui peuvent être coûteuses et difficiles à collecter.
Pour surmonter ce défi, une équipe de chercheurs de l'Imperial College de Londres a développé une nouvelle approche qui permet un apprentissage par imitation unique dans des robots sans avoir besoin de démonstrations humaines dans le monde réel. Leur approche, présenté dans un article pré-publié sur arXiv, utilise des algorithmes appelés réseaux de contrôle intégrés aux tâches (TecNets), qui permettent aux agents artificiels d'apprendre à effectuer des tâches à partir d'une ou plusieurs démonstrations, ainsi que des données d'entraînement générées artificiellement.
« Nous montrons qu'avec les réseaux de contrôle embarqués sur les tâches, nous pouvons déduire des politiques de contrôle en intégrant des démonstrations humaines qui peuvent conditionner une politique de contrôle et réaliser un apprentissage par imitation unique, " écrivent les chercheurs dans leur article.
L'approche présentée par les chercheurs ne nécessite aucune interaction avec de vrais humains pendant la formation du robot. La méthode utilise TechNets pour déduire des politiques de contrôle, intégrer des démonstrations humaines qui peuvent conditionner une politique de contrôle donnée et permettre in fine un apprentissage par imitation unique.
Pour supprimer le besoin de démonstrations humaines dans le monde réel pendant la formation, les chercheurs ont utilisé un ensemble de données de vidéos simulant des démonstrations humaines, qu'ils ont généré à l'aide de PyRep, une boîte à outils récemment publiée pour la recherche sur l'apprentissage des robots. En utilisant PyRep, les chercheurs ont modélisé un bras 3D de type humain et l'ont décomposé en formes afin de reproduire des mouvements qui ressemblent à ceux observés chez les humains.
Ils ont ensuite créé un ensemble de données composé de vidéos dans lesquelles ce bras simulé a effectué un certain nombre de tâches et l'a utilisé pour entraîner un système robotique. Finalement, le robot a pu apprendre à accomplir une tâche simplement en analysant ces vidéos de simulation et une seule démonstration humaine dans le monde réel.
" Surtout, nous n'utilisons pas un vrai bras humain pour fournir des démonstrations pendant l'entraînement, mais à la place, tirez parti de la randomisation du domaine dans une application qui n'a jamais été vue auparavant :le transfert sim-to-real sur les humains, " expliquent les chercheurs dans leur article.
L'équipe a évalué la nouvelle approche d'apprentissage ponctuel à la fois dans les simulations et dans le monde réel, l'utiliser pour entraîner un robot à accomplir des tâches qui impliquaient de placer et de pousser des objets. Remarquablement, leur méthode d'apprentissage a obtenu des résultats comparables à ceux obtenus en utilisant une approche plus conventionnelle basée sur l'apprentissage par imitation, même s'il s'agit d'entraîner un robot sur des vidéos générées artificiellement plutôt de vraies démonstrations humaines.
Les chercheurs écrivent, « Nous avons pu obtenir des performances similaires à une méthode alternative de pointe qui s'appuie sur des milliers de démonstrations de formation collectées dans le monde réel, tout en restant robuste aux changements de domaine visuel, tels que des antécédents sensiblement différents.
L'approche développée par cette équipe de chercheurs pourrait permettre un apprentissage par imitation unique pour un certain nombre de robots sans avoir besoin de collecter de grandes quantités de démonstrations humaines du monde réel. Cela pourrait économiser beaucoup d'efforts, des ressources et du temps pour ceux qui essaient de former des robots en utilisant l'apprentissage par imitation. Les chercheurs envisagent maintenant d'étudier d'autres actions sur lesquelles les robots pourraient être entraînés en utilisant leur approche.
"Nous espérons approfondir l'étude de la variété des actions humaines qui peuvent être transférées de la simulation à la réalité, " les chercheurs ont écrit dans leur article. " Par exemple, dans ce travail, nous avons montré qu'un bras humain peut être transféré, mais la même méthode fonctionnerait-elle à partir de démonstrations incluant le torse entier d'un humain ? »
© 2019 Réseau Science X