Étant donné une image d'entrée comme indiqué en haut, les chercheurs proposent une nouvelle méthode pour apprendre des sous-programmes, les politiques à court terme qui présentent un comportement cohérent (comme aller à gauche dans une pièce), et les possibilités, quels sous-programmes peuvent être invoqués où. Crédit :Kumar, Gupta &Malik.
Des chercheurs de l'UC Berkeley et de Facebook AI Research ont récemment proposé une nouvelle approche qui peut améliorer les compétences de navigation des modèles d'apprentissage automatique. Leur méthode, présenté dans un article pré-publié sur arXiv, permet aux modèles d'acquérir des sous-programmes de navigation visuo-motrice en traitant une série de vidéos.
"Tous les matins, quand vous décidez de prendre une tasse de café dans la cuisine, tu penses à descendre le couloir, tourner à gauche dans le couloir puis entrer dans la pièce à droite, " les chercheurs ont écrit dans leur article. " Au lieu de décider des couples musculaires exacts, vous planifiez à ce niveau d'abstraction plus élevé en composant ces sous-programmes visuo-moteurs réutilisables de niveau inférieur pour atteindre votre objectif."
Ces "sous-routines visuo-motrices" ou "abstractions hiérarchiques" que les humains créent dans leur esprit les aident finalement à se déplacer efficacement dans leur environnement environnant. Reproduire un mécanisme similaire dans les agents informatiques pourrait ainsi améliorer considérablement leurs compétences de navigation et de planification.
Les approches pour former des modèles sur ces abstractions hiérarchiques se sont jusqu'à présent classées dans deux catégories clés :les méthodes de conception manuelle (c'est-à-dire la planification classique) et les techniques d'apprentissage par renforcement. Ces deux types d'approches, cependant, ont des limites importantes. Les stratégies de planification classiques sont souvent sous-optimales, alors que les méthodes d'apprentissage par renforcement peuvent être instables, ainsi que coûteux à développer et à former.
Dans leur étude, les chercheurs de l'UC Berkeley et de Facebook ont introduit un paradigme alternatif qui permet aux modèles d'acquérir des abstractions hiérarchiques en analysant des données d'observation passives à la première personne (c'est-à-dire des vidéos). Ces vidéos sont étiquetées avec des actions d'agent, qui peut finalement aider un robot à naviguer dans son environnement.
"Nous utilisons un modèle inverse formé sur de petites quantités de données d'interaction pour pseudo-étiqueter les vidéos passives à la première personne avec des actions d'agent, " Les chercheurs ont expliqué dans leur article. " Les sous-routines visuo-motrices sont acquises à partir de ces vidéos pseudo-étiquetées en apprenant une politique conditionnée par l'intention latente qui prédit les pseudo-actions inférées à partir des observations d'images correspondantes. "
Les chercheurs ont évalué leur approche et démontré qu'elle peut améliorer considérablement les capacités de navigation d'un agent. Dans leurs tests, leur méthode a permis avec succès l'acquisition d'une variété de sous-programmes visuo-moteurs à partir de vidéos passives à la première personne.
"Nous démontrons l'utilité de nos sous-programmes visuo-moteurs acquis en les utilisant tels quels pour l'exploration et en tant que sous-politiques dans un cadre RL hiérarchique pour atteindre des objectifs ponctuels et des objectifs sémantiques, " ont écrit les chercheurs. " Nous démontrons également le comportement de nos sous-programmes dans le monde réel, en les déployant sur une véritable plateforme robotique."
L'approche proposée par les chercheurs a obtenu des performances remarquables sur toutes les métriques évaluées par les chercheurs. En outre, il s'est avéré surpasser les techniques d'apprentissage de pointe qui ont été entraînées sur des échantillons d'interaction beaucoup plus gros, générer des trajectoires qui couvrent mieux l'environnement.
De plus, tandis que la nouvelle approche a acquis des abstractions hiérarchiques sur un total de 45, 000 interactions avec l'environnement, les techniques de pointe auxquelles il a été comparé ont obtenu des résultats moins satisfaisants après jusqu'à 10 millions d'interactions. La méthode des chercheurs a également surpassé les lignes de base fabriquées à la main qui ont été spécifiquement conçues pour naviguer dans l'environnement tout en évitant les obstacles.
"Un apprentissage réussi à partir de vidéos à la première personne a permis à l'agent d'exécuter des trajectoires cohérentes, même s'il n'avait jamais exécuté que des actions aléatoires, " les chercheurs ont écrit. " Il a également appris avec succès le biais vers les actions en avant dans la navigation et la notion d'évitement d'obstacles, conduisant à une distance maximale élevée et à un faible taux de collision."
L'étude menée par cette équipe de chercheurs présente une alternative viable et très efficace aux méthodes actuelles de formation des agents d'IA sur les sous-programmes de navigation. À l'avenir, leur approche pourrait éclairer le développement de robots dotés de compétences de planification et de navigation plus avancées.
© 2019 Réseau Science X