Un système de simulation inventé au MIT pour former des voitures sans conducteur crée un monde photoréaliste avec des possibilités de pilotage infinies, aider les voitures à apprendre à naviguer dans une multitude de scénarios pires avant de rouler dans de vraies rues. Crédit : Institut de technologie du Massachusetts
Un système de simulation inventé au MIT pour former des voitures sans conducteur crée un monde photoréaliste avec des possibilités de pilotage infinies, aider les voitures à apprendre à naviguer dans une multitude de scénarios pires avant de rouler dans de vraies rues.
Systèmes de contrôle, ou "contrôleurs, " pour les véhicules autonomes reposent en grande partie sur des ensembles de données réelles de trajectoires de conduite de conducteurs humains. À partir de ces données, ils apprennent à imiter des commandes de direction sûres dans diverses situations. Mais les données du monde réel provenant de « cas extrêmes », " comme faillir un accident ou être forcé de quitter la route ou d'emprunter d'autres voies, sont, heureusement, rares.
Certains programmes informatiques, appelés "moteurs de simulation, " visent à imiter ces situations en rendant des routes virtuelles détaillées pour aider à former les contrôleurs à récupérer. Mais le contrôle appris de la simulation n'a jamais été montré pour être transféré à la réalité sur un véhicule à grande échelle.
Les chercheurs du MIT s'attaquent au problème avec leur simulateur photoréaliste, appelé Virtual Image Synthesis and Transformation for Autonomy (VISTA). Il n'utilise qu'un petit ensemble de données, capturé par des humains conduisant sur une route, synthétiser un nombre pratiquement infini de nouveaux points de vue à partir de trajectoires que le véhicule pourrait emprunter dans le monde réel. La manette est récompensée pour la distance qu'elle parcourt sans planter, il doit donc apprendre par lui-même comment atteindre une destination en toute sécurité. Ce faisant, le véhicule apprend à naviguer en toute sécurité dans toutes les situations qu'il rencontre, y compris reprendre le contrôle après avoir dévié entre les voies ou récupéré après un quasi-accident.
Dans les essais, un contrôleur formé dans le simulateur VISTA a pu être déployé en toute sécurité sur une voiture sans conducteur à grande échelle et naviguer dans des rues inédites. En positionnant la voiture dans des orientations tout-terrain qui imitent diverses situations de quasi-accident, le contrôleur a également réussi à récupérer la voiture dans une trajectoire de conduite sûre en quelques secondes. Un article décrivant le système a été publié dans Lettres de robotique et d'automatisation IEEE et sera présenté lors de la prochaine conférence de l'ICRA en mai.
"Il est difficile de collecter des données dans ces cas extrêmes que les humains ne connaissent pas sur la route, " dit le premier auteur Alexander Amini, un doctorat étudiant au Laboratoire d'Informatique et Intelligence Artificielle (CSAIL). « Dans notre simulation, cependant, les systèmes de contrôle peuvent vivre ces situations, apprendre par eux-mêmes à s'en remettre, et restent robustes lorsqu'ils sont déployés sur des véhicules dans le monde réel."
Le travail a été réalisé en collaboration avec le Toyota Research Institute. Rejoindre Amini sur le papier sont Igor Gilitschenski, un post-doctorat au CSAIL; Jacob Phillips, Julia Moseyko, et Rohan Banerjee, tous les étudiants de premier cycle du CSAIL et du Département de génie électrique et d'informatique ; Sertac Karaman, professeur agrégé d'aéronautique et d'astronautique; et Daniela Rus, directeur du CSAIL et professeur Andrew et Erna Viterbi de génie électrique et d'informatique.
Simulation basée sur les données
Historiquement, la construction de moteurs de simulation pour la formation et le test de véhicules autonomes a été en grande partie une tâche manuelle. Les entreprises et les universités emploient souvent des équipes d'artistes et d'ingénieurs pour esquisser des environnements virtuels, avec des marquages routiers précis, voies, et même des feuilles détaillées sur les arbres. Certains moteurs peuvent également intégrer la physique de l'interaction d'une voiture avec son environnement, basé sur des modèles mathématiques complexes.
Mais comme il y a tellement de choses différentes à considérer dans des environnements complexes du monde réel, il est pratiquement impossible de tout incorporer dans le simulateur. Pour cette raison, il y a généralement un décalage entre ce que les contrôleurs apprennent en simulation et comment ils fonctionnent dans le monde réel.
Au lieu, les chercheurs du MIT ont créé ce qu'ils appellent un moteur de simulation « piloté par les données » qui synthétise, à partir de données réelles, de nouvelles trajectoires cohérentes avec l'aspect de la route, ainsi que la distance et le mouvement de tous les objets de la scène.
Ils collectent d'abord les données vidéo d'un humain conduisant sur quelques routes et les alimentent dans le moteur. Pour chaque cadre, le moteur projette chaque pixel dans un type de nuage de points 3D. Puis, ils placent un véhicule virtuel à l'intérieur de ce monde. Lorsque le véhicule émet une commande de direction, le moteur synthétise une nouvelle trajectoire à travers le nuage de points, en fonction de la courbe de direction et de l'orientation et de la vitesse du véhicule.
Puis, le moteur utilise cette nouvelle trajectoire pour restituer une scène photoréaliste. Faire cela, il utilise un réseau de neurones convolutifs - couramment utilisé pour les tâches de traitement d'images - pour estimer une carte de profondeur, qui contient des informations relatives à la distance des objets du point de vue du contrôleur. Il combine ensuite la carte de profondeur avec une technique qui estime l'orientation de la caméra dans une scène en 3D. Tout cela aide à localiser l'emplacement du véhicule et la distance relative de tout dans le simulateur virtuel.
Sur la base de ces informations, il réoriente les pixels d'origine pour recréer une représentation en 3D du monde du nouveau point de vue du véhicule. Il suit également le mouvement des pixels pour capturer le mouvement des voitures et des personnes, et autres objets en mouvement, dans la scène. "Cela revient à doter le véhicule d'une infinité de trajectoires possibles, " dit Rus. " Parce que lorsque nous collectons des données physiques, nous obtenons des données de la trajectoire spécifique que la voiture suivra. Mais nous pouvons modifier cette trajectoire pour couvrir tous les modes et environnements de conduite possibles. C'est vraiment puissant."
Apprentissage par renforcement à partir de zéro
Traditionnellement, les chercheurs ont formé des véhicules autonomes soit en suivant des règles de conduite définies par l'homme, soit en essayant d'imiter les conducteurs humains. Mais les chercheurs font que leur contrôleur apprenne entièrement à partir de zéro dans un cadre "de bout en bout", ce qui signifie qu'il ne prend en entrée que les données brutes du capteur, telles que les observations visuelles de la route, et, à partir de ces données, prédit les commandes de direction aux sorties.
"Nous disons essentiellement, 'Voici un environnement. Tu peux faire ce que tu veux. Ne heurtez pas les véhicules, et restez dans les ruelles, '" dit Amini.
Cela nécessite un « apprentissage par renforcement » (RL), une technique d'apprentissage automatique par essais et erreurs qui fournit des signaux de retour chaque fois que la voiture fait une erreur. Dans le moteur de simulation des chercheurs, le contrôleur commence par ne rien savoir de la conduite, qu'est-ce qu'un marqueur de voie, ou même d'autres véhicules ressemblent, il commence donc à exécuter des angles de braquage aléatoires. Il reçoit un signal de retour uniquement lorsqu'il se bloque. À ce moment, il est téléporté vers un nouvel emplacement simulé et doit exécuter un meilleur ensemble d'angles de braquage pour éviter de s'écraser à nouveau. Plus de 10 à 15 heures de formation, il utilise ces signaux de rétroaction clairsemés pour apprendre à parcourir des distances de plus en plus grandes sans s'écraser.
Après avoir conduit avec succès 10, 000 kilomètres en simulation, les auteurs appliquent ce contrôleur appris sur leur véhicule autonome à grande échelle dans le monde réel. Les chercheurs affirment que c'est la première fois qu'un contrôleur formé à l'aide d'un apprentissage par renforcement de bout en bout en simulation est déployé avec succès sur une voiture autonome à grande échelle. "Cela nous a surpris. Non seulement le contrôleur n'a jamais été sur une vraie voiture auparavant, mais il n'a même jamais vu les routes auparavant et n'a aucune connaissance préalable de la conduite des humains, " dit Amini.
Forcer le contrôleur à parcourir tous les types de scénarios de conduite lui a permis de reprendre le contrôle à partir de positions de désorientation, comme être à moitié hors de la route ou dans une autre voie, et de revenir dans la bonne voie en quelques secondes. "Et d'autres contrôleurs de pointe ont tous tragiquement échoué à cela, parce qu'ils n'ont jamais vu de telles données en formation, " dit Amini.
Prochain, les chercheurs espèrent simuler tous les types de conditions routières à partir d'une seule trajectoire de conduite, comme la nuit et le jour, et temps ensoleillé et pluvieux. Ils espèrent également simuler des interactions plus complexes avec d'autres véhicules sur la route. « Et si d'autres voitures se mettent à bouger et sautent devant le véhicule ? » dit Rus. "Ce sont complexes, interactions du monde réel que nous voulons commencer à tester."