à gauche, Les chercheurs de l'U de T Wenjie Luo, Professeur agrégé Raquel Urtasun, et Bin Yang du Advanced Technologies Group (ATG) d'Uber à Toronto. Crédit :Ryan Perez
Un véhicule autonome doit détecter des objets, les suivre dans le temps, et prédire où ils seront dans le futur afin de planifier une manœuvre en toute sécurité. Ces tâches sont généralement entraînées indépendamment les unes des autres, ce qui pourrait entraîner des catastrophes en cas d'échec d'une tâche.
Des chercheurs du département d'informatique de l'Université de Toronto et de l'Advanced Technologies Group (ATG) d'Uber à Toronto ont développé un algorithme qui raisonne conjointement sur toutes ces tâches - le premier à les réunir toutes. Surtout, leur solution ne prend que 30 millisecondes par image.
"Nous essayons d'optimiser l'ensemble afin de pouvoir corriger les erreurs entre chacune des tâches elles-mêmes, " dit Wenjie Luo, un doctorat étudiant en informatique. « Lorsque c'est fait conjointement, l'incertitude peut être propagée et les calculs partagés."
Luo et Bin Yang, un doctorat étudiant en informatique, avec leur encadrant diplômé, Raquel Urtasun, professeur agrégé d'informatique et directeur d'Uber ATG Toronto, présentera son article, Fast and Furious :Détection 3D de bout en bout en temps réel, Suivi et prévision de mouvement avec un seul réseau convolutif, à la conférence Computer Vision and Pattern Recognition (CVPR) de cette semaine à Salt Lake City, le premier événement annuel de vision par ordinateur.
Commencer, Uber a collecté un ensemble de données à grande échelle de plusieurs villes nord-américaines à l'aide de scanners Li-DAR montés sur le toit qui émettent des faisceaux laser pour mesurer les distances. L'ensemble de données comprend plus d'un million de trames, collecté à partir de 6, 500 scènes différentes.
Urtasun dit que la sortie du LiDAR est un nuage de points dans un espace tridimensionnel qui doit être compris par un système d'intelligence artificielle (IA). Ces données sont de nature non structurée, et est donc considérablement différent des données structurées généralement introduites dans les systèmes d'IA, comme des images.
"Si la tâche détecte des objets, vous pouvez essayer de détecter des objets partout mais il y a trop d'espace libre, donc beaucoup de calculs sont faits pour rien. A vol d'oiseau, les objets que nous essayons de reconnaître reposent sur le sol et il est donc très efficace de raisonner sur l'endroit où se trouvent les choses, " dit Urtasun.
Pour traiter de grandes quantités de données non structurées, doctorat l'étudiant Shenlong Wang et des chercheurs d'Uber ATG ont développé un outil d'IA spécial.
"Une image est une grille 2D. Un modèle 3D est un ensemble de maillages 3D. Mais ici, ce que nous capturons [avec Li-DAR] n'est qu'un tas de points, et ils sont dispersés dans cet espace, ce qui pour l'IA traditionnelle est très difficile à gérer, " dit Wang (photo de gauche).
Urtasun explique qu'il y a une raison pour laquelle l'IA fonctionne très bien sur les images. Les images sont des objets rectangulaires, composé de minuscules pixels, aussi rectangulaire, les algorithmes fonctionnent donc bien sur l'analyse de structures en forme de grille. Mais les données LiDAR sont sans structure régulière, rendant difficile l'apprentissage des systèmes d'IA.
Leurs résultats pour le traitement direct des points dispersés ne se limitent pas à l'auto-conduite, mais tout domaine où il y a des données non structurées, y compris la chimie et les réseaux sociaux.
Neuf articles seront présentés au CVPR par le laboratoire d'Urtasun. Mengye Ren, un doctorat étudiant en informatique, Andreï Pokrovski, un ingénieur logiciel chez Uber ATG, Yang et Urtasun ont également recherché des calculs plus rapides et ont développé SBNet :Sparse Blocks Network for Fast Inference.
« Nous voulons que le réseau soit le plus rapide possible afin qu'il puisse détecter et prendre des décisions en temps réel, en fonction de la situation actuelle, " dit Ren. " Par exemple, les humains regardent certaines régions que nous jugeons importantes à percevoir, nous l'appliquons donc à la conduite autonome."
Pour augmenter la vitesse de l'ensemble du calcul, dit Ren, ils ont conçu un calcul clairsemé basé sur les régions importantes. Par conséquent, leur algorithme s'est avéré jusqu'à 10 fois plus rapide par rapport aux méthodes existantes.
"La voiture voit tout, mais il concentre la plupart de ses calculs sur ce qui est important, économiser le calcul, " dit Urtasun.
"Alors quand il y a beaucoup de voitures [sur la route], le calcul ne devient pas trop clairsemé, donc nous ne manquons aucun véhicule. Mais quand c'est rare, cela changera le calcul de manière adaptative, " dit Ren.
Les chercheurs ont publié le code SBNet car il est largement utile pour améliorer le traitement des petits appareils, y compris les smartphones.
Urtasun dit que l'impact global de la recherche de son groupe a considérablement augmenté lorsqu'ils ont vu leurs algorithmes mis en œuvre dans la flotte de conduite autonome d'Uber, plutôt que de résider uniquement dans des articles universitaires.
« Nous essayons de résoudre le problème de la conduite autonome, " dit Urtasun, "qui est l'un des problèmes fondamentaux de ce siècle."