Contrairement à la segmentation panoptique (au milieu), la segmentation panoptique amodale (en bas) prédit des instances d'objets entiers, y compris leurs régions occluses, par ex. voitures et personnes, de l'image d'entrée (en haut). Crédit :Berkeley DeepDrive; Abhinav Valada; Abhinav Valada
Comment les robots mobiles peuvent-ils percevoir et comprendre correctement l'environnement, même si des parties de l'environnement sont occultées par d'autres objets ? C'est une question clé qui doit être résolue pour que les véhicules autonomes puissent naviguer en toute sécurité dans les grandes villes surpeuplées. Alors que les humains peuvent imaginer des structures physiques complètes d'objets même lorsqu'ils sont partiellement occultés, les algorithmes d'intelligence artificielle (IA) existants qui permettent aux robots et aux véhicules autonomes de percevoir leur environnement n'ont pas cette capacité.
Les robots dotés d'IA peuvent déjà trouver leur chemin et naviguer par eux-mêmes une fois qu'ils ont appris à quoi ressemble leur environnement. Cependant, percevoir toute la structure des objets lorsqu'ils sont partiellement cachés, comme les personnes dans la foule ou les véhicules dans les embouteillages, a été un défi de taille. Une étape majeure vers la résolution de ce problème a maintenant été franchie par les chercheurs en robotique de Fribourg Prof. Dr. Abhinav Valada et Ph.D. l'étudiant Rohit Mohan du Robot Learning Lab de l'Université de Fribourg, qu'ils ont présenté dans deux publications conjointes.
Les deux scientifiques de Fribourg ont développé la tâche de segmentation panoptique amodale et démontré sa faisabilité en utilisant de nouvelles approches d'IA. Jusqu'à présent, les véhicules autonomes utilisaient la segmentation panoptique pour comprendre leur environnement.
Cela signifie qu'ils ne peuvent jusqu'à présent que prédire quels pixels d'une image appartiennent à quelles régions "visibles" d'un objet tel qu'une personne ou une voiture, et identifier les instances de ces objets. Ce qui leur manque jusqu'à présent, c'est de pouvoir également prédire la forme entière des objets même lorsqu'ils sont partiellement masqués par d'autres objets à côté d'eux. La nouvelle tâche de perception avec segmentation panoptique amodale rend possible cette compréhension holistique de l'environnement.
"Amodal" fait référence au cas où toute occlusion partielle d'objets doit être abstraite et au lieu de les visualiser comme des fragments, il devrait y avoir une compréhension générale de leur visualisation dans leur ensemble. Ainsi, cette capacité améliorée de reconnaissance visuelle conduira à d'énormes progrès dans l'amélioration de la sécurité des véhicules autonomes.
Potentiel de révolutionner la compréhension de la scène visuelle urbaine
Dans un nouvel article publié à la IEEE/CVF Computer Vision and Pattern Recognition Conference (disponible en ligne sous forme de préimpression), les chercheurs ont ajouté la nouvelle tâche aux ensembles de données de référence établis et les ont rendus accessibles au public. Ils appellent maintenant les scientifiques à participer au benchmarking avec leurs propres algorithmes d'IA.
L'objectif de cette tâche est la segmentation sémantique pixel par pixel des régions visibles des classes d'arrière-plan amorphes telles que les routes, la végétation, le ciel et la segmentation d'instance des régions d'objets visibles et occlus des classes dénombrables telles que les voitures, les camions et piétons.
Le benchmark et les ensembles de données sont accessibles au public sur le site Web, y compris deux nouveaux algorithmes d'apprentissage proposés. "Nous sommes convaincus que de nouveaux algorithmes d'IA pour cette tâche permettront aux robots d'imiter l'expérience visuelle que les humains ont en percevant des structures physiques complètes d'objets", explique Valada.
"La segmentation panoptique amodale aidera de manière significative les tâches de conduite automatisée en aval où l'occlusion est un défi majeur, telles que l'estimation de la profondeur, le flux optique, le suivi d'objets, l'estimation de pose, la prédiction de mouvement, etc. Avec des algorithmes d'IA plus avancés pour cette tâche, la capacité de reconnaissance visuelle pour soi -la conduite automobile peut être révolutionnée. Par exemple, si toute la structure des usagers de la route est perçue à tout moment, indépendamment des occlusions partielles, le risque d'accident peut être considérablement réduit."
De plus, en déduisant l'ordre de profondeur relative des objets dans une scène, les véhicules automatisés peuvent prendre des décisions complexes telles que la direction dans laquelle se déplacer vers l'objet pour obtenir une vue plus claire. Afin de concrétiser ces visions, la tâche et ses avantages ont été présentés aux principaux professionnels de l'industrie automobile lors d'AutoSens, qui s'est tenu au Musée Autoworld à Bruxelles.
L'autre article apparaît dans IEEE Robotics and Automation Letters . Une nouvelle méthode permet à la vision robotique d'identifier les objets occultés