Les scientifiques ont développé une nouvelle façon d'améliorer la façon dont les ordinateurs « voient » et « comprennent » les objets dans le monde réel en entraînant les systèmes visuels des ordinateurs dans un environnement virtuel.
L'équipe de recherche a publié ses conclusions dans Journal IEEE/CAA d'Autmatica Sinica , une publication conjointe de l'IEEE et de l'Association chinoise de l'automatisation.
Pour que les ordinateurs apprennent et reconnaissent avec précision des objets tels que des bâtiments, des rues ou des humains, les machines doivent s'appuyer sur le traitement d'une énorme quantité de données étiquetées, dans ce cas, images d'objets avec des annotations précises. Une voiture autonome, par exemple, a besoin de milliers d'images de routes et de voitures pour apprendre. Les ensembles de données jouent donc un rôle crucial dans la formation et les tests des systèmes de vision par ordinateur. En utilisant des ensembles de données d'entraînement étiquetés manuellement, un système de vision par ordinateur compare sa situation actuelle à des situations connues et prend les meilleures mesures, quoi que ce soit.
"Toutefois, collecter et annoter des images du monde réel est trop exigeant en termes d'investissements en travail et en argent, " écrit le premier auteur Kunfeng Wang, professeur agrégé au State Key Laboratory de Chine pour la gestion et le contrôle des systèmes complexes. Wang dit que l'objectif de leur recherche est de surmonter les limites des ensembles de données d'images du monde réel, insuffisantes pour former et tester les systèmes de vision par ordinateur.
Pour résoudre ce problème, Wang et ses collègues ont créé un ensemble de données appelé ParallelEye. ParallelEye a été généré virtuellement en utilisant un logiciel informatique disponible dans le commerce, spécifiquement le moteur de jeu vidéo Unity3D. En utilisant une carte de Zhongguancun, l'une des zones urbaines les plus fréquentées de Pékin, Chine, comme référence, ils ont recréé virtuellement le cadre urbain en ajoutant des bâtiments, voitures et même les conditions météorologiques. Ensuite, ils ont placé une "caméra" virtuelle sur une voiture virtuelle. La voiture a fait le tour du Zhongguancun virtuel et a créé des ensembles de données représentatifs du monde réel.
Par leur "contrôle complet" de l'environnement virtuel, L'équipe de Wang a pu créer des données utilisables extrêmement spécifiques pour leur système de détection d'objets, un véhicule autonome simulé. Les résultats étaient impressionnants, produisant une augmentation marquée des performances sur presque toutes les métriques testées. En concevant des jeux de données sur mesure, une plus grande variété de systèmes autonomes sera plus pratique à former.
Alors que leurs plus grandes augmentations de performances provenaient de l'intégration des ensembles de données ParallelEye avec des ensembles de données du monde réel, L'équipe de Wang a démontré que leur méthode est capable de créer facilement divers ensembles d'images. "En utilisant le cadre de vision ParallelEye, des images massives et diversifiées peuvent être synthétisées de manière flexible, et cela peut aider à construire des systèmes de vision par ordinateur plus robustes, " dit Wang. L'approche proposée par l'équipe de recherche peut être appliquée à de nombreux scénarios d'informatique visuelle, y compris la surveillance visuelle, traitement d'images médicales, et la biométrie.
Prochain, l'équipe créera un ensemble encore plus grand d'images virtuelles, améliorer le réalisme des images virtuelles, et explorez l'utilité des images virtuelles pour d'autres tâches de vision par ordinateur. Wang dit, "Notre objectif ultime est de construire une théorie systématique de la vision parallèle capable de former, test, comprendre et optimiser les modèles de vision par ordinateur avec des images virtuelles et faire en sorte que les modèles fonctionnent bien dans des scènes complexes."