Crédit :Linköping Universitet
Hannes Ovrén montre dans sa thèse de doctorat en vision par ordinateur à l'Université de Linköping comment créer des modèles 3D à partir de films vidéo enregistrés avec de simples caméras montées sur le corps ou sur un robot. La recherche ouvre de nouvelles possibilités pour les robots et les humains, notamment pour la police et les services de secours.
La recherche en vision par ordinateur a une importance majeure pour l'avenir de l'intelligence artificielle :les systèmes autonomes reposent sur la capacité des robots et d'autres systèmes à s'orienter et à découvrir des objets et des personnes.
La contribution de Hannes Ovrén montre comment créer un modèle 3D de l'environnement, basé sur des films vidéo pris avec une caméra embarquée peu coûteuse. Le modèle reproduit l'échelle avec précision, permettant de faire des mesures.
"Actuellement, voir les robots se déplacer assez prudemment, afin de savoir où ils se trouvent. Dans certains cas, ils peuvent même devoir s'arrêter pour déterminer leur emplacement. Cette technologie permet aux robots de se déplacer plus librement et de construire un modèle de l'environnement tout en se déplaçant, " dit Per-Erik Forssén, professeur au Computer Vision Laboratory, et le superviseur principal de Hannes Ovrén.
D'autres domaines d'utilisation peuvent être trouvés dans, par exemple, travail de police ou travail de sauvetage, où le personnel avec une caméra embarquée peut recréer une scène de crime ou un lieu d'accident en trois dimensions, avec des personnes et des objets à l'endroit exact qu'ils avaient au moment où la photographie a été prise.
Le problème avec la création de modèles 3D à partir de simples caméras vidéo était jusqu'à présent que la caméra doit être fixe, de préférence monté sur un trépied. Si la caméra bouge, les objets droits peuvent sembler incurvés dans l'image, ou semblent être à des hauteurs différentes. Les objets vacillent, et une image déformée est obtenue. En effet, les appareils photo bon marché ont un type d'obturateur appelé obturateur "roulant", qui construit l'image en pixels ligne par ligne. Les smartphones ont ce type de caméra.
"Chaque cadre d'image contient du mouvement, mais il est possible d'améliorer considérablement l'image en modélisant le déplacement de la caméra et en compensant le mouvement, " dit Hannes Ovrén.
Pour éviter que les calculs ne deviennent trop exigeants, sa méthode crée une courbe, connu sous le nom de "spline, " qui décrit comment la caméra s'est déplacée. Cette courbe est construite à partir de nœuds de spline, où chaque nœud contrôle l'apparence de la courbe à un certain moment. Si les nœuds sont placés plus densément, la méthode peut traiter des mouvements plus complexes, mais les calculs deviennent plus exigeants.
Hannes Ovrén montre dans la thèse qu'il est possible d'utiliser nettement moins de nœuds lorsque l'on modélise les erreurs dues au redressement et au lissage de la courbe. Afin d'éviter que les erreurs ne deviennent trop importantes, la méthode utilise également une unité de mesure inertielle attachée à la caméra. Il s'agit d'un petit capteur bon marché qui suit l'accélération, vitesse angulaire et orientation par rapport au sol.
Création d'un modèle 3D. Crédit :Hannes Ovrén
"Les mesures du capteur sont incluses dans les calculs et nous pouvons ainsi augmenter la distance entre les nœuds, réduire la taille des calculs, " dit Hannes Ovrén.
La simplification signifie que le mouvement de la caméra et la courbe spline ne sont pas exactement les mêmes. C'est possible, cependant, pour déterminer comment la différence de chemin affecte l'ampleur des erreurs de mesure, et ainsi augmenter la fiabilité du modèle 3D et les distances qu'il contient.