Crédit :CC0 Domaine public
Si vous pouvez reconnaître des structures autour de vous en marchant dans une rue de la ville, vous avez vos yeux à remercier. Les humains peuvent percevoir automatiquement la structure 3-D dans le monde en identifiant les lignes, formes, les symétries et les modèles et relations entre eux dans des choses comme les bâtiments, trottoirs et objets du quotidien. Mais peut-on apprendre à un ordinateur à faire de même ?
Zihan Zhou, professeur adjoint de sciences et technologies de l'information à Penn State, se propose d'explorer cette question grâce à une récente subvention de la National Science Foundation.
"Nous voulons qu'un ordinateur voit l'espace en 3D comme le font les humains, " a déclaré Zhou. " Ce prix et ce projet en particulier concernent la perception de la structure, qui a été largement ignoré dans la vision 3-D. C'est quelque chose qui n'a jamais été fait auparavant."
La perception de la structure est la capacité des yeux humains à organiser des données ou des modèles et à les regrouper d'une certaine manière. Par exemple, un humain peut regarder un dessin au trait d'un bâtiment et visualiser des portes, fenêtres et murs.
"Il existe de nombreux types de ces relations dans le monde réel, et les humains utilisent ces relations pour ressentir l'espace 3-D, " dit-il. " Les yeux humains peuvent facilement percevoir ce genre de choses. La question est maintenant :l'ordinateur peut-il avoir la capacité de détecter ces choses comme le fait un humain ?"
Pour répondre à cette question, Zhou prévoit de développer un nouveau framework basé sur les données pour la découverte de structures, tirer parti de la disponibilité de données visuelles massives et des progrès récents des techniques d'apprentissage automatique.
Ces techniques pourraient ensuite être appliquées à un large éventail de problèmes de vision par ordinateur du monde réel, dont la modélisation 3D des environnements urbains, réalité virtuelle et augmentée, et la conduite autonome. La recherche pourrait également avoir un impact sur les sciences cognitives, en suggérant de nouveaux mécanismes de calcul pour la compréhension des images ; et interaction homme-robot, en permettant aux robots de raisonner en termes de forme géométrique, physique et dynamique.
"Si un robot reconnaît quelque chose comme un type de structure spécifique, alors il sait comment interagir avec lui, " dit Zhou. " Par exemple, si un robot est capable de reconnaître une structure à sommet plat, il saurait qu'il pourrait mettre un objet comme une tasse dessus."
En outre, le cadre peut impacter le travail des architectes, concepteurs et ingénieurs.
« Si vous pensez à ces architectes, ils travaillent tous les jours avec des modèles 3D, " dit Zhou. " S'ils construisent quelque chose, ils créent d'abord des dessins au trait. Donc, si un ordinateur peut comprendre les portes et les fenêtres dans les dessins, ce serait très utile pour la conception architecturale et l'ingénierie."
Zhou a développé un intérêt pour ce sujet alors qu'il était stagiaire chez Adobe. Dans son stage, il a étudié la relation entre le mouvement de la caméra et l'environnement, ce qui pourrait aider l'industrie cinématographique à analyser des scènes.
"J'ai essayé d'extraire des sortes de structures des vidéos et de la séquence de la caméra, " A-t-il dit. " A ce moment-là, il s'agissait d'analyser la trajectoire de la caméra pour l'industrie du cinéma, mais plus tard, nous avons réalisé que c'était plus systématique."
Maintenant, à Penn State, Zhou espère tirer parti du réseau interdisciplinaire pour faire avancer son travail.
"IST a des gens qui travaillent dans divers domaines, et beaucoup d'entre eux peuvent être impactés par ce genre de travail, " at-il dit. " Cela a généré beaucoup d'intérêt dans différents domaines. Nous cherchons à étendre cela au-delà et à trouver des applications pour rendre cela plus collaboratif. »
"Environ 70 pour cent des informations que nous obtenons proviennent de repères visuels de nos yeux, " a-t-il conclu. " De toute évidence, nous avons des domaines comme le traitement du langage naturel pour aider à comprendre la parole et les sons, mais la vision humaine est le facteur dominant dans la façon dont nous comprenons ce monde. Faire en sorte que l'ordinateur voit le monde comme nous le faisons est l'un des domaines les plus passionnants de l'intelligence artificielle et de l'informatique."