Martin Schrimpf. Crédit :Kris Brewer
Quand nous ouvrons les yeux le matin et que nous observons cette première scène de la journée, nous ne pensons pas beaucoup au fait que notre cerveau traite les objets dans notre champ de vision avec une grande efficacité et qu'il compense un manque d'informations sur notre environnement - tout cela afin de nous permettre de vaquer à nos occupations quotidiennes les fonctions. Le verre d'eau que vous avez laissé sur la table de chevet en vous préparant à vous coucher est maintenant partiellement bloqué dans votre champ de vision par votre réveil, pourtant vous savez que c'est un verre.
Cette capacité apparemment simple pour les humains de reconnaître des objets partiellement occlus - définis dans cette situation comme l'effet d'un objet dans un espace 3-D bloquant un autre objet de la vue - a été un problème compliqué pour la communauté de vision par ordinateur. Martin Schrimpf, un étudiant diplômé du laboratoire DiCarlo du Département des sciences du cerveau et des sciences cognitives du MIT, explique que les machines sont devenues de plus en plus aptes à reconnaître des articles entiers rapidement et en toute confiance, mais quand quelque chose couvre une partie de cet élément de la vue, cette tâche devient de plus en plus difficile pour les modèles de reconnaître avec précision l'article.
"Pour que les modèles de la vision par ordinateur fonctionnent dans la vie quotidienne, ils doivent être capables de digérer les objets occlus aussi bien que les objets entiers - après tout, quand tu regardes autour de toi, la plupart des objets sont partiellement cachés derrière un autre objet, " dit Schrimpf, co-auteur d'un article sur le sujet récemment publié dans le Actes de l'Académie nationale des sciences ( PNAS ).
Dans la nouvelle étude, il dit, "nous avons creusé dans les calculs sous-jacents dans le cerveau, puis utilisé nos découvertes pour construire des modèles informatiques. En récapitulant le traitement visuel dans le cerveau humain, nous espérons ainsi améliorer également les modèles en vision par ordinateur."
Comment, en tant qu'êtres humains, sommes-nous capables d'accomplir cette tâche quotidienne de manière répétée sans y consacrer beaucoup de réflexion et d'énergie, identifier des scènes entières rapidement et avec précision après avoir vu seulement des morceaux ? Les chercheurs de l'étude ont commencé avec le cortex visuel humain comme modèle pour améliorer les performances des machines dans ce contexte, dit Gabriel Kreiman, une filiale du MIT Center for Brains, Esprits, et Machines. Kreinman est professeur d'ophtalmologie au Boston Children's Hospital et à la Harvard Medical School et a été le principal chercheur de l'étude.
Dans leur papier, "Calculs récurrents pour l'achèvement du modèle visuel, " l'équipe a montré comment ils ont développé un modèle informatique, inspiré des contraintes physiologiques et anatomiques, qui a été capable de capturer les observations comportementales et neurophysiologiques lors de l'achèvement du modèle. À la fin, le modèle a fourni des informations utiles pour comprendre comment faire des inférences à partir d'informations minimales.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.