• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Un modèle informatique de traitement du visage pourrait révéler comment le cerveau produit si rapidement des représentations visuelles richement détaillées

    Les chercheurs en sciences cognitives du MIT ont développé un modèle informatique de reconnaissance faciale qui effectue une série de calculs qui inversent les étapes qu'un programme d'infographie utiliserait pour générer une représentation 2D d'un visage. Les chercheurs en sciences cognitives du MIT ont développé un modèle informatique de reconnaissance faciale qui effectue une série de calculs qui inversent les étapes qu'un programme d'infographie utiliserait pour générer une représentation 2D d'un visage. Crédit :MIT

    Quand on ouvre les yeux, nous voyons immédiatement notre environnement dans les moindres détails. Comment le cerveau est capable de former si rapidement ces représentations richement détaillées du monde est l'une des plus grandes énigmes non résolues dans l'étude de la vision.

    Les scientifiques qui étudient le cerveau ont tenté de reproduire ce phénomène en utilisant des modèles informatiques de vision, mais si loin, les modèles principaux n'effectuent que des tâches beaucoup plus simples, telles que la sélection d'un objet ou d'un visage sur un arrière-plan encombré. Maintenant, une équipe dirigée par des scientifiques du MIT a produit un modèle informatique qui capture la capacité du système visuel humain à générer rapidement une description détaillée de la scène à partir d'une image, et offre un aperçu de la façon dont le cerveau y parvient.

    "Ce que nous avons essayé de faire dans ce travail, c'est d'expliquer comment la perception peut être tellement plus riche que de simplement attacher des étiquettes sémantiques sur des parties d'une image, et d'explorer la question de savoir comment voyons-nous tout le monde physique, " dit Josh Tenenbaum, professeur de sciences cognitives computationnelles et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT et du Center for Brains, Esprits, et machines (CBMM).

    Le nouveau modèle postule que lorsque le cerveau reçoit une entrée visuelle, il effectue rapidement une série de calculs qui inversent les étapes qu'un programme d'infographie utiliserait pour générer une représentation 2-D d'un visage ou d'un autre objet. Ce type de modèle, connu sous le nom de graphiques inverses efficaces (EIG), est également bien corrélé avec les enregistrements électriques des régions sélectives du visage dans le cerveau des primates non humains, suggérant que le système visuel des primates peut être organisé de la même manière que le modèle informatique, disent les chercheurs.

    Ilker Yildirim, un ancien post-doctorant du MIT qui est maintenant professeur adjoint de psychologie à l'Université de Yale, est l'auteur principal de l'article, qui apparaît aujourd'hui dans Avancées scientifiques . Tenenbaum et Winrich Freiwald, professeur de neurosciences et du comportement à l'Université Rockefeller, sont les auteurs principaux de l'étude. Mario Belledonne, un étudiant diplômé à Yale, est aussi auteur.

    Graphiques inversés

    Des décennies de recherche sur le système visuel du cerveau ont étudié, en détail, comment l'entrée de lumière sur la rétine est transformée en scènes cohérentes. Cette compréhension a aidé les chercheurs en intelligence artificielle à développer des modèles informatiques capables de reproduire des aspects de ce système, comme la reconnaissance de visages ou d'autres objets.

    "La vision est l'aspect fonctionnel du cerveau que nous comprenons le mieux, chez l'homme et les autres animaux, " Tenenbaum dit. " Et la vision par ordinateur est l'un des domaines les plus réussis de l'IA à ce stade. Nous tenons pour acquis que les machines peuvent désormais très bien regarder les images et reconnaître les visages, et détecter d'autres types d'objets."

    Cependant, même ces systèmes d'intelligence artificielle sophistiqués ne se rapprochent pas de ce que le système visuel humain peut faire, dit Yildirim.

    "Notre cerveau ne détecte pas seulement qu'il y a un objet là-bas, ou reconnaître et mettre une étiquette sur quelque chose, " dit-il. " Nous voyons toutes les formes, la géométrie, les superficies, les textures. Nous voyons un monde très riche."

    Il y a plus d'un siècle, le physicien, physicien, et le philosophe Hermann von Helmholtz a émis l'hypothèse que le cerveau crée ces riches représentations en inversant le processus de formation des images. Il a émis l'hypothèse que le système visuel comprend un générateur d'images qui serait utilisé, par exemple, produire les visages que nous voyons pendant les rêves. Faire fonctionner ce générateur à l'envers permettrait au cerveau de travailler en arrière à partir de l'image et de déduire quel type de visage ou d'autre objet produirait cette image, disent les chercheurs.

    Cependant, la question restait :comment le cerveau a-t-il pu effectuer ce processus, connu sous le nom de graphiques inversés, tellement rapidement? Les informaticiens ont essayé de créer des algorithmes qui pourraient réaliser cet exploit, mais les meilleurs systèmes précédents nécessitent de nombreux cycles de traitement itératif, cela prend beaucoup plus de temps que les 100 à 200 millisecondes dont le cerveau a besoin pour créer une représentation visuelle détaillée de ce que vous voyez. Les neuroscientifiques pensent que la perception dans le cerveau peut se dérouler si rapidement car elle est mise en œuvre dans une passe principalement anticipée à travers plusieurs couches de traitement neuronal organisées hiérarchiquement.

    L'équipe dirigée par le MIT a entrepris de créer un type spécial de modèle de réseau de neurones profonds pour montrer comment une hiérarchie de neurones peut rapidement déduire les caractéristiques sous-jacentes d'une scène - dans ce cas, un visage particulier. Contrairement aux réseaux de neurones profonds standard utilisés dans la vision par ordinateur, qui sont entraînés à partir de données étiquetées indiquant la classe d'un objet dans l'image, le réseau de chercheurs est formé à partir d'un modèle qui reflète les représentations internes du cerveau de ce à quoi peuvent ressembler des scènes avec des visages.

    Leur modèle apprend ainsi à inverser les étapes effectuées par un programme d'infographie pour générer des visages. Ces programmes graphiques commencent par une représentation tridimensionnelle d'un visage individuel, puis le convertissent en une image bidimensionnelle, vu d'un point de vue particulier. Ces images peuvent être placées sur une image de fond arbitraire. Les chercheurs pensent que le système visuel du cerveau peut faire quelque chose de similaire lorsque vous rêvez ou évoquez une image mentale du visage de quelqu'un.

    Les chercheurs ont entraîné leur réseau de neurones profonds à effectuer ces étapes en sens inverse, c'est-à-dire il commence par l'image 2D et ajoute ensuite des fonctionnalités telles que la texture, courbure, et éclairage, pour créer ce que les chercheurs appellent une représentation "2.5D". Ces images 2.5D spécifient la forme et la couleur du visage d'un point de vue particulier. Ceux-ci sont ensuite convertis en représentations 3D, qui ne dépendent pas du point de vue.

    "Le modèle donne un compte rendu au niveau du système du traitement des visages dans le cerveau, lui permettant de voir une image et finalement d'arriver à un objet 3D, qui comprend des représentations de forme et de texture, à travers cette étape intermédiaire importante d'une image 2.5D, " dit Yildirim.

    Performances du modèle

    Les chercheurs ont découvert que leur modèle est cohérent avec les données obtenues en étudiant certaines régions du cerveau des singes macaques. Dans une étude publiée en 2010, Freiwald et Doris Tsao de Caltech ont enregistré l'activité des neurones dans ces régions et analysé leur réaction à 25 visages différents, vu de sept points de vue différents. Cette étude a révélé trois étapes de traitement du visage de niveau supérieur, que l'équipe du MIT suppose maintenant qu'ils correspondent à trois étapes de leur modèle graphique inverse :grosso modo, une scène dépendant du point de vue 2.5D ; une étape qui fait le pont entre la 2,5 et la 3D ; et un 3-D, étape invariante du point de vue de la représentation du visage.

    "Ce que nous montrons, c'est que les propriétés de réponse quantitatives et qualitatives de ces trois niveaux du cerveau semblent s'accorder remarquablement bien avec les trois premiers niveaux du réseau que nous avons construit, " dit Tenenbaum.

    Les chercheurs ont également comparé les performances du modèle à celles des humains dans une tâche qui consiste à reconnaître des visages sous différents points de vue. Cette tâche devient plus difficile lorsque les chercheurs modifient les visages en supprimant la texture du visage tout en préservant sa forme, ou déformer la forme tout en préservant la texture relative. Les performances du nouveau modèle étaient beaucoup plus similaires à celles des humains que les modèles informatiques utilisés dans les logiciels de reconnaissance faciale de pointe, des preuves supplémentaires que ce modèle peut être plus proche de l'imitation de ce qui se passe dans le système visuel humain.

    Les chercheurs prévoient maintenant de continuer à tester l'approche de modélisation sur des images supplémentaires, y compris les objets qui ne sont pas des visages, pour étudier si les graphiques inversés pourraient également expliquer comment le cerveau perçoit d'autres types de scènes. En outre, ils pensent que l'adaptation de cette approche à la vision par ordinateur pourrait conduire à des systèmes d'IA plus performants.

    "Si nous pouvons prouver que ces modèles pourraient correspondre au fonctionnement du cerveau, ce travail pourrait amener les chercheurs en vision par ordinateur à prendre plus au sérieux et à investir plus de ressources d'ingénierie dans cette approche graphique inverse de la perception, " Tenenbaum dit. " Le cerveau est toujours l'étalon-or pour tout type de machine qui voit le monde richement et rapidement. "


    © Science https://fr.scienceaq.com