Crédit :CC0 Domaine public
Quand ta mère appelle ton nom, tu sais que c'est sa voix, peu importe le volume, même sur une mauvaise connexion de téléphone portable. Et quand tu vois son visage, tu sais que c'est la sienne - si elle est loin, si l'éclairage est faible, ou si vous êtes sur un mauvais appel FaceTime. Cette robustesse à la variation est une caractéristique de la perception humaine. D'autre part, nous sommes sensibles aux illusions :nous pourrions ne pas distinguer les sons ou les images qui sont, En réalité, différent. Les scientifiques ont expliqué nombre de ces illusions, mais nous manquons d'une compréhension complète des invariances dans nos systèmes auditifs et visuels.
Les réseaux de neurones profonds ont également effectué des tâches de reconnaissance vocale et de classification d'images avec une robustesse impressionnante aux variations des stimuli auditifs ou visuels. Mais les invariances apprises par ces modèles sont-elles similaires aux invariances apprises par les systèmes perceptifs humains ? Un groupe de chercheurs du MIT a découvert qu'ils sont différents. Ils ont présenté leurs résultats hier lors de la conférence 2019 sur les systèmes de traitement de l'information neuronale.
Les chercheurs ont fait une nouvelle généralisation d'un concept classique :les « métamères », des stimuli physiquement distincts qui génèrent le même effet perceptuel. Les exemples les plus célèbres de stimuli métamères surviennent parce que la plupart des gens ont trois types différents de cônes dans leur rétine, qui sont responsables de la vision des couleurs. La couleur perçue de n'importe quelle longueur d'onde de lumière peut correspondre exactement à une combinaison particulière de trois lumières de couleurs différentes, par exemple, rouge, vert, et les lumières bleues. Les scientifiques du XIXe siècle ont déduit de cette observation que les humains ont trois types différents de détecteurs de lumière vive dans nos yeux. C'est la base des écrans couleur électroniques sur tous les écrans que nous regardons tous les jours. Un autre exemple dans le système visuel est que lorsque nous fixons notre regard sur un objet, nous pouvons percevoir des scènes visuelles environnantes qui diffèrent à la périphérie comme identiques. Dans le domaine auditif, quelque chose d'analogue peut être observé. Par exemple, le son "textural" de deux essaims d'insectes pourrait être indiscernable, malgré des différences dans les détails acoustiques qui les composent, car ils ont des propriétés statistiques agrégées similaires. Dans chaque cas, les métamères donnent un aperçu des mécanismes de la perception, et contraindre les modèles des systèmes visuels ou auditifs humains.
Dans les travaux en cours, les chercheurs ont choisi au hasard des images naturelles et des extraits sonores de mots prononcés à partir de bases de données standard, puis synthétisé des sons et des images afin que les réseaux de neurones profonds les classent dans les mêmes classes que leurs homologues naturels. C'est-à-dire, ils ont généré des stimuli physiquement distincts qui sont classés à l'identique par des modèles, plutôt que par les humains. C'est une nouvelle façon de penser aux métamères, généraliser le concept pour troquer le rôle des modèles informatiques pour les percepteurs humains. Ils ont donc appelé ces stimuli synthétisés « métamères modèles » des stimuli naturels appariés. Les chercheurs ont ensuite testé si les humains pouvaient identifier les mots et les images.
« Les participants ont entendu un court segment de discours et ont dû identifier à partir d'une liste de mots quel mot se trouvait au milieu du clip. Pour l'audio naturel, cette tâche est facile, mais pour beaucoup de métamères modèles, les humains ont eu du mal à reconnaître le son, " explique la première auteur Jenelle Feather, un étudiant diplômé du département des sciences du cerveau et de la cognition (BCS) du MIT et membre du Center for Brains, Esprits, et machines (CBMM). C'est-à-dire, les humains ne mettraient pas les stimuli synthétiques dans la même classe que le mot parlé "oiseau" ou l'image d'un oiseau. En réalité, Les métamères du modèle générés pour correspondre aux réponses des couches les plus profondes du modèle étaient généralement méconnaissables en tant que mots ou images par les sujets humains.
Josh McDermott, professeur agrégé en BCS et chercheur en CBMM, fait le cas suivant :« La logique de base est que si nous avons un bon modèle de perception humaine, dire de la reconnaissance vocale, puis si nous choisissons deux sons qui, selon le modèle, sont identiques et présentons ces deux sons à un auditeur humain, cet humain devrait également dire que les deux sons sont les mêmes. Si l'auditeur humain perçoit plutôt les stimuli comme différents, c'est une indication claire que les représentations dans notre modèle ne correspondent pas à celles de la perception humaine."
Rejoindre Feather et McDermott sur le papier sont Alex Durango, un étudiant post-bac, et Ray Gonzalez, un assistant de recherche, les deux en BCS.
Il existe un autre type d'échec des réseaux profonds qui a beaucoup retenu l'attention des médias :les exemples contradictoires (voir, par exemple, « Pourquoi mon classificateur a-t-il simplement confondu une tortue avec un fusil ? »). Ce sont des stimuli qui semblent similaires aux humains mais qui sont mal classés par un réseau modèle (de par leur conception, ils sont construits pour être mal classés). Ils sont complémentaires aux stimuli générés par le groupe de Feather, qui sonnent ou semblent différents pour les humains mais sont conçus pour être co-classés par le réseau modèle. Les vulnérabilités des réseaux modèles exposés à des attaques adverses sont bien connues :les logiciels de reconnaissance faciale peuvent se tromper d'identité; les véhicules automatisés pourraient ne pas reconnaître les piétons.
L'importance de ce travail réside dans l'amélioration des modèles de perception au-delà des réseaux profonds. Bien que les exemples contradictoires standard indiquent des différences entre les réseaux profonds et les systèmes perceptifs humains, les nouveaux stimuli générés par le groupe McDermott représentent sans doute un échec du modèle plus fondamental - ils montrent que des exemples génériques de stimuli classés comme identiques par un réseau profond produisent des perceptions très différentes pour les humains.
L'équipe a également trouvé des moyens de modifier les réseaux modèles pour produire des métamères qui étaient des sons et des images plus plausibles pour les humains. Comme le dit McDermott, "Cela nous donne l'espoir que nous pourrons éventuellement développer des modèles qui réussissent le test du métamère et qui capturent mieux les invariances humaines."
"Les métamères modèles démontrent un échec significatif des réseaux neuronaux actuels pour correspondre aux invariances dans les systèmes visuels et auditifs humains, " dit Plume, "Nous espérons que ce travail fournira un bâton de mesure comportemental utile pour améliorer les représentations des modèles et créer de meilleurs modèles de systèmes sensoriels humains."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.