Les chercheurs du MIT Media Lab ont développé un modèle d'apprentissage automatique qui rapproche les ordinateurs de l'interprétation de nos émotions aussi naturellement que les humains. Le modèle capture mieux les variations subtiles de l'expression faciale pour mieux évaluer les humeurs. En utilisant des données d'entraînement supplémentaires, le modèle peut également être adapté à un tout nouveau groupe de personnes, avec la même efficacité. Crédit :Massachusetts Institute of Technology
Les chercheurs du MIT Media Lab ont développé un modèle d'apprentissage automatique qui rapproche les ordinateurs de l'interprétation de nos émotions aussi naturellement que les humains.
Dans le domaine en pleine croissance de « l'informatique affective, " des robots et des ordinateurs sont développés pour analyser les expressions faciales, interpréter nos émotions, et répondre en conséquence. Les applications comprennent, par exemple, surveiller la santé et le bien-être d'un individu, évaluer l'intérêt des élèves pour les salles de classe, aider à diagnostiquer les signes de certaines maladies, et développer des robots compagnons utiles.
Un défi, cependant, est-ce que les gens expriment leurs émotions de manière assez différente, en fonction de nombreux facteurs. Des différences générales peuvent être observées entre les cultures, genres, et groupes d'âge. Mais d'autres différences sont encore plus fines :l'heure de la journée, combien tu as dormi, ou encore votre niveau de familiarité avec un interlocuteur entraîne de subtiles variations dans votre façon d'exprimer, dire, bonheur ou tristesse à un moment donné.
Les cerveaux humains attrapent instinctivement ces déviations, mais les machines luttent. Des techniques d'apprentissage en profondeur ont été développées ces dernières années pour aider à saisir les subtilités, mais ils ne sont toujours pas aussi précis ou adaptables à différentes populations qu'ils pourraient l'être.
Les chercheurs du Media Lab ont développé un modèle d'apprentissage automatique qui surpasse les systèmes traditionnels pour capturer ces petites variations d'expression faciale, pour mieux évaluer l'humeur tout en s'entraînant sur des milliers d'images de visages. De plus, en utilisant un peu de données d'entraînement supplémentaires, le modèle peut être adapté à un tout nouveau groupe de personnes, avec la même efficacité. L'objectif est d'améliorer les technologies d'informatique affective existantes.
"C'est un moyen discret de surveiller nos humeurs, " dit Oggi Rudovic, un chercheur du Media Lab et co-auteur d'un article décrivant le modèle, qui a été présenté la semaine dernière à la Conférence sur l'apprentissage automatique et l'exploration de données. "Si vous voulez des robots dotés d'intelligence sociale, il faut les faire réagir intelligemment et naturellement à nos humeurs et émotions, plus comme des humains."
Les co-auteurs de l'article sont :le premier auteur Michael Feffer, un étudiant de premier cycle en génie électrique et informatique; et Rosalind Picard, professeur d'arts et sciences médiatiques et directeur fondateur du groupe de recherche Affective Computing.
Experts personnalisés
Les modèles traditionnels d'informatique affective utilisent un concept « taille unique ». Ils s'entraînent sur un ensemble d'images représentant diverses expressions faciales, optimiser les fonctionnalités, telles que la façon dont une lèvre se courbe en souriant, et mapper ces optimisations de fonctionnalités générales sur un ensemble complet de nouvelles images.
Les chercheurs, au lieu, combiné une technique, appelé « mélange d'experts » (MoE), avec les techniques de personnalisation des modèles, ce qui a aidé à extraire des données d'expression faciale plus fines auprès d'individus. C'est la première fois que ces deux techniques sont combinées pour l'informatique affective, dit Rudovic.
Dans les MoE, un certain nombre de modèles de réseaux de neurones, appelés « experts, " sont chacun formés pour se spécialiser dans une tâche de traitement distincte et produire une sortie. Les chercheurs ont également incorporé un "réseau de portes, " qui calcule les probabilités de quel expert détectera le mieux les humeurs de sujets invisibles. " Fondamentalement, le réseau peut discerner entre les individus et dire, 'C'est le bon expert pour l'image donnée, '", dit Feffer.
Pour leur modèle, les chercheurs ont personnalisé les MoE en faisant correspondre chaque expert à l'un des 18 enregistrements vidéo individuels de la base de données RECOLA, une base de données publique de personnes conversant sur une plate-forme de chat vidéo conçue pour des applications informatiques affectives. Ils ont entraîné le modèle sur neuf sujets et les ont évalués sur les neuf autres, avec toutes les vidéos décomposées en images individuelles.
Chaque expert, et le réseau de portes, suivi des expressions faciales de chaque individu, à l'aide d'un réseau résiduel ("ResNet"), un réseau de neurones utilisé pour la classification des objets. Ce faisant, le modèle a évalué chaque image en fonction du niveau de valence (agréable ou désagréable) et d'excitation (excitation) - des mesures couramment utilisées pour coder différents états émotionnels. Séparément, six experts humains ont étiqueté chaque cadre pour la valence et l'excitation, basé sur une échelle de -1 (niveaux bas) à 1 (niveaux élevés), que le modèle a également utilisé pour former.
Les chercheurs ont ensuite effectué une personnalisation supplémentaire du modèle, où ils ont alimenté les données du modèle entraîné à partir de certaines images des vidéos restantes des sujets, puis testé le modèle sur toutes les images invisibles de ces vidéos. Les résultats ont montré que, avec seulement 5 à 10 % des données de la nouvelle population, le modèle a largement surpassé les modèles traditionnels, ce qui signifie qu'il a marqué la valence et l'excitation sur des images invisibles beaucoup plus proches des interprétations des experts humains.
Cela montre le potentiel des modèles à s'adapter de population à population, ou d'individu à individu, avec très peu de données, dit Rudovic. "C'est la clé, " dit-il. " Quand vous avez une nouvelle population, vous devez avoir un moyen de tenir compte du déplacement de la distribution des données [variations faciales subtiles]. Imaginez un ensemble de modèles pour analyser les expressions faciales dans une culture qui doit être adapté à une culture différente. Sans tenir compte de ce décalage de données, ces modèles seront sous-performants. Mais si vous venez d'échantillonner un peu d'une nouvelle culture pour adapter notre modèle, ces modèles peuvent faire beaucoup mieux, surtout au niveau individuel. C'est là que l'importance de la personnalisation du modèle peut le mieux être vue."
Les données actuellement disponibles pour une telle recherche en informatique affective ne sont pas très diverses en termes de couleurs de peau, les données de formation des chercheurs étaient donc limitées. Mais lorsque ces données deviennent disponibles, le modèle peut être formé pour être utilisé sur des populations plus diverses. L'étape suivante, Feffer dit, est de former le modèle sur « un ensemble de données beaucoup plus vaste avec des cultures plus diverses ».
Meilleures interactions machine-humain
Un autre objectif est de former le modèle pour aider les ordinateurs et les robots à apprendre automatiquement à partir de petites quantités de données changeantes afin de détecter plus naturellement ce que nous ressentons et de mieux répondre aux besoins humains, disent les chercheurs.
Ça pourrait, par exemple, exécuter en arrière-plan d'un ordinateur ou d'un appareil mobile pour suivre les conversations vidéo d'un utilisateur et apprendre les changements subtils d'expression faciale dans différents contextes. "Vous pouvez avoir des choses comme des applications pour smartphones ou des sites Web capables de dire comment les gens se sentent et de recommander des moyens de faire face au stress ou à la douleur, et d'autres choses qui ont un impact négatif sur leur vie, ", dit Feffer.
Cela pourrait également être utile pour le suivi, dire, dépression ou démence, car les expressions faciales des gens ont tendance à changer subtilement en raison de ces conditions. "Être capable de surveiller passivement nos expressions faciales, " Rudovic dit, "Nous pourrions au fil du temps être en mesure de personnaliser ces modèles pour les utilisateurs et de surveiller le nombre d'écarts qu'ils ont quotidiennement - s'écartant du niveau moyen d'expressivité faciale - et de les utiliser pour des indicateurs de bien-être et de santé."
Une application prometteuse, Rudovic dit, est les interactions homme-robotique, comme pour la robotique personnelle ou les robots utilisés à des fins éducatives, où les robots doivent s'adapter pour évaluer les états émotionnels de nombreuses personnes différentes. Une version, par exemple, a été utilisé pour aider les robots à mieux interpréter les humeurs des enfants autistes.
Roddy Cowie, professeur émérite de psychologie à l'Université Queen's de Belfast et chercheur en informatique affective, dit que le travail du MIT "illustre où nous en sommes vraiment" sur le terrain. « Nous nous dirigeons vers des systèmes qui peuvent approximativement placer, à partir de photos de visages, où ils se situent sur des échelles allant du très positif au très négatif, et très actif à très passif, " dit-il. " Il semble intuitif que les signes émotionnels qu'une personne donne ne sont pas les mêmes que les signes qu'une autre donne, et il est donc tout à fait logique que la reconnaissance des émotions fonctionne mieux lorsqu'elle est personnalisée. La méthode de personnalisation reflète un autre point intrigant, qu'il est plus efficace de former plusieurs « experts, ' et agréger leurs jugements, que de former un seul super-expert. Les deux ensemble forment un ensemble satisfaisant."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.