• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Un réseau convolutif pour aligner et prédire les annotations émotionnelles

    Un schéma du système du réseau MDS. Crédit :Khorram, McInnis &Provost.

    Les modèles d'apprentissage automatique capables de reconnaître et de prédire les émotions humaines sont devenus de plus en plus populaires au cours des dernières années. Pour que la plupart de ces techniques fonctionnent bien, cependant, les données utilisées pour les entraîner sont d'abord annotées par des sujets humains. De plus, les émotions changent continuellement avec le temps, ce qui rend l'annotation de vidéos ou d'enregistrements vocaux particulièrement difficile, entraînant souvent des divergences entre les étiquettes et les enregistrements.

    Pour remédier à cette limite, des chercheurs de l'Université du Michigan ont récemment développé un nouveau réseau neuronal convolutif qui peut simultanément aligner et prédire les annotations d'émotion de bout en bout. Ils ont présenté leur technique, appelé réseau de synchronisation multi-délai (MDS), dans un article publié dans Transactions IEEE sur l'informatique affective .

    " L'émotion varie continuellement dans le temps; elle monte et descend dans nos conversations " Emily Mower Provost, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. "En ingénierie, nous utilisons souvent des descriptions continues de l'émotion pour mesurer la variation de l'émotion. Notre objectif devient alors de prédire ces mesures continues à partir de la parole. Mais il ya un hic. L'un des plus grands défis du travail avec des descriptions continues d'émotions est que cela nécessite que nous ayons des étiquettes qui varient continuellement dans le temps. Ceci est fait par des équipes d'annotateurs humains. Cependant, les gens ne sont pas des machines."

    Comme Mower Provost poursuit en expliquant, les annotateurs humains peuvent parfois être plus sensibles à des signaux émotionnels particuliers (par exemple, rire), mais manquez le sens derrière d'autres indices (par exemple, un soupir exaspéré). De plus, les humains peuvent prendre un certain temps pour traiter un enregistrement, Et ainsi, leurs réactions aux signaux émotionnels sont parfois retardées. Par conséquent, les étiquettes d'émotion continues peuvent présenter beaucoup de variations et sont parfois mal alignées avec la parole dans les données.

    Dans leur étude, Mower Provost et ses collègues ont directement abordé ces défis, en se concentrant sur deux mesures continues de l'émotion :la positivité (valence) et l'énergie (activation/éveil). Ils ont introduit le réseau de synchronisation multi-délai, une nouvelle méthode pour gérer le désalignement entre la parole et les annotations continues qui réagit différemment aux différents types d'indices acoustiques.

    « Descriptions dimensionnelles des émotions dans le temps (par exemple, éveil, valence) fournissent des informations détaillées sur les changements à court terme et les tendances à long terme dans l'expression des émotions, " Soheil Khorram, un autre chercheur impliqué dans l'étude, a déclaré TechXplore. "L'objectif principal de notre étude était de développer un système de reconnaissance automatique des émotions capable d'estimer les émotions dimensionnelles en continu dans le temps à partir de signaux vocaux. Ce système pourrait avoir un certain nombre d'applications dans le monde réel dans différents domaines, notamment l'interaction homme-machine, e-learning, commercialisation, soins de santé, divertissement et droit.

    Le réseau convolutif développé par Mower Provost, Khorram et leurs collègues a deux éléments clés, un pour la prédiction des émotions et un pour l'alignement. Le composant de prédiction d'émotion est une architecture convolutive commune formée pour identifier la relation entre les caractéristiques acoustiques et les étiquettes d'émotion.

    Le composant d'alignement, d'autre part, est la nouvelle couche introduite par les chercheurs (c'est-à-dire la couche de synchronisation retardée), qui applique un décalage temporel apprenable à un signal acoustique. Les chercheurs ont compensé la variation des délais en incorporant plusieurs de ces couches.

    "Un défi important dans le développement de systèmes automatiques pour prédire les étiquettes d'émotions en continu dans le temps à partir de la parole est que ces étiquettes ne sont généralement pas synchronisées avec la parole d'entrée, " expliqua Khorram. " Ceci est principalement dû aux retards causés par le temps de réaction, qui est inhérent aux évaluations humaines. Contrairement à d'autres approches, notre réseau de neurones convolutifs est capable d'aligner et de prédire simultanément les étiquettes de bout en bout. Le réseau de synchronisation multi-délai s'appuie sur les concepts traditionnels de traitement du signal (c'est-à-dire le filtrage de synchronisation) dans les architectures modernes d'apprentissage en profondeur pour faire face au problème du délai de réaction."

    Les chercheurs ont évalué leur technique dans une série d'expériences utilisant deux ensembles de données accessibles au public, à savoir les ensembles de données RECOLA et SEWA. Ils ont découvert que la compensation des retards de réaction des annotateurs lors de la formation de leur modèle de reconnaissance des émotions entraînait des améliorations significatives de la précision de la reconnaissance des émotions du modèle.

    Ils ont également observé que les délais de réaction des annotateurs lors de la définition d'étiquettes d'émotion continues ne dépassent généralement pas 7,5 secondes. Finalement, leurs résultats suggèrent que les parties du discours qui incluent le rire nécessitent généralement des composants de retard plus petits que ceux marqués par d'autres signaux émotionnels. En d'autres termes, il est souvent plus facile pour les annotateurs de définir des étiquettes d'émotion dans les segments du discours qui incluent le rire.

    « L'émotion est partout et elle est au cœur de notre communication, " Mower Provost a déclaré. "Nous construisons des systèmes de reconnaissance des émotions robustes et généralisables afin que les gens puissent facilement accéder et utiliser ces informations. Une partie de cet objectif est atteint en créant des algorithmes qui peuvent utiliser efficacement de grandes sources de données externes, à la fois étiqueté et non, et en modélisant efficacement la dynamique naturelle qui fait partie de la façon dont nous communiquons émotionnellement. L'autre partie est accomplie en donnant un sens à toute la complexité inhérente aux étiquettes elles-mêmes."

    Bien que Faucheuse Provost, Khorram et leurs collègues ont appliqué leur technique à des tâches de reconnaissance des émotions, il pourrait également être utilisé pour améliorer d'autres applications d'apprentissage automatique dans lesquelles les entrées et les sorties ne sont pas parfaitement alignées. Dans leurs futurs travaux, les chercheurs prévoient de continuer à étudier les moyens par lesquels les étiquettes d'émotion produites par des annotateurs humains peuvent être efficacement intégrées dans les données.

    "Nous avons utilisé un filtre de synchronisation pour approcher la fonction delta de Dirac et compenser les retards. Cependant, autres fonctions, tels que gaussien et triangulaire, peut également être utilisé à la place du noyau de synchronisation, " a déclaré Khorram. "Nos travaux futurs exploreront l'effet de l'utilisation de différents types de noyaux qui peuvent se rapprocher de la fonction delta de Dirac. En outre, dans cet article, nous nous sommes concentrés sur la modalité de la parole pour prédire les annotations d'émotions continues, tandis que le réseau de synchronisation multi-délai proposé est une technique de modélisation raisonnable pour d'autres modalités d'entrée également. Un autre plan futur consiste à évaluer les performances du réseau proposé par rapport à d'autres modalités physiologiques et comportementales telles que :vidéo, langage corporel et EEG."

    © 2019 Réseau Science X




    © Science https://fr.scienceaq.com