Exemples de spectrogrammes de chacune des 4 classes incluses. Crédit :Papakostas et al.
Des chercheurs de l'Université du Texas à Arlington ont récemment exploré l'utilisation de l'apprentissage automatique pour la reconnaissance des émotions basée uniquement sur des informations paralinguistiques. Les paralinguistiques sont des aspects de la communication orale qui n'impliquent pas de mots, comme le pas, le volume, intonation, etc.
Les progrès récents de l'apprentissage automatique ont conduit au développement d'outils capables de reconnaître des états émotionnels en analysant des images, enregistrements vocaux, électroencéphalogrammes ou électrocardiogrammes. Ces outils pourraient avoir plusieurs applications intéressantes, par exemple, permettant des interactions homme-ordinateur plus efficaces dans lesquelles un ordinateur reconnaît et répond aux émotions d'un utilisateur humain.
"En général, on peut soutenir que la parole véhicule deux types d'informations distincts :des informations explicites ou linguistiques, qui concerne les motifs articulés par le locuteur; et des informations implicites ou paralinguistiques, qui concerne la variation de prononciation des patrons linguistiques, " les chercheurs ont écrit dans leur article, publié dans le Les progrès de la médecine expérimentale et de la biologie séries de livres. "En utilisant l'un ou les deux types d'informations, on peut tenter de classer un segment audio composé de parole, en fonction de l'émotion (s) qu'il porte. Cependant, la reconnaissance des émotions à partir de la parole semble être une tâche considérablement difficile, même pour un humain, peu importe s'il/elle est un(e) expert(e) dans ce domaine (par exemple un psychologue)."
De nombreuses approches de reconnaissance automatique de la parole (ASR) existantes tentent de reconnaître les émotions de la parole en analysant à la fois les informations linguistiques et paralinguistiques. En se concentrant en partie sur les propriétés linguistiques, ces modèles présentent plusieurs inconvénients, comme une dépendance linguistique stricte. Les chercheurs ont donc décidé de se concentrer sur la reconnaissance des émotions basée uniquement sur l'analyse d'informations paralinguistiques, dans l'espoir d'atteindre la reconnaissance multilingue des émotions.
"Dans ce document, nous visons à analyser les émotions des locuteurs sur la seule base d'informations paralinguistiques, " les chercheurs ont écrit dans leur article. " Nous comparons deux approches d'apprentissage automatique, à savoir un réseau de neurones convolutifs (CNN) et une machine à vecteurs de support (SVM)."
Les chercheurs ont formé un modèle CNN sur des spectrogrammes bruts et un modèle SVM sur un ensemble de caractéristiques de bas niveau. Les deux modèles ont été entraînés et évalués à l'aide de trois ensembles de données de parole émotionnelle largement connus :EMOVO, SAUVEGARDER, et EMO-DB. Ces ensembles de données contiennent des enregistrements vocaux émotionnels dans différentes langues :italien, respectivement anglais et allemand.
Les deux modèles d'apprentissage automatique ont été entraînés pour reconnaître quatre classes d'émotions communes :le bonheur, tristesse, colère et neutre. Les chercheurs ont réalisé trois expériences pour chaque approche d'apprentissage automatique, où un seul ensemble de données a été utilisé pour les tests et les deux autres pour la formation.
« Une difficulté majeure résultant du choix des jeux de données est la grande différence entre les langues, car outre les différences linguistiques, il y a aussi une grande variabilité dans la façon dont chaque émotion est exprimée, ", ont écrit les chercheurs dans leur article.
Globalement, ils ont constaté que le SVM fonctionnait bien mieux que le CNN, obtenir les meilleurs résultats lorsqu'ils sont entraînés sur les jeux de données SAVEE et EMOVO, mais testé sur EMO-DB. Ces résultats étaient prometteurs mais pas optimaux, suggérant que nous sommes encore loin d'atteindre une reconnaissance multilingue efficace des émotions.
"Nos plans pour les travaux futurs incluent l'utilisation de plus d'ensembles de données pour la formation et l'évaluation, " les chercheurs ont écrit dans leur article. " Nous visons également à étudier d'autres réseaux d'apprentissage profond pré-formés, car nous pensons que l'apprentissage en profondeur peut contribuer de manière significative au problème à résoudre. Finalement, parmi nos plans est d'appliquer de telles approches à des problèmes de la vie réelle, par exemple. reconnaissance des émotions dans les programmes de formation et/ou d'éducation.
© 2018 Réseau Science X