• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • SentiArt :un outil d'analyse des sentiments pour profiler les personnages des textes de la littérature mondiale

    Pseudo-big 5 scores pour sept personnages principaux dans les livres Harry Potter. Ces scores sont des centiles basés sur un échantillon de 100 chiffres apparaissant dans la série de livres. Crédit :Arthur M. Jacobs.

    Arthur Jacobs, professeur et chercheur à la Freie Universität Berlin, a récemment développé SentiArt, une nouvelle technique d'apprentissage automatique pour effectuer des analyses de sentiments de textes littéraires, ainsi que des personnages fictifs et non fictifs. Dans son papier, devrait être publié par Frontières de la robotique et de l'IA , il a appliqué cet outil à des passages et des personnages des livres Harry Potter.

    Jacobs a une formation en neurolinguistique, une branche de la linguistique qui explore les mécanismes neuronaux associés à l'acquisition du langage, compréhension et expression. Dans ses précédents travaux, il a souvent étudié comment les outils d'apprentissage automatique pourraient être utilisés pour analyser et mieux comprendre le langage humain. Il s'intéresse particulièrement à ce qu'il appelle la poétique computationnelle, un domaine d'étude qui se concentre sur l'utilisation d'outils informatiques pour comprendre le contenu littéraire.

    "En 2011, J'ai écrit un livre avec le poète autrichien Raoul Schrott intitulé 'Cerveau et poésie , ' où nous avons spéculé que cela aiderait à développer des outils d'analyse des sentiments pour les textes littéraires et la poésie, non seulement pour les critiques de films ou les tweets de Trump, qui semble être l'étalon-or dans l'analyse classique des sentiments, " Jacobs a déclaré à TechXplore. " Nous voulions également développer un outil capable de prédire les données neuronales et comportementales humaines, pas seulement les auto-évaluations collectées via Amazon Turk."

    Dans sa nouvelle étude, Jacobs a essayé de mettre en pratique certaines des idées introduites dans ses travaux précédents en développant un outil d'analyse du sentiment dans les textes littéraires. La technique qu'il propose, appelé SentiArt, utilise des modèles spatiaux vectoriels et guidés par la théorie, des listes d'étiquettes validées empiriquement pour calculer la valence de mots individuels dans un texte. Les modèles spatiaux vectoriels sont des représentations de documents texte en tant que vecteurs d'identifiants, qui sont souvent utilisés pour filtrer, récupérer ou organiser des informations.

    "SentiArt est un outil très simpliste qui peut être utilisé par des non-experts pour comparer simplement les mots dans leur texte de test (c'est-à-dire, le texte sur lequel ils veulent faire une analyse des sentiments) avec une feuille Excel qu'ils peuvent télécharger gratuitement depuis ma page d'accueil, " expliqua Jacobs. " En principe, l'outil doit fonctionner dans n'importe quelle langue pour laquelle vous pouvez télécharger les modèles d'espace vectoriel de Facebook, sur la page Web fastText. Alors que mon étude se concentre sur l'anglais et l'allemand, vous pouvez aussi l'utiliser en malais, Farsi ou un dialecte chinois, et une multitude d'autres langues, car fastText a des modèles d'espace vectoriel pour plus de 290 langues."

    Jacobs souligne que SentiArt est assez facile à utiliser, ajoutant qu'il a pu enseigner à 30 étudiants en littérature allemande comment l'utiliser au cours d'un cours d'une heure. Dans ses récents travaux, il a testé la précision de l'outil à l'aide de données recueillies lors d'une étude neurocognitive, puis l'a utilisé pour calculer les profils émotionnels et de personnalité de certains des principaux personnages de Harry Potter, dont Voldemort, Rogue, Hermione, Hagrid, Harry, Dumboldore et Dobby.

    De façon intéressante, il a calculé les figures émotionnelles et les profils de personnalité de ces personnages sur la base de la théorie de la personnalité des «cinq grands», une construction établie dans la recherche en psychologie. La théorie des « cinq grands » est généralement utilisée pour mesurer approximativement les traits de personnalité des personnes en fonction de cinq dimensions clés, à savoir l'ouverture, conscience, extraversion, amabilité et stabilité émotionnelle.

    Jacobs a effectué une série d'analyses comparant l'outil qu'il a développé avec d'autres classificateurs d'apprentissage automatique pour l'analyse des sentiments, comme Vador et Hu-Liu. SentiArt a remarquablement bien réussi à prédire le potentiel émotionnel des passages de texte des livres Harry Potter, tout en faisant des prédictions plausibles sur le profil émotionnel et la personnalité des personnages de fiction. Finalement, l'outil a atteint une précision de validation croisée prometteuse en classant 100 figures fictives en « bonnes » ou « mauvaises ».

    "Le papier est sur quelques applications limitées et en deux langues (allemand/anglais), donc avant de pouvoir spéculer sur le potentiel d'application, étant un scientifique expérimental, Je souhaiterais avoir beaucoup plus d'études de validation croisée utilisant des données humaines, " expliqua Jacobs. " C'est comme ça que je suis formé, bien que généralement dans le traitement du langage naturel (NLP) ou la communauté d'apprentissage automatique, ce ne sont pas les principales priorités. Mais en tant que neurolinguistes, nous essaierions toujours de tester les prédictions d'un algorithme avec des données humaines avant de spéculer sur ce qu'il est vraiment utile."

    Bien que Jacobs insiste sur la nécessité de poursuivre les études pour vérifier l'efficacité et la généralisation de SentiArt, l'outil qu'il a développé pourrait à terme avoir de nombreuses applications intéressantes. Par exemple, il pourrait être appliqué dans des domaines tels que la linguistique informatique, psychologie de la personnalité, humanités numériques et peut-être même en milieu clinique. Ça peut, en principe, également être appliqué aux personnages non fictifs apparaissant dans Wikipédia ou Wikinews, par exemple. Winston Churchill, Marilyn Monroe ou Angela Merkel.

    « Le modèle correspond à un premier ensemble de données empiriques, les cotes d'Harry Potter, est certainement encourageant, " Jacobs a ajouté. " De plus, deux des outils d'analyse des sentiments les plus populaires avec lesquels je l'ai comparé ne s'en tirent pas mieux dans ce contexte, donc je pense que c'est une réalisation qui mérite d'être publiée. Je pense que montrer le profil émotionnel de Voldemort ou d'Harry Potter était un bon gadget, mais bien sûr, l'outil pourrait également être appliqué à des personnages non fictifs. "

    Jacobs prévoit maintenant de mener d'autres études de validation croisée pour tester les prédictions de son modèle avec des données humaines. Il espère que les équipes d'autres universités feront de même, soit en utilisant des données collectées via Amazon Turk ou des données de neuroimagerie, comme dans l'étude "Harry Potter" réalisée dans son laboratoire. De plus, il aimerait explorer les moyens d'améliorer les performances des outils d'analyse des sentiments dans les tâches utilisant des régresseurs d'apprentissage automatique au lieu de classificateurs.

    "Les approches d'apprentissage automatique sont généralement divisées en deux types différents, " expliqua Jacobs. " Les premières sont des approches de classification, qui classent les données en catégories, comme positif ou négatif. This is where my algorithm does very well. The hard test is not classification, it's regression, which entails fitting an algorithm's predictions to continuous human data, such as ratings on a scale from one to 10. Few people in sentiment analysis use regressors, especially for literary texts, because accuracy tends to drop, par exemple, from over 90 percent to about 30 percent to 50 percent. I would like to see more work testing this, and once more empirical data has been published, I will try to improve parts of the algorithm in agreement with this new data."

    In addition to his research endeavors, Jacobs will soon start teaching natural language programming (NLP) and machine learning as part of a new data science course at Freie Universität Berlin. His hope is to train new generations of data scientists to value the collection of empirical human data related to reading literature and poetry just as much as publishing code or predicting particular things.

    © 2019 Réseau Science X




    © Science https://fr.scienceaq.com