• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Un système de génération de langage qui peut composer de la poésie créative

    Brendan Bena présentant son travail lors d'une conférence. Crédit :UC Colorado Springs.

    Au cours des dernières décennies, les chercheurs ont développé des outils d'intelligence artificielle (IA) et des techniques de calcul de plus en plus avancés qui peuvent être appliqués dans une variété de contextes. Parmi ceux-ci, les techniques qui peuvent générer le langage écrit ou parlé ont attiré une attention considérable, notamment avec l'introduction de nouveaux assistants vocaux, robots et nouveaux dispositifs interactifs.

    Des chercheurs de l'Université du Colorado (UC) - Colorado Springs et de l'Université Drury ont récemment développé un système de génération de langage unique qui peut produire des vers de poésie créatifs. Leur système, présenté dans un article pré-publié sur arXiv, est une adaptation fine de GPT-2, un modèle de langage pré-entraîné développé par OpenAI.

    Jugal Kalita, le professeur de l'UC Colorado Springs supervisant l'étude récente, mène des recherches sur la génération du langage naturel depuis 30 ans, à partir de ses jours d'études supérieures à l'Université de Pennsylvanie. Son premier article sur la génération du langage naturel, publié en 1988, visait à produire des paragraphes de texte qui pourraient apparaître dans un journal typique, suivant un ensemble de règles de base. Plus récemment, inspiré par les progrès des réseaux de neurones artificiels pour le traitement du langage naturel (NLP), Le professeur Kalita et ses étudiants ont commencé à développer des techniques d'apprentissage en profondeur pour la génération d'articles courts, dialogues et écriture créative.

    "L'idée d'enquêter sur le thème de la génération automatique de poésie est née au début de l'été 2019, quand Brendan Bena, un stagiaire de recherche d'été à l'Université du Colorado, Colorado Springs, de l'Université Drury du Missouri, s'est montré intéressé par la génération automatique de paroles de chansons, " Le professeur Kalita a déclaré à TechXplore. " Il voulait à l'origine chercher à créer un système qui tenterait d'imiter les émotions suscitées par les paroles des chansons. "

    Comme la plupart des paroles de chansons sont protégées par le droit d'auteur, trouver de grands ensembles de données pour former des modèles d'apprentissage en profondeur sur la génération de paroles peut être très difficile. Bena et le professeur Kalita ont donc décidé de développer à la place un outil d'apprentissage en profondeur pour la génération de poésie. Pourtant, plutôt que de se concentrer sur des caractéristiques telles que la structure ou le rythme de la poésie, comme la plupart des études de génération de poésie précédente, ils ont exploré ses aspects plus émotionnels et créatifs.

    Exemples de poésie évoquant des émotions produites par le système de génération de langage des chercheurs. Crédit :Bena &Kalita.

    « Après s'être rendu compte qu'il y avait une plus grande partie de la recherche, ainsi que des données, dans le domaine de la génération de poésie, nous nous sommes concentrés sur ce sujet particulier, " Bena a déclaré à TechXplore. "Le travail était en grande partie basé sur la tâche globale de génération de texte associée à de nombreuses recherches antérieures. Cependant, contrairement aux efforts précédents, nous souhaitions nous concentrer davantage sur le contenu, émotion et créativité du texte, par opposition à la structure ou au rythme trouvés dans les études de génération de poésie antérieures."

    Pour développer leur système de génération de poésie, Bena et le professeur Kalita ont d'abord rassemblé un vaste corpus de textes à partir des bases de données Project Gutenberg et UC-Santa Cruz Dreambank. Ils ont parcouru la base de données Gutenberg à la recherche de mots inclus dans EmoLex, un ensemble de données sur le lexique des émotions développé par le Conseil national de recherches du Canada.

    Les chercheurs ont ensuite divisé l'ensemble de données résultant en différentes «catégories d'émotions, " en regardant le nombre de mots EmoLex contenus dans chaque extrait, et utilisé ces données pour former un réseau de neurones profonds. Le modèle qu'ils ont formé est une adaptation de GPT-2, une architecture qui apprend à générer de nouveaux fragments de texte en modélisant le style de langage utilisé dans les données sur lesquelles il est formé.

    "Nous avons également alimenté notre réseau de neurones artificiels avec une combinaison de données de rêve et de poésie pour créer ce qu'on appelle" la poésie de rêve, '" expliqua Bena. "En fin de compte, nous avions cinq modèles d'émotions distincts pour les émotions de joie, tristesse, confiance, colère et attente, mais nous avions aussi un modèle de poésie de rêve. Ce système, comme indiqué précédemment, se concentre moins sur la structure trouvée dans de nombreux travaux de génération de poésie et plus sur un style de poésie en vers libres qui cherche à imiter et reproduire la finesse et la créativité des vrais poètes. »

    Les chercheurs ont demandé à des utilisateurs humains d'évaluer les poèmes créés par leur système, tout en utilisant également l'outil Coh-Metrix pour évaluer la qualité des versets qu'il a générés. Ils ont découvert qu'il produisait des poèmes qui suscitaient effectivement de la tristesse et de la joie 87,5% et 85% du temps, respectivement. En outre, lorsqu'il est formé à la fois sur les données de rêve et la poésie, leur système générait des vers de poésie « oniriques » uniques qui capturaient des éléments de ce qu'on appelle la « poésie onirique » avec un score de 3,2 sur l'échelle de Likert.

    Exemples de poésie onirique produite par le système de génération de langage des chercheurs. Crédit :Bena &Kalita.

    "Nos résultats suggèrent que le texte peut, En réalité, être généré de manière à susciter l'émotion chez les lecteurs et à ressembler aux types de créativité que les artistes cherchent à injecter dans leur travail, " Bena a déclaré. "Nous pensons que notre recherche est un travail novateur dans le domaine de la génération de poésie créative et espérons que notre étude ouvrira la porte à de futurs travaux dans ce domaine."

    Bena et le professeur Kalita sont parmi les premiers à montrer les premières lueurs de la créativité des machines dans la génération de la poésie. Dans leurs prochaines études, les chercheurs prévoient d'améliorer la qualité des poèmes composés par leur système, tout en appliquant leur approche à la création de poésie dans d'autres langues.

    "Si nous conservons un peu plus les données d'entraînement, nous pensons qu'une architecture de réseau de neurones pourrait mieux capturer les émotions et les aspects oniriques de la poésie que nous cherchons à créer, " dit Bena. " En fait, tandis que le dictionnaire EmoLex est un ensemble de données très utile, son vocabulaire ne tient pas compte de tout l'anglais de style ancien que l'on trouve dans certains poèmes de Gutenberg."

    À l'avenir, les chercheurs espèrent reproduire leur expérience en se concentrant sur les lexiques au niveau des phrases ou des segments, car cela pourrait leur permettre de capturer plus efficacement les dépendances dans le texte basé sur les émotions. Leur étude pourrait également être répétée en utilisant une architecture basée sur un réseau de neurones plus sophistiquée, ce qui peut améliorer la qualité de la poésie produite à la fois en termes de grammaire et de structure de la phrase.

    Comme Bena et le professeur Kalita ont déjà utilisé leur système pour produire des vers de poésie onirique, ils pourraient éventuellement l'appliquer à d'autres styles créatifs, comme la poésie d'effacement. La poésie d'effacement est produite en prenant des mots spécifiques ou aléatoires d'un texte existant, puis en les utilisant pour former de nouveaux vers.

    "Finalement, nous travaillons également à générer de la poésie dans différentes langues en utilisant l'apprentissage par transfert, " a déclaré le professeur Kalita. " Par exemple, Shaun Tucker, un étudiant à la maîtrise à l'UC-Colorado Springs a produit de la poésie dans un certain nombre de langues indo-européennes à l'aide du modèle GPT-2 pré-entraîné d'OpenAI. Jusque là, nous avons généré des poèmes en anglais, Espagnol, Ukrainien, Hindi, bengali et assamais et a constaté que le modèle génératif d'apprentissage en profondeur GPT-2, qui a été pré-entraîné avec un grand corps de texte anglais, peuvent être entraînés avec de la prose et des poèmes dans toutes ces langues pour générer de la poésie."

    © 2020 Réseau Science X




    © Science https://fr.scienceaq.com