Architecture de réseau basée sur la personne. Crédit :Mazaré et al.
Des chercheurs de Facebook ont récemment compilé un ensemble de données de 5 millions de personas et 700 millions de dialogues basés sur des personas. Cette base de données pourrait être utilisée pour former des systèmes de dialogue de bout en bout, résultant en des dialogues plus engageants et riches entre les agents informatiques et les humains.
Systèmes de dialogue, ou agents conversationnels (CA), sont des systèmes informatiques conçus pour communiquer avec des êtres humains par texte, discours, graphique, ou d'autres méthodes, de manière cohérente. Jusque là, des systèmes de dialogue basés sur des architectures neuronales, tels que les LSTM ou les réseaux mémoire, se sont avérés particulièrement prometteurs pour parvenir à une communication fluide, en particulier lorsqu'il est formé directement sur les journaux de dialogue.
"L'un de leurs principaux avantages est qu'ils peuvent s'appuyer sur de grandes sources de données de dialogues existants pour apprendre à couvrir divers domaines sans nécessiter aucune connaissance d'expert, " les chercheurs ont écrit dans leur article, qui a été prépublié sur arXiv. "Toutefois, le revers de la médaille est qu'ils présentent également un engagement limité, en particulier dans les environnements de bavardage :ils manquent de cohérence et ne tirent pas parti des stratégies d'engagement proactives comme le font (même partiellement) les chatbots scriptés."
Dans une étude récente, une autre équipe de chercheurs de l'Institut des algorithmes d'apprentissage de Montréal (MILA) et Facebook AI ont créé un ensemble de données appelé PERSONA-CHAT, qui comprend des dialogues entre agents avec des profils textuels, ou des personnages, attaché à eux. Ils ont découvert que la formation d'un système de dialogue sur un personnage particulier améliorait leur engagement dans les interactions.
"Toutefois, l'ensemble de données PERSONA-CHAT a été créé à l'aide d'un mécanisme de collecte de données artificiel basé sur Mechanical Turk, " les chercheurs ont expliqué dans leur article. " En conséquence, ni les dialogues ni les personas ne peuvent être pleinement représentatifs des interactions utilisateur-bot réelles et la couverture de l'ensemble de données reste limitée, contenant un peu plus de 1 000 personnages différents."
Pour remédier aux limites de l'ensemble de données précédemment compilé, les chercheurs de Facebook ont créé un nouveau, jeu de données de dialogue basé sur la personnalité à grande échelle, composé de conversations extraites de la plateforme en ligne Reddit. Leur étude pousse le travail de leurs prédécesseurs un peu plus loin, en utilisant des interactions plus représentatives.
"Dans ce document, nous construisons un jeu de données de dialogue personnalisé à très grande échelle en utilisant des conversations précédemment extraites de Reddit, " les chercheurs ont écrit. " Avec des heuristiques simples, nous créons un corpus de plus de 5 millions de personas couvrant plus de 700 millions de conversations."
Pour évaluer son efficacité, les chercheurs ont formé des systèmes de dialogue de bout en bout basés sur la personne sur leur ensemble de données nouvellement développé. Les systèmes formés sur leur ensemble de données ont pu mener des conversations plus engageantes, surpassant les autres agents conversationnels qui n'avaient pas accès aux personas pendant leur formation.
De façon intéressante, leur ensemble de données a conduit à des résultats de pointe même lorsque les systèmes de dialogue étaient simplement pré-formés dessus. Dans le futur, ces résultats pourraient conduire au développement de chatbots plus engageants, qui peut également être personnalisé et formé pour acquérir un personnage particulier.
"Nous montrons que l'entraînement des modèles pour aligner les réponses à la fois sur la personnalité de leur auteur et le contexte améliore les performances de prédiction, " les chercheurs ont écrit. " Comme la pré-formation conduit à une amélioration considérable des performances, des travaux futurs pourraient affiner ce modèle pour divers systèmes de dialogue."
© 2018 Tech Xplore