Les chercheurs ont écrit un script simple qui identifie les phrases figuratives et les remplace par leur sens littéral. En conséquence, les performances des systèmes de dialogue se sont améliorées jusqu'à 15 %. Crédit :Université de Californie à San Diego
Des informaticiens ont récemment examiné les performances des systèmes de dialogue, tels que les assistants personnels et les chatbots conçus pour interagir avec les humains. L'équipe a constaté que lorsque ces systèmes sont confrontés à des dialogues incluant des idiomes ou des comparaisons, leurs performances chutent entre 10 et 20 %.
L'équipe de recherche a également développé un remède partiel. Ils ont écrit un script simple qui identifie les phrases figuratives et les remplace par leur sens littéral. En conséquence, les performances des systèmes de dialogue se sont améliorées jusqu'à 15 %.
Les chercheurs présentent leurs conclusions lors de la conférence 2021 sur les méthodes empiriques dans le traitement du langage naturel, qui se tiendra du 7 au 11 novembre 2021.
Les applications pour ce travail incluent non seulement les assistants personnels, mais aussi les systèmes conçus pour résumer les informations, comme la boîte résumant les résultats de recherche en haut d'une page Google. Les systèmes automatisés qui doivent répondre à des questions, par exemple lorsqu'une facture doit être payée ou un rendez-vous à prendre, bénéficieraient également de ce travail.
"Nous voulons permettre des conversations plus naturelles entre les personnes et les systèmes de dialogue", a déclaré Harsh Jhamtani, le premier auteur de l'article.
Jhamtani est titulaire d'un doctorat. étudiant à l'Université Carnegie Mellon et travaille actuellement en tant que chercheur invité avec l'auteur principal Taylor Berg-Kirkpatrick, membre du corps professoral du département d'informatique et d'ingénierie de l'UC San Diego.
L'étude a été inspirée par les propres luttes de Jhamtani avec le langage figuratif. Il est de langue maternelle hindi et parle également l'anglais, l'autre langue officielle de l'Inde. Mais il a dû apprendre les nombreux idiomes et métaphores américains que ses collègues utilisent.
Par exemple, il a paniqué quand un collègue a dit qu'ils mouraient de faim parce qu'en hindi cela pourrait indiquer une urgence médicale. Son collègue a alors expliqué que cela signifiait simplement qu'il avait faim. À ce moment-là, Jhamtani se demandait si les systèmes de dialogue artificiel auraient le même problème que lui.
Crédit :Université de Californie à San Diego
Dans l'étude, les chercheurs ont testé cinq systèmes différents conçus pour parler avec les humains, y compris GPT-2, qui est formé pour prédire le mot suivant dans 40 Go de texte Internet et a été développé par la société de recherche OpenAI.
Les chercheurs ont d'abord exécuté les systèmes de dialogue sur un ensemble de données de 13 100 conversations sur des sujets familiers tels que le tourisme, la santé, etc. Ils ont ensuite extrait les conversations qui incluaient le langage figuratif de l'ensemble de données et ont exécuté les systèmes uniquement sur celles-ci. Ils ont observé une baisse des performances allant de 10 à 20 %.
Ils ont ensuite écrit un script permettant aux systèmes de vérifier rapidement les dictionnaires qui traduisent le discours figuré en discours littéral. C'est plus rapide et plus efficace que les systèmes de réapprentissage pour apprendre le contenu complet de ces dictionnaires. Les chercheurs ont observé que les performances s'amélioraient jusqu'à 15 %.
Les chercheurs devaient encore s'appuyer en partie sur des observateurs humains pour identifier le langage figuratif dans l'ensemble de données, avant que le texte puisse être converti. Une étude plus approfondie est nécessaire dans ce domaine.
Il faudra plusieurs itérations avant que les algorithmes développés par les chercheurs soient prêts à être mis en œuvre. Par exemple, ils ont constaté que dans de rares cas, le remplacement du langage figuré par le langage littéral déformait la grammaire d'une phrase au point que les systèmes de dialogue ne pouvaient plus comprendre.