Les chercheurs du MIT ont créé un système de génération de texte automatisé qui identifie et remplace des informations spécifiques dans les phrases Wikipédia pertinentes, tout en gardant le langage similaire à la façon dont les humains écrivent et éditent. Crédit :Christine Daniloff, MIT
Un système créé par les chercheurs du MIT pourrait être utilisé pour mettre à jour automatiquement les incohérences factuelles dans les articles de Wikipédia, réduire le temps et les efforts consacrés par les éditeurs humains qui effectuent désormais la tâche manuellement.
Wikipédia comprend des millions d'articles qui ont constamment besoin d'être modifiés pour refléter les nouvelles informations. Cela peut impliquer des extensions d'articles, réécritures majeures, ou des modifications plus courantes telles que la mise à jour des numéros, Rendez-vous, noms, et les emplacements. Actuellement, des humains du monde entier donnent de leur temps pour effectuer ces modifications.
Dans un article présenté à la conférence AAAI sur l'intelligence artificielle, les chercheurs décrivent un système de génération de texte qui identifie et remplace des informations spécifiques dans les phrases Wikipédia pertinentes, tout en gardant le langage similaire à la façon dont les humains écrivent et éditent.
L'idée est que les humains tapent dans une interface une phrase non structurée avec des informations mises à jour, sans avoir à vous soucier du style ou de la grammaire. Le système rechercherait alors Wikipedia, localiser la page appropriée et la phrase obsolète, et réécrivez-le d'une manière humaine. À l'avenir, disent les chercheurs, il est possible de créer un système entièrement automatisé qui identifie et utilise les dernières informations du Web pour produire des phrases réécrites dans les articles Wikipedia correspondants qui reflètent les informations mises à jour.
« Il y a tellement de mises à jour nécessaires en permanence pour les articles de Wikipédia. Il serait avantageux de modifier automatiquement des parties exactes des articles, avec peu ou pas d'intervention humaine, " dit Darsh Shah, un doctorat étudiant au Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL) et l'un des auteurs principaux. "Au lieu de centaines de personnes travaillant sur la modification de chaque article de Wikipédia, alors vous n'en aurez besoin que de quelques-uns, parce que le modèle l'aide ou le fait automatiquement. Cela offre des améliorations spectaculaires en termes d'efficacité."
Il existe de nombreux autres robots qui effectuent des modifications automatiques de Wikipédia. Typiquement, ceux-ci permettent d'atténuer le vandalisme ou de déposer des informations étroitement définies dans des modèles prédéfinis, dit Shah. Le modèle des chercheurs, il dit, résout un problème d'intelligence artificielle plus difficile :étant donné une nouvelle information non structurée, le modèle modifie automatiquement la phrase d'une manière humaine. "Les autres tâches [bot] sont plus basées sur des règles, alors qu'il s'agit d'une tâche nécessitant de raisonner sur des parties contradictoires de deux phrases et de générer un texte cohérent, " il dit.
Le système peut également être utilisé pour d'autres applications de génération de texte, », déclare Tal Schuster, co-auteur principal et étudiant diplômé de CSAIL. Dans leur papier, les chercheurs l'ont également utilisé pour synthétiser automatiquement des phrases dans un ensemble de données de vérification des faits populaire qui a permis de réduire les biais, sans collecter manuellement des données supplémentaires. "Par ici, les performances s'améliorent pour les modèles de vérification automatique des faits qui s'entraînent sur l'ensemble de données pour, dire, détection de fausses nouvelles, " dit Schuster.
Shah et Schuster ont travaillé sur le papier avec leur conseiller académique Regina Barzilay, le professeur Delta Electronics de génie électrique et d'informatique et un professeur au CSAIL.
Masquage et fusion de la neutralité
Derrière le système se cache une bonne dose d'ingéniosité de génération de texte pour identifier les informations contradictoires entre, puis fusionner, deux phrases distinctes. Il prend en entrée une phrase "obsolète" d'un article de Wikipédia, plus une phrase « revendication » distincte qui contient les informations mises à jour et contradictoires. Le système doit automatiquement supprimer et conserver des mots spécifiques dans la phrase obsolète, sur la base des informations contenues dans la demande, pour mettre à jour les faits mais maintenir le style et la grammaire. C'est une tâche facile pour les humains, mais un nouveau dans l'apprentissage automatique.
Par exemple, disent qu'il y a une mise à jour requise de cette phrase (en gras) :« Le fonds A considère que 28 de ses 42 participations minoritaires dans des sociétés opérationnellement actives revêtent une importance particulière pour le groupe ». La phrase de réclamation avec des informations mises à jour peut se lire :« Le fonds A considère que 23 des 43 participations minoritaires sont importantes ». Le système localiserait le texte Wikipédia correspondant au « Fonds A, " sur la base de la réclamation. Il supprime alors automatiquement les numéros obsolètes (28 et 42) et les remplace par les nouveaux numéros (23 et 43), tout en gardant la phrase exactement la même et grammaticalement correcte. (Dans leur travail, les chercheurs ont exécuté le système sur un ensemble de données de phrases Wikipedia spécifiques, pas sur toutes les pages Wikipédia.)
Le système a été formé sur un ensemble de données populaire qui contient des paires de phrases, dans laquelle une phrase est une revendication et l'autre est une phrase Wikipédia pertinente. Chaque paire est étiquetée de l'une des trois manières suivantes :"d'accord, " ce qui signifie que les phrases contiennent des informations factuelles correspondantes ; " pas d'accord, " signifiant qu'ils contiennent des informations contradictoires ; ou " neutre, " lorsqu'il n'y a pas assez d'informations pour l'une ou l'autre étiquette. Le système doit faire en sorte que toutes les paires en désaccord soient d'accord, en modifiant la phrase périmée pour qu'elle corresponde à l'allégation. Cela nécessite l'utilisation de deux modèles distincts pour produire le résultat souhaité.
Le premier modèle est un classificateur de vérification des faits—préformé pour étiqueter chaque paire de phrases comme "d'accord, " " pas d'accord, " ou "neutre" - qui se concentre sur les paires en désaccord. En conjonction avec le classificateur, un module personnalisé de "masquage de neutralité" identifie les mots de la phrase obsolète qui contredisent l'affirmation. Le module supprime le nombre minimal de mots requis pour "maximiser neutralité" - ce qui signifie que la paire peut être qualifiée de neutre. C'est le point de départ :bien que les phrases ne concordent pas, ils ne contiennent plus d'informations manifestement contradictoires. Le module crée un "masque" binaire sur la phrase obsolète, où un 0 est placé sur les mots qui doivent probablement être supprimés, tandis qu'un 1 va au-dessus des gardiens.
Après masquage, une nouvelle structure à deux encodeur-décodeur est utilisée pour générer la phrase de sortie finale. Ce modèle apprend des représentations compressées de la revendication et de la phrase obsolète. Travaillant en collaboration, les deux encodeurs-décodeurs fusionnent les mots dissemblables de la revendication, en les faisant glisser dans les emplacements laissés vacants par les mots supprimés (ceux recouverts de 0) dans la phrase obsolète.
Dans un essai, le modèle a obtenu un score supérieur à toutes les méthodes traditionnelles, en utilisant une technique appelée "SARI" qui mesure à quel point les machines suppriment, ajouter, et gardez les mots par rapport à la façon dont les humains modifient les phrases. Ils ont utilisé un ensemble de données avec des phrases Wikipedia éditées manuellement, que le modèle n'avait jamais vu auparavant. Par rapport à plusieurs méthodes traditionnelles de génération de texte, le nouveau modèle était plus précis dans les mises à jour factuelles et sa sortie ressemblait davantage à l'écriture humaine. Dans un autre essai, les humains participatifs ont évalué le modèle (sur une échelle de 1 à 5) en fonction de la qualité de ses phrases de sortie contenant des mises à jour factuelles et correspondant à la grammaire humaine. Le modèle a obtenu des scores moyens de 4 pour les mises à jour factuelles et de 3,85 pour la grammaire correspondante.
Supprimer le biais
L'étude a également montré que le système peut être utilisé pour augmenter les ensembles de données afin d'éliminer les biais lors de la formation des détecteurs de « fake news, " une forme de propagande contenant de la désinformation créée pour tromper les lecteurs afin de générer des vues sur des sites Web ou d'orienter l'opinion publique. Certains de ces détecteurs s'entraînent sur des ensembles de données de paires de phrases d'accord-pas d'accord pour "apprendre" à vérifier une affirmation en la comparant à des preuves données.
Dans ces paires, soit la revendication correspondra à certaines informations avec une phrase de preuve à l'appui de Wikipédia (d'accord) ou elle sera modifiée par des humains pour inclure des informations contradictoires à la phrase de preuve (en désaccord). Les modèles sont formés pour signaler les allégations réfutant les preuves comme « fausses, " qui peut être utilisé pour aider à identifier les fausses nouvelles.
Malheureusement, ces ensembles de données sont actuellement accompagnés de biais involontaires, Shah dit :« Pendant l'entraînement, les modèles utilisent un certain langage des affirmations écrites humaines en tant que phrases « à donner » pour les marquer comme fausses, sans trop se fier à la phrase de preuve correspondante. Cela réduit la précision du modèle lors de l'évaluation d'exemples du monde réel, car il n'effectue pas de vérification des faits."
Les chercheurs ont utilisé les mêmes techniques de suppression et de fusion de leur projet Wikipedia pour équilibrer les paires en désaccord-d'accord dans l'ensemble de données et aider à atténuer le biais. Pour certaines paires "en désaccord", ils ont utilisé les fausses informations de la phrase modifiée pour régénérer une fausse phrase à l'appui des « preuves ». Certaines des phrases à donner existent alors à la fois dans les phrases « d'accord » et « en désaccord », ce qui oblige les modèles à analyser plus de fonctionnalités. En utilisant leur jeu de données augmenté, les chercheurs ont réduit le taux d'erreur d'un détecteur de fausses informations populaire de 13 %.
« Si vous avez un biais dans votre ensemble de données, et vous trompez votre modèle en ne regardant qu'une phrase dans une paire en désaccord pour faire des prédictions, votre modèle ne survivra pas au monde réel, ", dit Shah. "Nous faisons en sorte que les modèles examinent les deux phrases dans toutes les paires d'accord-pas d'accord."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.