• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Une nouvelle approche pour la synthèse comparative de documents via la classification

    Un exemple illustratif de résumé comparatif. Les carrés sont des articles de presse, les lignes indiquent différents médias, et l'axe des abscisses représente le temps. Les articles ombrés sont choisis pour représenter les actualités liées à l'IA en février et mars 2018, respectivement. Ils visent à résumer les sujets de chaque mois et mettent également en évidence les différences entre les deux mois. Crédit :Bista et al.

    Des chercheurs de l'Australian National University (ANU) ont récemment mené une étude explorant la synthèse extractive dans des contextes comparatifs. Le terme « résumé extractif » définit la tâche consistant à sélectionner quelques articles hautement représentatifs parmi une vaste collection de documents.

    Dans leur papier, prépublié sur arXiv et présenté à la 33e conférence AAAI sur l'intelligence artificielle, les chercheurs ont envisagé un résumé comparatif, qui implique la sélection de documents à partir de différentes collections de documents. Ces documents sélectionnés doivent être représentatifs de chaque groupe, tout en soulignant les différences entre les groupes.

    Le projet suit un thème en cours au Computational Media Lab de l'ANU, qui se concentre sur la compréhension automatisée de grandes quantités de flux de texte et d'images sur le Web social. Un objectif primordial de l'étude est d'identifier des techniques qui pourraient aider les gens à faire face à la surcharge d'informations.

    « Il y a trop de nouveau contenu pour que quiconque puisse le lire :des actualités, flux de médias sociaux, ou encore le flux d'articles de recherche arXiv, " Lexing Xie, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. « Pouvons-nous demander aux ordinateurs de nous aider à choisir lequel lire ? et toujours recevoir des informations cruciales ? »

    Xie et ses collègues ont recherché des moyens de résumer les centaines de milliers d'articles de presse, messages et discussions disponibles en ligne. Leur objectif est de présenter aux utilisateurs quelques éléments (par exemple 3-4) qui répondent le mieux à la question « quoi de neuf ? » sur une période donnée (par exemple aujourd'hui, cette semaine, etc.) ou concernant un sujet particulier (par exemple le changement climatique, élections, etc.).

    « La synthèse de texte est un domaine de recherche actif depuis près de 20 ans, mais l'objectif principal a été de résumer une collection soit de manière extractive (c'est-à-dire sélectionner des éléments existants pour composer un résumé), ou de manière abstraite (c'est-à-dire en composant de nouvelles phrases en guise de résumé, plutôt que d'utiliser ceux qui existent déjà), " Expliqua Xie. " Ce travail se concentre sur la comparaison extractive de groupes de documents, c'est-à-dire en sélectionnant quelques éléments d'un groupe qui se distingue le plus des autres groupes. Au meilleur de notre connaissance, notre travail est le premier à réaliser et à valider une synthèse comparative à grande échelle."

    Dans leur étude, les chercheurs ont abordé le résumé comparatif des documents comme une tâche de classification. La classification est une tâche d'apprentissage automatique courante, dans lequel un algorithme fait des suppositions éclairées sur la catégorie ou les groupes auxquels appartiennent des éléments de données particuliers.

    « Dans le cas d'un résumé comparatif, si on a choisi de bons articles de synthèse ça devrait être difficile, sinon impossible, concevoir un classificateur permettant de distinguer les articles de synthèse choisis et les groupes auxquels ils appartiennent; alors qu'il devrait être facile de concevoir un classificateur qui puisse faire la distinction entre les articles de synthèse choisis et d'autres groupes, " Alexandre Mathews, un autre chercheur impliqué dans l'étude, a déclaré TechXplore.

    La perspective de classification adoptée par les chercheurs implique une vision alternative mais complémentaire de la synthèse comparative en trois objectifs concurrents. D'abord, les articles de synthèse sélectionnés doivent être représentatifs des groupes auxquels ils appartiennent, couvrant tous les aspects importants de la collection de documents.

    Seconde, chaque article de synthèse choisi doit être relativement différent des autres, afin d'éviter les répétitions inutiles. Finalement, les articles de synthèse sélectionnés ne doivent être représentatifs que du groupe auquel ils appartiennent, car il s'agit d'un facteur clé pour une synthèse comparative efficace.

    « Notre formulation spécifique des trois objectifs repose sur une mesure mathématique flexible appelée écart moyen maximal (DMM), " expliqua Mathews. " Cette mesure, ainsi que l'application d'un outil mathématique appelé « l'astuce du noyau » nous permet de présenter nos trois objectifs sous une forme mathématique compacte que nous pouvons optimiser efficacement même sur d'énormes ensembles de données. De plus, cette forme permet à la fois des techniques d'optimisation discrètes et basées sur le gradient, permettant d'affiner le choix des articles pour répondre à nos objectifs."

    La perspective de classification adoptée par Mathews et ses collègues leur a permis d'évaluer leur méthode comme une tâche de classification, à la fois automatiquement et via le crowdsourcing. Leur approche a surpassé les approches discrètes et de base dans 15 des 24 paramètres d'évaluation automatique. Dans les évaluations de crowdsourcing, les résumés sélectionnés à l'aide de leur stratégie d'optimisation simple basée sur le gradient ont obtenu une classification 7 % plus précise des travailleurs humains que les méthodes d'optimisation discrètes.

    "Nous sommes heureux de voir qu'en utilisant seulement 4 articles de synthèse par semaine, la précision de la classification automatique (de chaque article d'actualité dans le mois/la semaine dont il provient) est comparable à celle qui 'lit' tous les articles, " Minjeong Shin, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. "Cela démontre que de nouvelles informations cruciales sont contenues dans les quelques articles" prototypes "."

    Les chercheurs ont évalué leur méthode par rapport à d'autres approches sur une collection nouvellement organisée de sujets d'actualité controversés s'étalant sur 13 mois. Lorsqu'il est appliqué à la synthèse comparative des flux de contenu en cours, leur système a répondu avec succès à des questions telles que « quoi de neuf sur le sujet du changement climatique ce mois-ci ? », en soulignant les différences entre deux périodes distinctes.

    "Notre méthodologie s'applique également aux comparaisons de collections autres que l'actualité dans le temps, " dit Shin. " Par exemple, on peut se demander :quelle est la différence entre la couverture BBC et CNN du sommet du G20, ou en quoi la couverture du changement climatique diffère-t-elle entre les médias britanniques et australiens ? »

    À l'avenir, cette nouvelle approche de la synthèse comparative pourrait aider les utilisateurs à naviguer dans les grandes quantités d'informations disponibles en ligne; fournir des comparaisons d'articles publiés par différentes sources ou auteurs, ainsi que des articles sur des sujets connexes ou exprimant des points de vue distincts. Les chercheurs travaillent maintenant à élargir leurs recherches en faisant passer ces comparaisons au niveau supérieur.

    « Nous étudions des moyens de résumer non seulement du texte, mais aussi des images et du texte conjointement, " Umanga Bista, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. « Nous aimerions également prendre en compte les relations connues des entités mentionnées dans le texte (par exemple, Delhi est la capitale de l'Inde), plutôt que de traiter chaque mot comme une entité indépendante. Finalement, nous aimerions avoir un système qui recommande ce qui est nouveau, Qu'est-ce qui est différent, et ce qui vaut la peine d'être lu."

    © 2018 Réseau Science X




    © Science https://fr.scienceaq.com