Une équipe de scientifiques du MIT et d'ailleurs a développé un réseau de neurones, une forme d'intelligence artificielle (IA), capable de lire des articles scientifiques et de faire un résumé en anglais simple en une phrase ou deux. Crédit :Chelsea Turner
L'œuvre d'un écrivain scientifique, y compris celui-ci, comprend la lecture d'articles de revues remplis de terminologie technique spécialisée, et trouver comment expliquer leur contenu dans un langage que les lecteurs sans formation scientifique peuvent comprendre.
Maintenant, une équipe de scientifiques du MIT et d'ailleurs a développé un réseau de neurones, une forme d'intelligence artificielle (IA), qui peut faire à peu près la même chose, au moins dans une mesure limitée :il peut lire des articles scientifiques et restituer un résumé en anglais simple en une phrase ou deux.
Même sous cette forme limitée, un tel réseau de neurones pourrait être utile pour aider les éditeurs, écrivains, et les scientifiques parcourent un grand nombre d'articles pour avoir une idée préliminaire de ce dont ils parlent. Mais l'approche développée par l'équipe pourrait également trouver des applications dans une variété d'autres domaines que le traitement du langage, y compris la traduction automatique et la reconnaissance vocale.
Le travail est décrit dans la revue Transactions de l'Association for Computational Linguistics , dans un article de Rumen Dangovski et Li Jing, les deux étudiants diplômés du MIT; Marin Soljačić, un professeur de physique au MIT; Preslav Nakov, chercheur principal au Qatar Computing Research Institute, HBKU ; et Mićo Tatalović, un ancien boursier Knight Science Journalism au MIT et un ancien rédacteur en chef à Nouveau scientifique magazine.
De l'IA pour la physique au langage naturel
Le travail est né d'un projet sans rapport, qui consistait à développer de nouvelles approches d'intelligence artificielle basées sur les réseaux de neurones, visant à résoudre certains problèmes épineux de la physique. Cependant, les chercheurs se sont vite rendu compte que la même approche pouvait être utilisée pour résoudre d'autres problèmes de calcul difficiles, y compris le traitement du langage naturel, d'une manière qui pourrait surpasser les systèmes de réseaux neuronaux existants.
"Nous effectuons depuis quelques années différents types de travaux en IA, " dit Soljačić. "Nous utilisons l'IA pour nous aider dans nos recherches, essentiellement pour mieux faire de la physique. Et comme nous nous sommes familiarisés avec l'IA, nous remarquerions que de temps en temps, il existe une opportunité d'ajouter au domaine de l'IA à cause de quelque chose que nous connaissons de la physique - une certaine construction mathématique ou une certaine loi en physique. Nous avons remarqué que hé, si on utilise ça, cela pourrait en fait aider avec tel ou tel algorithme d'IA particulier."
Cette approche pourrait être utile dans une variété de types spécifiques de tâches, il dit, mais pas tout. "Nous ne pouvons pas dire que cela est utile pour toute l'IA, mais il y a des cas où nous pouvons utiliser un aperçu de la physique pour améliorer un algorithme d'IA donné."
Les réseaux de neurones en général sont une tentative d'imiter la façon dont les humains apprennent certaines nouvelles choses :l'ordinateur examine de nombreux exemples différents et « apprend » quels sont les principaux modèles sous-jacents. De tels systèmes sont largement utilisés pour la reconnaissance de formes, comme apprendre à identifier les objets représentés sur les photos.
Mais les réseaux de neurones en général ont du mal à corréler les informations à partir d'une longue chaîne de données, tel que requis dans l'interprétation d'un document de recherche. Diverses astuces ont été utilisées pour améliorer cette capacité, y compris des techniques connues sous le nom de mémoire à long court terme (LSTM) et d'unités récurrentes fermées (GRU), mais ceux-ci sont encore bien en deçà de ce qui est nécessaire pour un véritable traitement du langage naturel, disent les chercheurs.
L'équipe a proposé un système alternatif, qui au lieu de se baser sur la multiplication de matrices, comme le sont la plupart des réseaux de neurones conventionnels, est basé sur des vecteurs tournant dans un espace multidimensionnel. Le concept clé est ce qu'ils appellent une unité rotative de mémoire (RUM).
Essentiellement, le système représente chaque mot du texte par un vecteur dans l'espace multidimensionnel, une ligne d'une certaine longueur pointant dans une direction particulière. Chaque mot suivant fait pivoter ce vecteur dans une certaine direction, représentés dans un espace théorique qui peut finalement avoir des milliers de dimensions. A la fin du processus, le vecteur ou l'ensemble de vecteurs final est retranscrit dans sa chaîne de mots correspondante.
"RUM aide les réseaux de neurones à très bien faire deux choses, " dit Nakov. " Cela les aide à mieux se souvenir, et cela leur permet de se souvenir des informations avec plus de précision."
Après avoir développé le système RUM pour aider à résoudre certains problèmes de physique difficiles tels que le comportement de la lumière dans des matériaux d'ingénierie complexes, "nous avons réalisé que l'un des endroits où nous pensions que cette approche pourrait être utile serait le traitement du langage naturel, " dit Soljačić, rappelant une conversation avec Tatalović, qui a noté qu'un tel outil serait utile pour son travail d'éditeur essayant de décider sur quels articles écrire. Tatalović explorait à l'époque l'IA dans le journalisme scientifique en tant que projet de bourse Knight.
"Et nous avons donc essayé quelques tâches de traitement du langage naturel dessus, " dit Soljačić. " Nous avons essayé de résumer des articles, et ça a l'air de bien marcher."
La preuve est dans la lecture
Par exemple, ils ont alimenté le même document de recherche via un réseau de neurones conventionnel basé sur LSTM et via leur système basé sur RUM. Les résumés qui en résultaient étaient radicalement différents.
Le système LSTM a donné ce résumé très répétitif et assez technique :« Baylisascariasis, " tue les souris, a mis en danger le rat des bois allegheny et a causé des maladies comme la cécité ou des conséquences graves. Cette infection, appelé « baylisascaridiase, " tue les souris, a mis en danger le rat des bois allegheny et a causé des maladies comme la cécité ou des conséquences graves. Cette infection, appelé « baylisascaridiase, " tue les souris, a mis en danger le rat des bois allegheny.
Sur la base du même papier, le système RUM a produit un résumé beaucoup plus lisible, et une qui n'incluait pas la répétition inutile de phrases :les ratons laveurs urbains peuvent infecter les gens plus qu'on ne le pensait auparavant. 7 pour cent des personnes interrogées ont été testées positives pour les anticorps des vers ronds du raton laveur. Plus de 90 pour cent des ratons laveurs de Santa Barbara hébergent ce parasite.
Déjà, le système basé sur RUM a été étendu afin qu'il puisse "lire" des articles de recherche entiers, pas seulement les résumés, produire un résumé de leur contenu. Les chercheurs ont même essayé d'utiliser le système sur leur propre document de recherche décrivant ces résultats - le document que ce reportage tente de résumer.
Voici le résumé du nouveau réseau de neurones :Des chercheurs ont développé un nouveau processus de représentation sur l'unité de rotation du RUM, une mémoire récurrente qui peut être utilisée pour résoudre un large spectre de la révolution neuronale dans le traitement du langage naturel.
Ce n'est peut-être pas de la prose élégante, mais il touche au moins les points clés de l'information.
Çağlar Gülçehre, chercheur à la société britannique d'IA Deepmind Technologies, qui n'a pas participé à ce travail, affirme que cette recherche aborde un problème important dans les réseaux de neurones, il s'agit de mettre en relation des informations largement séparées dans le temps ou dans l'espace. "Ce problème a été un problème très fondamental en IA en raison de la nécessité de raisonner sur de longs délais dans les tâches de prédiction de séquence, " dit-il. " Bien que je ne pense pas que ce document résolve complètement ce problème, il montre des résultats prometteurs sur les tâches de dépendance à long terme telles que les questions-réponses, résumé de texte, et le rappel associatif."
Gülçehre ajoute, "Étant donné que les expériences menées et le modèle proposé dans cet article sont publiés en open-source sur Github, en conséquence, de nombreux chercheurs seront intéressés à l'essayer sur leurs propres tâches. … Pour être plus précis, l'approche proposée dans cet article peut potentiellement avoir un impact très important sur les domaines du traitement du langage naturel et de l'apprentissage par renforcement, où les dépendances à long terme sont très cruciales."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.