Des chercheurs du MIT ont développé un « analyseur sémantique » qui apprend par l'observation pour imiter plus fidèlement le processus d'acquisition du langage d'un enfant, ce qui pourrait considérablement étendre les capacités de calcul. Crédit : Institut de technologie du Massachusetts
Les enfants apprennent la langue en observant leur environnement, à l'écoute de ceux qui l'entourent, et relier les points entre ce qu'ils voient et entendent. Entre autres, cela aide les enfants à établir l'ordre des mots de leur langue, par exemple, où les sujets et les verbes tombent dans une phrase.
En informatique, l'apprentissage du langage est la tâche des analyseurs syntaxiques et sémantiques. Ces systèmes sont entraînés sur des phrases annotées par des humains qui décrivent la structure et le sens des mots. Les parseurs deviennent de plus en plus importants pour les recherches sur le Web, interrogation de bases de données en langage naturel, et les systèmes de reconnaissance vocale tels qu'Alexa et Siri. Bientôt, ils peuvent également être utilisés pour la robotique domestique.
Mais la collecte des données d'annotation peut prendre du temps et être difficile pour les langues moins courantes. En outre, les humains ne sont pas toujours d'accord sur les annotations, et les annotations elles-mêmes peuvent ne pas refléter avec précision la façon dont les gens parlent naturellement.
Dans un article présenté à la conférence Empirical Methods in Natural Language Processing de cette semaine, Les chercheurs du MIT décrivent un analyseur qui apprend par l'observation pour imiter plus fidèlement le processus d'acquisition du langage d'un enfant, ce qui pourrait considérablement étendre les capacités de l'analyseur. Pour apprendre la structure du langage, l'analyseur observe les vidéos sous-titrées, sans autre information, et associe les mots à des objets et actions enregistrés. Étant donné une nouvelle phrase, l'analyseur peut ensuite utiliser ce qu'il a appris sur la structure de la langue pour prédire avec précision le sens d'une phrase, sans la vidéo.
Cette approche « faiblement supervisée », c'est-à-dire qu'elle nécessite des données de formation limitées, imite la façon dont les enfants peuvent observer le monde qui les entoure et apprendre la langue, sans que personne ne fournisse un contexte direct. L'approche pourrait étendre les types de données et réduire l'effort nécessaire pour former les parseurs, selon les chercheurs. Quelques phrases directement annotées, par exemple, peut être combiné avec de nombreuses vidéos sous-titrées, qui sont plus faciles à trouver, pour améliorer les performances.
À l'avenir, l'analyseur syntaxique pourrait être utilisé pour améliorer l'interaction naturelle entre les humains et les robots personnels. Un robot équipé du parser, par exemple, pouvait observer en permanence son environnement pour renforcer sa compréhension des commandes vocales, y compris lorsque les phrases prononcées ne sont pas entièrement grammaticales ou claires. "Les gens se parlent par phrases partielles, pensées incessantes, et langage brouillé. Vous voulez un robot dans votre maison qui s'adaptera à leur façon particulière de parler... et comprendra toujours ce qu'ils signifient, " dit le co-auteur Andrei Barbu, chercheur au Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL) et au Centre des Cerveaux, Esprits, and Machines (CBMM) au sein de l'Institut McGovern du MIT.
L'analyseur syntaxique pourrait également aider les chercheurs à mieux comprendre comment les jeunes enfants apprennent le langage. « Un enfant a accès au redondant, des informations complémentaires de différentes modalités, y compris entendre les parents et les frères et sœurs parler du monde, ainsi que des informations tactiles et des informations visuelles, [qui l'aident] à comprendre le monde, " dit le co-auteur Boris Katz, chercheur principal et responsable du groupe InfoLab au CSAIL. "C'est un puzzle incroyable, pour traiter toute cette entrée sensorielle simultanée. Ce travail fait partie d'une pièce plus grande pour comprendre comment ce type d'apprentissage se produit dans le monde. »
Les co-auteurs de l'article sont :la première auteure Candace Ross, un étudiant diplômé du Département de génie électrique et informatique et du CSAIL, et un chercheur en CBMM; Yevgeni Berzak Ph.D. '17, un post-doctorant dans le groupe de psycholinguistique computationnelle du département des sciences du cerveau et de la cognition ; et Battushig Myanganbayar, étudiant diplômé du CSAIL.
Personne à mémoire visuelle
Pour leur travail, les chercheurs ont combiné un analyseur sémantique avec un composant de vision par ordinateur formé à l'objet, Humain, et la reconnaissance d'activité en vidéo. Les analyseurs sémantiques sont généralement entraînés sur des phrases annotées avec un code qui attribue un sens à chaque mot et les relations entre les mots. Certains ont été formés sur des images fixes ou des simulations informatiques.
Le nouvel analyseur est le premier à être formé à l'aide de la vidéo, dit Ross. En partie, les vidéos sont plus utiles pour réduire l'ambiguïté. Si l'analyseur n'est pas sûr, dire, une action ou un objet dans une phrase, il peut faire référence à la vidéo pour clarifier les choses. "Il y a des composants temporels - des objets qui interagissent les uns avec les autres et avec des personnes - et des propriétés de haut niveau que vous ne verriez pas dans une image fixe ou simplement dans un langage, " dit Ross.
Les chercheurs ont compilé un ensemble de données d'environ 400 vidéos représentant des personnes effectuant un certain nombre d'actions, y compris ramasser un objet ou le déposer, et marcher vers un objet. Les participants sur la plateforme de crowdsourcing Mechanical Turk ont ensuite fourni 1, 200 légendes pour ces vidéos. Ils ont mis de côté 840 exemples de sous-titres vidéo pour la formation et le réglage, et utilisé 360 pour les tests. L'un des avantages de l'analyse basée sur la vision est que « vous n'avez pas besoin d'autant de données, bien que si vous aviez [les données], vous pouvez évoluer jusqu'à d'énormes ensembles de données, " dit Barbu.
Dans la formation, les chercheurs ont donné à l'analyseur l'objectif de déterminer si une phrase décrit avec précision une vidéo donnée. Ils ont fourni à l'analyseur une vidéo et une légende correspondante. L'analyseur extrait les significations possibles de la légende sous forme d'expressions mathématiques logiques. La phrase, "La femme ramasse une pomme, " par exemple, peut être exprimé par :λxy. femme x, ramasser x y, pomme y.
Ces expressions et la vidéo sont entrées dans l'algorithme de vision par ordinateur, appelé "Sentence Tracker, " développé par Barbu et d'autres chercheurs. L'algorithme examine chaque image vidéo pour suivre comment les objets et les personnes se transforment au fil du temps, pour déterminer si les actions se déroulent comme décrit. De cette façon, it determines if the meaning is possibly true of the video.
Connecting the dots
The expression with the most closely matching representations for objects, humains, and actions becomes the most likely meaning of the caption. The expression, initially, may refer to many different objects and actions in the video, but the set of possible meanings serves as a training signal that helps the parser continuously winnow down possibilities. "By assuming that all of the sentences must follow the same rules, that they all come from the same language, and seeing many captioned videos, you can narrow down the meanings further, " Barbu says.
En bref, the parser learns through passive observation:To determine if a caption is true of a video, the parser by necessity must identify the highest probability meaning of the caption. "The only way to figure out if the sentence is true of a video [is] to go through this intermediate step of, 'What does the sentence mean?' Autrement, you have no idea how to connect the two, " Barbu explains. "We don't give the system the meaning for the sentence. We say, 'There's a sentence and a video. The sentence has to be true of the video. Figure out some intermediate representation that makes it true of the video.'"
The training produces a syntactic and semantic grammar for the words it's learned. Given a new sentence, the parser no longer requires videos, but leverages its grammar and lexicon to determine sentence structure and meaning.
Finalement, this process is learning "as if you're a kid, " Barbu says. "You see world around you and hear people speaking to learn meaning. One day, I can give you a sentence and ask what it means and, even without a visual, you know the meaning."
Dans les travaux futurs, the researchers are interested in modeling interactions, not just passive observations. "Children interact with the environment as they're learning. Our idea is to have a model that would also use perception to learn, " Ross says.
This work was supported, en partie, by the CBMM, la Fondation nationale des sciences, a Ford Foundation Graduate Research Fellowship, the Toyota Research Institute, and the MIT-IBM Brain-Inspired Multimedia Comprehension project.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.