Les informaticiens du MIT ont développé un système qui apprend à identifier des objets dans une image, sur la base d'une description orale de l'image. Crédit :Christine Daniloff
Les informaticiens du MIT ont développé un système qui apprend à identifier des objets dans une image, sur la base d'une description orale de l'image. Étant donné une image et une légende audio, le modèle mettra en évidence en temps réel les régions pertinentes de l'image décrite.
Contrairement aux technologies de reconnaissance vocale actuelles, le modèle ne nécessite pas de transcriptions manuelles et d'annotations des exemples sur lesquels il est formé. Au lieu, il apprend les mots directement à partir de clips vocaux enregistrés et d'objets dans des images brutes, et les associe les uns aux autres.
Le modèle ne peut actuellement reconnaître que plusieurs centaines de mots et types d'objets différents. Mais les chercheurs espèrent qu'un jour, leur technique combinée de reconnaissance parole-objet pourrait économiser d'innombrables heures de travail manuel et ouvrir de nouvelles portes dans la reconnaissance de la parole et des images.
Les systèmes de reconnaissance vocale tels que Siri et Google Voice, par exemple, nécessitent des transcriptions de plusieurs milliers d'heures d'enregistrements vocaux. En utilisant ces données, les systèmes apprennent à mapper les signaux vocaux avec des mots spécifiques. Une telle approche devient particulièrement problématique lorsque, dire, de nouveaux termes entrent dans notre lexique, et les systèmes doivent être recyclés.
"Nous voulions faire de la reconnaissance vocale d'une manière plus naturelle, tirer parti de signaux et d'informations supplémentaires que les humains ont l'avantage d'utiliser, mais auxquels les algorithmes d'apprentissage automatique n'ont généralement pas accès. Nous avons eu l'idée de former un modèle d'une manière similaire à la marche d'un enfant à travers le monde et à la narration de ce que vous voyez, " dit David Harwath, chercheur au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et au Groupe des systèmes de langage parlé. Harwath a co-écrit un article décrivant le modèle qui a été présenté lors de la récente conférence européenne sur la vision par ordinateur.
Dans le journal, les chercheurs démontrent leur modèle sur une image d'une jeune fille aux cheveux blonds et aux yeux bleus, vêtue d'une robe bleue, avec un phare blanc avec un toit rouge en arrière-plan. Le modèle a appris à associer quels pixels de l'image correspondaient aux mots « fille, " "cheveux blond, " "yeux bleus, " "robe bleue, " " phare blanc, " et " toit rouge. " Lorsqu'une légende audio a été racontée, le modèle a ensuite mis en évidence chacun de ces objets dans l'image comme ils ont été décrits.
Une application prometteuse est l'apprentissage des traductions entre différentes langues, sans avoir besoin d'un annotateur bilingue. Sur les 7 estimés 000 langues parlées dans le monde, seulement 100 environ ont suffisamment de données de transcription pour la reconnaissance vocale. Envisager, cependant, une situation où deux locuteurs de langues différentes décrivent la même image. Si le modèle apprend des signaux vocaux du langage A qui correspondent aux objets de l'image, et apprend les signaux en langage B qui correspondent à ces mêmes objets, il pourrait supposer que ces deux signaux - et les mots correspondants - sont des traductions l'un de l'autre.
"Il y a là un potentiel pour un mécanisme de type Babel Fish, " Harwath dit, se référant à l'écouteur vivant fictif dans les romans "Le guide de l'auto-stoppeur de la galaxie" qui traduit différentes langues pour le porteur.
Les co-auteurs du CSAIL sont :l'étudiante diplômée Adria Recasens; l'étudiant invité Didac Suris; l'ancien chercheur Galen Chuang; Antonio Torralba, un professeur de génie électrique et d'informatique qui dirige également le MIT-IBM Watson AI Lab; et chercheur scientifique principal James Glass, qui dirige le groupe des systèmes de langage parlé au CSAIL.
Associations audiovisuelles
Ce travail s'étend sur un modèle antérieur développé par Harwath, Un verre, et Torralba qui met en corrélation la parole avec des groupes d'images thématiquement liées. Dans les recherches antérieures, ils ont mis des images de scènes d'une base de données de classification sur la plate-forme de crowdsourcing Mechanical Turk. Ils ont ensuite demandé aux gens de décrire les images comme s'ils racontaient à un enfant, pendant environ 10 secondes. Ils en ont compilé plus de 200, 000 paires d'images et de légendes audio, dans des centaines de catégories différentes, comme les plages, centres commerciaux, rues de la ville, et chambres à coucher.
Ils ont ensuite conçu un modèle composé de deux réseaux de neurones convolutifs (CNN) distincts. On traite des images, et on traite des spectrogrammes, une représentation visuelle des signaux audio tels qu'ils varient dans le temps. La couche la plus élevée du modèle calcule les sorties des deux réseaux et mappe les modèles de parole avec des données d'image.
Les chercheurs auraient, par exemple, alimenter la légende du modèle A et l'image A, qui est correct. Puis, ils lui donneraient une légende aléatoire B avec l'image A, ce qui est un appariement incorrect. Après avoir comparé des milliers de fausses légendes avec l'image A, le modèle apprend les signaux de parole correspondant à l'image A, et associe ces signaux à des mots dans les légendes. Comme décrit dans une étude de 2016, le modèle appris, par exemple, de relever le signal correspondant au mot « eau, " et de récupérer des images avec des plans d'eau.
"But it didn't provide a way to say, 'This is exact point in time that somebody said a specific word that refers to that specific patch of pixels, '" Harwath says.
Making a matchmap
In the new paper, the researchers modified the model to associate specific words with specific patches of pixels. The researchers trained the model on the same database, but with a new total of 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.
In training, the model is similarly given correct and incorrect images and captions. Mais cette fois, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, dire, one second to capture a word or two.
With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, etc, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.
The challenge is that, during training, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."
The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.
"It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."
This story is republished courtesy of MIT News (web.mit.edu/newsoffice/), a popular site that covers news about MIT research, innovation and teaching.