• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • CycleMatch :une nouvelle approche pour faire correspondre des images et du texte

    Crédit :Liu et al.

    Chercheurs de l'Université de Leiden et de l'Université nationale des technologies de la défense (NUDT), en Chine, ont récemment développé une nouvelle approche pour la correspondance image-texte, appelé CycleMatch. Leur approche, présenté dans un article publié dans Elsevier's La reconnaissance de formes journal, est basé sur un apprentissage cohérent avec le cycle, une technique qui est parfois utilisée pour former des réseaux de neurones artificiels sur des tâches de traduction d'image à image. L'idée générale derrière la cohérence de cycle est que lors de la transformation des données sources en données cibles et vice versa, on devrait enfin obtenir les échantillons sources originaux.

    Lorsqu'il s'agit de développer des outils d'intelligence artificielle (IA) performants dans des tâches multimodales ou multimédias, trouver des moyens de relier les images et les représentations textuelles est d'une importance cruciale. Des études antérieures ont tenté d'y parvenir en découvrant une sémantique ou des caractéristiques pertinentes à la fois pour la vision et le langage.

    Lors de l'apprentissage des algorithmes sur les corrélations entre différentes modalités, cependant, ces études ont souvent négligé ou échoué à aborder la cohérence sémantique intramodale, qui est la cohérence de la sémantique pour les modalités individuelles (c'est-à-dire la vision et le langage). Pour pallier cette lacune, l'équipe de chercheurs de l'Université de Leiden et du NUDT a proposé une approche qui applique des plongements cohérents au cycle à un réseau de neurones profonds pour faire correspondre les représentations visuelles et textuelles.

    "Notre approche, nommé CycleMatch, peut maintenir à la fois des corrélations intermodales et une cohérence intramodale en cascadant des mappages doubles et des mappages reconstruits de manière cyclique, " les chercheurs ont écrit dans leur article. " De plus, pour obtenir une inférence robuste, nous proposons d'employer deux approches de fusion tardive :la fusion moyenne et la fusion adaptative."

    L'approche conçue par les chercheurs intègre trois intégrations de caractéristiques (double, plongements reconstruits et latents) avec un réseau de neurones pour la correspondance image-texte. La méthode a deux branches de cycle, l'un partant d'un élément d'image dans l'espace visuel et l'autre d'un élément de texte dans l'espace textuel.

    Pour chacun de ces cycles, leur approche réalise une double cartographie, traduire une caractéristique d'entrée dans l'espace source en une double intégration dans l'espace cible. Les chercheurs appliquent ensuite une cartographie reconstruite, essayant de traduire cette double intégration dans l'espace source.

    Leur approche permet également aux chercheurs d'acquérir un « espace latent » lors des cartographies doubles et reconstruites, et corréler par la suite les plongements latents. Contrairement à d'autres techniques de mise en correspondance image-texte, donc, leur méthode peut apprendre à la fois des mappages intermodaux (c'est-à-dire image-à-texte et texte-à-image) et des mappages intra-modaux (image-à-image et texte-à-texte).

    Pour évaluer leur approche, les chercheurs ont mené une série d'expériences à l'aide de deux jeux de données multimodaux renommés, Flickr30K et MSCOCO. Leur méthode a obtenu des résultats de pointe, surpassant les approches traditionnelles et conduisant à des améliorations significatives dans la récupération intermodale.

    Ces résultats suggèrent que les intégrations cycliques pourraient améliorer les performances des réseaux de neurones dans les tâches multimodales, comme la correspondance image-texte, leur permettant d'acquérir à la fois des cartographies intermodales et intramodales. Dans leurs futurs travaux, les chercheurs envisagent de développer davantage leur approche, en prenant en compte les relations locales dans l'appariement des images et du texte (par exemple, les corrélations sémantiques entre les régions visuelles et les phrases).

    © 2019 Réseau Science X




    © Science https://fr.scienceaq.com