Crédit :Pixabay/CC0 Domaine public
Les humains perçoivent le monde à travers différents sens :nous voyons, sentons, entendons, goûtons et sentons. Les différents sens avec lesquels nous percevons sont de multiples canaux d'information, également appelés multimodaux. Cela signifie-t-il que ce que nous percevons peut être vu comme multimédia ?
Xue Wang, Ph.D. Candidat au LIACS, traduit la perception en multimédia et utilise l'intelligence artificielle (IA) pour extraire des informations à partir de processus multimodaux, de la même manière que le cerveau traite les informations. Dans ses recherches, elle a testé les processus d'apprentissage de l'IA de quatre manières différentes.
Mettre des mots dans des vecteurs
Tout d'abord, Xue s'est penché sur l'apprentissage intégré aux mots :la traduction des mots en vecteurs. Un vecteur est une grandeur possédant deux propriétés, à savoir une direction et une grandeur. Plus précisément, cette partie traite de la façon dont la classification des informations peut être améliorée. Xue a proposé l'utilisation d'un nouveau modèle d'IA qui relie les mots aux images, ce qui facilite la classification des mots. Lors du test du modèle, un observateur pourrait interférer si l'IA faisait quelque chose de mal. La recherche montre que ce modèle fonctionne mieux qu'un modèle précédemment utilisé.
Regarder les sous-catégories
Un deuxième axe de recherche concerne les images accompagnées d'autres informations. Pour ce sujet, Xue a observé le potentiel des sous-catégories d'étiquetage, également connues sous le nom d'étiquetage à grain fin. Elle a utilisé un modèle d'IA spécifique pour faciliter la catégorisation des images avec peu de texte autour. Il fusionne les étiquettes grossières, qui sont des catégories générales, avec des étiquettes à grain fin, les sous-catégories. L'approche est efficace et utile pour structurer des catégorisations faciles et difficiles.
Rechercher des relations entre les images et le texte
Troisièmement, Xue a recherché l'association d'images et de textes. Un problème avec ce sujet est que la transformation de cette information n'est pas linéaire, ce qui signifie qu'elle peut être difficile à mesurer. Xue a trouvé une solution potentielle à ce problème :elle a utilisé la transformation basée sur le noyau. Le noyau représente une classe spécifique d'algorithmes dans l'apprentissage automatique. Avec le modèle utilisé, il est maintenant possible pour l'IA de voir la relation de sens entre les images et le texte.
Trouver le contraste dans les images et le texte
Enfin, Xue s'est concentré sur les images accompagnées de texte. Dans cette partie, l'IA devait examiner les contrastes entre les mots et les images. Le modèle d'IA a effectué une tâche appelée phrase grounding, qui consiste à lier des noms dans des légendes d'image à des parties de l'image. Aucun observateur ne pouvait interférer dans cette tâche. La recherche a montré que l'IA peut lier des régions d'image à des noms avec une précision moyenne pour ce domaine de recherche.
La perception de l'intelligence artificielle
Cette recherche offre une grande contribution au domaine de l'information multimédia :on voit que l'IA peut classer des mots, catégoriser des images et lier des images à du texte. Des recherches supplémentaires peuvent utiliser les méthodes proposées par Xue et, espérons-le, conduiront à une meilleure compréhension de la perception multimédia de l'IA.