Le modèle est capable d'apprendre des fonctionnalités qui codent bien le contenu sémantique des images. Étant donné une requête d'image (image à gauche), le modèle est capable de récupérer des images sémantiquement similaires (représentent le même type d'objet), bien qu'ils puissent être visuellement différents (différentes couleurs, arrière-plans ou compositions). Crédit :arXiv:1807.02110 [cs.CV]
Chercheurs de l'Universitat Autonoma de Barcelona, Université Carnegie Mellon et Institut international des technologies de l'information, Hyderabad, Inde, ont développé une technique qui pourrait permettre à des algorithmes d'apprentissage profond d'apprendre les caractéristiques visuelles des images de manière auto-supervisée, sans avoir besoin d'annotations par des chercheurs humains.
Pour obtenir des résultats remarquables dans les tâches de vision par ordinateur, les algorithmes d'apprentissage en profondeur doivent être entraînés sur des ensembles de données annotés à grande échelle qui incluent des informations détaillées sur chaque image. Cependant, collecter et annoter manuellement ces images demande énormément de temps, Ressources, et l'effort humain.
"Nous visons à donner aux ordinateurs la capacité de lire et de comprendre des informations textuelles dans n'importe quel type d'image dans le monde réel, " dit Dimosthénis Karatzas, l'un des chercheurs qui a mené l'étude, dans une interview avec Tech Xplore .
Les humains utilisent des informations textuelles pour interpréter toutes les situations qui leur sont présentées, ainsi que pour décrire ce qui se passe autour d'eux ou dans une image particulière. Les chercheurs essaient maintenant de donner des capacités similaires aux machines, car cela réduirait considérablement la quantité de ressources consacrées à l'annotation de grands ensembles de données.
Dans leur étude, Karatzas et ses collègues ont conçu des modèles informatiques qui associent des informations textuelles sur les images aux informations visuelles qu'elles contiennent, en utilisant les données de Wikipédia ou d'autres plateformes en ligne. Ils ont ensuite utilisé ces modèles pour former des algorithmes d'apprentissage en profondeur sur la façon de sélectionner de bonnes caractéristiques visuelles qui décrivent sémantiquement les images.
Comme dans d'autres modèles basés sur les réseaux de neurones convolutifs (CNN), les fonctionnalités sont apprises de bout en bout, avec différentes couches apprenant automatiquement à se concentrer sur différentes choses, allant des détails au niveau des pixels dans les premières couches à des caractéristiques plus abstraites dans les dernières.
Le modèle développé par Karatzas et ses collègues, cependant, ne nécessite pas d'annotations spécifiques pour chaque image. Au lieu, le contexte textuel où se trouve l'image (par exemple un article de Wikipédia) agit comme le signal de supervision.
En d'autres termes, la nouvelle technique créée par cette équipe de chercheurs offre une alternative aux algorithmes totalement non supervisés, qui utilise des éléments non visuels en corrélation avec les images, agissant comme une source de formation auto-encadrée.
"Cela s'avère être un moyen très efficace d'apprendre à représenter des images dans un ordinateur, sans nécessiter d'annotations explicites - des étiquettes sur le contenu des images - qui prennent beaucoup de temps et d'efforts manuels à générer, " explique Karatzas. " Ces nouvelles représentations d'images, appris de manière auto-encadrée, sont suffisamment discriminatoires pour être utilisés dans une gamme de tâches typiques de vision par ordinateur, telles que la classification d'images et la détection d'objets."
La méthodologie développée par les chercheurs permet d'utiliser du texte comme signal de supervision pour apprendre les caractéristiques utiles de l'image. Cela pourrait ouvrir de nouvelles possibilités d'apprentissage en profondeur, permettant aux algorithmes d'apprendre des caractéristiques d'image de bonne qualité sans avoir besoin d'annotations, simplement en analysant des sources textuelles et visuelles facilement disponibles en ligne.
En entraînant leurs algorithmes à l'aide d'images d'Internet, les chercheurs ont souligné la valeur du contenu facilement disponible en ligne.
"Notre étude a démontré que le Web peut être exploité comme un pool de données bruitées pour apprendre des représentations utiles sur le contenu des images, " dit Karatzas. " Nous ne sommes pas les premiers, ni les seuls qui ont fait allusion dans cette direction, mais notre travail a démontré une manière spécifique de le faire, en utilisant les articles de Wikipédia comme données à partir desquelles apprendre."
Dans les études futures, Karatzas et ses collègues essaieront d'identifier les meilleures façons d'utiliser les informations textuelles intégrées aux images pour décrire et répondre automatiquement aux questions sur le contenu des images.
« Nous poursuivrons nos travaux sur l'encastrement conjoint d'informations textuelles et visuelles, rechercher de nouvelles façons d'effectuer une récupération sémantique en tapant sur des informations bruyantes disponibles sur le Web et les médias sociaux, " ajoute Karatzas.
© 2018 Tech Xplore