Vue d'ensemble des tâches dans IGLUE, qui incluent l'inférence ancrée du langage naturel, la réponse visuelle aux questions, le raisonnement ancré et la récupération intermodale. Chaque tâche est associée à un exemple d'entrée et de sortie (traductions en anglais en bas). Crédit :Actes de la trente-neuvième conférence internationale sur l'apprentissage automatique (2022). DOI :10.48550/arXiv.2201.11732
Tant de langues; et pourtant, l'anglais a une domination presque totale en ce qui concerne la technologie de l'IA Machine Learning (ML). Si, par exemple, les chercheurs entraînent un ordinateur à saisir le contenu d'un texte aléatoire, les échantillons d'entraînement seront généralement en anglais.
"Cela introduit un biais culturel non intentionnel important. Même après une formation approfondie, la machine n'aura jamais été exposée à l'apprivoisement des taureaux en Inde, à la cuisson à la marmite chinoise ou à d'autres phénomènes familiers à des millions de personnes, mais qui mentent. en dehors de l'horizon anglophone natif », déclare Ph.D. chercheur Emanuele Bugliarello, Département d'informatique (DIKU), Université de Copenhague.
Dans un véritable effort interculturel, Bugliarello et ses collègues de divers pays ont créé un nouvel outil qui encourage une approche plus diversifiée. IGLUE (Image-Grounded Language Understanding Evaluation), comme ils ont nommé l'outil, est une référence qui permet de noter l'efficacité d'une solution ML dans 20 langues (plutôt que l'anglais seul).
Leur article scientifique présentant IGLUE a été accepté pour publication dans les prochains Proceedings of The Thirty-ninth International Conference on Machine Learning , l'une des meilleures conférences dans le domaine.
Les volontaires ont fourni des images spécifiques à la culture
Comment un nouveau benchmark peut-il faire la différence ?
"Lorsque les équipes de recherche ML créent de nouvelles solutions, elles sont toujours très compétitives. Si un autre groupe a réussi à résoudre une tâche ML donnée avec une précision de 98 %, vous essaierez d'obtenir 99 % et ainsi de suite. C'est ce qui fait avancer le domaine. Mais l'inconvénient est que si vous n'avez pas de référence appropriée pour une fonctionnalité donnée, elle ne sera pas priorisée. Cela a été le cas pour le ML multimodal, et IGLUE est notre tentative de changer la scène », déclare Bugliarello.
Baser la formation sur des images est standard en ML. Cependant, les images sont généralement "étiquetées", ce qui signifie que des morceaux de texte accompagneront chaque image, facilitant le processus d'apprentissage de la machine. Alors que les étiquettes sont normalement en anglais, IGLUE couvre 20 langues typologiquement diverses, couvrant 11 familles de langues, 9 écritures et 3 macro-zones géographiques.
Une partie des images dans IGLUE sont spécifiques à la culture. Ces images ont été obtenues grâce à une campagne de courrier. Les chercheurs ont demandé à des volontaires dans des pays géographiquement divers de fournir des images et des textes dans leur langue naturelle et de préférence sur des choses qui étaient importantes dans ce pays.
Submergé par les réactions positives
Le manque actuel de ML multimodal a des implications pratiques, explique Bugliarello :
"Disons que vous avez une allergie alimentaire et que vous avez une application qui peut vous dire si les ingrédients problématiques sont présents dans un repas. En vous retrouvant dans un restaurant en Chine, vous vous rendez compte que le menu est entièrement en chinois mais contient des images. Si votre application est bonne, elle peut traduire l'image en recette, mais seulement si la machine a été exposée à des échantillons chinois pendant la formation."
En d'autres termes, les non-anglophones obtiennent une version moins bonne des solutions basées sur le ML :
"Les performances de nombreuses solutions de ML de pointe chuteront instantanément, car elles seront exposées à des données provenant de pays non anglophones. Et notamment, les solutions de ML passent à côté de concepts et d'idées qui ne sont pas formés en Europe ou en Amérique du Nord. C'est quelque chose auxquelles la communauté de recherche en ML doit s'attaquer", déclare Bugliarello.
Heureusement, de nombreux collègues ont vu la lumière, note Bugliarello :
"Tout a commencé il y a quelques années lorsque nous avons rédigé un article pour la conférence EMNLP (Empirical Methods in Natural Language Processing). Nous voulions simplement signaler un problème, mais nous avons rapidement été submergés d'intérêt, et à notre grande surprise, notre contribution a été sélectionné comme meilleur article long. Les gens ont clairement vu le problème, et nous avons été encouragés à en faire plus."
Peut aider les malvoyants
Parfois, le succès actuel ressemble presque à un fardeau, admet Bugliarello :
"En tant qu'université publique, nous avons des ressources limitées. Nous ne pouvons pas poursuivre tous les aspects de cette énorme tâche. Pourtant, nous pouvons voir que d'autres groupes se joignent à nous. Nous pouvons également ressentir l'intérêt des grandes entreprises technologiques. Elles sont fortement engagées dans ML et commencent à réaliser à quel point le biais anglais peut être un problème. Évidemment, ils ne sont pas contents de voir les performances de leurs solutions chuter de manière significative lorsqu'elles sont appliquées en dehors des contextes anglophones."
Malgré les évolutions positives, Bugliarello ne se laisse pas emporter. Lorsqu'on lui demande à quel point nous sommes proches d'un apprentissage automatique non biaisé, il répond :
"Oh, nous sommes très loin."
Pourtant, il ne s'agit pas seulement d'égalité culturelle :
"La méthodologie derrière IGLUE peut trouver plusieurs applications. Par exemple, nous espérons améliorer les solutions pour les malvoyants. Des outils existent, qui aident les malvoyants à suivre l'intrigue d'un film ou d'un autre type de communication visuelle. Ces outils sont actuellement loin d'être parfaits , et j'aimerais beaucoup pouvoir les améliorer. Mais c'est un peu plus loin dans le futur", déclare Bugliarello + Explorer plus loin