Aborder les problèmes de biais en intelligence artificielle, des informaticiens de Princeton et de l'Université de Stanford ont proposé des améliorations à ImageNet, une base de données de plus de 14 millions d'images. Les chercheurs ont développé un outil qui permet aux utilisateurs de spécifier et de récupérer des ensembles d'images de personnes équilibrées par âge, l'expression du genre ou la couleur de la peau. L'animation ci-dessus est une représentation conceptuelle de l'outil. Crédit :Ryan Rizzuto
Aborder les problèmes de biais en intelligence artificielle, des informaticiens de Princeton et de l'Université de Stanford ont développé des méthodes pour obtenir des ensembles de données plus justes contenant des images de personnes. Les chercheurs proposent des améliorations à ImageNet, une base de données de plus de 14 millions d'images qui a joué un rôle clé dans l'avancement de la vision par ordinateur au cours de la dernière décennie.
ImageNet, qui comprend des images d'objets et de paysages ainsi que des personnes, sert de source de données de formation pour les chercheurs créant des algorithmes d'apprentissage automatique qui classent les images ou reconnaissent les éléments qu'elles contiennent. L'échelle sans précédent d'ImageNet nécessitait une collecte d'images automatisée et une annotation d'images participative. Bien que les catégories de personnes de la base de données aient rarement été utilisées par la communauté des chercheurs, l'équipe ImageNet s'est efforcée de résoudre les préjugés et autres préoccupations concernant les images mettant en scène des personnes qui sont des conséquences imprévues de la construction d'ImageNet.
« La vision par ordinateur fonctionne maintenant très bien, ce qui veut dire qu'il est déployé partout dans toutes sortes de contextes, " a déclaré la co-auteure Olga Russakovsky, professeur adjoint d'informatique à Princeton. "Cela signifie que le moment est venu de parler de l'impact que cela a sur le monde et de réfléchir à ce genre de problèmes d'équité."
Dans un nouveau journal, l'équipe ImageNet a systématiquement identifié les concepts non visuels et les catégories offensantes, telles que les caractérisations raciales et sexuelles, parmi les catégories de personnes d'ImageNet et a proposé de les supprimer de la base de données. Les chercheurs ont également conçu un outil qui permet aux utilisateurs de spécifier et de récupérer des ensembles d'images de personnes équilibrées par âge, l'expression de genre ou la couleur de la peau, dans le but de faciliter les algorithmes qui classent plus équitablement les visages et les activités des personnes dans les images. Les chercheurs ont présenté leurs travaux le 30 janvier à l'Association for Computing Machinery's Conference on Fairness, Responsabilité et transparence à Barcelone, Espagne.
« Il y a un grand besoin de chercheurs et de laboratoires possédant une expertise technique de base dans ce domaine pour s'engager dans ce genre de conversations, " a déclaré Russakovsky. " Étant donné que nous devons collecter les données à grande échelle, compte tenu du fait que cela va se faire avec le crowdsourcing parce que c'est le pipeline le plus efficace et le mieux établi, comment pouvons-nous faire cela d'une manière plus juste—qui ne tombe pas dans ce genre d'écueils antérieurs? Le message central de cet article est autour de solutions constructives."
Un groupe d'informaticiens de Princeton et Stanford a lancé ImageNet en 2009 en tant que ressource pour les chercheurs universitaires et les éducateurs. Fei-Fei Li, ancienne élève de Princeton et membre du corps professoral, a dirigé l'effort. maintenant professeur d'informatique à Stanford. Pour encourager les chercheurs à construire de meilleurs algorithmes de vision par ordinateur en utilisant ImageNet, l'équipe a également créé le défi de reconnaissance visuelle à grande échelle ImageNet. Le défi s'est concentré en grande partie sur la reconnaissance d'objets à l'aide de 1, 000 catégories d'images, dont seulement trois mettaient en vedette des personnes.
Certains des problèmes d'équité dans ImageNet proviennent du pipeline utilisé pour créer la base de données. Ses catégories d'images provenaient de WordNet, une ancienne base de données de mots anglais utilisés pour la recherche sur le traitement du langage naturel. Les créateurs d'ImageNet ont adopté les noms dans WordNet, dont certains, bien qu'il s'agisse de termes verbaux clairement définis, ne traduisent pas bien dans un vocabulaire visuel. Par exemple, les termes décrivant la religion ou l'origine géographique d'une personne peuvent ne récupérer que les résultats de recherche d'images les plus distinctifs, potentiellement conduire à des algorithmes qui perpétuent les stéréotypes.
Un projet artistique récent appelé ImageNet Roulette a attiré une attention accrue sur ces préoccupations. Le projet, sorti en septembre 2019 dans le cadre d'une exposition d'art sur les systèmes de reconnaissance d'images, utilisé des images de personnes d'ImageNet pour former un modèle d'intelligence artificielle qui classait les personnes en mots en fonction d'une image soumise. Les utilisateurs pouvaient télécharger une image d'eux-mêmes et récupérer une étiquette basée sur ce modèle. La plupart des classifications étaient offensantes ou simplement hors-base.
L'innovation centrale qui a permis aux créateurs d'ImageNet d'amasser une si grande base de données d'images étiquetées était l'utilisation du crowdsourcing - en particulier, la plateforme Amazon Mechanical Turk (MTurk), par lequel les travailleurs ont été payés pour vérifier les images des candidats. Cette approche, tout en transformant, était imparfait, conduisant à des biais et à des catégorisations inappropriées.
« Lorsque vous demandez aux gens de vérifier les images en sélectionnant les bonnes parmi un grand nombre de candidats, les gens se sentent obligés de sélectionner certaines images et ces images ont tendance à être celles qui présentent des caractéristiques distinctives ou stéréotypées, " a déclaré l'auteur principal Kaiyu Yang, un étudiant diplômé en informatique.
Dans l'étude, Yang et ses collègues ont d'abord filtré les catégories de personnes potentiellement offensantes ou sensibles d'ImageNet. Ils ont défini les catégories offensantes comme celles contenant des injures ou des injures raciales ou sexistes ; catégories sensibles incluses, par exemple, la classification des personnes en fonction de l'orientation sexuelle ou de la religion. Pour annoter les catégories, ils ont recruté 12 étudiants diplômés d'horizons divers, leur enjoignant de pécher par excès en étiquetant une catégorie comme sensible s'ils n'étaient pas sûrs. Cela a éliminé 1, 593 catégories—environ 54 % des 2, 932 catégories de personnes dans ImageNet.
Les chercheurs se sont ensuite tournés vers les travailleurs de MTurk pour évaluer l'« imageabilité » des catégories sûres restantes sur une échelle de un à cinq. Le fait de conserver les catégories avec une note d'image de quatre ou plus a donné lieu à seulement 158 catégories classées à la fois sûres et imageables. Même cet ensemble de catégories hautement filtré en contenait plus de 133, 000 images—une mine d'exemples pour la formation d'algorithmes de vision par ordinateur.
Au sein de ces 158 catégories, les chercheurs ont étudié la représentation démographique des personnes dans les images afin d'évaluer le niveau de biais dans ImageNet et de concevoir une approche pour créer des ensembles de données plus justes. Le contenu d'ImageNet provient de moteurs de recherche d'images tels que Flickr, et les moteurs de recherche en général produisent des résultats qui surreprésentent les hommes, personnes à la peau claire, et les adultes entre 18 et 40 ans.
« Les gens ont constaté que la répartition des données démographiques dans les résultats de recherche d'images est fortement biaisée, et c'est pourquoi la diffusion dans ImageNet est également biaisée, " a déclaré Yang. " Dans cet article, nous avons essayé de comprendre à quel point il est biaisé, et aussi de proposer une méthode pour équilibrer la distribution."
Parmi les attributs protégés par les lois anti-discrimination américaines, les chercheurs ont considéré les trois attributs pouvant être visualisés :la couleur de la peau, l'expression du genre et l'âge. Les travailleurs de MTurk ont été invités à annoter chaque attribut de chaque personne dans une image. Ils ont classé la couleur de la peau comme claire, moyen ou foncé; et l'âge de l'enfant (moins de 18 ans), adulte 18-40, adulte de 40 à 65 ans ou adulte de plus de 65 ans. Les classifications selon le sexe incluaient les hommes, féminine et incertaine - un moyen d'inclure des personnes ayant des expressions de genre diverses, ainsi que d'annoter des images dans lesquelles le sexe ne pouvait pas être perçu à partir d'indices visuels (comme de nombreuses images de bébés ou de plongeurs).
Une analyse des annotations a montré que, similaire aux résultats de recherche, Le contenu d'ImageNet reflète un parti pris considérable. Les gens annotés comme à la peau foncée, femelles, et les adultes de plus de 40 ans étaient sous-représentés dans la plupart des catégories.
Même si le processus d'annotation comprenait des contrôles de qualité et exigeait que les annotateurs parviennent à un consensus, par souci du danger potentiel des annotations erronées, les chercheurs ont choisi de ne pas publier d'annotations démographiques pour des images individuelles. Au lieu, ils ont conçu un outil d'interface Web qui permet aux utilisateurs d'obtenir un ensemble d'images qui sont démographiquement équilibrées d'une manière que l'utilisateur spécifie. Par exemple, la collection complète d'images dans la catégorie "programmeur" peut inclure environ 90% d'hommes et 10% de femmes, tandis qu'aux États-Unis, environ 20% des programmeurs informatiques sont des femmes. Un chercheur pourrait utiliser le nouvel outil pour récupérer un ensemble d'images de programmeur représentant 80 % d'hommes et 20 % de femmes, ou une répartition égale, selon l'objectif du chercheur.
"Nous ne voulons pas dire quelle est la bonne façon d'équilibrer la démographie, car ce n'est pas une question très simple, " a déclaré Yang. " La répartition pourrait être différente dans différentes parties du monde - la répartition des couleurs de peau aux États-Unis est différente de celle des pays d'Asie, par exemple. Nous laissons donc cette question à notre utilisateur, et nous fournissons juste un outil pour récupérer un sous-ensemble équilibré d'images."
L'équipe ImageNet travaille actuellement sur des mises à jour techniques de son matériel et de sa base de données, en plus de mettre en œuvre le filtrage des catégories de personnes et l'outil de rééquilibrage développé dans cette recherche. ImageNet sera bientôt réédité avec ces mises à jour, et avec un appel à commentaires de la communauté de recherche en vision par ordinateur.