Crédits :Aleutie/Shutterstock
Les outils de traduction en ligne nous ont aidés à apprendre de nouvelles langues, communiquer au-delà des frontières linguistiques, et consulter des sites Web étrangers dans notre langue maternelle. Mais l'intelligence artificielle (IA) derrière eux est loin d'être parfaite, souvent reproduire plutôt que rejeter les préjugés qui existent au sein d'une langue ou d'une société.
Ces outils sont particulièrement vulnérables aux stéréotypes de genre, parce que certaines langues (comme l'anglais) ne tendent pas vers les noms de genre, tandis que d'autres (comme l'allemand) le font. Lors de la traduction de l'anglais vers l'allemand, les outils de traduction doivent décider à quel genre attribuer des mots anglais comme « plus propre ». En grande majorité, les outils sont conformes au stéréotype, optant pour le mot féminin en allemand.
Les préjugés sont humains :ils font partie de qui nous sommes. Mais lorsqu'il n'est pas contesté, des préjugés peuvent émerger sous la forme d'attitudes négatives concrètes envers les autres. Maintenant, notre équipe a trouvé un moyen de recycler l'IA derrière les outils de traduction, en utilisant une formation ciblée pour l'aider à éviter les stéréotypes de genre. Notre méthode pourrait être utilisée dans d'autres domaines de l'IA pour aider la technologie à rejeter, plutôt que de reproduire, préjugés au sein de la société.
Algorithmes biaisés
Au grand désarroi de leurs créateurs, Les algorithmes d'IA développent souvent des traits racistes ou sexistes. Google Translate a été accusé de stéréotypes basés sur le genre, telles que ses traductions présupposant que tous les médecins sont des hommes et toutes les infirmières sont des femmes. Pendant ce temps, le générateur de langage d'IA GPT-3 - qui a écrit un article entier pour le Guardian en 2020 - a récemment montré qu'il était également incroyablement bon pour produire du contenu préjudiciable et de la désinformation.
Le hongrois est une langue neutre, il n'a pas de pronoms genrés, donc Google Translate choisit automatiquement le sexe pour vous. Voici comment le sexisme quotidien est systématiquement codé en 2021. Va te faire foutre, Google. pic.twitter.com/EPqkEw5yEQ
– Dora Vargha (@DoraVargha) 20 mars 2021
Ces échecs de l'IA ne sont pas nécessairement la faute de leurs créateurs. Des universitaires et des militants ont récemment attiré l'attention sur les préjugés sexistes dans l'Oxford English Dictionary, où les synonymes sexistes de « femme » – tels que « salope » ou « femme de chambre » – montrent comment même une Un catalogue de mots édité par des universitaires peut contenir des préjugés qui renforcent les stéréotypes et perpétuent le sexisme quotidien.
L'IA apprend les préjugés car elle ne se construit pas dans le vide :elle apprend à penser et à agir en lisant, analyser et catégoriser les données existantes, comme celles contenues dans l'Oxford English Dictionary. Dans le cas de l'IA de traduction, nous exposons son algorithme à des milliards de mots de données textuelles et lui demandons de reconnaître et d'apprendre des modèles qu'il détecte. Nous appelons ce processus l'apprentissage automatique, et en cours de route, les modèles de biais sont appris ainsi que ceux de la grammaire et de la syntaxe.
Idéalement, les données textuelles que nous montrons que l'IA ne contiendra pas de biais. Mais il y a une tendance continue dans le domaine vers la construction de systèmes plus grands formés sur des ensembles de données sans cesse croissants. Nous parlons de centaines de milliards de mots. Ceux-ci sont obtenus sur Internet en utilisant des outils de grattage de texte sans discrimination comme Common Crawl et WebText2, qui maraudent à travers le web, engloutissant chaque mot qu'ils rencontrent.
La taille même des données résultantes rend impossible pour tout être humain de savoir réellement ce qu'elles contiennent. Mais nous savons que certains d'entre eux proviennent de plateformes comme Reddit, qui a fait la une des journaux pour avoir présenté une offensive, informations fausses ou complotistes dans les publications des utilisateurs.
Nouvelles traductions
Dans notre recherche, nous voulions rechercher un moyen de contrer le biais au sein des ensembles de données textuelles extraits d'Internet. Nos expériences ont utilisé une partie sélectionnée au hasard d'un corpus anglais-allemand existant (une sélection de texte) qui contenait à l'origine 17,2 millions de paires de phrases - la moitié en anglais, moitié en allemand.
Comme nous l'avons souligné, L'allemand a des formes genrées pour les noms (le docteur peut être "der Arzt" pour l'homme, "die Ärztin" pour femme) où en anglais nous ne genrons pas ces formes nominales (à quelques exceptions près, eux-mêmes litigieux, comme "acteur" et "actrice").
Notre analyse de ces données a révélé des déséquilibres clairs entre les sexes. Par exemple, nous avons constaté que la forme masculine d'ingénieur en allemand (der Ingenieur) était 75 fois plus répandue que sa contrepartie féminine (die Ingenieurin). Un outil de traduction formé sur ces données reproduira inévitablement ce biais, traduisant « ingénieur » au masculin « der Ingenieur ». Alors, que peut-on faire pour éviter ou atténuer cela?
Surmonter les préjugés
Une réponse apparemment simple consiste à « équilibrer » le corpus avant de demander aux ordinateurs d'en tirer des leçons. Peut-être, par exemple, ajouter plus de femmes ingénieurs au corpus empêcherait un système de traduction de supposer que tous les ingénieurs sont des hommes.
Malheureusement, il y a des difficultés avec cette approche. Les outils de traduction sont entraînés pendant des jours sur des milliards de mots. Les recycler en modifiant le genre des mots est possible, mais c'est inefficace, cher et compliqué. L'ajustement du genre dans des langues comme l'allemand est particulièrement difficile car, pour donner un sens grammatical, il peut être nécessaire de changer plusieurs mots dans une phrase pour refléter l'échange de genre.
Au lieu de ce laborieux rééquilibrage des genres, nous avons décidé de recycler les systèmes de traduction existants avec des cours ciblés. Lorsque nous avons repéré un biais dans les outils existants, nous avons décidé de les recycler sur du neuf, des ensembles de données plus petits, un peu comme un après-midi de formation à la sensibilité au genre au travail.
Cette approche prend une fraction du temps et des ressources nécessaires pour former des modèles à partir de zéro. Nous n'avons pu utiliser que quelques centaines d'exemples de traduction sélectionnés, au lieu de millions, pour ajuster le comportement de l'IA de traduction de manière ciblée. Lors des tests de professions genrées en traduction, comme nous l'avions fait avec les « ingénieurs », les améliorations de précision après adaptation étaient environ neuf fois supérieures à celles de l'approche de recyclage « équilibrée ».
Dans notre recherche, nous voulions montrer que s'attaquer aux biais cachés dans d'énormes ensembles de données ne signifie pas nécessairement ajuster laborieusement des millions d'exemples de formation, une tâche qui risque d'être rejetée comme impossible. Au lieu, les biais des données peuvent être ciblés et non appris – une leçon que d'autres chercheurs en IA peuvent appliquer à leur propre travail.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.