Crédits :Markus Spiske/Unsplash, FAL
L'intelligence artificielle (IA) est déjà en train de reconfigurer le monde de manière visible. Les données sont le moteur de notre écosystème numérique mondial, et les technologies d'IA révèlent des modèles dans les données. Téléphones intelligents, maisons intelligentes, et les villes intelligentes influencent notre façon de vivre et d'interagir, et les systèmes d'IA sont de plus en plus impliqués dans les décisions de recrutement, diagnostics médicaux, et les verdicts judiciaires. Que ce scénario soit utopique ou dystopique dépend de votre point de vue.
Les risques potentiels de l'IA sont énumérés à plusieurs reprises. Les robots tueurs et le chômage de masse sont des préoccupations communes, tandis que certaines personnes craignent même l'extinction humaine. Des prévisions plus optimistes affirment que l'IA ajoutera 15 000 milliards de dollars à l'économie mondiale d'ici 2030, et finalement nous conduire à une sorte de nirvana social.
Nous devons certainement considérer l'impact que ces technologies ont sur nos sociétés. Une préoccupation importante est que les systèmes d'IA renforcent les préjugés sociaux existants, avec des effets néfastes. Plusieurs exemples notoires de ce phénomène ont reçu une large attention :des systèmes de traduction automatique à la pointe de la technologie qui produisent des résultats sexistes, et les systèmes de reconnaissance d'images qui classent les Noirs parmi les gorilles.
Ces problèmes surviennent parce que de tels systèmes utilisent des modèles mathématiques (tels que des réseaux de neurones) pour identifier des modèles dans de grands ensembles de données d'apprentissage. Si ces données sont fortement faussées de diverses manières, alors ses biais inhérents seront inévitablement appris et reproduits par les systèmes formés. Les technologies autonomes biaisées sont problématiques car elles peuvent potentiellement marginaliser des groupes tels que les femmes, minorités ethniques, ou les personnes âgées, aggravant ainsi les déséquilibres sociaux existants.
Si les systèmes d'IA sont formés aux données des arrestations policières, par exemple, alors tout parti pris conscient ou inconscient qui se manifeste dans les schémas d'arrestation existants serait reproduit par un système d'IA de « police prédictive » formé sur ces données. Reconnaissant les graves implications de cette situation, diverses organisations faisant autorité ont récemment conseillé que tous les systèmes d'IA devraient être formés sur des données impartiales. Les lignes directrices éthiques publiées plus tôt en 2019 par la Commission européenne proposaient la recommandation suivante :« Lorsque les données sont recueillies, il peut contenir des préjugés socialement construits, inexactitudes, erreurs et fautes. Cela doit être résolu avant la formation avec un ensemble de données donné."
Gérer les données biaisées
Tout cela semble assez raisonnable. Mais malheureusement, il est parfois tout simplement impossible de s'assurer que certains ensembles de données sont impartiaux avant la formation. Un exemple concret devrait clarifier cela.
Tous les systèmes de traduction automatique de pointe (tels que Google Translate) sont formés sur des paires de phrases. Un système anglais-français utilise des données qui associent des phrases anglaises (« elle est grande ») à des phrases françaises équivalentes (« elle est grande "). Il peut y avoir 500 m de tels appariements dans un ensemble donné de données d'entraînement, et donc un milliard de phrases distinctes au total. Tous les biais liés au genre devraient être supprimés d'un ensemble de données de ce type si nous voulions empêcher le système résultant de produire des résultats sexistes tels que les suivants :
La traduction française a été générée à l'aide de Google Translate le 11 octobre 2019, et c'est faux :" Ils " est le pronom sujet masculin pluriel en français, et il apparaît ici malgré le contexte indiquant clairement qu'il s'agit de femmes. Il s'agit d'un exemple classique de la préférence masculine par défaut du système automatisé en raison de biais dans les données d'entraînement.
En général, 70% des pronoms genrés dans les ensembles de données de traduction sont masculins, tandis que 30% sont féminins. En effet, les textes utilisés à ces fins ont tendance à se référer davantage aux hommes qu'aux femmes. Pour empêcher les systèmes de traduction de reproduire ces biais existants, des paires de phrases spécifiques devraient être supprimées des données, de sorte que les pronoms masculins et féminins apparaissent à 50/50 % à la fois du côté anglais et du côté français. Cela empêcherait le système d'attribuer des probabilités plus élevées aux pronoms masculins.
Les noms et les adjectifs devraient également être équilibrés à 50%/50%, bien sûr, puisque ceux-ci peuvent indiquer le genre dans les deux langues ("acteur", "actrice"; "neuf", "neuve") – et ainsi de suite. Mais ce sous-échantillonnage drastique réduirait nécessairement considérablement les données d'apprentissage disponibles, diminuant ainsi la qualité des traductions produites.
Et même si le sous-ensemble de données résultant était entièrement équilibré entre les sexes, il serait toujours faussé de toutes sortes d'autres manières (comme l'ethnicité ou l'âge). En vérité, il serait difficile de supprimer tous ces biais complètement . Si une personne ne consacre que cinq secondes à la lecture de chacune des un milliard de phrases des données d'entraînement, il faudrait 159 ans pour tous les vérifier - et cela suppose une volonté de travailler toute la journée et la nuit, sans pause déjeuner.
Une alternative?
Il n'est donc pas réaliste d'exiger que tous les ensembles de données d'entraînement soient impartiaux avant la construction des systèmes d'IA. Ces exigences de haut niveau supposent généralement que « IA » désigne un groupe homogène de modèles mathématiques et d'approches algorithmiques.
En réalité, différentes tâches d'IA nécessitent des types de systèmes très différents. Et minimiser l'ampleur de cette diversité masque les vrais problèmes posés par (disons) des données d'entraînement profondément faussées. C'est regrettable, car cela signifie que d'autres solutions au problème de biais de données sont négligées.
Par exemple, les biais dans un système de traduction automatique entraîné peuvent être considérablement réduits si le système est adapté après avoir été entraîné sur le plus grand, forcément biaisé, base de données. Cela peut être fait en utilisant un beaucoup plus petit, moins biaisé, base de données. La majorité des données peuvent être fortement biaisées, donc, mais le système formé dessus n'a pas besoin de l'être. Malheureusement, ces techniques sont rarement discutées par les personnes chargées d'élaborer des lignes directrices et des cadres législatifs pour la recherche en IA.
Si les systèmes d'IA ne font que renforcer les déséquilibres sociaux existants, alors ils entravent plutôt qu'ils ne facilitent le changement social positif. Si les technologies d'IA que nous utilisons de plus en plus au quotidien étaient bien moins biaisées que nous, alors ils pourraient nous aider à reconnaître et à affronter nos propres préjugés cachés.
C'est certainement ce vers quoi nous devrions travailler. Et donc les développeurs d'IA doivent réfléchir beaucoup plus attentivement aux conséquences sociales des systèmes qu'ils construisent, tandis que ceux qui écrivent sur l'IA doivent comprendre plus en détail comment les systèmes d'IA sont réellement conçus et construits. Car si nous approchons effectivement soit d'une idylle technologique, soit d'une apocalypse, le premier serait préférable.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.