Crédit :CC0 Domaine public
Les tweets censés être écrits par des Afro-Américains sont beaucoup plus susceptibles d'être étiquetés comme discours de haine que les tweets associés aux Blancs, selon une étude Cornell analysant cinq collections de données Twitter marquées pour un langage abusif.
Les cinq ensembles de données, compilé par des universitaires pour la recherche, a montré des préjugés contre les utilisateurs de Twitter que l'on croit afro-américains. Bien que les sociétés de médias sociaux, y compris Twitter, n'utilisent probablement pas ces ensembles de données pour leurs propres systèmes de détection de discours haineux, la cohérence des résultats suggère qu'un biais similaire pourrait être répandu.
"Nous avons trouvé cohérent, des préjugés raciaux systématiques et substantiels, " a déclaré Thomas Davidson, doctorant en sociologie et premier auteur de "Racial Bias in Hate Speech and Abusive Language Datasets", " qui a été présenté à la réunion annuelle de l'Association for Computational Linguistics, 28 juillet-août. 2 à Florence, Italie.
"Ces systèmes sont en cours de développement pour identifier le langage utilisé pour cibler les populations marginalisées en ligne, " a déclaré Davidson. " C'est extrêmement préoccupant si les mêmes systèmes sont eux-mêmes discriminatoires à l'encontre de la population qu'ils sont conçus pour protéger. "
Alors que les géants de l'Internet se tournent de plus en plus vers l'intelligence artificielle pour signaler le contenu haineux parmi des millions de messages, les inquiétudes concernant les biais dans les modèles d'apprentissage automatique sont à la hausse. Parce que le biais commence souvent dans les données utilisées pour former ces modèles, les chercheurs ont cherché à évaluer des ensembles de données qui ont été créés pour aider à comprendre et à classer le discours de haine.
Pour effectuer leur analyse, ils ont sélectionné cinq ensembles de données, dont l'un Davidson a aidé à développer à Cornell, consistant en un total de 270, 000 messages Twitter. Tous les cinq avaient été annotés par des humains pour signaler un langage abusif ou un discours de haine.
Pour chaque jeu de données, les chercheurs ont formé un modèle d'apprentissage automatique pour prédire les discours haineux ou offensants.
Ils ont ensuite utilisé une sixième base de données de plus de 59 millions de tweets, appariés avec les données du recensement et identifiés par l'emplacement et les mots associés à des données démographiques particulières, afin de prédire la probabilité qu'un tweet ait été écrit par quelqu'un d'une certaine race.
Bien que leur analyse n'ait pas pu prédire de manière concluante la race de l'auteur d'un tweet, il a classé les tweets en « aligné en noir » et « aligné en blanc, " reflétant le fait qu'ils contenaient un langage associé à l'une ou l'autre de ces données démographiques.
Dans les cinq cas, les algorithmes ont classé les tweets afro-américains probables comme sexisme, discours de haine, harcèlement ou abus à des taux beaucoup plus élevés que les tweets censés être écrits par des blancs - dans certains cas, plus de deux fois plus fréquemment.
Les chercheurs pensent que la disparité a deux causes :un suréchantillonnage des tweets des Afro-Américains lors de la création des bases de données; et une formation inadéquate pour les personnes annotant des tweets pour un contenu potentiellement haineux.
"Quand nous, chercheurs, ou les personnes que nous payons en ligne pour faire des annotations participatives, regarde ces tweets et dois décider, « Est-ce odieux ou pas odieux ? » nous pouvons voir un langage écrit dans ce que les linguistes considèrent comme l'anglais afro-américain et être plus susceptibles de penser que c'est quelque chose d'offensant en raison de nos propres préjugés internes, ", a déclaré Davidson. "Nous voulons que les personnes annotant les données soient conscientes des nuances du discours en ligne et fassent très attention à ce qu'elles considèrent comme un discours de haine."