Crédit :CC0 Domaine public
La technologie qui alimente les principaux systèmes de reconnaissance vocale automatisés du pays fait deux fois plus d'erreurs lors de l'interprétation des mots prononcés par les Afro-Américains que lors de l'interprétation des mêmes mots prononcés par les Blancs, selon une nouvelle étude menée par des chercheurs de Stanford Engineering.
Alors que l'étude se concentrait exclusivement sur les disparités entre les Américains noirs et blancs, des problèmes similaires pourraient affecter les personnes qui parlent avec des accents anglais régionaux et non natifs, concluent les chercheurs.
S'il n'est pas adressé, ce déséquilibre translationnel pourrait avoir de graves conséquences sur la carrière et même la vie des gens. De nombreuses entreprises sélectionnent désormais les candidats avec des entretiens en ligne automatisés qui utilisent la reconnaissance vocale. Les tribunaux utilisent la technologie pour aider à transcrire les audiences. Pour les personnes qui ne peuvent pas utiliser leurs mains, de plus, La reconnaissance vocale est cruciale pour accéder aux ordinateurs.
Les résultats, publié le 23 mars dans la revue Actes de l'Académie nationale des sciences , étaient basés sur des tests de systèmes développés par Amazon, IBM, Google, Microsoft et Apple. Les quatre premières sociétés fournissent des services de reconnaissance vocale en ligne moyennant des frais, et les chercheurs ont effectué leurs tests en utilisant ces services. Pour le cinquième, les chercheurs ont créé une application iOS personnalisée qui a effectué des tests à l'aide de la technologie de reconnaissance vocale gratuite d'Apple. Les tests ont été effectués au printemps dernier, et les technologies vocales ont peut-être été mises à jour depuis lors.
Les chercheurs n'ont pas pu déterminer si les technologies de reconnaissance vocale des entreprises étaient également utilisées par leurs assistants virtuels, comme Siri dans le cas d'Apple et Alexa dans le cas d'Amazon, parce que les entreprises ne divulguent pas si elles utilisent différentes versions de leurs technologies dans différentes offres de produits.
"Mais il faut s'attendre à ce que les entreprises basées aux États-Unis construisent des produits qui servent tous les Américains, " a déclaré l'auteur principal de l'étude, Allison Koenecke, un doctorant en génie informatique et mathématique qui a fait équipe avec des linguistes et des informaticiens sur le travail. "À l'heure actuelle, il semble qu'ils ne le fassent pas pour tout un segment de la population."
Taux d'erreur inégaux
Koenecke et ses collègues ont testé les systèmes de reconnaissance vocale de chaque entreprise avec plus de 2, 000 échantillons de discours d'entretiens enregistrés avec des Afro-Américains et des Blancs. Les échantillons de discours noirs provenaient du Corpus of Regional African American Language, et les échantillons blancs provenaient d'interviews menées par Voices of California, qui présente des interviews enregistrées de résidents de différentes communautés californiennes.
Les cinq technologies de reconnaissance vocale présentaient des taux d'erreur presque deux fois plus élevés pour les Noirs que pour les Blancs, même lorsque les locuteurs étaient appariés par sexe et âge et lorsqu'ils prononçaient les mêmes mots. En moyenne, les systèmes ont mal compris 35 % des mots prononcés par les Noirs mais seulement 19 % de ceux prononcés par les Blancs.
Les taux d'erreur étaient les plus élevés pour les hommes afro-américains, et la disparité était plus élevée parmi les locuteurs qui utilisaient davantage l'anglais vernaculaire afro-américain.
Les chercheurs ont également effectué des tests supplémentaires pour déterminer à quelle fréquence les cinq technologies de reconnaissance vocale ont mal interprété les mots de manière si radicale que les transcriptions étaient pratiquement inutiles. Ils ont testé des milliers d'échantillons de parole, d'une durée moyenne de 15 secondes, pour compter la fréquence à laquelle les technologies ont dépassé le seuil de bâcler au moins la moitié des mots de chaque échantillon. Ce taux d'erreur inacceptablement élevé s'est produit dans plus de 20 pour cent des échantillons parlés par des Noirs, contre moins de 2 pour cent des échantillons parlés par des blancs.
Biais caché
Les chercheurs pensent que les disparités communes aux cinq technologies proviennent d'un défaut commun :les systèmes d'apprentissage automatique utilisés pour former les systèmes de reconnaissance vocale reposent probablement fortement sur des bases de données d'anglais parlé par les Américains blancs. Une approche plus équitable serait d'inclure des bases de données qui reflètent une plus grande diversité d'accents et de dialectes d'autres anglophones.
Contrairement à d'autres fabricants, qui sont souvent tenus par la loi ou la coutume d'expliquer ce qui entre dans leurs produits et comment ils sont censés fonctionner, les entreprises proposant des systèmes de reconnaissance vocale ne sont pas soumises à de telles obligations.
Sharad Goel, un professeur de génie informatique à Stanford qui a supervisé les travaux, a déclaré que l'étude met en évidence la nécessité d'auditer les nouvelles technologies telles que la reconnaissance vocale pour détecter les biais cachés qui peuvent exclure les personnes déjà marginalisées. Ces audits devraient être effectués par des experts externes indépendants, et demanderait beaucoup de temps et de travail, mais ils sont importants pour s'assurer que cette technologie est inclusive.
"On ne peut pas compter sur les entreprises pour se réguler, " Goel a dit. " Ce n'est pas ce qu'ils sont mis en place pour faire. J'imagine que certains pourraient s'engager volontairement dans des audits indépendants s'il y a suffisamment de pression publique. Mais il peut également être nécessaire que les agences gouvernementales imposent plus de surveillance. Les gens ont le droit de savoir à quel point la technologie qui affecte leur vie fonctionne vraiment. »