L'étude évalue les effets de la race, âge, sexe sur logiciel de reconnaissance faciale

Une nouvelle étude du NIST examine avec quelle précision les outils logiciels de reconnaissance faciale identifient les personnes de sexe varié, âge et origine raciale. Crédit :N. Hanacek/NIST

Avec quelle précision les outils logiciels de reconnaissance faciale identifient-ils les personnes de sexe varié, âge et origine raciale? Selon une nouvelle étude du National Institute of Standards and Technology (NIST), la réponse dépend de l'algorithme au cœur du système, l'application qui l'utilise et les données qu'elle alimente, mais la majorité des algorithmes de reconnaissance faciale présentent des différences démographiques. Un différentiel signifie que la capacité d'un algorithme à faire correspondre deux images de la même personne varie d'un groupe démographique à l'autre.

Résultats capturés dans le rapport, Face Recognition Vendor Test (FRVT) Partie 3 :Effets démographiques (NISTIR 8280), sont destinés à informer les décideurs politiques et à aider les développeurs de logiciels à mieux comprendre les performances de leurs algorithmes. La technologie de reconnaissance faciale a inspiré le débat public en partie à cause de la nécessité de comprendre l'effet de la démographie sur les algorithmes de reconnaissance faciale.

« Bien qu'il soit généralement incorrect de faire des déclarations à travers les algorithmes, nous avons trouvé des preuves empiriques de l'existence de différentiels démographiques dans la majorité des algorithmes de reconnaissance faciale que nous avons étudiés, " a déclaré Patrick Grother, un informaticien du NIST et l'auteur principal du rapport. « Bien que nous n'explorions pas ce qui pourrait causer ces écarts, ces données seront précieuses pour les décideurs, développeurs et utilisateurs finaux à réfléchir aux limites et à l'utilisation appropriée de ces algorithmes."

L'étude a été menée dans le cadre du programme Face Recognition Vendor Test (FRVT) du NIST, qui évalue les algorithmes de reconnaissance faciale soumis par l'industrie et les développeurs académiques sur leur capacité à effectuer différentes tâches. Bien que le NIST ne teste pas les produits commerciaux finalisés qui utilisent ces algorithmes, le programme a révélé des développements rapides dans le domaine en plein essor.

L'étude du NIST a évalué 189 algorithmes logiciels de 99 développeurs, la majorité de l'industrie. Il se concentre sur la façon dont chaque algorithme individuel exécute l'une des deux tâches différentes qui figurent parmi les applications les plus courantes de la reconnaissance faciale. La première tâche, confirmer qu'une photo correspond à une photo différente de la même personne dans une base de données, est connu sous le nom d'appariement « un à un » et est couramment utilisé pour les travaux de vérification, comme le déverrouillage d'un smartphone ou la vérification d'un passeport. La deuxième, déterminer si la personne sur la photo a une correspondance dans une base de données, est connu sous le nom d'appariement "un-à-plusieurs" et peut être utilisé pour l'identification d'une personne d'intérêt.

Pour évaluer les performances de chaque algorithme sur sa tâche, l'équipe a mesuré les deux classes d'erreurs que le logiciel peut faire :les faux positifs et les faux négatifs. Un faux positif signifie que le logiciel a considéré à tort les photos de deux individus différents pour montrer la même personne, alors qu'un faux négatif signifie que le logiciel n'a pas réussi à faire correspondre deux photos qui, En réalité, montrer la même personne.

Faire ces distinctions est important car la classe d'erreur et le type de recherche peuvent avoir des conséquences très différentes selon l'application réelle.

"Dans une recherche individuelle, un faux négatif peut être simplement un inconvénient :vous ne pouvez pas accéder à votre téléphone, mais le problème peut généralement être résolu par une deuxième tentative, " a déclaré Grother. "Mais un faux positif dans une recherche un-à-plusieurs met une correspondance incorrecte sur une liste de candidats qui justifient un examen plus approfondi."

Ce qui distingue la publication de la plupart des autres recherches sur la reconnaissance faciale, c'est son intérêt pour les performances de chaque algorithme en tenant compte des facteurs démographiques. Pour une correspondance un à un, seules quelques études antérieures explorent les effets démographiques; pour une correspondance un-à-plusieurs, aucun n'a.

Pour évaluer les algorithmes, l'équipe du NIST a utilisé quatre collections de photographies contenant 18,27 millions d'images de 8,49 millions de personnes. Tous provenaient de bases de données opérationnelles fournies par le Département d'État, le Département de la sécurité intérieure et le FBI. L'équipe n'a utilisé aucune image « grattée » directement à partir de sources Internet telles que les médias sociaux ou de la vidéosurveillance.

Les photos dans les bases de données comprenaient des informations de métadonnées indiquant l'âge du sujet, sexe, et soit la race ou le pays de naissance. Non seulement l'équipe a mesuré les faux positifs et les faux négatifs de chaque algorithme pour les deux types de recherche, mais il a également déterminé à quel point ces taux d'erreur variaient entre les balises. En d'autres termes, Dans quelle mesure l'algorithme s'est-il relativement bien comporté sur des images de personnes de différents groupes ?

Les tests ont montré une large gamme de précision entre les développeurs, avec les algorithmes les plus précis produisant beaucoup moins d'erreurs. Alors que l'étude se concentrait sur des algorithmes individuels, Grother a souligné cinq conclusions plus larges :

Pour une correspondance un à un, l'équipe a constaté des taux plus élevés de faux positifs pour les visages asiatiques et afro-américains par rapport aux images de Caucasiens. Les écarts variaient souvent d'un facteur 10 à 100, en fonction de l'algorithme individuel. Les faux positifs peuvent présenter un problème de sécurité pour le propriétaire du système, car ils peuvent permettre l'accès aux imposteurs.
Parmi les algorithmes développés aux États-Unis, il y avait des taux élevés similaires de faux positifs dans l'appariement un à un pour les Asiatiques, Les Afro-Américains et les groupes autochtones (qui comprennent les Amérindiens, Indien américain, Indiens de l'Alaska et insulaires du Pacifique). La population indienne d'Amérique avait les taux les plus élevés de faux positifs.
Cependant, une exception notable était pour certains algorithmes développés dans les pays asiatiques. Il n'y avait pas de différence aussi spectaculaire dans les faux positifs dans la correspondance un à un entre les visages asiatiques et caucasiens pour les algorithmes développés en Asie. Alors que Grother a réitéré que l'étude du NIST n'explore pas la relation entre la cause et l'effet, une connexion possible, et domaine de recherche, est la relation entre les performances d'un algorithme et les données utilisées pour l'entraîner. "Ces résultats sont un signe encourageant que des données de formation plus diversifiées peuvent produire des résultats plus équitables, s'il est possible pour les développeurs d'utiliser ces données, " il a dit.
Pour une correspondance un-à-plusieurs, l'équipe a constaté des taux plus élevés de faux positifs chez les femmes afro-américaines. Les différences de faux positifs dans l'appariement un-à-plusieurs sont particulièrement importantes car les conséquences pourraient inclure de fausses accusations. (Dans ce cas, le test n'a pas utilisé l'ensemble des photos, mais une seule base de données du FBI contenant 1,6 million de mugshots domestiques.)
Cependant, tous les algorithmes ne donnent pas ce taux élevé de faux positifs dans toutes les données démographiques dans le cadre d'une correspondance un-à-plusieurs, et celles qui sont les plus équitables se classent aussi parmi les plus précises. Ce dernier point souligne un message global du rapport :différents algorithmes fonctionnent différemment.

Toute discussion sur les effets démographiques est incomplète si elle ne fait pas la distinction entre les tâches et les types de reconnaissance faciale fondamentalement différents, dit Grother. De telles distinctions sont importantes à retenir alors que le monde est confronté aux implications plus larges de l'utilisation de la technologie de reconnaissance faciale.

Airbus conclut des accords anti-corruption avec la France, ROYAUME-UNI, nous

Les hybrides perdent leur avantage mais Edmunds en choisit 5 qui valent encore la peine d'être achetés

Électronique