Une nouvelle étude du NIST examine avec quelle précision les outils logiciels de reconnaissance faciale identifient les personnes de sexe varié, âge et origine raciale. Crédit :N. Hanacek/NIST
Avec quelle précision les outils logiciels de reconnaissance faciale identifient-ils les personnes de sexe varié, âge et origine raciale? Selon une nouvelle étude du National Institute of Standards and Technology (NIST), la réponse dépend de l'algorithme au cœur du système, l'application qui l'utilise et les données qu'elle alimente, mais la majorité des algorithmes de reconnaissance faciale présentent des différences démographiques. Un différentiel signifie que la capacité d'un algorithme à faire correspondre deux images de la même personne varie d'un groupe démographique à l'autre.
Résultats capturés dans le rapport, Face Recognition Vendor Test (FRVT) Partie 3 :Effets démographiques (NISTIR 8280), sont destinés à informer les décideurs politiques et à aider les développeurs de logiciels à mieux comprendre les performances de leurs algorithmes. La technologie de reconnaissance faciale a inspiré le débat public en partie à cause de la nécessité de comprendre l'effet de la démographie sur les algorithmes de reconnaissance faciale.
« Bien qu'il soit généralement incorrect de faire des déclarations à travers les algorithmes, nous avons trouvé des preuves empiriques de l'existence de différentiels démographiques dans la majorité des algorithmes de reconnaissance faciale que nous avons étudiés, " a déclaré Patrick Grother, un informaticien du NIST et l'auteur principal du rapport. « Bien que nous n'explorions pas ce qui pourrait causer ces écarts, ces données seront précieuses pour les décideurs, développeurs et utilisateurs finaux à réfléchir aux limites et à l'utilisation appropriée de ces algorithmes."
L'étude a été menée dans le cadre du programme Face Recognition Vendor Test (FRVT) du NIST, qui évalue les algorithmes de reconnaissance faciale soumis par l'industrie et les développeurs académiques sur leur capacité à effectuer différentes tâches. Bien que le NIST ne teste pas les produits commerciaux finalisés qui utilisent ces algorithmes, le programme a révélé des développements rapides dans le domaine en plein essor.
L'étude du NIST a évalué 189 algorithmes logiciels de 99 développeurs, la majorité de l'industrie. Il se concentre sur la façon dont chaque algorithme individuel exécute l'une des deux tâches différentes qui figurent parmi les applications les plus courantes de la reconnaissance faciale. La première tâche, confirmer qu'une photo correspond à une photo différente de la même personne dans une base de données, est connu sous le nom d'appariement « un à un » et est couramment utilisé pour les travaux de vérification, comme le déverrouillage d'un smartphone ou la vérification d'un passeport. La deuxième, déterminer si la personne sur la photo a une correspondance dans une base de données, est connu sous le nom d'appariement "un-à-plusieurs" et peut être utilisé pour l'identification d'une personne d'intérêt.
Pour évaluer les performances de chaque algorithme sur sa tâche, l'équipe a mesuré les deux classes d'erreurs que le logiciel peut faire :les faux positifs et les faux négatifs. Un faux positif signifie que le logiciel a considéré à tort les photos de deux individus différents pour montrer la même personne, alors qu'un faux négatif signifie que le logiciel n'a pas réussi à faire correspondre deux photos qui, En réalité, montrer la même personne.
Faire ces distinctions est important car la classe d'erreur et le type de recherche peuvent avoir des conséquences très différentes selon l'application réelle.
"Dans une recherche individuelle, un faux négatif peut être simplement un inconvénient :vous ne pouvez pas accéder à votre téléphone, mais le problème peut généralement être résolu par une deuxième tentative, " a déclaré Grother. "Mais un faux positif dans une recherche un-à-plusieurs met une correspondance incorrecte sur une liste de candidats qui justifient un examen plus approfondi."
Ce qui distingue la publication de la plupart des autres recherches sur la reconnaissance faciale, c'est son intérêt pour les performances de chaque algorithme en tenant compte des facteurs démographiques. Pour une correspondance un à un, seules quelques études antérieures explorent les effets démographiques; pour une correspondance un-à-plusieurs, aucun n'a.
Pour évaluer les algorithmes, l'équipe du NIST a utilisé quatre collections de photographies contenant 18,27 millions d'images de 8,49 millions de personnes. Tous provenaient de bases de données opérationnelles fournies par le Département d'État, le Département de la sécurité intérieure et le FBI. L'équipe n'a utilisé aucune image « grattée » directement à partir de sources Internet telles que les médias sociaux ou de la vidéosurveillance.
Les photos dans les bases de données comprenaient des informations de métadonnées indiquant l'âge du sujet, sexe, et soit la race ou le pays de naissance. Non seulement l'équipe a mesuré les faux positifs et les faux négatifs de chaque algorithme pour les deux types de recherche, mais il a également déterminé à quel point ces taux d'erreur variaient entre les balises. En d'autres termes, Dans quelle mesure l'algorithme s'est-il relativement bien comporté sur des images de personnes de différents groupes ?
Les tests ont montré une large gamme de précision entre les développeurs, avec les algorithmes les plus précis produisant beaucoup moins d'erreurs. Alors que l'étude se concentrait sur des algorithmes individuels, Grother a souligné cinq conclusions plus larges :
Toute discussion sur les effets démographiques est incomplète si elle ne fait pas la distinction entre les tâches et les types de reconnaissance faciale fondamentalement différents, dit Grother. De telles distinctions sont importantes à retenir alors que le monde est confronté aux implications plus larges de l'utilisation de la technologie de reconnaissance faciale.