Crédit :Pixabay/CC0 Domaine public
La controverse entoure les nouvelles mesures du US Census Bureau pour préserver la vie privée, mais une nouvelle étude examine comment les erreurs de données existantes peuvent poser un problème encore plus important pour les politiques fondées sur des preuves. La pierre angulaire des mesures de confidentialité mises à jour du Census Bureau, la confidentialité différentielle, nécessite d'injecter une incertitude statistique, ou du bruit, lors du partage de données sensibles. Des universitaires, des politiciens et des militants ont soulevé des inquiétudes quant à l'effet de ce bruit sur les utilisations cruciales des données de recensement. Pourtant, la plupart des analyses des compromis autour de la confidentialité différentielle négligent des incertitudes plus profondes dans les données de recensement. Dans une nouvelle étude, les chercheurs ont examiné comment les politiques d'éducation qui utilisent les données du recensement affectent mal les fonds en raison de l'incertitude statistique.
L'étude a révélé que les erreurs d'attribution dues au bruit injecté pour la confidentialité peuvent être faibles ou négligeables, par rapport aux erreurs d'attribution dues aux sources existantes d'erreurs de données telles que les déclarations erronées ou la non-réponse. Mais l'étude révèle également que de simples réformes politiques pourraient aider les formules de financement à remédier à la répartition inégale de l'incertitude due aux erreurs de données et ouvrir la voie à de nouvelles protections de la vie privée, offrant une voie de compromis entre une politique ciblée, l'équité et de meilleures protections de la vie privée.
L'étude, menée par des chercheurs de l'Université Carnegie Mellon (CMU) et publiée dans Science , se concentre sur le titre I de la loi sur l'enseignement primaire et secondaire, qui fournit une aide financière aux districts scolaires comptant un grand nombre d'enfants issus de familles à faible revenu pour aider à garantir que tous les enfants respectent les normes d'éducation de l'État. Les fonds fédéraux sont alloués au moyen de formules basées principalement sur les estimations du recensement de la pauvreté et du coût de l'éducation dans chaque État. En 2021, le gouvernement américain a affecté plus de 16,5 milliards de dollars de fonds du titre I à plus de 13 000 districts scolaires et autres agences éducatives locales.
Dans cette étude, les chercheurs ont utilisé une simulation exacte du processus d'attribution du Titre I pour comparer les impacts politiques du bruit injecté pour la confidentialité aux impacts de l'incertitude statistique existante. Plus précisément, ils ont comparé les impacts d'une erreur de données quantifiées et d'un éventuel mécanisme d'injection de bruit différentiellement privé. Par exemple, sur les 11,7 milliards de dollars des fonds du titre I de 2021 examinés par cette étude, 1,06 milliard de dollars ont été alloués à certains districts dans une exécution moyenne de la simulation en raison de la seule erreur de données. Ce chiffre n'a augmenté que de 50 millions de dollars lorsque les chercheurs ont injecté du bruit pour assurer une protection relativement solide de la vie privée.
"Nous avons porté une attention particulière à la façon dont le titre I concentre implicitement les impacts négatifs de l'incertitude statistique sur les groupes marginalisés", explique Ryan Steed, un Ph.D. étudiant au Heinz College de la CMU, qui a dirigé l'étude. "L'affaiblissement de la protection de la vie privée n'aide pas ces groupes, et pour eux, participer à une enquête de recensement peut être particulièrement risqué."
Les résultats montrent que les mauvaises allocations dues à l'incertitude statistique désavantagent particulièrement les groupes marginalisés (par exemple, les étudiants noirs et asiatiques ; les districts à forte population d'étudiants hispaniques). La perte de financement d'un groupe démographique dépendait de la tendance de ses membres à vivre dans des quartiers à forte ou faible pauvreté, y compris ceux situés dans des quartiers plus denses, généralement urbains.
"Cependant, nous avons également identifié des réformes politiques qui pourraient réduire les impacts disparates des mécanismes d'erreur de données et de confidentialité", note Steven Wu, professeur adjoint à la School of Computer Science de la CMU. "Par exemple, l'utilisation de moyennes pluriannuelles, plutôt que d'estimations d'une seule année, a réduit à la fois la mauvaise affectation globale et les disparités dans les résultats."
Parmi les limites de l'étude, les auteurs soulignent que leur étude ne tient pas compte des sous-dénombrements systématiques et de nombreuses autres formes non quantifiées d'incertitude statistique qui affectent les estimations de la pauvreté, y compris les mesures antérieures de protection de la vie privée telles que l'échange de données.
"Nos résultats suggèrent que les impacts de la confidentialité différentielle par rapport à d'autres sources d'erreur dans les données du recensement pourraient être minimes", note Alessandro Acquisti, professeur de technologie de l'information et de politique publique au Heinz College de la CMU, coauteur de l'étude. "Reconnaître simplement les effets des erreurs de données pourrait améliorer la conception des politiques futures pour les formules de financement et éviter la divulgation." La confidentialité différentielle est le bon choix pour le recensement américain de 2020