Crédit :CC0 Domaine public
Avec les premières grosses amendes pour violation du règlement général de l'UE sur la protection des données (RGPD), et le gouvernement britannique sur le point de revoir les directives GDPR, des chercheurs ont montré comment même des ensembles de données anonymisés peuvent être retracés jusqu'à des individus à l'aide de l'apprentissage automatique.
Les chercheurs disent que leur article, publié aujourd'hui dans Communication Nature , démontre que permettre aux données d'être utilisées pour former des algorithmes d'IA, par exemple, tout en préservant la vie privée des personnes, nécessite bien plus qu'un simple ajout de bruit, échantillonnage de jeux de données, et d'autres techniques d'anonymisation.
Ils ont également publié un outil de démonstration qui permet aux gens de comprendre à quel point ils sont susceptibles d'être tracés, même si l'ensemble de données dans lequel ils se trouvent est anonymisé et qu'une petite fraction de celui-ci n'est partagée.
Ils disent que leurs conclusions devraient être un signal d'alarme pour les décideurs politiques sur la nécessité de resserrer les règles pour ce qui constitue des données véritablement anonymes.
Les entreprises et les gouvernements collectent et utilisent régulièrement nos données personnelles. Nos données et la manière dont elles sont utilisées sont protégées par des lois pertinentes telles que le RGPD ou le California Consumer Privacy Act (CCPA) des États-Unis.
Les données sont « échantillonnées » et anonymisées, qui comprend la suppression des données d'identification des caractéristiques telles que les noms et les adresses e-mail, afin que les individus ne puissent pas, en théorie, être indentifié. Après ce processus, les données ne sont plus soumises à la réglementation sur la protection des données, il peut donc être librement utilisé et vendu à des tiers comme des sociétés de publicité et des courtiers en données.
La nouvelle recherche montre qu'une fois acheté, les données peuvent souvent être rétro-conçues en utilisant l'apprentissage automatique pour ré-identifier les individus, malgré les techniques d'anonymisation.
Cela pourrait exposer des informations sensibles sur des personnes personnellement identifiées, et permettre aux acheteurs de construire des profils personnels de plus en plus complets des individus.
La recherche démontre pour la première fois à quel point cela peut être fait facilement et avec précision, même avec des ensembles de données incomplets.
Dans la recherche, 99,98 % des Américains ont été correctement réidentifiés dans n'importe quel ensemble de données « anonymisées » en utilisant seulement 15 caractéristiques, y compris l'âge, genre, et l'état matrimonial.
Le premier auteur, le Dr Luc Rocher de l'UCLouvain a déclaré :« Bien qu'il puisse y avoir beaucoup de personnes dans la trentaine, Masculin, et vivant à New York, beaucoup moins d'entre eux sont également nés le 5 janvier, conduisez une voiture de sport rouge, et vivre avec deux enfants (les deux filles) et un chien."
Pour le démontrer, les chercheurs ont développé un modèle d'apprentissage automatique pour évaluer la probabilité que les caractéristiques d'un individu soient suffisamment précises pour décrire une seule personne sur une population de plusieurs milliards.
Ils ont également développé un outil en ligne, qui n'enregistre pas de données et est uniquement à des fins de démonstration, pour aider les gens à voir quelles caractéristiques les rendent uniques dans les ensembles de données.
L'outil vous demande d'abord de saisir la première partie de son code postal (UK) ou ZIP (US), genre, et date de naissance, avant de leur donner une probabilité que leur profil puisse être ré-identifié dans n'importe quel ensemble de données anonymisé.
Il vous demande ensuite votre état civil, nombre de véhicules, statut de propriétaire, et le statut d'emploi, avant de recalculer. En ajoutant plus de caractéristiques, la probabilité qu'une correspondance soit correcte augmente considérablement.
Auteur principal Dr Yves-Alexandre de Montjoye, du Département d'informatique de l'Impériale, et Institut des sciences des données, a déclaré : « Ce sont des informations assez standard que les entreprises peuvent demander. Bien qu'elles soient liées par les directives GDPR, ils sont libres de vendre les données à n'importe qui une fois qu'elles sont anonymisées. Nos recherches montrent à quel point les individus peuvent être retrouvés facilement et avec précision une fois que cela se produit.
Il a ajouté :« Les entreprises et les gouvernements ont minimisé le risque de ré-identification en faisant valoir que les ensembles de données qu'ils vendent sont toujours incomplets.
"Nos résultats contredisent cela et démontrent qu'un attaquant pourrait facilement et avec précision estimer la probabilité que l'enregistrement qu'il a trouvé appartienne à la personne qu'il recherche."
La ré-identification des données anonymisées est la façon dont les journalistes ont exposé les déclarations de revenus de Donald Trump pour 1985-94 en mai 2019.
Le co-auteur, le Dr Julien Hendrickx de l'UCLouvain, a déclaré :« Nous sommes souvent assurés que l'anonymisation protégera nos informations personnelles. Notre article montre que la désidentification est loin d'être suffisante pour protéger la confidentialité des données des personnes. »
Les chercheurs disent que les décideurs politiques doivent faire plus pour protéger les individus contre de telles attaques, ce qui pourrait avoir de sérieuses ramifications pour les carrières ainsi que la vie personnelle et financière.
Le Dr Hendrickx a ajouté :« Il est essentiel que les normes d'anonymisation soient solides et tiennent compte des nouvelles menaces comme celle démontrée dans cet article.
Le Dr de Montjoye a déclaré:"L'objectif de l'anonymisation est que nous puissions utiliser les données au profit de la société. C'est extrêmement important mais ne devrait pas et ne doit pas se produire au détriment de la vie privée des gens."