Une attaque de chercheurs contre le système de confidentialité des données montre que le bruit fait fuir les données mêmes qu'il essaie de protéger

science >> Science > >> Électronique

Dans l'attaque par exploitation du bruit, les chercheurs peuvent déterminer les informations privées d'un individu avec une grande précision en ne connaissant que quelques attributs sur l'individu. Crédit :Gadotti et al.

Démontrer à quel point il est difficile de protéger les données privées, des chercheurs de l'Imperial College de Londres ont présenté une attaque contre un nouveau système de confidentialité des données appelé Diffix, dont la technologie de rupture a récemment été commercialisée et approuvée par l'autorité française de protection des données CNIL pour répondre à tous les critères du RGPD (Règlement général sur la protection des données), la nouvelle loi européenne sur la protection des données qui doit entrer en vigueur fin mai.

Mais maintenant, les chercheurs ont montré que, en utilisant seulement cinq attributs d'un individu et en posant 10 questions soigneusement choisies au système basé sur des requêtes, il est possible de déterminer les attributs privés de l'individu avec une précision allant jusqu'à 99%.

Les chercheurs, Andrea Gadotti, Florimond Houssiau, Luc Rocher, et Yves-Alexandre de Montjoye des départements d'informatique et de science des données de l'Imperial College de Londres, ont écrit un article sur leur attaque par exploitation du bruit sur Diffix, développé par la start-up allemande Aircloak. Diffix utilise une technologie mise au point par des chercheurs de l'Institut Max Planck depuis plusieurs années.

Comme l'expliquent les chercheurs de l'Imperial College de Londres, le but de leur attaque est de souligner la nécessité à la fois d'une transparence totale de tous les nouveaux systèmes de confidentialité des données, ainsi qu'une communauté qui a pleinement accès aux techniques afin de détecter et de discuter des vulnérabilités potentielles.

"Nous devons accepter qu'aucun système n'est parfait, " écrivent les chercheurs dans leur blog du Computational Privacy Group. " Il y aura des attaques, et certains d'entre eux réussiront. Il faut s'y préparer et s'inspirer des bonnes pratiques en matière de sécurité :s'assurer que plusieurs couches de sécurité existent, ne pas avoir toutes les données au même endroit (ce que Jean-Pierre Hubaux appelle l'approche Fort Knox), etc. Nous avons également besoin de normes et de systèmes totalement transparents et ouverts. La construction de systèmes sécurisés exige que quiconque soit en mesure de réviser le code sans barrières techniques ou juridiques, proposer des solutions et s'appuyer sur les travaux existants."

Les systèmes de protection de la confidentialité des données évoluent rapidement, avec des approches traditionnelles basées sur l'anonymisation des données devenues obsolètes, en partie à cause des grandes tailles et des utilisations des ensembles de données modernes. Alternatives à l'anonymisation des données, tels que les systèmes basés sur des requêtes comme celui utilisé par Diffix, fournir une nouvelle solution prometteuse. Dans ces systèmes, les utilisateurs peuvent poser des questions sur le système de données et recevoir des résultats agrégés comme réponses. Cette méthode vise à trouver un équilibre entre l'utilisation des données à des fins utiles, tels que la recherche et la lutte contre les maladies, tout en préservant l'intimité individuelle.

A Diffix, la protection de la vie privée vient en grande partie de l'ajout de bruit. Un peu ironiquement, les chercheurs exploitent ce bruit dans leur attaque afin de déduire des informations privées des individus dans la base de données. Pour faire ça, ils mettent en œuvre une attaque d'intersection, dans lequel ils posent deux requêtes qui demandent le nombre d'individus dans l'ensemble de données qui remplissent certaines conditions. Les deux requêtes diffèrent par une seule condition, de sorte qu'en calculant la différence entre les résultats, il est possible d'annuler une partie du bruit. Les chercheurs ont montré que, en obtenant cinq paires de ces résultats, puis effectuer un test statistique (le test du rapport de vraisemblance), il est possible de déterminer certaines informations sur un individu, par exemple, si la personne est séropositive ou non.

Bien que les chercheurs soulignent quelques limites de leur attaque, ils estiment qu'il expose une grave vulnérabilité du système, et rappelle que la protection de la vie privée continuera d'être un défi permanent.

Amazon arrête le projet de construction de Seattle avant le vote des impôts

Les chercheurs développent une application pour les plans d'exercices en crowdsourcing, qui rivalisent avec les entraîneurs personnels en efficacité

Électronique