Qu'est-ce que la confidentialité différentielle et comment peut-elle protéger vos données ?

Les entreprises technologiques peuvent utiliser la confidentialité différentielle pour collecter et partager des données agrégées sur les habitudes des utilisateurs, tout en préservant l'intimité individuelle. Crédit :Tim Snell/Flickr, CC BY-ND

Ce n'est un secret pour personne que les grandes entreprises technologiques comme Facebook, Google, Apple et Amazon infiltrent de plus en plus nos interactions personnelles et sociales pour collecter chaque jour de grandes quantités de données sur nous. À la fois, les violations de la vie privée dans le cyberespace font régulièrement la une des journaux.

Alors, comment protéger la confidentialité dans un monde où les données sont collectées et partagées avec une vitesse et une ingéniosité croissantes ?

La confidentialité différentielle est un nouveau modèle de cybersécurité qui, selon les partisans, peut protéger les données personnelles bien mieux que les méthodes traditionnelles.

Les mathématiques sur lesquelles il est basé ont été développées il y a 10 ans, et la méthode a été adoptée par Apple et Google ces dernières années.

Qu'est-ce que la confidentialité différentielle ?

La confidentialité différentielle permet aux entreprises technologiques de collecter et de partager des informations agrégées sur les habitudes des utilisateurs, tout en préservant la confidentialité des utilisateurs individuels.

Par exemple, disons que vous vouliez montrer les itinéraires les plus populaires que les gens empruntent pour se promener dans un parc. Vous suivez les parcours de 100 personnes qui se promènent régulièrement dans le parc, et s'ils marchent sur le chemin ou dans l'herbe.

Mais au lieu de partager les personnes spécifiques empruntant chaque itinéraire, vous partagez les données agrégées collectées au fil du temps. Les personnes qui consultent vos résultats savent peut-être que 60 personnes sur 100 préfèrent prendre un raccourci à travers l'herbe, mais pas quelles 60 personnes.

Pourquoi en avons-nous besoin?

De nombreux gouvernements du monde ont des politiques strictes sur la façon dont les entreprises technologiques collectent et partagent les données des utilisateurs. Les entreprises qui ne respectent pas les règles s'exposent à de lourdes amendes. Un tribunal belge a récemment ordonné à Facebook de cesser de collecter des données sur les habitudes de navigation des utilisateurs sur des sites Web externes, sous peine d'amende de 250 €, 000 par jour.

Pour de nombreuses entreprises, en particulier les multinationales opérant dans différentes juridictions, cela les place dans une position délicate en ce qui concerne la collecte et l'utilisation des données clients.

D'un côté, ces entreprises ont besoin des données des utilisateurs afin de pouvoir fournir des services de haute qualité qui profitent aux utilisateurs, telles que des recommandations personnalisées. D'autre part, ils peuvent faire face à des frais s'ils collectent trop de données utilisateur, ou s'ils essaient de déplacer des données d'une juridiction à une autre.

Les outils traditionnels de protection de la vie privée tels que la cryptographie ne peuvent pas résoudre ce dilemme car ils empêchent les entreprises technologiques d'accéder aux données. Et l'anonymat réduit la valeur des données – un algorithme ne peut pas vous servir de recommandations personnalisées s'il ne connaît pas vos habitudes.

Crédit :Marco Verch/Flickr, CC PAR

Comment ça marche?

Continuons l'exemple des parcours pédestres à travers un parc. Si vous connaissez l'identité des personnes incluses dans l'étude, mais vous ne savez pas qui a pris quelle route, alors vous pouvez supposer que la vie privée est protégée. Mais ce n'est peut-être pas le cas.

Supposons que quelqu'un qui consulte vos données veuille vérifier si Bob préfère marcher dans l'herbe ou sur le chemin. Ils ont obtenu des informations générales sur les 99 autres personnes de l'étude, ce qui leur dit que 40 personnes préfèrent marcher sur le chemin et 59 préfèrent marcher dans l'herbe. Par conséquent, ils peuvent en déduire que Bob, qui est la 100e personne dans la base de données, est la 60e personne qui préfère marcher dans l'herbe.

Ce type d'attaque s'appelle une attaque différenciée, et il est assez difficile de se défendre car vous ne pouvez pas contrôler la quantité de connaissances de base qu'une personne peut obtenir. La confidentialité différentielle vise à se défendre contre ce type d'attaque.

Quelqu'un qui déduit votre itinéraire de marche peut ne pas sembler trop sérieux, mais si vous remplacez les itinéraires pédestres par les résultats du test VIH, alors vous pouvez voir qu'il y a un potentiel pour une grave atteinte à la vie privée.

Le modèle de confidentialité différentiel garantit que même si quelqu'un a des informations complètes sur 99 des 100 personnes dans un ensemble de données, ils ne peuvent toujours pas déduire les informations sur la personne finale.

Le principal mécanisme pour y parvenir consiste à ajouter du bruit aléatoire aux données agrégées. Dans l'exemple du chemin, vous pouvez dire que le nombre de personnes qui préfèrent traverser l'herbe est de 59 ou 61, plutôt que le nombre exact de 60. Le nombre inexact peut préserver la vie privée de Bob, mais cela aura très peu d'impact sur le schéma :environ 60% des personnes préfèrent prendre un raccourci.

Le bruit est soigneusement conçu. Lorsque Apple a utilisé la confidentialité différentielle dans iOS 10, il a ajouté du bruit aux entrées individuelles des utilisateurs. Cela signifie qu'il peut suivre, par exemple, les emojis les plus utilisés, mais l'utilisation des emoji de tout utilisateur individuel est masquée.

Cynthia Dwork, l'inventeur de l'intimité différentielle, a proposé de merveilleuses preuves mathématiques sur la quantité de bruit suffisante pour atteindre l'exigence de confidentialité différentielle.

Quelles sont ses applications pratiques ?

La confidentialité différentielle peut être appliquée à tout, des systèmes de recommandation aux services basés sur la localisation et aux réseaux sociaux. Apple utilise la confidentialité différentielle pour recueillir des informations d'utilisation anonymes à partir d'appareils tels que les iPhones, iPad et Mac. La méthode est conviviale, et légalement en clair.

La confidentialité différentielle permettrait également à une entreprise comme Amazon d'accéder à vos préférences d'achat personnalisées tout en masquant des informations sensibles sur votre liste d'achats historique. Facebook pourrait l'utiliser pour collecter des données comportementales pour des publicités ciblées, sans violer les politiques de confidentialité d'un pays.

Comment pourrait-il être utilisé à l'avenir?

Différents pays ont des politiques de confidentialité différentes, et les documents sensibles doivent actuellement être vérifiés manuellement avant de passer d'un pays à un autre. Cela prend du temps et coûte cher.

Récemment, une équipe de l'Université Deakin a développé une technologie de confidentialité différentielle pour automatiser les processus de confidentialité au sein des communautés de partage de cloud à travers les pays.

Ils proposent d'utiliser des formules mathématiques pour modéliser les lois sur la confidentialité de chaque pays qui pourraient être traduites en « middleware » (logiciel) pour assurer la conformité des données. L'utilisation de la confidentialité différentielle de cette manière pourrait protéger la confidentialité des utilisateurs et résoudre un problème de partage de données pour les entreprises technologiques.

Cet article a été initialement publié sur The Conversation. Lire l'article original.