• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Les ensembles de données modifiés peuvent toujours fournir une intégrité statistique et préserver la confidentialité

    Les réseaux synthétiques peuvent augmenter la disponibilité de certaines données tout en protégeant la vie privée individuelle ou institutionnelle, selon un statisticien de Penn State.

    "Mon intérêt principal est de développer une méthodologie qui permettrait un partage plus large des données confidentielles d'une manière qui peut aider à la découverte scientifique, " a déclaré Aleksandra Slavkovic, professeur de statistiques et doyen associé aux études supérieures, Collège des sciences d'Eberly, État de Penn. "Être capable de partager des données confidentielles avec un risque quantifiable minimal pour la découverte d'informations sensibles tout en garantissant l'exactitude et l'intégrité des statistiques, est le but."

    Slavkovic a trouvé des solutions à ce problème de confidentialité des données grâce à des collaborations interdisciplinaires, en particulier avec les informaticiens et les sociologues. Ses recherches portent sur diverses données, y compris des données de réseau qui capturent des informations sur les relations entre des entités telles que des individus ou des institutions. Elle a présenté ses approches pour fournir des réseaux synthétiques qui satisfont à une notion de confidentialité différentielle aujourd'hui (16 février) lors de la réunion annuelle 2019 de l'American Association for the Advancement of Science à Washington, D.C.

    La confidentialité différentielle fournit une garantie mathématiquement démontrable du niveau de perte de confidentialité des individus.

    Les scientifiques veulent avoir accès aux données collectées par d'autres pour leurs recherches, mais un tel accès pourrait également compromettre la vie privée, même après suppression des données dites personnellement identifiables.

    "Une abondance de données auxiliaires est le principal coupable, " a déclaré Slavkovic. "Avec les progrès méthodologiques et technologiques dans la collecte de données et le couplage d'enregistrements, un accès plus facile à une variété de sources de données qui pourraient être liées à un ensemble de données en main, et les exigences des agences de financement pour partager les données, les risques pour la confidentialité des données augmentent. Mais, trouver de bonnes solutions pour gérer la perte de confidentialité est essentiel pour permettre une découverte scientifique solide. »

    Informations accessibles au public d'un essai de médicament sur un médicament anti-VIH, par exemple, indiquerait qui faisait partie du groupe de traitement et qui faisait partie du groupe témoin. Le groupe de traitement ne contiendrait que des personnes diagnostiquées séropositives et même si les propriétaires des données ont caché des données personnelles de cet ensemble de données, certaines informations d'identification resteraient. Parce que tant d'informations sont aujourd'hui disponibles en ligne dans les médias sociaux et dans d'autres ensembles de données, il est possible de relier les points et d'identifier les personnes, révélant potentiellement leur statut sérologique.

    "Techniques pour lier deux ensembles de données, disons les dossiers des électeurs et les données de l'assurance maladie, se sont grandement améliorés, " a déclaré Slavkovic. " Dans l'une des premières découvertes, Latanya Sweeny (maintenant à Harvard) a montré qu'en reliant ce type de données, vous pouvez identifier 87 pour cent des personnes dans le recensement américain de 1990 en fonction de leur date de naissance, sexe et code postal à 5 ​​chiffres. Plus récemment, les chercheurs ont utilisé des tweets et des métadonnées Twitter associées pour montrer qu'ils peuvent identifier les utilisateurs avec une précision de 96,7%. »

    Slavkovic note que ce ne sont pas seulement les personnes ou les institutions dont les données sont contenues dans les bases de données, mais que les personnes extérieures à la base de données peuvent également souffrir d'atteinte à la vie privée, directement ou par association. Les liens entre les informations d'un ensemble de données et les informations sur les réseaux sociaux peuvent conduire à une grave atteinte à la vie privée - quelque chose comme le statut VIH ou l'orientation sexuelle pourrait avoir de graves répercussions s'il était révélé.

    Bien que la confidentialité soit importante, les ensembles de données collectés constituent une source d'information essentielle pour les chercheurs. Actuellement, dans certains cas, lorsque les données sont exceptionnellement sensibles, les chercheurs doivent se rendre physiquement aux dépôts de données pour faire leurs recherches, rendant la recherche plus difficile et plus coûteuse.

    Slavkovic s'intéresse aux données du réseau. Informations qui montrent l'interdépendance des personnes ou des institutions (les nœuds) et les connexions entre les nœuds. Son approche est de créer légèrement altérée, jeux de données réseau en miroir avec quelques-uns des nœuds déplacés, les connexions sont déplacées ou les bords modifiés.

    « L'objectif est de créer de nouveaux réseaux qui satisfont aux exigences rigoureuses de confidentialité différentielle et en même temps de capturer la plupart des caractéristiques statistiques du réseau d'origine, ", a déclaré Slavkovic.

    Ces ensembles de données synthétiques pourraient suffire à certains chercheurs pour satisfaire leurs besoins de recherche. Pour les autres, il suffirait de tester leurs approches et hypothèses avant de devoir se rendre sur le site de stockage des données. Les chercheurs pourraient tester le code, faire des recherches exploratoires et peut-être des analyses de base en attendant l'autorisation d'utiliser les données originales dans son site de dépôt.

    « Nous ne pouvons pas satisfaire les demandes de toutes les analyses statistiques avec le même type de données altérées, " a déclaré Slavkovic. "Certaines personnes auront besoin des données originales, mais d'autres pourraient aller très loin avec des données synthétiques telles que les réseaux synthétiques. »


    © Science https://fr.scienceaq.com