L'apprentissage automatique - une forme d'intelligence artificielle dans laquelle les ordinateurs utilisent des données pour apprendre par eux-mêmes - se développe rapidement et est sur le point de transformer le monde. Mais les modèles actuels sont vulnérables aux fuites de confidentialité et autres attaques malveillantes, Les chercheurs de Cornell Tech ont découvert.
Utilisé pour tout, de la prédiction de ce que les clients veulent acheter à l'identification des personnes à risque pour une certaine maladie, les modèles d'apprentissage automatique sont "entraînés, " ou appris à effectuer des tâches spécifiques, en traitant de grands ensembles de données.
Vitaly Chmatikov, professeur d'informatique à Cornell Tech, ont développé des modèles qui déterminent avec une précision de plus de 90 % si un certain élément d'information a été utilisé pour former un système d'apprentissage automatique. Cela pourrait potentiellement exposer des informations génétiques ou médicales sensibles, des données détaillées sur les habitudes ou les allées et venues des personnes, et plus.
« Si je peux déterminer si le dossier d'un patient a été utilisé pour une étude de soins de santé associée à une maladie particulière, alors je peux déterminer si cette personne a la maladie, " dit Chmatikov, dont le papier, "Inférence d'adhésion dans l'apprentissage automatique, " a reçu le prix Caspar Bowden pour la recherche exceptionnelle dans les technologies d'amélioration de la confidentialité, décerné au Privacy Enhancing Technologies Symposium en juillet. "Ces informations sont très sensibles, et cela rend les gens très nerveux si vous pouvez découvrir que leurs informations ont été utilisées."
Les outils qui vous permettent de déterminer si un enregistrement a été utilisé pour entraîner un algorithme peuvent être utiles, il a dit, pour ceux qui essaient de savoir si leurs données ont été utilisées à mauvais escient, comme lorsque des informations de Facebook ont été acquises par Cambridge Analytica.
Dans le journal, co-écrit avec Reza Shokri et Marco Stronati, puis chercheurs postdoctoraux de Cornell Tech, et doctorant en informatique Congzheng Song, les chercheurs se sont concentrés sur les services cloud de Google et Amazon, qui aident les clients à créer des modèles d'apprentissage automatique à partir de leurs propres données. Google et Amazon ne révèlent pas le fonctionnement de ces outils d'apprentissage automatique, mais Shmatikov et son équipe ont construit des "modèles fantômes" construits à partir de données réelles ou fausses qui ont identifié les enregistrements utilisés pour les construire avec une grande précision, montrant que les clients qui utilisent ces services peuvent facilement finir par révéler leurs propres données d'entraînement.
Parmi les raisons pour lesquelles ces systèmes sont vulnérables, Shmatikov a dit, est que les machines peuvent apprendre plus que prévu. Dans leur article de 2017, "Les modèles d'apprentissage automatique qui se souviennent trop, " Chanson, Thomas Ristenpart, Cornell Tech professeur agrégé d'informatique, et Shmatikov a examiné comment une modification des données d'entraînement avant qu'elles ne soient traitées pourrait amener un modèle d'apprentissage automatique à mémoriser et potentiellement divulguer les informations.
Les personnes qui créent des modèles d'apprentissage automatique ne considèrent généralement que s'ils fonctionnent, et non si l'ordinateur apprend plus qu'il n'a besoin de savoir, a dit Chmatikov. Par exemple, un programme qui utilise des images de personnes pour apprendre à identifier une certaine caractéristique visuelle, comme des lunettes, peut également mémoriser des visages entiers.
"Nous pouvons dire si un modèle d'apprentissage automatique a appris à effectuer sa tâche, mais aujourd'hui, nous n'avons vraiment aucun moyen de mesurer ce qu'il a appris d'autre, ", a-t-il déclaré. "Notre espoir est que lorsque les gens développent des technologies d'apprentissage automatique, ils ne se concentrent pas uniquement sur la question fondamentale de, « Est-ce que cela fait ce que je veux qu'il fasse ? » mais ils demandent aussi, 'Est-ce que ça fuit des informations, est-il vulnérable aux attaques d'intégrité, est-il susceptible d'être détourné par les participants de manière malveillante ? » Je pense que cela se traduira par des modèles d'apprentissage automatique beaucoup plus robustes et intéressants, et je pense que cela commence à se produire."
D'autres projets que son équipe poursuit incluent les risques de confidentialité dans les systèmes d'apprentissage machine collaboratifs - ceux qui sont construits conjointement par plusieurs participants - et les vulnérabilités dans l'apprentissage fédéré, où les modèles d'apprentissage automatique sont externalisés par des millions d'utilisateurs.
"Bientôt, toutes les applications et services qui utilisent des données brutes vont utiliser le machine learning, ", a-t-il déclaré. "Nous essayons de mieux comprendre comment la confidentialité va évoluer lorsque l'apprentissage automatique deviendra omniprésent."