Crédit :CC0 Domaine public
Il n'est pas surprenant que les données des consommateurs soient continuellement collectées par diverses organisations, y compris les collectivités locales, agences de marketing et sociétés de médias sociaux. Ces organismes assurent l'anonymat et la confidentialité lors de la collecte de ces données, cependant, les lois existantes sur la confidentialité des données ne garantissent pas que les violations de données ne se produiront pas. Selon un récent rapport, plus de 2, 000 violations de données confirmées se sont produites rien qu'en 2019, avec 34% de celles exécutées par des acteurs internes comme les salariés. Pour ajouter à cela, les agences de la ville et de l'État collectent des données sensibles qu'elles sont tenues par la loi de partager avec le public, avec l'aimable autorisation des mouvements de données ouvertes et de la loi sur la liberté d'information.
Les lois sur la confidentialité des données exigent le cryptage et, dans certains cas, transformer les données d'origine en « données protégées » avant qu'elles ne soient divulguées à des parties externes. Mais pour des chercheurs comme Matthew Schneider, Doctorat., professeur assistant en sciences de la décision et systèmes d'information de gestion au LeBow College of Business de l'Université Drexel, ce n'est pas suffisant.
"Le chiffrement aide certainement, mais cela n'empêche pas une violation de données, " at-il dit. " C'est similaire à la sauvegarde de votre mot de passe de messagerie. Un acteur interne ayant accès à la clé de cryptage pourrait facilement provoquer une violation de données. Du point de vue du risque, il est plus prudent de supposer que toutes les données finiront par sortir et devraient être transformées avant d'être partagées n'importe où au sein de l'organisation."
Dans un article récent publié dans le Journal d'analyse marketing , Schneider et Dawn Iacobucci, Doctorat., de l'Université Vanderbilt, a proposé une nouvelle méthodologie qui modifie en permanence les ensembles de données d'enquête pour protéger la vie privée des consommateurs - lorsque les données sont partagées - tout en préservant un niveau de précision raisonnable pour ces ensembles de données.
Selon les auteurs, les données d'enquête sont souvent détenues au sein des organisations et utilisées à des fins autres que la raison initiale de la collecte des données. « Les bases de données et les informations clients sont devenues un atout contemporain qui rend une entreprise attractive à une autre lors de la création d'alliances, " a déclaré Schneider. " Même les entreprises ayant des normes élevées de sécurité des données peuvent trouver difficile de protéger la confidentialité des données des consommateurs. "
Un autre moins courant, mais trop réel, menace, selon les auteurs, sont des cas où des employés ont illégalement transféré des données de leur ancienne entreprise à un poste chez un nouvel employeur, pour des raisons allant de l'obtention d'une impression favorable auprès de la nouvelle entreprise, à nuire à l'ancienne entreprise, même devoir fournir les données comme condition de l'offre d'emploi.
Pour Schneider, la solution pour tenir les promesses de confidentialité des données s'avère être une solution technologique.
« Les données d'enquête sont de plus en plus utilisées pour l'analyse au niveau des répondants, comme en lien avec d'autres ensembles de données propriétaires, et les promesses de confidentialité peuvent ne pas être garanties dans la myriade d'utilisations ultérieures des données, " a déclaré Schneider. " La confidentialité ne garantit pas l'anonymat. Il faut environ trois ou quatre questions soigneusement posées dans une enquête pour identifier de manière unique une personne."
Dans le journal, les auteurs ont analysé un ensemble de données d'enquête qui a été collecté en 2015 par la ville d'Austin, Texas et rendu public à la suite d'un mouvement Open Data. D'autres villes ont des mouvements similaires, dont New York et Philadelphie.
« Il y a beaucoup de risques pour la confidentialité dans les données ouvertes car ils ne font pas la confidentialité aussi bien que le gouvernement fédéral qui dispose du budget et des ressources importants pour embaucher des statisticiens, économistes ou informaticiens pour répondre à ce problème technologique, " a déclaré Schneider. " La protection dépend souvent de la façon dont les données sont utilisées. "
La ville d'Austin a mené une enquête auprès de 2, 614 Américains d'origine asiatique vivant dans la ville pour explorer les besoins en matière de santé et de services de l'une des populations à la croissance la plus rapide de la ville, dans le but de créer des niveaux plus élevés d'engagement communautaire, politiques et d'identifier les ressources pour répondre aux besoins de la communauté américaine d'origine asiatique. Les fonctionnaires d'Austin ont publié leurs ensembles de données, comme demandé, pour les rendre facilement accessibles aux utilisateurs.
Dans un ensemble de données d'enquête, chaque répondant a été interrogé sur son origine ethnique, qui avait 32 catégories; âge, qui avait 77 catégories; code postal, qui avait 61 catégories; et le genre.
"Presque tout le monde est identifiable à ces quatre variables, certaines plus que d'autres, " dit Schneider. " Une fois que vous les aurez identifiés, cette enquête a révélé d'autres réponses sensibles telles que le statut d'emploi, appartenance religieuse, revenu du ménage, l'abordabilité du logement et de nombreuses questions d'attitude. "
De la même manière, La ville de New York a connu un problème de données ouvertes avec la Commission des taxis et des limousines de la ville de New York, où 124 millions d'itinéraires de conduite pouvaient être tracés jusqu'à l'adresse du domicile d'un conducteur.
Un défi majeur lors de l'examen des méthodologies pour modifier efficacement les données des participants est de le faire d'une manière qui ne modifie pas considérablement l'exactitude des résultats de l'enquête. La méthodologie proposée par les auteurs, a été construit sur une technique trouvée dans les applications de séquençage génomique qui était capable de dissimuler l'identité des consommateurs tout en maintenant l'exactitude des informations à moins de 5%.
"Notre méthode consisterait essentiellement à " mélanger " les données démographiques dans un ensemble de données d'enquête, " dit Schneider. " Mais, contrairement aux méthodes précédentes, le nôtre ne mélange les données que lorsqu'il maintient les corrélations entre des variables importantes qui sont essentielles aux analystes. Les données protégées sont simulées au niveau du consommateur mais restent précieuses pour l'utilisateur final. Si cet ensemble de données sort, alors seules les idées de l'organisation seraient connues."
Le papier, "Protéger les données d'enquête au niveau du consommateur, " a été publié dans le Journal d'analyse marketing et est disponible sur ce lien. Des détails sur la nouvelle méthodologie sont inclus dans le document.