Avec quelle précision pouvez-vous être profilé en ligne ? Crédit :Andrew Krasovitckii/Shutterstock.com
Le chercheur dont le travail est au centre de l'analyse des données Facebook-Cambridge Analytica et du tumulte publicitaire politique a révélé que sa méthode fonctionnait un peu comme celle que Netflix utilise pour recommander des films.
Dans un e-mail pour moi, Le chercheur de l'Université de Cambridge, Aleksandr Kogan, a expliqué comment son modèle statistique traitait les données Facebook pour Cambridge Analytica. L'exactitude qu'il prétend suggère que cela fonctionne ainsi que les méthodes établies de ciblage des électeurs basées sur des données démographiques telles que la race, âge et sexe.
Si confirmé, Le récit de Kogan signifierait que la modélisation numérique utilisée par Cambridge Analytica n'était pas la boule de cristal virtuelle que certains ont prétendu. Pourtant, les chiffres fournis par Kogan montrent également ce qui est – et n'est pas – réellement possible en combinant les données personnelles avec l'apprentissage automatique à des fins politiques.
Concernant une préoccupation publique clé, bien que, Les chiffres de Kogan suggèrent que les informations sur la personnalité des utilisateurs ou « psychographie » n'étaient qu'une modeste partie de la façon dont le modèle ciblait les citoyens. Ce n'était pas un modèle de personnalité à proprement parler, mais plutôt un qui résume la démographie, influences sociales, personnalité et tout le reste dans un gros morceau corrélé. Cette approche d'absorption de toute la corrélation et de la personnalité semble avoir créé un outil de campagne précieux, même si le produit vendu n'était pas tout à fait tel qu'il a été facturé.
La promesse du ciblage de personnalité
À la suite des révélations selon lesquelles les consultants de la campagne Trump, Cambridge Analytica, ont utilisé les données de 50 millions d'utilisateurs de Facebook pour cibler la publicité politique numérique lors de l'élection présidentielle américaine de 2016, Facebook a perdu des milliards en valeur boursière, gouvernements des deux côtés de l'Atlantique ont ouvert des enquêtes, et un mouvement social naissant appelle les utilisateurs à #SupprimerFacebook.
Mais une question clé est restée sans réponse :Cambridge Analytica était-elle vraiment capable de cibler efficacement les messages de campagne aux citoyens en fonction de leurs caractéristiques de personnalité - ou même de leurs "démons intérieurs, " comme l'a prétendu un lanceur d'alerte de l'entreprise ?
Si quelqu'un sait ce que Cambridge Analytica a fait avec son énorme mine de données Facebook, ce serait Aleksandr Kogan et Joseph Chancellor. C'est leur startup Global Science Research qui a collecté les informations de profil de 270, 000 utilisateurs de Facebook et des dizaines de millions de leurs amis utilisent une application de test de personnalité appelée "thisisyourdigitallife".
Une partie de mes propres recherches se concentre sur la compréhension des méthodes d'apprentissage automatique, et mon prochain livre explique comment les entreprises numériques utilisent des modèles de recommandation pour créer des audiences. J'avais une intuition sur le fonctionnement du modèle de Kogan et Chancellor.
J'ai donc envoyé un e-mail à Kogan pour lui demander. Kogan est toujours chercheur à l'Université de Cambridge; son collaborateur Chancelier travaille désormais chez Facebook. Dans une remarquable démonstration de courtoisie académique, répondit Kogan.
Sa réponse nécessite un déballage, et un peu de fond.
Du prix Netflix à la « psychométrie »
En 2006, quand c'était encore une entreprise de DVD par courrier, Netflix a offert une récompense de 1 million de dollars à quiconque a développé un meilleur moyen de faire des prédictions sur le classement des films des utilisateurs que la société ne l'avait déjà fait. L'un des principaux concurrents surprise était un développeur de logiciels indépendant utilisant le pseudonyme Simon Funk, dont l'approche de base a finalement été intégrée dans toutes les inscriptions des meilleures équipes. Funk a adapté une technique appelée « décomposition en valeurs singulières, " condenser les évaluations des films par les utilisateurs en une série de facteurs ou de composants - essentiellement un ensemble de catégories déduites, classés par importance. Comme Funk l'a expliqué dans un article de blog, "Donc, par exemple, une catégorie peut représenter des films d'action, avec des films avec beaucoup d'action au top, et films lents en bas, et en conséquence les utilisateurs qui aiment les films d'action au top, et ceux qui préfèrent les films lents en bas."
Les facteurs sont des catégories artificielles, qui ne sont pas toujours comme le genre de catégories que les humains pourraient proposer. Le facteur le plus important dans le premier modèle Netflix de Funk a été défini par des utilisateurs qui aimaient des films comme "Pearl Harbor" et "The Wedding Planner" tout en détestant des films comme "Lost in Translation" ou "Eternal Sunshine of the Spotless Mind". Son modèle a montré comment l'apprentissage automatique peut trouver des corrélations entre des groupes de personnes, et des groupes de films, que les humains eux-mêmes ne verraient jamais.
L'approche générale de Funk a utilisé les 50 ou 100 facteurs les plus importants pour les utilisateurs et les films pour faire une estimation décente de la façon dont chaque utilisateur évaluerait chaque film. Cette méthode, souvent appelée réduction de dimensionnalité ou factorisation matricielle, n'était pas nouveau. Des chercheurs en sciences politiques avaient montré que des techniques similaires utilisant des données de vote par appel nominal pouvaient prédire les votes des membres du Congrès avec une précision de 90 %. En psychologie, le modèle des « cinq grands » avait également été utilisé pour prédire le comportement en regroupant des questions de personnalité auxquelles on avait tendance à répondre de la même manière.
Toujours, Le modèle de Funk était une grande avancée :il a permis à la technique de bien fonctionner avec d'énormes ensembles de données, même ceux avec beaucoup de données manquantes - comme l'ensemble de données Netflix, où un utilisateur typique n'a évalué que quelques dizaines de films sur les milliers de la bibliothèque de l'entreprise. Plus d'une décennie après la fin du concours du Prix Netflix, Méthodes basées sur SVD, ou des modèles associés pour les données implicites, sont toujours l'outil de choix pour de nombreux sites Web pour prédire ce que les utilisateurs liront, Regardez, ou acheter.
Ces modèles peuvent prédire d'autres choses, trop.
Facebook sait si vous êtes républicain
En 2013, Les chercheurs de l'Université de Cambridge Michal Kosinski, David Stillwell et Thore Graepel ont publié un article sur le pouvoir prédictif des données Facebook, en utilisant les informations recueillies lors d'un test de personnalité en ligne. Leur analyse initiale était presque identique à celle utilisée sur le prix Netflix, en utilisant SVD pour classer à la fois les utilisateurs et les choses qu'ils "aimaient" dans les 100 principaux facteurs.
L'article a montré qu'un modèle de facteur créé avec les seuls "j'aime" Facebook des utilisateurs était précis à 95% pour distinguer les répondants noirs et blancs, 93% précis pour distinguer les hommes des femmes, et 88 pour cent précis pour distinguer les personnes qui se sont identifiées comme des hommes homosexuels des hommes qui se sont identifiés comme hétérosexuels. Il pourrait même distinguer correctement les républicains des démocrates 85 % du temps. C'était aussi utile, mais pas aussi précis, pour prédire les scores des utilisateurs sur le test de personnalité "Big Five".
Il y a eu un tollé général en réponse; en quelques semaines, Facebook avait rendu les likes des utilisateurs privés par défaut.
Kogan et chancelier, également des chercheurs de l'Université de Cambridge à l'époque, commençaient à utiliser les données de Facebook pour le ciblage des élections dans le cadre d'une collaboration avec la société mère de Cambridge Analytica, SCL. Kogan a invité Kosinski et Stillwell à rejoindre son projet, mais ça n'a pas marché. Kosinski aurait soupçonné Kogan et Chancellor d'avoir procédé à une rétro-ingénierie du modèle de "j'aime" de Facebook pour Cambridge Analytica. Kogan a nié cela, disant que son projet "a construit tous nos modèles en utilisant nos propres données, collectées à l'aide de notre propre logiciel."
Qu'ont réellement fait Kogan et Chancellor ?
En suivant les développements de l'histoire, il est devenu clair que Kogan et Chancellor avaient en effet collecté beaucoup de leurs propres données via l'application thisisyourdigitallife. Ils auraient certainement pu construire un modèle SVD prédictif comme celui présenté dans les recherches publiées de Kosinski et Stillwell.
J'ai donc envoyé un e-mail à Kogan pour lui demander si c'était ce qu'il avait fait. Un peu à ma grande surprise, il a répondu.
"Nous n'avons pas exactement utilisé SVD, " il a écrit, notant que SVD peut avoir des difficultés lorsque certains utilisateurs ont beaucoup plus de "j'aime" que d'autres. Au lieu, Kogan a expliqué, "La technique était quelque chose que nous avons développé nous-mêmes… Ce n'est pas quelque chose qui est dans le domaine public." Sans entrer dans les détails, Kogan a décrit leur méthode comme « une approche de cooccurrence en plusieurs étapes ».
Cependant, son message a ensuite confirmé que son approche était bien similaire à la SVD ou à d'autres méthodes de factorisation matricielle, comme dans le concours du Prix Netflix, et le modèle Facebook Kosinki-Stillwell-Graepel. La réduction de la dimensionnalité des données Facebook était au cœur de son modèle.
À quel point était-ce précis ?
Kogan a suggéré que le modèle exact utilisé n'a pas beaucoup d'importance, cependant - ce qui compte, c'est l'exactitude de ses prédictions. Selon Kogan, la « corrélation entre les scores prédits et réels… était d'environ [30 %] pour toutes les dimensions de la personnalité ». Par comparaison, les scores précédents des Big Five d'une personne sont précis à environ 70 à 80 pour cent pour prédire ses scores lorsqu'elle repasse le test.
Les déclarations d'exactitude de Kogan ne peuvent pas être vérifiées de manière indépendante, bien sûr. Et toute personne au milieu d'un scandale aussi médiatisé pourrait être incitée à sous-estimer sa contribution. Dans son apparition sur CNN, Kogan a expliqué à un Anderson Cooper de plus en plus incrédule que, En réalité, les modèles n'avaient en fait pas très bien fonctionné.
En réalité, la précision revendiquée par Kogan semble un peu faible, mais plausible. Kosinski, Stillwell et Graepel ont rapporté des résultats comparables ou légèrement meilleurs, tout comme plusieurs autres études universitaires utilisant des empreintes numériques pour prédire la personnalité (bien que certaines de ces études aient plus de données que les « j’aime » de Facebook). Il est surprenant que Kogan et Chancellor se donnent la peine de concevoir leur propre modèle propriétaire si des solutions prêtes à l'emploi semblaient tout aussi précises.
Surtout, bien que, la précision du modèle sur les scores de personnalité permet de comparer les résultats de Kogan avec d'autres recherches. Les modèles publiés avec une précision équivalente pour prédire la personnalité sont tous beaucoup plus précis pour deviner les variables démographiques et politiques.
Par exemple, le modèle similaire de Kosinski-Stillwell-Graepel SVD était précis à 85 pour cent pour deviner l'affiliation à un parti, même sans utiliser d'informations de profil autres que les likes. Le modèle de Kogan avait une précision similaire ou meilleure. L'ajout même d'une petite quantité d'informations sur les amis ou les données démographiques des utilisateurs augmenterait probablement cette précision au-dessus de 90 %. Devinettes sur le genre, course, l'orientation sexuelle et d'autres caractéristiques seraient probablement aussi exactes à plus de 90 pour cent.
De manière critique, ces suppositions seraient particulièrement bonnes pour les utilisateurs de Facebook les plus actifs – les personnes que le modèle était principalement utilisé pour cibler. Les utilisateurs avec moins d'activité à analyser ne sont probablement pas beaucoup sur Facebook de toute façon.
Quand la psychographie est surtout démographique
Savoir comment le modèle est construit aide à expliquer les déclarations apparemment contradictoires de Cambridge Analytica sur le rôle - ou l'absence de rôle - que le profilage de la personnalité et la psychographie ont joué dans sa modélisation. Ils sont tous techniquement cohérents avec ce que Kogan décrit.
Un modèle comme celui de Kogan donnerait des estimations pour chaque variable disponible sur n'importe quel groupe d'utilisateurs. That means it would automatically estimate the Big Five personality scores for every voter. But these personality scores are the output of the model, not the input. All the model knows is that certain Facebook likes, and certain users, tend to be grouped together.
With this model, Cambridge Analytica could say that it was identifying people with low openness to experience and high neuroticism. But the same model, with the exact same predictions for every user, could just as accurately claim to be identifying less educated older Republican men.
Kogan's information also helps clarify the confusion about whether Cambridge Analytica actually deleted its trove of Facebook data, when models built from the data seem to still be circulating, and even being developed further.
The whole point of a dimension reduction model is to mathematically represent the data in simpler form. It's as if Cambridge Analytica took a very high-resolution photograph, resized it to be smaller, and then deleted the original. The photo still exists – and as long as Cambridge Analytica's models exist, the data effectively does too.
Cet article a été initialement publié sur The Conversation. Lire l'article original.