Collecte de données Facebook :ce que vous devez savoir

Une cire du patron de Facebook Mark Zuckerberg. Crédit :Shutterstock

Facebook tire l'essentiel de son argent de la publicité, et – alors que le scandale Cambridge Analytica continue de hanter l'entreprise de Mark Zuckerberg – les utilisateurs exigent de savoir comment leurs données sont traitées et récoltées.

Mais alors que les inquiétudes concernant la confidentialité des utilisateurs de Facebook ont augmenté, il est clair depuis la création de Facebook que son activité repose sur une surveillance généralisée des personnes, dont les données sont le produit.

Certains ont décrit les révélations du scandale Cambridge Analytica – dans lequel des données auraient été récoltées à partir de 50 millions de profils Facebook – comme une « crise existentielle », tandis que d'autres ont mis en évidence des implications potentielles pour la recherche universitaire.

En bref, Les méthodes de collecte de données de Facebook sont devenues un sujet de préoccupation soudaine et généralisée.

Qu'est-ce que la collecte de données ?

Récolte des données, comme son nom agricole l'indique, est similaire à la cueillette des récoltes car elle implique la collecte et le stockage dans l'attente d'une récompense future.

Les données peuvent être récoltées de différentes manières, allant du simple copier-coller à la programmation plus compliquée. La méthode choisie est souvent limitée par le site exploité. Aux niveaux de recherche simples, de nombreux sites combattent le moissonnage automatisé avec les CAPTCHA et reCAPTCHA de Google, qui aident les sites à différencier les humains des robots.

Si vous avez déjà copié-collé du texte de Facebook ou enregistré une image de Twitter, vous avez récolté des données de médias sociaux. L'action de « capture d'écran » est autorisée sur la plupart des sites car les utilisateurs ne peuvent généralement accéder qu'aux informations publiques ou visibles pour eux parce qu'ils se sont connectés. De plus, il serait impossible d'éradiquer complètement les méthodes de collecte de données les plus simples, comme prendre des notes et prendre des photos.

Facebook et d'autres réseaux sociaux sont plus soucieux de restreindre la collecte automatisée de données, en raison des demandes sur les serveurs Web et pour contrôler qui a accès à quelles données (et pourquoi). Les informations personnelles et le comportement sur les réseaux sociaux ont un caractère commercial, valeur politique et de recherche.

Les réseaux sociaux décident de leurs propres politiques d'utilisation, équilibrer les intérêts commerciaux avec les tiers et les préoccupations réglementaires en matière de confidentialité des utilisateurs – souvent décrites dans les documents de l'entreprise comme jonglant avec l'optimisation du « comportement du client » et l'adhésion aux « normes communautaires ».

Comment les données sont-elles récoltées ?

Les interfaces de programmation d'applications (API) sont utilisées par Facebook, Twitter, Instagram et d'autres sites pour restreindre l'accès des aspirants récolteurs. Les API fonctionnent comme un intermédiaire logiciel qui permet à l'ordinateur d'un chercheur ou d'un développeur d'applications de « parler » à un réseau social de manière contrôlée.

Lire la suite :Comment le modèle de ciblage Facebook de Cambridge Analytica a vraiment fonctionné – selon la personne qui l'a construit

L'une des principales conditions implique des restrictions sur la manière dont les données collectées peuvent être utilisées et partagées, qui peut être poursuivi agressivement. En 2010, Le programmeur informatique Pete Warden a collecté les données de 210 millions de profils Facebook publics à des fins de recherche. Mais il n'a pas d'abord demandé l'autorisation de Facebook, violant ainsi ses conditions d'utilisation. Il a ensuite fait face à la menace de poursuites judiciaires de la part de Facebook et a été contraint de supprimer les données – en écho au rôle présumé du chercheur universitaire Aleksandr Kogan dans le scandale Cambridge Analytica.

L'application Kogan, surnommé "c'est votre vie numérique", développé en 2014 via sa société Global Science Research (GSR) – distincte de son travail universitaire – était un test de personnalité qui 270, 000 utilisateurs connectés, en acceptant qu'il ait accès à certaines de leurs informations personnelles ainsi qu'à certaines données de leurs amis. Cela signifiait également que ces amis n'avaient pas consenti à ce que leurs données soient utilisées de cette manière.

Facebook met régulièrement à jour son API et en 2014, la société a confirmé qu'elle cesserait d'autoriser les applications tierces à accéder aux données sur les amis des utilisateurs de l'application. Cela a désactivé la méthode de collecte de données prétendument utilisée par Kogan.

Il existe différentes manières pour les développeurs - qui doivent accepter les politiques de Facebook - de collecter des données à l'aide de l'API de l'entreprise et elles supposent toutes au moins des compétences de base en programmation informatique. L'un des moyens les plus simples de le faire est d'accéder à l'API à l'aide d'une boîte à outils logicielle spécialisée - Python et R ont des outils spécialement conçus à cet effet. Dans mes recherches, J'utilise le package Rfacebook pour récolter des données Facebook.

Une distinction essentielle entre mon application et les autres est que je n'interagis pas avec les utilisateurs, parce que mon application n'est pas en ligne. Mon application est essentiellement un moyen automatisé de copier-coller des informations à partir de groupes Facebook publics. J'utilise l'API Facebook pour rechercher comment les pages des groupes communautaires publics ont été utilisées pour protester contre l'austérité en Irlande.

Parce que je récolte des données publiques à partir de pages publiques, Je ne demande pas aux utilisateurs de se connecter et il n'y a pas d'interface frontale sur Facebook, bien que cela puisse être fait en utilisant les boîtes à outils API de Facebook pour augmenter la quantité de données accessibles. C'est une méthode qui soulève un certain nombre de questions sur la fonctionnalité, les informations sur l'utilisateur et les autorisations d'accès.

L'API de Facebook peut être utilisée pour récolter toutes sortes d'informations accessibles au public, comme certains des messages récents de The Conversation UK ou des messages dans des groupes publics.

Mais les tentatives d'aller au-delà des informations publiques pour collecter les données des utilisateurs de Facebook qui ne se sont pas connectés à l'application - comme Zuckerberg, par exemple - les erreurs de retour. Les "j'aime" de Facebook ne peuvent pas être récoltés car Zuckerberg n'est pas un utilisateur de mon application et il ne lui a pas accordé l'autorisation d'accéder à ses données.

Sous les dernières mises à jour de l'API de Facebook, des autorisations d'application sont requises pour collecter des informations au-delà des propriétés de profil public. Cela signifie que les utilisateurs doivent se connecter à une application et autoriser l'accès à toute autre information pour permettre aux développeurs de récolter les données.

La recherche légitime menacée ?

Alors que les entreprises bourrées de publicité ont clairement intérêt à « exploiter » les données, les universitaires – ces dernières semaines – ont attiré l'attention sur les chercheurs qui récoltent les données de Facebook. Cette pratique est devenue relativement courante dans la recherche en sciences sociales.

La mesure dans laquelle les recherches futures pourraient être limitées par des modifications apportées à l'API de Facebook est urgente. Mais il vaut la peine de noter que, une fois les données récoltées, Facebook – qui peut poursuivre légalement les personnes qui « enfreignent » ses conditions d'utilisation pour essayer de les forcer à supprimer des données – a un contrôle limité sur l'endroit où les données finissent.

Pour les chercheurs qui s'inquiètent de la façon dont le scandale Cambridge Analytica affectera leur travail, cela vaut la peine de garder un œil sur les changements que Facebook implémente dans sa prochaine mise à jour de l'API. Cela peut permettre de mieux comprendre le type de recherche qui peut être autorisé à partir de l'utilisation des données Facebook récoltées – et ce qui peut être exclu de façon permanente.

Cet article a été initialement publié sur The Conversation. Lire l'article original.