Crédit :CC0 Domaine public
Grâce à une collaboration fructueuse entre les langagiers et les spécialistes de l'apprentissage automatique, une nouvelle application développée par des chercheurs de l'Université de Finlande orientale et de l'Université de Linnaeus en Suède peut détecter les robots Twitter indépendamment de la langue utilisée.
Dans les années récentes, Les mégadonnées provenant de diverses applications de médias sociaux ont transformé le Web en un référentiel d'informations généré par les utilisateurs dans un nombre toujours croissant de domaines. En raison de l'accès relativement facile aux tweets et à leurs métadonnées, Twitter est devenu une source de données populaire pour les enquêtes sur un certain nombre de phénomènes. Ceux-ci inclus, par exemple, diverses campagnes politiques, bouleversements sociaux et politiques, Twitter comme outil de communication d'urgence, et utiliser les données des médias sociaux pour prédire les cours boursiers.
Cependant, les recherches utilisant les données des médias sociaux sont souvent faussées par la présence de bots. Les bots sont des comptes non personnels et automatisés qui publient du contenu sur les réseaux sociaux en ligne. La popularité de Twitter en tant qu'instrument de débat public a conduit à une situation dans laquelle il est devenu une cible idéale pour les spammeurs et les scripts automatisés. Il a été estimé qu'environ 5 à 10 % de tous les utilisateurs sont des bots, et que ces comptes génèrent environ 20 à 25 % de tous les tweets publiés.
Des chercheurs en sciences humaines numériques de l'Université de Finlande orientale et de l'Université de Linnaeus en Suède ont développé une nouvelle application qui s'appuie sur l'apprentissage automatique pour détecter les robots Twitter. L'application est capable de détecter les tweets générés automatiquement indépendamment de la langue utilisée. Les chercheurs ont capturé pour analyse un total de 15, 000 tweets en finnois, suédois et anglais. Le finnois et le suédois étaient principalement utilisés pour la formation, tandis que des tweets en anglais ont été utilisés pour évaluer l'indépendance linguistique de l'application. L'application est légère, permettant de classer rapidement et de manière relativement efficace de vastes quantités de données.
« Cela améliore la qualité des données et brosse un tableau plus précis de la réalité, ", note le professeur d'anglais Mikko Laitinen de l'Université de Finlande orientale.
Selon le professeur Laitinen, les bots sont relativement inoffensifs, alors que les trolls font du mal en diffusant de fausses nouvelles et en inventant des histoires inventées. C'est pourquoi il existe un besoin d'outils de plus en plus avancés pour la surveillance des médias sociaux.
« Il s'agit d'un problème complexe qui nécessite des approches interdisciplinaires. Par exemple, nous, linguistes, travaillons avec des spécialistes de l'apprentissage automatique. Ce type de travail demande également de la détermination et des investissements dans des infrastructures de recherche qui servent de plate-forme à des chercheurs de différents domaines sur lesquels collaborer. »
Selon le professeur Laitinen, il est essentiel que les chercheurs aient accès aux données des médias sociaux.
"Actuellement, les données sont la propriété de conglomérats technologiques américains, et une source de leurs revenus. Afin que les chercheurs aient accès à ces données, coopération aux niveaux national et international, et surtout l'implication de l'UE sont nécessaires."