Un système d'apprentissage automatique vise à déterminer si un média est précis ou biaisé. Crédit :domaine public
Dernièrement, le monde de la vérification des faits a connu une crise. Des sites comme Politifact et Snopes se sont traditionnellement concentrés sur des revendications spécifiques, ce qui est admirable mais fastidieux - au moment où ils ont fini de vérifier ou de démystifier un fait, il y a de fortes chances qu'il ait déjà voyagé à travers le monde et vice-versa.
Les sociétés de médias sociaux ont également eu des résultats mitigés limitant la propagation de la propagande et de la désinformation :Facebook prévoit d'en avoir 20, 000 modérateurs humains d'ici la fin de l'année, et dépense des millions de dollars pour développer ses propres algorithmes de détection de fausses nouvelles.
Des chercheurs du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) et du Qatar Computing Research Institute (QCRI) pensent que la meilleure approche consiste à ne pas se concentrer sur la réalité des réclamations individuelles, mais sur les sources d'information elles-mêmes. En utilisant cette pointe, ils ont démontré un nouveau système qui utilise l'apprentissage automatique pour déterminer si une source est exacte ou politiquement biaisée.
« Si un site Web a déjà publié de fausses nouvelles, il y a de fortes chances qu'ils recommencent, " dit l'associé postdoctoral Ramy Baly, auteur principal d'un nouvel article sur le système. "En grattant automatiquement les données de ces sites, l'espoir est que notre système puisse aider à déterminer lesquels sont susceptibles de le faire en premier lieu."
Baly dit que le système n'a besoin que d'environ 150 articles pour détecter de manière fiable si une source d'information est fiable, ce qui signifie qu'une approche comme la leur pourrait être utilisée pour aider à éliminer les fausses informations avant que les histoires ne se propagent trop largement.
Le système est une collaboration entre les informaticiens du MIT CSAIL et du QCRI, qui fait partie de l'Université Hamad Bin Khalifa au Qatar. Les chercheurs ont d'abord pris les données de Media Bias/Fact Check (MBFC), un site web avec des fact-checkers humains qui analysent l'exactitude et les biais de plus de 2, 000 sites d'actualités, de MSNBC et Fox News aux fermes de contenu à faible trafic.
Ils ont ensuite transmis ces données à un algorithme d'apprentissage automatique appelé classificateur SVM (Support Vector Machine), et l'a programmé pour classer les sites d'information de la même manière que MBFC. Lorsqu'on leur donne un nouveau média, le système était alors précis à 65 % pour détecter s'il avait un niveau élevé, niveau faible ou moyen de « facticité, " et à environ 70 % de précision pour détecter s'il penche à gauche, de droite ou modéré.
L'équipe a déterminé que les moyens les plus fiables de détecter à la fois les fausses nouvelles et les reportages biaisés consistaient à examiner les caractéristiques linguistiques communes à travers les histoires de la source, y compris le sentiment, complexité et structure.
Par exemple, les médias de fausses informations se sont avérés plus susceptibles d'utiliser un langage hyperbolique, subjectif, et émotionnel. En termes de biais, les points de vente de gauche étaient plus susceptibles d'avoir un langage lié aux concepts de préjudice/soins et d'équité/réciprocité, par rapport à d'autres qualités telles que la loyauté, autorité et sainteté. (Ces qualités représentent les 5 "fondements moraux, " une théorie populaire en psychologie sociale.)
Le co-auteur Preslav Nakov dit que le système a également trouvé des corrélations avec la page Wikipédia d'un point de vente, qu'il a évalué en termes de longueur générale (plus long est plus crédible) ainsi que de mots cibles tels que « extrême » ou « théorie du complot ». Il a même trouvé des corrélations avec la structure du texte des URL d'une source :celles qui avaient beaucoup de caractères spéciaux et des sous-répertoires compliqués, par exemple, étaient associés à des sources moins fiables.
"Comme il est beaucoup plus facile d'obtenir la vérité terrain sur les sources [que sur les articles], cette méthode est capable de fournir des prédictions directes et précises sur le type de contenu diffusé par ces sources, " dit Sibel Adali, un professeur d'informatique à l'Institut polytechnique Rensselaer qui n'était pas impliqué dans le projet.
Nakov s'empresse de mettre en garde que le système est toujours un travail en cours, et cela, même avec des améliorations de la précision, cela fonctionnerait mieux en conjonction avec les vérificateurs de faits traditionnels.
« Si les points de vente rendent compte différemment sur un sujet particulier, un site comme Politifact pourrait instantanément consulter nos scores de "fausses nouvelles" pour ces points de vente afin de déterminer la validité à accorder aux différentes perspectives, " dit Nakov, un scientifique principal au QCRI.
Baly et Nakov ont co-écrit le nouvel article avec le chercheur principal du MIT, James Glass, aux côtés des étudiants en maîtrise Dimitar Alexandrov et Georgi Karadzhov de l'Université de Sofia. L'équipe présentera le travail plus tard ce mois-ci à la conférence 2018 Empirical Methods in Natural Language Processing (EMNLP) à Bruxelles, La Belgique.
Les chercheurs ont également créé un nouvel ensemble de données open source de plus de 1, 000 sources d'information, annoté avec des scores de factualité et de parti pris - la plus grande base de données au monde en son genre. Comme prochaines étapes, l'équipe examinera si le système formé en anglais peut être adapté à d'autres langues, ainsi que d'aller au-delà du biais traditionnel gauche/droite pour explorer les biais spécifiques à la région (comme la division du monde musulman entre religieux et laïc).
"Cette direction de recherche peut faire la lumière sur ce à quoi ressemblent les sites Web peu fiables et le type de contenu qu'ils ont tendance à partager, ce qui serait très utile pour les concepteurs de sites Web et le grand public, " dit Andreas Vlachos, un maître de conférences à l'Université de Cambridge qui n'était pas impliqué dans le projet.
Nakov dit que QCRI a également l'intention de déployer une application qui aide les utilisateurs à sortir de leurs bulles politiques, répondre à des informations spécifiques en proposant aux utilisateurs une collection d'articles couvrant l'éventail politique.
"C'est intéressant de réfléchir à de nouvelles façons de présenter l'actualité aux gens, " dit Nakov. " Des outils comme celui-ci pourraient aider les gens à réfléchir un peu plus aux problèmes et à explorer d'autres perspectives qu'ils n'auraient peut-être pas envisagées autrement. "