Le détecteur de fausses nouvelles

Il existe de nombreuses méthodes pour déterminer si les nouvelles sont « fakes, ' y compris l'analyse des caractéristiques linguistiques des histoires pour extraire des modèles clés. Crédit :Patrick Dodson

Une histoire sur Reddit demande, « Les Palestiniens ont-ils reconnu le Texas comme faisant partie du Mexique ? » L'origine de l'histoire peut être douteuse, mais cela n'empêche pas l'histoire de "fake news" d'accumuler 1,5 million de likes sur plusieurs plateformes en seulement quatre jours. Le dilemme des fausses nouvelles remonte à des siècles, selon Politico, mais l'avancée de la technologie et l'essor des médias sociaux, il est maintenant à son zénith.

Le problème des fake news fascine Shivam Parikh, doctorant au Collège d'ingénierie et de sciences appliquées d'Albany. Parikh, travaillant avec le professeur agrégé d'informatique Pradeep Atrey, récemment présenté sur le sujet lors de la 1ère conférence internationale de l'IEEE sur le traitement et la récupération d'informations multimédias. Leur papier, « Détection de fausses informations riches en médias :une enquête, " se penche sur les enjeux liés à la détection des fake news, les approches de détection existantes fortement basées sur l'analyse textuelle, et des ensembles de données de fausses nouvelles populaires.

Les fausses nouvelles peuvent être tout contenu qui n'est pas véridique et qui est généré pour convaincre ses lecteurs de croire en quelque chose qui n'est pas vrai, dit Parikh, qui travaille en tant qu'analyste développeur de systèmes pour ITS à UAlbany.

Le défi de la détection des fausses informations vient de la démocratisation des sources d'information, et à quel point la technologie moderne facilite le partage d'articles d'actualité à l'ère des médias sociaux.

Parikh et Atrey ont entrepris d'aborder plusieurs pièces critiques du puzzle des « fausses nouvelles » avec leur article :

Les différentes plateformes qui peuvent être utilisées pour diffuser efficacement et largement le contenu ;
Les types de données que l'article peut contenir, et l'impact de chaque type de données sur les lecteurs;
Les différents types de catégories de fausses nouvelles ;
Méthodes de détection de fausses nouvelles existantes ; et
Ensembles de données actuels disponibles pour la détection de fausses nouvelles.

Les chercheurs concluent en soulignant les défis de recherche ouverts dans le domaine de la détection des fausses nouvelles.

En 2017, les deux tiers des adultes américains reçoivent des nouvelles des médias sociaux, un bond de 5% par rapport à 2016, selon Reuters. Sans surprise, cela représente une bénédiction et une malédiction pour Facebook et Twitter :la statistique représente la popularité des plateformes ainsi que leur rôle en tant que principales sources de diffusion de fausses nouvelles.

Mais alors que les géants des médias sociaux sont aux prises avec l'utilisation abusive de leurs plateformes, ils sont également confrontés au caractère intimidant de leur tâche. Les fausses nouvelles peuvent prendre plusieurs formes, y compris les images retouchées, faux contenu généré par les utilisateurs ou comptes falsifiés, contenu basé sur le réseau conçu pour plaire à une organisation ou à un groupe particulier, ainsi que des histoires fondées sur la connaissance qui contiennent une explication scientifique ou raisonnable des problèmes non résolus, entraînant souvent la diffusion de fausses informations.

Mais si la tâche de détecter les fausses nouvelles peut sembler intimidante, il existe plusieurs méthodes prometteuses à la disposition des chercheurs. Parikh et Atrey présentent une catégorisation de ces approches, leurs caractéristiques clés, puis analyser leurs avantages et leurs limites respectifs.

Ces méthodes incluent des approches qui analysent les caractéristiques linguistiques des histoires pour extraire des modèles clés dans les fausses nouvelles, ou la modélisation de tromperie, qui est le processus de regroupement d'histoires trompeuses et véridiques. D'autres approches incluent le développement de modèles prédictifs qui peuvent attribuer des coefficients positifs ou négatifs qui peuvent augmenter ou diminuer la probabilité de la vérité d'une histoire ; ou l'analyse d'indices de contenu, qui est basé sur l'idéologie de ce que les journalistes aiment écrire pour les utilisateurs et de ce que les utilisateurs aiment lire.

Heureusement, les chercheurs ont amplement accès aux référentiels d'articles de « fausses nouvelles » sous la forme d'ensembles de données accessibles au public, comme BuzzFeedNews ou LIAR. Mais si chacun des ensembles de données offre de nombreuses possibilités d'étudier des modèles de détection linguistique, aucun ne possède de méthode d'analyse des photos, par exemple.

« La présentation visuelle joue un rôle énorme chez les personnes qui croient au contenu de fausses informations. Cela nécessite une vérification non seulement de la langue, mais des images, l'audio, contenu intégré, comme la vidéo intégrée, tweeter, Publication Facebook et liens hypertexte, " dit Parikh.

Parikh préconise également une méthode de détection qui peut vérifier la source de l'actualité, et considérer la fiabilité ou la validité de la source une fois qu'elle est déterminée. Un contrôle de crédibilité de l'auteur peut remplir une fonction similaire, où un système peut être utilisé pour détecter des chaînes de fausses nouvelles écrites par le même auteur ou le même groupe d'auteurs.

Parikh sait qu'il n'a fait qu'effleurer le sujet. Toujours, il est déterminé à explorer la question alors qu'il poursuit son doctorat à UAlbany.

La société Musk construira le transport express Chicago-à-OHare (Mise à jour)

Un tribunal américain confirme le danger posé par les canons sonores

Électronique