Crédit :CC0 Domaine public
Un système basé sur un algorithme qui identifie les indices linguistiques révélateurs dans les fausses nouvelles pourrait fournir aux agrégateurs de nouvelles et aux sites de médias sociaux comme Google News une nouvelle arme dans la lutte contre la désinformation.
Les chercheurs de l'Université du Michigan qui ont développé le système ont démontré qu'il est comparable et parfois meilleur que les humains pour identifier correctement les fausses nouvelles.
Dans une étude récente, il a réussi à trouver des faux jusqu'à 76% du temps, par rapport à un taux de réussite humaine de 70 pour cent. En outre, leur approche d'analyse linguistique pourrait être utilisée pour identifier de faux articles de presse trop récents pour être démystifiés en croisant leurs faits avec d'autres histoires.
Rada Mihalcea, le professeur d'informatique et d'ingénierie de l'UM à l'origine du projet, a déclaré qu'une solution automatisée pourrait être un outil important pour les sites qui ont du mal à faire face à un assaut de fausses nouvelles, souvent créés pour générer des clics ou pour manipuler l'opinion publique.
Il peut être difficile d'attraper de fausses histoires avant qu'elles n'aient de réelles conséquences, en tant qu'agrégateur et les sites de médias sociaux dépendent aujourd'hui fortement d'éditeurs humains qui souvent ne peuvent pas suivre l'afflux de nouvelles. En outre, les techniques actuelles de démystification dépendent souvent d'une vérification externe des faits, ce qui peut être difficile avec les nouvelles histoires. Souvent, au moment où une histoire est prouvée comme fausse, le mal est déjà fait.
L'analyse linguistique adopte une approche différente, analyser des attributs quantifiables comme la structure grammaticale, le choix des mots, ponctuation et complexité. Il fonctionne plus rapidement que les humains et peut être utilisé avec une variété de types d'actualités différents.
"Vous pouvez imaginer n'importe quel nombre d'applications pour cela sur le front ou le back-end d'un site d'actualités ou de médias sociaux, " Mihalcea a déclaré. "Cela pourrait fournir aux utilisateurs une estimation de la fiabilité d'histoires individuelles ou d'un site d'actualités entier. Ou il peut s'agir d'une première ligne de défense à l'arrière d'un site d'actualités, signaler les histoires suspectes pour un examen plus approfondi. Un taux de réussite de 76 % laisse une marge d'erreur assez importante, mais il peut toujours fournir des informations précieuses lorsqu'il est utilisé aux côtés des humains. »
Les algorithmes linguistiques qui analysent la parole écrite sont assez courants aujourd'hui, dit Mihalcea. Le défi de la construction d'un détecteur de fausses nouvelles ne réside pas dans la construction de l'algorithme lui-même, mais en trouvant les bonnes données avec lesquelles entraîner cet algorithme.
Les fausses nouvelles apparaissent et disparaissent rapidement, ce qui rend difficile la collecte. Il existe également dans de nombreux genres, complique encore davantage le processus de collecte. Nouvelles satiriques, par exemple, est facile à collecter, mais son utilisation de l'ironie et de l'absurdité le rend moins utile pour entraîner un algorithme à détecter les fausses nouvelles destinées à induire en erreur.
Finalement, L'équipe de Mihalcea a créé ses propres données, crowdsourcing d'une équipe en ligne qui a procédé à une ingénierie inverse pour en faire des articles de presse authentiques et vérifiés. C'est ainsi que la plupart des fausses nouvelles sont créées, Mihalcée a dit, par des individus qui les écrivent rapidement en échange d'une récompense monétaire.
Participants à l'étude, recruté avec l'aide d'Amazon Mechanical Turk, ont été payés pour tourner court, des nouvelles réelles en articles similaires mais faux, imitant le style journalistique des articles. A la fin du processus, l'équipe de recherche disposait d'un ensemble de données de 500 nouvelles vraies et fausses.
Ils ont ensuite alimenté ces paires d'histoires étiquetées à un algorithme qui a effectué une analyse linguistique, l'enseignement lui-même fait la distinction entre les vraies et les fausses nouvelles. Finalement, l'équipe a transformé les algorithmes en un ensemble de données de nouvelles vraies et fausses extraites directement du Web, compensation du taux de réussite de 76 pour cent.
Les détails du nouveau système et l'ensemble de données que l'équipe a utilisé pour le construire sont disponibles gratuitement, et Mihalcea dit qu'ils pourraient être utilisés par des sites d'information ou d'autres entités pour créer leurs propres systèmes de détection de fausses informations. Elle dit que les futurs systèmes pourraient être affinés en incorporant des métadonnées telles que les liens et les commentaires associés à un élément d'actualité en ligne donné.
Un article détaillant le système sera présenté le 24 août à la 27e Conférence internationale sur la linguistique informatique à Santa Fe, N.M. Mihalcea a travaillé avec la chercheuse adjointe en informatique et en ingénierie de l'UM Veronica Perez-Rosas, le chercheur en psychologie Bennett Kleinberg à l'Université d'Amsterdam et Alexandra Lefevre, étudiante de premier cycle à l'UM.
L'article s'intitule "Détection automatique des fausses nouvelles".