Détecter la désinformation en ligne grâce à l'intelligence artificielle

Crédit :iStock/champja

Nous vivons à une époque de trop d'informations - un flux incessant de mises à jour de statut, mèmes, rediffusions, infographie, des citations et des hashtags défilent quotidiennement dans nos flux de médias sociaux, destiné à exprimer des points de vue, susciter la solidarité, fournir des informations, changer d'avis ou provoquer la controverse.

Le problème est, le navigateur en ligne moyen/utilisateur de médias sociaux n'a pas le temps ni les moyens d'enquêter sur la légitimité ou la provenance de tout ce qui apparaît sur leurs flux. Et c'est cette vulnérabilité que les générateurs de contenus moins scrupuleux exploitent pour diffuser de la désinformation, avec des résultats qui peuvent aller d'un petit embarras sur le visage à des conséquences carrément bouleversantes ou potentiellement mortelles.

Pour William Wang, informaticien de l'UC Santa Barbara, ce bourbier chaotique est un terrain fertile pour l'exploration. Wang pense que les techniques d'apprentissage en profondeur, lorsqu'il est déployé sur le réseau de textes et d'hyperliens de publications en ligne et d'articles de presse, peut nous aider avec certaines des tâches lourdes de la pensée critique. Ce concept est au cœur de son projet de trois ans "Dynamo:Dynamic Multichannel Modeling of Misinformation".

"Alors la question est, donné un poste, comment pourriez-vous comprendre si cela est spécifiquement trompeur ou s'il s'agit d'un message authentique, " Wang a dit, "et, vu la structure du réseau, pouvez-vous identifier la propagation de la désinformation et en quoi elle sera différente par rapport aux articles standard ou non standard ? »

Une grande commande

C'est un défi de taille, surtout dans le domaine des médias sociaux, qui a égalisé les règles du jeu entre légitime, des sites d'actualités établis et des sites douteux qui font de leur mieux pour paraître officiels, ou faire appel aux émotions d'un utilisateur avant qu'il ne puisse prendre du recul et remettre en question la source de ses informations.

Cependant, grâce au traitement du langage naturel, spécialité de Wang, le texte de ces articles et articles peut être utilisé pour révéler des informations sur leurs créateurs et propagateurs, telles que leurs affiliations, idéologies et incitations au détachement, ainsi que le public auquel ils s'adressent. L'algorithme parcourt des millions d'articles de presse publiés par des utilisateurs anonymes sur des plateformes telles que Twitter et Reddit et examine les titres des articles, contenu et liens. Le but est d'avoir une idée non seulement des entités derrière eux, mais aussi de leurs modes de diffusion à travers le réseau.

"Beaucoup d'entre nous tiennent les sites Web pour acquis et retweetent ou republient avec désinvolture des informations erronées et c'est ainsi qu'elles se propagent, cascade et se propage de manière virale, " a dit Wang. " Certaines des questions les plus importantes que nous posons sont :Quels sont les modèles ? Quelles sont les incitations ?"

Découvrir, lui et son équipe ont proposé un mécanisme d'apprentissage qui détermine pourquoi certaines histoires sont republiées ou retweetées en plus de savoir si le contenu lui-même est vrai ou faux. Le long du chemin, Wang a dit, ils pourraient déterminer qui est impliqué dans la propagation de la désinformation et quels modèles pourraient émerger dans ce processus. Les images feront également partie de l'ensemble de données, il ajouta.

Plus tard, les chercheurs prévoient d'intégrer d'autres aspects de leur travail avec la désinformation, tels que les appâts cliquables, qui utilise accrocheur, des titres souvent sensationnels pour inciter les lecteurs à cliquer sur un lien qui les renvoie au mieux vers un site Web louche, ou au pire, vole leurs informations.

« Clickbait est principalement des articles de mauvaise qualité qui peuvent en effet contenir beaucoup de désinformation et de fausses informations car ils doivent exagérer, " a déclaré Wang. En collaboration avec le doctorant en informatique Jiawei Wu, l'équipe a développé une méthode appelée « co-formation renforcée, " qui utilise un système efficace d'étiquetage de quelques centaines d'articles qui sont ensuite utilisés pour former un classificateur d'apprentissage automatique à étiqueter ce qu'il pense être un piège à clics dans un énorme, jeu de données d'un million d'histoires.

"Ensuite, nous prenons ces instances nouvellement étiquetées et réformons le classificateur, " a déclaré Wang. " Ce processus itératif nous permet de collecter plus de données d'étiquettes au fil du temps, " il ajouta, ce qui affine la précision de l'outil.

Utiliser l'intelligence artificielle pour comprendre et trouver des modèles dans le raz-de-marée de texte que nous nous envoyons chaque jour nous donnerait un aperçu de la façon dont nous, intentionnellement ou involontairement, propager la désinformation.

"C'est vraiment la beauté du traitement du langage naturel et de l'apprentissage automatique, " a déclaré Wang. " Nous avons une énorme quantité de données dans différents formats, et la question est :comment transformer des données non structurées en connaissances structurées ? C'est l'un des objectifs du deep learning et de la science des données."

Les appareils portables pour animaux de compagnie mettent la vie privée en danger

LeanShips :Gains de consommation de carburant significatifs pour les navires à hélices à pas variable

Électronique