• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Peering sous le capot des détecteurs de fake news

    Crédit :CC0 Domaine public

    De nouveaux travaux de pairs chercheurs du MIT sous le capot d'un système automatisé de détection de fausses nouvelles, révélant comment les modèles d'apprentissage automatique détectent des différences subtiles mais cohérentes dans le langage des histoires factuelles et fausses. La recherche souligne également comment les détecteurs de fausses informations devraient subir des tests plus rigoureux pour être efficaces pour les applications du monde réel.

    Popularisé comme concept aux États-Unis lors de l'élection présidentielle de 2016, les fausses nouvelles sont une forme de propagande créée pour tromper les lecteurs, afin de générer des vues sur des sites Web ou d'orienter l'opinion publique.

    Presque aussi vite que le problème est devenu courant, les chercheurs ont commencé à développer des détecteurs de fausses nouvelles automatisés, appelés réseaux de neurones qui « apprennent » à partir de dizaines de données pour reconnaître les indices linguistiques indiquant de faux articles. Compte tenu de nouveaux articles à évaluer, ces réseaux peuvent, avec une précision assez élevée, séparer la réalité de la fiction, dans des paramètres contrôlés.

    Un problème, cependant, est le problème de la « boîte noire », ce qui signifie qu'il est impossible de dire quels modèles linguistiques les réseaux analysent pendant la formation. Ils sont également formés et testés sur les mêmes sujets, ce qui peut limiter leur potentiel de généralisation à de nouveaux sujets, une nécessité pour analyser les nouvelles sur Internet.

    Dans un article présenté à la conférence et à l'atelier sur les systèmes de traitement de l'information neuronale, les chercheurs s'attaquent à ces deux problèmes. Ils ont développé un modèle d'apprentissage en profondeur qui apprend à détecter les modèles linguistiques des fausses et des vraies nouvelles. Une partie de leur travail "ouvre" la boîte noire pour trouver les mots et les phrases que le modèle capture pour faire ses prédictions.

    En outre, ils ont testé leur modèle sur un nouveau sujet qu'il n'a pas vu dans la formation. Cette approche classe les articles individuels en se basant uniquement sur les modèles de langage, qui représente plus étroitement une application du monde réel pour les lecteurs de nouvelles. Les détecteurs de fausses nouvelles traditionnels classent les articles en fonction du texte combiné avec les informations sources, comme une page Wikipédia ou un site Web.

    "Dans notre cas, nous voulions comprendre quel était le processus de décision du classificateur basé uniquement sur la langue, car cela peut fournir des informations sur le langage des fausses nouvelles, " dit le co-auteur Xavier Boix, un post-doctorat dans le laboratoire du professeur Eugene McDermott Tomaso Poggio au Center for Brains, Esprits, et machines (CBMM) au Département des sciences du cerveau et des sciences cognitives (BCS).

    "Un problème clé avec l'apprentissage automatique et l'intelligence artificielle est que vous obtenez une réponse et ne savez pas pourquoi vous avez obtenu cette réponse, ", déclare l'étudiante diplômée et première auteure Nicole O'Brien '17. "Montrer ces rouages ​​internes constitue un premier pas vers la compréhension de la fiabilité des détecteurs de fausses informations à apprentissage en profondeur."

    Le modèle identifie des ensembles de mots qui ont tendance à apparaître plus fréquemment dans les vraies ou les fausses nouvelles - certains peut-être évidents, d'autres beaucoup moins. Les résultats, disent les chercheurs, souligne des différences subtiles mais cohérentes entre les fausses nouvelles - qui favorisent les exagérations et les superlatifs - et les vraies nouvelles, qui penche plus vers des choix de mots conservateurs.

    « Les fake news sont une menace pour la démocratie, " dit Boix. " Dans notre laboratoire, notre objectif n'est pas seulement de faire avancer la science, mais aussi d'utiliser les technologies pour aider la société. ... Il serait puissant d'avoir des outils pour les utilisateurs ou les entreprises qui pourraient évaluer si les nouvelles sont fausses ou non. "

    Les autres co-auteurs de l'article sont Sophia Latessa, un étudiant de premier cycle en CBMM; et Georgios Evangelopoulos, un chercheur en CBMM, l'Institut McGovern de recherche sur le cerveau, et le Laboratoire d'apprentissage informatique et statistique.

    Limiter les biais

    Le modèle des chercheurs est un réseau de neurones convolutifs qui s'entraîne sur un ensemble de données de fausses nouvelles et de vraies nouvelles. Pour la formation et les tests, les chercheurs ont utilisé un ensemble de données de recherche de fausses nouvelles populaire, appelé Kaggle, qui en contient environ 12, 000 articles de fausses nouvelles provenant de 244 sites Web différents. Ils ont également compilé un ensemble de données d'échantillons d'actualités réelles, en utilisant plus de 2, 000 du New York Times et plus de 9, 000 de The Guardian.

    Dans la formation, le modèle capture le langage d'un article en tant que « mots embeddings, " où les mots sont représentés sous forme de vecteurs—essentiellement, tableaux de nombres - avec des mots de significations sémantiques similaires regroupés plus près les uns des autres. Ce faisant, il capture des triplets de mots en tant que modèles qui fournissent un certain contexte, tels que, dire, un commentaire négatif sur un parti politique. Étant donné un nouvel article, le modèle scanne le texte à la recherche de motifs similaires et les envoie sur une série de calques. Une couche de sortie finale détermine la probabilité de chaque motif :réel ou faux.

    Les chercheurs ont d'abord formé et testé le modèle de manière traditionnelle, utilisant les mêmes thèmes. Mais ils pensaient que cela pourrait créer un biais inhérent au modèle, puisque certains sujets font plus souvent l'objet de fausses ou de vraies nouvelles. Par exemple, Les fausses nouvelles sont généralement plus susceptibles d'inclure les mots « Trump » et « Clinton ».

    "Mais ce n'est pas ce que nous voulions, " dit O'Brien. "Cela montre juste des sujets qui pèsent fortement dans les fausses et les vraies nouvelles. ... Nous voulions trouver les modèles réels dans le langage qui en sont révélateurs."

    Prochain, les chercheurs ont entraîné le modèle sur tous les sujets sans aucune mention du mot "Trump, " et testé le modèle uniquement sur des échantillons qui avaient été mis de côté des données d'apprentissage et qui contenaient le mot " Trump ". la seconde approche a atteint une précision de 87 pour cent. Cet écart de précision, disent les chercheurs, souligne l'importance d'utiliser les sujets issus du processus de formation, pour s'assurer que le modèle peut généraliser ce qu'il a appris à de nouveaux sujets.

    Plus de recherches nécessaires

    Pour ouvrir la boîte noire, les chercheurs sont alors revenus sur leurs pas. Chaque fois que le modèle fait une prédiction sur un triplet de mots, une certaine partie du modèle s'active, selon si le triplet est plus probable d'une histoire vraie ou fausse. Les chercheurs ont conçu une méthode pour retracer chaque prédiction jusqu'à sa partie désignée, puis trouver les mots exacts qui l'ont activée.

    Des recherches supplémentaires sont nécessaires pour déterminer l'utilité de ces informations pour les lecteurs, dit Boix. À l'avenir, le modèle pourrait potentiellement être combiné avec, dire, des vérificateurs de faits automatisés et d'autres outils pour donner aux lecteurs un avantage dans la lutte contre la désinformation. Après quelques affinages, le modèle pourrait également être la base d'une extension de navigateur ou d'une application qui alerte les lecteurs d'un langage potentiellement faux.

    "Si je te donne juste un article, et mettez en évidence ces modèles dans l'article pendant que vous lisez, vous pourriez évaluer si l'article est plus ou moins faux, " dit-il. " Ce serait un peu comme un avertissement de dire, 'Hey, peut-être qu'il y a quelque chose d'étrange ici.'"


    © Science https://fr.scienceaq.com