• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Le langage le révèle :comment un algorithme peut nous aider à détecter les fausses nouvelles

    Pour tenter de résoudre le problème croissant des fausses nouvelles en ligne, un algorithme qui identifie les modèles de langage peut aider à distinguer les articles de presse factuels et inexacts. Crédit :Shutterstock

    Avez-vous déjà lu quelque chose en ligne et l'avez-vous partagé entre vos réseaux, seulement pour découvrir que c'était faux ?

    En tant qu'ingénieur logiciel et linguiste informaticienne qui passe la plupart de ses heures de travail et même de loisirs devant un écran d'ordinateur, Je suis préoccupé par ce que je lis en ligne. A l'ère des réseaux sociaux, beaucoup d'entre nous consomment des sources d'information peu fiables. Nous sommes exposés à un flux incontrôlable d'informations sur nos réseaux sociaux, surtout si nous passons beaucoup de temps à scanner les publications aléatoires de nos amis sur Twitter et Facebook.

    Mes collègues et moi au Discourse Processing Lab de l'Université Simon Fraser avons mené des recherches sur les caractéristiques linguistiques des fausses nouvelles.

    Les effets des fausses nouvelles

    Une étude au Royaume-Uni a révélé qu'environ les deux tiers des adultes interrogés lisaient régulièrement des informations sur Facebook, et que la moitié d'entre eux ont eu l'expérience de croire initialement à une fausse nouvelle. Une autre étude, menée par des chercheurs du Massachusetts Institute of Technology, s'est concentré sur les aspects cognitifs de l'exposition aux fausses nouvelles et a constaté que, en moyenne, les lecteurs de nouvelles croient à un faux titre au moins 20 pour cent du temps.

    Les fausses histoires se répandent désormais 10 fois plus vite que les vraies nouvelles et le problème des fausses nouvelles menace sérieusement notre société.

    Par exemple, lors des élections de 2016 aux États-Unis, un nombre incroyable de citoyens américains croyaient et partageaient un complot manifestement faux affirmant qu'Hilary Clinton était liée à un réseau de trafic d'êtres humains à la sortie d'une pizzeria. Le propriétaire du restaurant a reçu des menaces de mort, et un croyant s'est présenté dans le restaurant avec une arme à feu. Cela – et un certain nombre d'autres fausses nouvelles diffusées pendant la saison électorale – a eu un impact indéniable sur les votes des gens.

    Il est souvent difficile de trouver l'origine d'une histoire après des groupes partisans, les robots des réseaux sociaux et les amis d'amis l'ont partagé des milliers de fois. Les sites Web de vérification des faits tels que Snopes et Buzzfeed ne peuvent traiter qu'une petite partie des rumeurs les plus populaires.

    La technologie derrière Internet et les médias sociaux a permis cette propagation de la désinformation; il est peut-être temps de se demander ce que cette technologie a à offrir pour résoudre le problème.

    Dans une interview, Hilary Clinton discute du « Pizzagate » et du problème des fausses nouvelles en ligne.

    Cadeaux dans le style d'écriture

    Les progrès récents de l'apprentissage automatique ont permis aux ordinateurs d'effectuer instantanément des tâches qui auraient pris beaucoup plus de temps aux humains. Par exemple, il existe des programmes informatiques qui aident la police à identifier les visages des criminels en quelques secondes. Ce type d'intelligence artificielle entraîne des algorithmes à classer, détecter et prendre des décisions.

    Lorsque l'apprentissage automatique est appliqué au traitement du langage naturel, il est possible de construire des systèmes de classification de texte qui reconnaissent un type de texte à partir d'un autre.

    Au cours des dernières années, les scientifiques du traitement du langage naturel sont devenus plus actifs dans la construction d'algorithmes pour détecter la désinformation; cela nous aide à comprendre les caractéristiques des fausses nouvelles et à développer une technologie pour aider les lecteurs.

    Une approche trouve des sources d'information pertinentes, attribue à chaque source un score de crédibilité, puis les intègre pour confirmer ou démystifier une affirmation donnée. Cette approche dépend fortement de la recherche de la source d'information d'origine et de l'évaluation de sa crédibilité en fonction de divers facteurs.

    Une deuxième approche examine le style d'écriture d'un article de presse plutôt que son origine. Les caractéristiques linguistiques d'une pièce écrite peuvent nous en dire beaucoup sur les auteurs et leurs motivations. Par exemple, des mots et des phrases spécifiques ont tendance à apparaître plus fréquemment dans un texte trompeur que dans un texte écrit honnêtement.

    Repérer les fausses nouvelles

    Notre recherche identifie les caractéristiques linguistiques pour détecter les fausses nouvelles en utilisant l'apprentissage automatique et la technologie de traitement du langage naturel. Notre analyse d'une vaste collection d'articles de presse vérifiés par les faits sur une variété de sujets montre que, en moyenne, les articles de fausses nouvelles utilisent davantage d'expressions courantes dans les discours de haine, ainsi que des mots liés au sexe, mort et angoisse. Véritable nouvelle, d'autre part, contient une plus grande proportion de mots liés au travail (affaires) et à l'argent (économie).

    Cela suggère qu'une approche stylistique combinée à un apprentissage automatique pourrait être utile pour détecter les nouvelles suspectes.

    Notre détecteur de fausses nouvelles est construit sur la base de caractéristiques linguistiques extraites d'un grand nombre d'articles de presse. Il prend un morceau de texte et montre à quel point il est similaire aux fausses nouvelles et aux vraies nouvelles qu'il a vues auparavant. (Essaye le!)

    Le défi principal, cependant, est de construire un système capable de gérer la grande variété de sujets d'actualité et le changement rapide des titres en ligne, car les algorithmes informatiques apprennent à partir d'échantillons et si ces échantillons ne sont pas suffisamment représentatifs de l'actualité en ligne, les prédictions du modèle ne seraient pas fiables.

    Une option consiste à demander à des experts humains de collecter et d'étiqueter une grande quantité d'articles de presse faux et réels. Ces données permettent à un algorithme d'apprentissage automatique de trouver des caractéristiques communes qui continuent de se produire dans chaque collection, quelles que soient les autres variétés. Finalement, l'algorithme sera capable de faire la distinction avec confiance entre des articles de presse réels ou faux jamais vus auparavant.

    Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.




    © Science https://fr.scienceaq.com