Une vidéo du vol US Airways 1549 a été empruntée par les informations sur le vol 370 de Malaysia Airlines. Crédit :Wen, Su &Yu.
Des chercheurs de l'UC Davis ont récemment développé un nouvel outil basé sur l'apprentissage automatique pour vérifier les rumeurs multimédias en ligne. Leur papier, prépublié sur arXiv, propose des fonctionnalités multilingues et multiplateformes pour la vérification des rumeurs, qui exploitent la similitude sémantique entre les rumeurs et les informations sur d'autres sites Web. Leur méthode peut combiner des informations de plusieurs langues pour obtenir une image complète des nouvelles en ligne.
Un nombre croissant de personnes dans le monde utilisent désormais des appareils pour lire les actualités et se renseigner sur ce qui se passe dans le monde. Cependant, les plateformes de médias sociaux sont en grande partie non modérées, entraînant la prolifération de fausses nouvelles, qui s'accompagne souvent d'un contenu multimédia fabriqué ou décontextualisé. Les fausses rumeurs peuvent se propager très rapidement en ligne, causant des ravages et de la confusion parmi les lecteurs, le développement d'outils pour vérifier l'authenticité des informations en ligne est donc d'une importance urgente.
"Notre recherche s'inspire de la popularité croissante des fausses nouvelles attachées aux contenus multimédias dans les réseaux sociaux, " Weiming Wen, l'un des chercheurs diplômés qui ont mené l'étude, a déclaré Tech Xplore. « Il s'agit principalement de savoir comment utiliser les techniques de la PNL pour vérifier les rumeurs avec du contenu multimédia. L'idée de base est de résoudre le problème grâce à l'apprentissage automatique :extraire des caractéristiques spécifiques de ce type de rumeur et construire un modèle pour classer les rumeurs comme fausses ou réelles. »
Les recherches antérieures sur la vérification des rumeurs utilisaient du contenu multimédia comme caractéristiques d'entrée, tirer parti des caractéristiques médico-légales des images ou des vidéos pour déterminer si elles ont été falsifiées. Bien que ces images présentent des résultats améliorés, la plupart de ces études n'ont pas pu utiliser efficacement le contenu multimédia pour vérifier de manière cohérente les rumeurs sur Twitter.
Une raison possible à cela est que souvent, le contenu multimédia attaché aux fausses nouvelles est simplement emprunté à des événements authentiques et est quelque peu aligné sémantiquement avec le texte qui l'accompagne. Cela signifie que l'image elle-même est réelle, mais est placé dans une histoire entièrement différente pour rendre la fausse rumeur plus crédible.
Le flux d'informations de notre pipeline proposé. TFG représente les fonctionnalités multilingues et multiplateformes pour les tweets exploitant les informations de Google, tandis que TFB est similaire mais exploite plutôt les informations de Baidu. BFG signifie des fonctionnalités multilingues et multiplateformes pour Baidu exploitant les informations de Google. Crédit :Wen, Su &Yu.
Les chercheurs de l'UC Davis ont proposé un autre moyen de vérifier les rumeurs qui exploite le contenu multimédia en trouvant des informations qui y sont associées sur d'autres plateformes d'information.
La plupart des ensembles de données de vérification des rumeurs existants sont monolingues, par exemple, n'incluant que le contenu multimédia présenté avec du texte anglais ou chinois. Les chercheurs ont créé une nouvelle version multilingue, jeu de données de vérification de rumeurs multiplateformes (CCMR), comprenant trois sous-ensembles de données :CCMR Twitter, CCMR Google et CCMR Baidu.
"Quand on dit rumeurs multimédia, nous entendons des tweets ou d'autres contenus de médias sociaux qui ne sont pas vérifiés et qui contiennent des images ou des vidéos avec le texte, " Zhou Yu, professeur assistant à UC Davis, qui a réalisé l'étude, a déclaré Tech Xplore. « Le texte et l'image sont considérés comme deux canaux d'information différents. Nous exploitons les informations visuelles de manière innovante, en l'utilisant comme pivot pour relier les actualités de différentes plateformes et dans différentes langues."
Les fonctionnalités développées par les chercheurs intègrent à la fois la rumeur et les titres associés sur différentes pages Web dans des vecteurs à 300 dimensions avec une phrase multilingue pré-entraînée. Ils ont entraîné leur algorithme d'intégration de phrases multilingues sur 453, 000 paires d'actualités parallèles en anglais et en chinois, ainsi que des micro-blogs dans l'ensemble de données UM-Corpus. Cet algorithme peut combiner des nouvelles de plusieurs langues, obtenir une vérification plus efficace des rumeurs.
"Compte tenu d'une rumeur jointe à une image, nous recherchons d'abord l'image via Google Image pour obtenir un tas de messages connexes, " expliqua Wen. " Nous extrayons ensuite les caractéristiques de cette rumeur en calculant la similitude et la concordance entre la rumeur et les publications recherchées. Finalement, nous utilisons notre modèle pré-entraîné pour vérifier cette rumeur à l'aide de ses fonctionnalités."
Exemple de rumeurs parallèles dans l'événement Pig Fish. Crédit :Wen, Su &Yu. Crédit :Wen, Su &Yu.
Une fois testé, Les méthodes d'apprentissage automatique qui ont utilisé les fonctionnalités multilingues et multiplateformes proposées par les chercheurs ont obtenu des résultats de vérification des rumeurs de pointe. Ces caractéristiques se sont également avérées compactes et généralisables dans toutes les langues.
"Je pense que la partie la plus significative de notre étude est que nous avons développé un cadre de vérification des rumeurs qui fonctionne spécifiquement pour les rumeurs multimédias, ce qui est extrêmement courant, mais n'a pas été étudié à fond, » dit Wen. « Avec ce cadre, nous pouvons vérifier efficacement les rumeurs multimédias provenant de plateformes telles que Facebook et Twitter."
Cette étude pourrait être une étape importante sur la voie du développement de moyens efficaces de validation des rumeurs en ligne accompagnées de contenu multimédia. De plus, l'ensemble de données anglais-chinois rassemblé par les chercheurs pourrait être utilisé dans d'autres recherches explorant les méthodes de vérification des rumeurs multilingues.
"Dans le futur, nous prévoyons de générer les raisons de nos résultats de vérification sur les rumeurs multimédias, " dit Wen. " En plus de qualifier une rumeur de fausse, nous voulons aussi générer automatiquement une raison, comme "ce message est faux car il emprunte une image à un autre événement pour prouver sa déclaration, '", a déclaré Wen.
© 2018 Tech Xplore