Crédit :CC0 Domaine public
Les réseaux sociaux ont-ils gâché le film Avengers 'Endgame pour vous ? Ou peut-être l'un des livres de Game of Thrones ? Une équipe de chercheurs de l'Université de Californie à San Diego travaille pour que cela ne se reproduise plus. Ils ont développé un système basé sur l'IA qui peut signaler les spoilers dans les critiques en ligne de livres et d'émissions de télévision.
"Les spoilers sont partout sur internet, et sont très fréquents sur les réseaux sociaux. En tant qu'internautes, nous comprenons la douleur des spoilers, et comment ils peuvent ruiner son expérience, " dit Ndapa Nakashole, professeur d'informatique à l'UC San Diego et l'un des auteurs principaux de l'article.
Certains sites Web permettent aux utilisateurs de signaler manuellement leurs publications avec des balises qui servent de signes avant-coureurs de « spoiler ». Mais cela n'arrive pas toujours. Les chercheurs ont donc voulu développer un outil d'intelligence artificielle alimenté par des réseaux de neurones pour détecter automatiquement les spoilers. Ils ont nommé l'outil SpoilerNet.
Sur le plan théorique, les chercheurs veulent mieux comprendre comment les gens écrivent des spoilers et quels types de modèles linguistiques et de connaissances communes marquent une phrase comme spoiler.
Les chercheurs présenteront leurs résultats lors de la réunion annuelle 2019 de l'Association for Computational Linguistics à Florence, Italie, Du 28 juillet au 2 août. L'outil développé par les chercheurs pourrait être utilisé pour créer une extension de navigateur pour protéger les gens des spoilers.
Pour former et tester SpoilerNet, l'équipe de l'UC San Diego est allée à la recherche de grands ensembles de données de phrases contenant des spoilers. Alerte spoil! Ils n'en ont trouvé aucun. Ils ont donc créé le leur en collectant plus de 1,3 million de critiques de livres annotées par des critiques de livres avec des balises spoiler. Les balises englobent les phrases qui incluent des spoilers et les cachent derrière un lien "view spoiler" dans le texte. Les avis ont été recueillis auprès de Goodreads, un site de réseautage social qui permet aux gens de suivre ce qu'ils lisent, et partager des pensées et des critiques avec d'autres lecteurs.
"A notre connaissance, c'est le premier jeu de données avec des annotations spoiler à cette échelle et à une granularité aussi fine, " a déclaré Mengting Wan, un doctorat étudiant en informatique à l'UC San Diego et premier auteur de l'article.
Les chercheurs ont découvert que les phrases de spoil ont tendance à se regrouper dans la dernière partie des critiques. Mais ils ont également constaté que différents utilisateurs avaient des normes différentes pour marquer les spoilers, et les réseaux de neurones devaient être soigneusement calibrés pour en tenir compte.
En outre, le même mot peut avoir différentes significations sémantiques dans différents contextes. Par exemple, "vert" n'est qu'une couleur dans une critique de livre, mais cela peut être le nom d'un personnage important et un signal pour les spoilers dans un autre livre. Identifier et comprendre ces différences est un défi, dit Wan.
Les chercheurs ont formé SpoilerNet sur 80 pour cent des avis sur Goodreads, faire passer le texte à travers plusieurs couches de réseaux de neurones. Le système pouvait détecter les spoilers avec une précision de 89 à 92 %.
Ils ont également exécuté SpoilerNet sur un ensemble de données de plus de 16, 000 critiques d'une seule phrase d'environ 880 émissions de télévision. La précision de l'outil pour détecter les spoilers était de 74 à 80 pour cent.
La plupart des erreurs provenaient du système qui était distrait par des mots qui sont généralement chargés et révélateurs, par exemple un meurtre ou un meurtre.
Avoir hâte de, l'ensemble de données Goodreads peut être utilisé comme un outil puissant pour former des algorithmes afin de détecter les spoilers dans différents types de contenu, par exemple, tweets contenant des spoilers.