Crédit :CC0 Domaine Public
Des chercheurs de Caltech ont démontré que les algorithmes d'apprentissage automatique peuvent surveiller les conversations en ligne sur les réseaux sociaux au fur et à mesure de leur évolution, ce qui pourrait un jour conduire à un moyen efficace et automatisé de repérer la pêche à la traîne en ligne.
Le projet réunit les laboratoires de la chercheuse en intelligence artificielle (IA) Anima Anandkumar, Professeur Bren d'informatique et de sciences mathématiques, et Michael Alvarez, professeur de science politique. Leurs travaux ont été présentés le 14 décembre lors de l'atelier AI for Social Good à la Conférence 2019 sur les systèmes de traitement de l'information neuronale à Vancouver, Canada. Leur équipe de recherche comprend Anqi Liu, chercheur postdoctoral; Maya Srikanth, un junior à Caltech; et Nicholas Adams-Cohen (MS '16, doctorat '19) de l'Université de Stanford.
« C'est l'une des choses que j'aime chez Caltech :la capacité de franchir les frontières, développer des synergies entre les sciences sociales et, dans ce cas, l'informatique, " dit Alvarez.
La prévention du harcèlement en ligne nécessite une détection rapide des harcèlement, et des publications négatives sur les réseaux sociaux, ce qui nécessite à son tour de surveiller les interactions en ligne. Les méthodes actuelles pour obtenir ces données de médias sociaux sont soit entièrement automatisées et non interprétables, soit reposent sur un ensemble statique de mots-clés, qui peut vite devenir obsolète. Aucune des deux méthodes n'est très efficace, selon Srikanth.
"Il n'est pas évolutif d'avoir des humains qui essaient de faire ce travail à la main, et ces humains sont potentiellement biaisés, " dit-elle. " D'un autre côté, la recherche par mot-clé souffre de la vitesse à laquelle évoluent les conversations en ligne. De nouveaux termes apparaissent et les anciens termes changent de sens, donc un mot-clé qui a été utilisé avec sincérité un jour pourrait être signifié avec sarcasme le lendemain. »
Au lieu, l'équipe a utilisé un modèle GloVe (Global Vectors for Word Representation) pour découvrir de nouveaux mots clés pertinents. GloVe est un modèle d'inclusion de mots, ce qui signifie qu'il représente des mots dans un espace vectoriel, où la "distance" entre deux mots est une mesure de leur similarité linguistique ou sémantique. En commençant par un mot-clé, ce modèle peut être utilisé pour trouver d'autres qui sont étroitement liés à ce mot pour révéler des groupes de termes pertinents qui sont réellement utilisés. Par exemple, la recherche sur Twitter des utilisations de "MeToo" dans les conversations a donné des groupes de hashtags connexes tels que "SupportSurvivors, " "Je suis avec elle, " et "NotSilent". Cette approche offre aux chercheurs un ensemble de mots clés dynamiques et en constante évolution pour la recherche.
Mais il ne suffit pas de savoir si une certaine conversation est liée au sujet d'intérêt; le contexte compte. Pour ça, GloVe montre dans quelle mesure certains mots-clés sont liés, fournir des commentaires sur la façon dont ils sont utilisés. Par exemple, dans un forum Reddit en ligne dédié à la misogynie, le mot « femelle » a été utilisé en étroite association avec les mots « sexuelle, " "négatif, " et " rapports sexuels ". Dans les publications Twitter sur le mouvement #MeToo, le mot « femme » était plus susceptible d'être associé aux termes « entreprises, " "désir, " et "victimes".
Le projet était une preuve de concept visant à donner un jour aux plateformes de médias sociaux un outil plus puissant pour détecter le harcèlement en ligne. L'intérêt d'Anandkumar pour le sujet a été intensifié par son implication dans la campagne visant à changer le nom abrégé de la conférence Neural Information Processing Systems de son acronyme d'origine, "NIPS, " à "NeurIPS."
"Le domaine de la recherche en IA devient de plus en plus inclusif, mais il y a toujours des gens qui résistent au changement, " dit Anandkumar, qui en 2018 s'est retrouvée la cible de harcèlement et de menaces en ligne en raison de ses efforts réussis pour passer à un acronyme sans connotations potentiellement offensantes. "Ce fut une expérience révélatrice sur la façon dont la pêche à la traîne peut devenir moche. Espérons que, les outils que nous développons maintenant aideront à lutter contre toutes sortes de harcèlement à l'avenir. »
Leur étude s'intitule « Trouver les trolls des médias sociaux :méthodes de sélection de mots clés dynamiques pour des débats en ligne à évolution rapide. »