Exemple d'un processus de branchement Hawkes. Le nœud rouge (à l'extrême gauche) représente une publication sur les réseaux sociaux. Les nœuds verts et bleus représentent respectivement les événements « immigrant » et « progéniture ». Crédit :Krohn &Weninger, adapté avec la permission des travaux de Medvedev et al.
Sur les plateformes de médias sociaux telles que Reddit et Twitter, les gens peuvent exprimer leurs opinions et participer à des discussions sur une variété de sujets. Cela se fait généralement dans les fils de commentaires, qui permettent aux utilisateurs de commenter les publications existantes.
Un fil de commentaires est essentiellement une conversation entre différents utilisateurs en ligne sous forme de commentaires. En informatique, les fils de commentaires sont souvent considérés comme des « arbres, " avec des nœuds représentant le message d'origine et les commentaires ultérieurs, et des bords dirigés représentant des relations "réponse à".
Deux chercheurs de l'Université de Notre Dame ont récemment développé un modèle pour prédire la taille et la forme des fils de commentaires en ligne lorsqu'ils les considèrent comme des arbres. Ils ont appelé ce modèle, présenté dans un article pré-publié sur arXiv, le modèle de prédiction de thread de commentaire (CTPM).
"Notre principal objectif de recherche est de prédire la taille et la forme d'un fil de commentaires sur les sites de médias sociaux, " Tim Weninger, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. "Ces sites permettent aux utilisateurs de publier des nouvelles ou des images ou d'autres contenus. Ensuite, d'autres utilisateurs aiment, partager ou commenter la publication. Nous sommes principalement intéressés par les fils de commentaires, où un utilisateur peut commenter la publication elle-même ou répondre à des commentaires comme sur Reddit et Twitter (mais pas sur Facebook ou YouTube)."
L'étude menée par Weninger et sa collègue Rachel Krohn a été financée par un programme de l'US Defence Advanced Research Project Agency (DARPA), qui se concentre spécifiquement sur la simulation sociale. L'une des questions posées par ce programme est de savoir si la simulation de l'activité des médias sociaux est possible.
Des études antérieures suggèrent que les premières heures de la vie d'un message sont d'une importance vitale pour prédire sa popularité future. En réalité, les messages qui reçoivent beaucoup d'attention au début et sont immédiatement commentés par les utilisateurs déclenchent généralement d'autres discussions en ligne à l'avenir. D'autre part, les messages qui ne reçoivent pas beaucoup d'attention au départ tendent également à attirer moins d'attention à l'avenir.
La plupart des techniques existantes conçues pour prédire la taille et la forme des fils de commentaires fonctionnent en observant les premiers commentaires ajoutés à une publication, puis en créant un modèle prédictif. Cependant, comme la majorité des fils de commentaires sont relativement petits, attendre que de nouvelles données soient générées peut nuire à l'objectif global de la tâche de prédiction.
Le programme DARPA finançant l'étude a donc spécifiquement demandé aux chercheurs de déterminer s'ils pouvaient prédire la popularité d'un article, y compris le nombre de commentaires qu'il susciterait à l'avenir, basé uniquement sur son titre. Avec cet objectif en tête, l'équipe a développé un modèle qui analyse les mots dans le titre d'un article Reddit, ainsi que l'utilisateur de publication et le subreddit auquel il a été soumis. Ces variables sont utilisées pour créer un "processus Hawkes, " un modèle statistique utilisé pour représenter des points mathématiques dans l'espace.
"Nous utilisons un processus Hawkes pour simuler la façon dont les gens voient la publication, lire un commentaire, puis décider de répondre à chaque commentaire, " a déclaré Weninger. " Le modèle n'est pas parfait et ne simule pas réellement le contenu des commentaires (c'est-à-dire que nous ne devinons pas ce que le commentaire dit réellement, juste s'il y a un commentaire ou pas), cependant, en moyenne, nous faisons un assez bon travail pour prédire quels commentaires seront populaires et lesquels ne le seront pas simplement en fonction du titre, auteur et subreddit d'un article."
Weninger et ses collègues ont évalué le modèle CTPM sur des milliers de discussions d'utilisateurs réelles tirées de Reddit, comparer son efficacité pour prédire la taille et la forme des fils de commentaires avec celle d'autres techniques. Remarquablement, leur modèle a nettement surpassé tous les modèles et références existants auxquels il a été comparé.
"Pour moi, la contribution la plus significative de ce travail est la capacité de notre modèle à prédire la taille et la forme des conversations en ligne, " a déclaré Weninger. " Ceci est important pour les forces de l'ordre américaines et les agences de défense, car être capable de prédire l'avenir dans le cyberespace permet à ces agences de préparer des défenses efficaces contre les cyberattaques et autres événements qui passent fréquemment du cyber monde au monde physique. "
À l'avenir, le modèle proposé par Weninger et ses collègues pourrait être utilisé pour prédire la popularité des publications sur Twitter ou Reddit en se basant uniquement sur leur titre. L'équipe prévoit maintenant de continuer à enquêter sur la façon dont les humains consomment et conservent les informations en ligne, y compris leurs interactions avec les publications des autres (par exemple, likes, actions, retweets, etc.).
"Les mentions J'aime, actions, votes positifs, et les retweets fournis par les utilisateurs sont la chose la plus importante pour les sociétés de médias sociaux, car ils indiquent quel contenu promouvoir et quel contenu peut être du spam ou de mauvaise qualité, " Weninger a déclaré. "Nous étudions ces processus et comment ils peuvent être corrompus par des individus ou des groupes avec de mauvaises intentions. Nos futurs travaux dans ce domaine examineront les manipulations de contenu social (par exemple, les altérations d'images, photoshops, deepfakes, etc.), car nous pouvons en apprendre beaucoup sur les gens et leur culture en regardant comment ils modifient les images sur les réseaux sociaux."
© 2019 Réseau Science X