Dans cette visualisation de données, chaque nœud représente un groupe de pages Wikipédia sur un sujet lié aux événements mondiaux de 2015. Les pétales sont formés en regroupant les nœuds d'un sujet donné. Crédit :Kirell Benzi
Des chercheurs de l'EPFL ont étudié la dynamique des structures de réseaux en utilisant l'un des sites les plus visités au monde :Wikipedia. En plus d'une meilleure compréhension des réseaux en ligne, leur travail apporte des informations passionnantes sur le comportement social humain et la mémoire collective.
Avez-vous déjà visité une page Wikipédia pour répondre à une question, pour se retrouver à cliquer de page en page, jusqu'à ce que vous vous retrouviez sur un sujet très différent de celui avec lequel vous avez commencé ? Si c'est le cas, non seulement tu n'es pas seul, mais il y a de fortes chances que d'autres personnes aient emprunté le même rond-point depuis, dire, "Game of Thrones" à "Dubrovnik" à "attraction touristique" à "la plus grande pelote de ficelle du monde".
Des chercheurs du Laboratoire de traitement du signal (LTS2) dirigé par le professeur Pierre Vandergheynst de l'EPFL School of Engineering (STI) et de la School of Computer and Communication Sciences (IC) ont voulu savoir comment fonctionne ce processus.
Plus précisement, ils ont entrepris d'étudier la dynamique de la structure des réseaux en utilisant le traitement du signal et la théorie des réseaux, développer un algorithme pour détecter automatiquement une activité inhabituelle en constante évolution, systèmes complexes comme Wikipédia.
"Le cerveau de l'humanité"
La capacité de détecter et d'étudier des événements anormaux dans les réseaux en ligne, par exemple, une augmentation soudaine du nombre de visites sur une page Wikipédia particulière sur une certaine période de temps - pourrait nous en dire beaucoup sur l'interaction humaine, comportement collectif, mémoire et échange d'informations, disent les chercheurs.
Cette visualisation de données montre les pages Wikipedia sur les acteurs du GoT, personnages et épisodes. Crédit :LTS2/EPFL
"Notre idée était d'imaginer Wikipédia comme le cerveau de l'humanité, où les visites de pages sont comparables à des pics d'activité cérébrale, " dit Volodymyr Miz, un chercheur et Ph.D. étudiant en LTS2. Miz est l'auteur principal d'un article sur le nouvel algorithme, qui a été récemment présenté à la Web Conference 2019 à San Francisco, Californie, NOUS..
Co-auteur Kirell Benzi, un ancien chercheur du LTS2 et maître de conférences en data visualisation à l'EPFL qui travaille désormais comme data artist, a ajouté que ce qui rendait Wikipédia si attrayant en tant que source de données était son accessibilité et sa taille.
« Wikipédia compte quelque 5 milliards de visites par an rien que pour l'anglais. Avec cette technique, nous pouvons identifier des groupes de pages qui vont ensemble, " il a dit.
De la mémoire collective aux fake news
L'algorithme des chercheurs est unique car il peut non seulement identifier de tels événements anormaux, mais aussi fournir des informations sur l'endroit exact, comment, et pourquoi ils se sont produits.
« La principale différence est que nous fournissons plus de contexte en raison de la structure du réseau. Par exemple, si on regarde les pages Wikipédia sur les attentats terroristes de Paris en 2015, on voit que la page sur l'attentat est directement liée à la page sur le magazine Charlie Hebdo, ainsi qu'à un ensemble de pages représentant des organisations terroristes, ", explique Miz.
Fluctuations des visites sur les pages Wikipédia pour deux personnages GoT au fil du temps. Crédit :LTS2/EPFL
Benzi et Miz appellent ce type de recherche d'informations « mémoire collective, " car il peut révéler comment les événements actuels déclenchent des souvenirs du passé.
"La recherche sur Wikipédia consiste à essayer d'explorer de nouvelles découvertes sur la nature humaine elle-même. Wikipédia est un ensemble de données très intéressant car il reflète plus ou moins ce que nous, en tant qu'humanité, décidons de nous souvenir. Collectivement, nous avons le même raisonnement et parcourons les mêmes sujets, " dit Benzi.
Donc, quels sont les sujets qui intéressent le plus les gens, selon cette recherche ? Bref :les autres.
"Environ 80% des visites sont pour des divertissements ou des célébrités. Dans des recherches antérieures, nous avons constaté que 40 % de tous les liens cliqués concernent des personnes et leurs relations, " Benzi dit, ajoutant que moins de 1% des visites concernent des sujets liés à la science.
Le LTS2 collabore actuellement avec les développeurs du navigateur Web gratuit hors ligne Kiwix, qui vise à apporter des versions compressées de Wikipédia à ceux qui n'ont pas d'accès gratuit à Internet.
"Notre méthode pourrait être très utile à Kiwix pour aider à identifier et compresser uniquement les parties pertinentes de Wikipédia, basé sur la langue et la culture, par exemple, " dit Miz.
D'autres applications de l'algorithme pourraient inclure l'étude de la propagation de fausses nouvelles sur Twitter en surveillant les pics de retweets, ou comprendre les liens entre la dynamique du réseau de messagerie et les événements du monde réel. Cependant, ces sujets sont plus difficiles à étudier que Wikipédia en raison de la plus petite quantité de données disponibles gratuitement.
Cette visualisation de données montre les pages Wikipedia sur les acteurs du GoT, personnages et épisodes. Crédit :LTS2/EPFL
Étude de cas :Game of Thrones
Miz, Benzi et leurs collègues ont utilisé leur méthode pour détecter une activité anormale sur les pages Wikipédia liées à la dernière saison de l'émission à succès de HBO Game of Thrones à titre d'exemple. L'ensemble de données ouvert qui en a résulté leur a permis de créer des visualisations de données de pages relatives à différents aspects du spectacle, y compris les acteurs, personnages, saisons, épisodes, et d'autres sujets.
Les chercheurs ont également pu utiliser la méthode pour déterminer la popularité des personnages en fonction du nombre de visites sur leurs pages Wikipédia au fil du temps, et essaient actuellement de voir quelles autres pages ont été activées par la mort d'un personnage particulier de la série. Ce travail s'appuie sur un effort similaire en 2016 pour analyser l'univers de Star Wars.
Benzi note que la recherche est un excellent exemple d'humanités numériques, dans laquelle les méthodes de la science des données et les technologies numériques sont appliquées à la sociologie, Littérature, l'histoire et d'autres domaines des sciences humaines.
« Les humanités numériques sont un domaine vraiment intéressant, mais cela ne fonctionne que lorsque vous avez une combinaison de différentes compétences de la science des données, ingénierie, psychologie, sociologie, art et ainsi de suite. Donc, l'un des avantages est de pouvoir collaborer entre les laboratoires, " dit Benzi.