Alessia Iancarelli, doctorante au laboratoire de sciences affectives et cérébrales du Northeastern. Crédit :Alyssa Stone/Northeastern University
Si vous voulez être un scientifique, vous allez devoir faire beaucoup de lecture.
La science est une entreprise axée sur la construction et le partage des connaissances. Les chercheurs publient des articles détaillant leurs découvertes, percées et innovations afin de partager ces révélations avec leurs collègues. Et il y a des millions d'articles scientifiques chaque année.
Se tenir au courant des derniers développements dans leur domaine est un défi pour les chercheurs à tous les stades de leur carrière, mais cela affecte particulièrement les scientifiques en début de carrière, car ils doivent également lire les nombreux articles qui représentent le fondement de leur domaine.
"Il est impossible de tout lire. Absolument impossible", Ajay Satpute, directeur du laboratoire de sciences affectives et cérébrales et professeur adjoint de psychologie à Northeastern. "Et si vous ne savez pas tout ce qui s'est passé sur le terrain, il y a une réelle chance de réinventer la roue encore et encore et encore." Le défi, dit-il, est de trouver comment former économiquement la prochaine génération de scientifiques, en équilibrant la nécessité de lire tous les articles fondateurs et de les former en tant que chercheurs à part entière.
Cette tâche devient de plus en plus difficile, dit Alessia Iancarelli, étudiante au doctorat en psychologie affective et sociale dans le laboratoire de Satpute. "Le volume de la littérature publiée ne cesse d'augmenter", dit-elle. "Comment les scientifiques peuvent-ils développer leur érudition dans un domaine compte tenu de cette énorme quantité de littérature?" Ils doivent choisir ce qu'ils veulent lire.
Mais les approches courantes de cette hiérarchisation, dit Iancarelli, peuvent incorporer des préjugés et laisser de côté des coins cruciaux du domaine. Iancarelli, Satpute et leurs collègues ont donc développé une approche d'apprentissage automatique pour trouver une meilleure façon, et moins biaisée, de créer une liste de lecture. Leurs résultats, publiés la semaine dernière dans la revue PLOS One , contribuent également à réduire les préjugés sexistes.
"Il y a vraiment un problème sur la façon dont nous développons l'érudition", dit Satpute. À l'heure actuelle, les scientifiques utilisent souvent un outil de recherche comme Google Scholar sur un sujet et partent de là, dit-il. "Ou, si vous avez de la chance, vous aurez un instructeur formidable et un excellent programme. Mais ce sera essentiellement le domaine à travers les yeux de cette personne. Et donc je pense que cela remplit vraiment un créneau qui pourrait aider à créer un équilibre et une bourse interdisciplinaire sans nécessairement avoir accès à un instructeur formidable, car tout le monde n'obtient pas cela."
Le problème avec quelque chose comme Google Scholar, explique Iancarelli, c'est qu'il vous donnera les articles les plus populaires dans un domaine, mesurés par le nombre d'autres articles qui les ont cités. S'il existe des sous-ensembles de ce domaine qui ne sont pas aussi populaires mais qui sont toujours pertinents, les articles importants sur ces sujets pourraient être manqués avec une telle recherche.
Prenons, par exemple, le sujet de l'agressivité (qui est le sujet sur lequel les chercheurs se sont concentrés pour développer leur algorithme). Les médias et les jeux vidéo sont un sujet particulièrement brûlant dans la recherche sur l'agression, dit Iancarelli, et il y a donc beaucoup plus d'articles sur ce sous-ensemble du domaine que sur d'autres sujets, tels que le rôle de la testostérone et l'agression sociale.
Iancarelli a donc décidé de regrouper les articles sur le thème de l'agression en communautés. À l'aide de l'analyse du réseau de citations, elle a identifié 15 communautés de recherche sur l'agression. Plutôt que de regarder le nombre brut de fois qu'un article a été cité dans un autre article de recherche, l'algorithme détermine une communauté d'articles qui ont tendance à se citer les uns les autres ou le même ensemble d'articles de base. Les plus grandes communautés révélées étaient les médias et les jeux vidéo, le stress, les traits et l'agressivité, la rumination et l'agressivité déplacée, le rôle de la testostérone et l'agressivité sociale. Mais il y a aussi eu quelques surprises, comme une petite communauté d'articles de recherche axés sur l'agressivité et les chevaux.
"Si vous utilisez la détection de communauté, vous obtenez un aperçu très riche et granulaire du champ d'agression", déclare Satpute. "Vous avez en quelque sorte une vue d'ensemble de l'ensemble du domaine plutôt que [il semble que] le domaine de l'agression soit essentiellement les médias, les jeux vidéo et la violence."
En plus de diversifier les sujets présentés en utilisant cette approche communautaire, les chercheurs ont également constaté que le pourcentage d'articles avec des femmes premières auteurs qualifiées d'influentes par l'algorithme doublait par rapport au moment où elles se concentraient uniquement sur le nombre total de citations. (Iancarelli ajoute qu'il pourrait y avoir des biais dans ce résultat, car l'équipe ne pouvait pas interroger directement les auteurs sur leur identité de genre et devait plutôt s'appuyer sur des hypothèses basées sur le nom, l'image et les pronoms de l'auteur utilisés pour s'y référer. .)
L'équipe a publié le code derrière cet algorithme afin que d'autres puissent l'utiliser et reproduire leur approche d'analyse du réseau de citations dans d'autres domaines de recherche.
Pour Iancarelli, il y a une autre motivation :"J'adorerais utiliser ce travail pour créer un syllabus et enseigner mon propre cours sur l'agression humaine. J'aimerais vraiment baser le syllabus sur les articles les plus pertinents de chaque communauté différente pour donner une véritable vision générale vue du champ d'agression humaine.