Un nouvel article dirigé par le Knowledge Lab donne une mesure différente des influenceurs dans le domaine de l'érudition. Crédit :Université de Chicago
Depuis des siècles, les scientifiques et les universitaires ont mesuré l'influence des individus et des découvertes à travers des citations, une statistique brute sujette à des biais, politique et autres distorsions. Un nouvel article dirigé par le Knowledge Lab de l'Université de Chicago décrit une manière différente de noter les scores en science - une mesure plus directe de la façon dont les idées influentes se répercutent dans l'érudition et la culture.
Le modèle informatique met en lumière des travaux qui ont changé le chemin de la science mais qui sont restés sous-estimés. La même approche peut également être adaptée pour tracer l'influence dans d'autres domaines où aucune culture de citation n'existe, comme la littérature ou la musique, ont déclaré les auteurs de l'article publié la semaine dernière dans Actes de l'Académie nationale des sciences .
"Nous mesurons à quel point les écrits des scientifiques et des universitaires influencent la discussion des idées à l'avenir, " a déclaré James Evans, directeur du Knowledge Lab et professeur de sociologie à UChicago. « L'influence est un processus politisé ; ceux qui obtiennent l'influence, obtenir le crédit, et ceux qui obtiennent le crédit obtiennent le capital pour faire la prochaine grande chose. C'est la première fois que nous avons une capacité renforcée d'identifier l'influence, et aussi pour diagnostiquer les influences sociales et stratégiques sur le comportement de citation."
Le nouvel article complète les recherches précédentes du Knowledge Lab utilisant des approches informatiques et d'apprentissage automatique sur des collections massives de texte, subventions, Commentaires, citations et données scientifiques pour étudier comment se forment les découvertes, évoluer et devenir largement acceptée. Leurs travaux ont récemment fait l'objet d'une revue dans la revue Science , co-écrit par Evans, qui décrit comment les méthodes basées sur les données ont approfondi la compréhension du processus scientifique et ont offert de nouvelles idées sur la façon de faire plus efficacement de futures découvertes importantes.
Au-delà des citations
En théorie, les références dans un article académique permettent aux auteurs de créditer leurs prédécesseurs, les chercheurs et les travaux sur lesquels ils ont bâti leur nouvelle découverte. Mais en pratique, les citations sont choisies pour de nombreuses raisons :les auteurs sont plus susceptibles de se citer eux-mêmes, des collègues puissants dans leur domaine et des chercheurs d'institutions prestigieuses, et ont souvent tendance à citer des articles plus récents ou déjà très cités.
Malgré ces imperfections, de nombreuses études informatiques sur l'influence scientifique ont utilisé le registre des citations comme un proxy utile. La nouvelle étude, dirigé par l'ancien chercheur postdoctoral du Knowledge Lab, Aaron Gerow, montre un roman, approche plus approfondie, en utilisant à la fois le texte intégral des articles et des informations externes telles que l'identité de l'auteur, affiliation et réputation de la revue.
À l'aide d'une méthode de calcul connue sous le nom de modélisation thématique, inventée par le co-auteur David Blei de l'Université de Columbia, le modèle suit « l'influence discursive, " ou des mots et expressions récurrents à travers des textes historiques qui mesurent la manière dont les chercheurs parlent réellement d'un domaine, au lieu de simplement leurs attributions. Pour déterminer l'influence d'un papier donné, les chercheurs pourraient statistiquement le retirer de l'histoire et voir comment le discours scientifique se serait déroulé sans son apport.
« Nous pouvons non seulement découvrir comment les sujets ont changé au fil du temps, mais nous pouvons également simuler l'avenir sans un document donné du passé, et regardez comment le discours avançant était différent avec et sans un document donné, " dit Gerow, maintenant professeur assistant à Goldsmiths, Université de Londres. "Les citations sont un type d'impact, et l'influence discursive est d'un autre genre. Ni l'un ni l'autre n'est l'histoire complète, mais ils travaillent ensemble pour donner une meilleure image de ce qui influence la science."
Entraîner le modèle sur des collections de textes massives issues de la linguistique informatique, la physique, et à travers la science et l'érudition (JSTOR), les auteurs quantifient divers biais et discernent des modèles d'influence distincts. Les scientifiques qui publiaient de manière persistante dans un seul domaine étaient plus susceptibles d'être « canonisés » d'une manière qui obligeait les autres à les citer de manière disproportionnée par rapport aux contributions discursives de leurs articles. D'autre part, les découvertes qui traversaient les frontières disciplinaires étaient plus susceptibles d'avoir un impact discursif démesuré mais moins de citations, probablement parce que le « propriétaire » de l'idée et ses alliés restent socialement et institutionnellement éloignés de l'auteur citant.
Belles au bois dormant et influenceuses inconnues
Une sous-catégorie de papier intéressante que le modèle a détectée est connue sous le nom de « beautés au bois dormant, " ou des articles qui sont restés relativement méconnus pendant des années, voire des décennies, avant de connaître une explosion tardive de citations. Par exemple, un article de 1947 sur le graphène est resté obscur et oublié jusqu'aux années 1990 avec un regain d'intérêt de la recherche pour le matériau et un éventuel prix Nobel.
"Les journaux ont un cycle d'actualités, quand beaucoup de gens en parlent et les citent, et puis ce ne sont plus de nouvelles nouvelles, " a déclaré Evans. " Notre modèle montre que certains articles ont beaucoup plus d'influence que les citations ne le démontrent généralement, comme ces « belles au bois dormant », ' qui n'a pas eu beaucoup d'influence au début mais qui a fini par être apprécié et important plus tard."
Le même modèle peut également être utilisé pour tracer l'influence dans d'autres domaines, comme la littérature et la musique, disaient les auteurs. Texte de poèmes ou paroles de chansons, et même des caractéristiques extra-textuelles telles que la structure des strophes ou les progressions d'accords, pourrait alimenter le modèle pour trouver des influenceurs sous-reconnus et cartographier la diffusion de nouveaux concepts et innovations.
"Il y a énormément de culture littéraire qui finit par influencer toutes sortes de choses, mais qui ne dispose tout simplement pas d'une technologie de référence similaire aux citations, " a déclaré Evans. " Bien que nous ayons développé et validé sur ce modèle sur du texte scientifique, maintenant nous pouvons l'utiliser pour tout et n'importe quoi, en particulier les cas où il n'y a pas de traces d'influence mais des modèles dans le contenu lui-même. C'est comme les tendances sur Twitter, mais où tout est Twitter. C'est ce qui est le plus excitant pour moi."