Un article scientifique réel (issu de l'ensemble de données KDD Cup) avec des citations connues a été utilisé pour démontrer comment l'algorithme pouvait générer des recommandations pour les chercheurs à la recherche d'informations dans un domaine connexe. La figure montre les 15 principales citations recommandées par la métrique. Sur ces 15 citations prévues, cinq d'entre eux (marqués d'astérisques) étaient de véritables citations de l'article. En comparaison, d'autres méthodes n'ont pas réussi à prédire les citations réelles. Les segments colorés dans les « proportions thématiques » indiquent la probabilité qu'un article appartienne à un sujet spécifique. Crédit :Annals of Applied Statistics
Un statisticien de la NUS a développé une métrique qui tient compte automatiquement des variations de citations dans différentes disciplines pour mesurer le mérite de la recherche des articles scientifiques.
Le mérite de la recherche (impact) des articles scientifiques est fréquemment utilisé comme l'un des paramètres pour juger de la qualité des résultats de la recherche. Ceci est généralement obtenu à partir des citations de travaux de recherche déjà publiés dans la revue. Cependant, différentes disciplines universitaires ont des comportements de recherche et des pratiques de citation différents. Par exemple, les articles dans certaines disciplines (par exemple les mathématiques) ont généralement de faibles citations tandis que d'autres domaines (par exemple la biologie moléculaire) en comparaison ont en moyenne plus de citations. D'où, une comparaison de la qualité de la recherche dans différentes disciplines basée sur le nombre brut de citations ne refléterait pas avec précision le mérite de la recherche.
Prof Linda TAN du Département de statistique et probabilités appliquées, NUS a développé une métrique au niveau de l'article, appelé « métrique de visibilité ajustée au sujet », qui est capable de tenir compte automatiquement de la variation des activités de citation entre les différents domaines de recherche. Il calcule cela sans utiliser les classifications de champs existantes étiquetées sur l'article individuel mais en utilisant un réseau complexe contenant des attributs appartenant à l'article sélectionné. Chaque article n'a pas besoin d'appartenir à un seul champ mais peut appartenir à plusieurs champs à des degrés divers. Cela peut fournir une meilleure jauge pour comparer les publications scientifiques individuelles dans différents domaines. L'équipe de recherche a également développé un algorithme de calcul efficace utilisant cette métrique pour aider les chercheurs universitaires à recommander des articles.
Le professeur Tan a dit, "Lorsque notre méthode est appliquée à l'ensemble de données de référence de la KDD Cup 2003 (concours de découverte et d'exploration de données) qui en compte environ 30, 000 articles de physique des hautes énergies, il a démontré de meilleures performances pour les recommandations d'articles en étant plus précis dans la prédiction des citations réelles des articles de test, par rapport aux autres modèles disponibles."