Certaines études ne résistent pas à un examen approfondi. Crédit :PORTRAIT IMAGES ASIA PAR NONWARIT/shutterstock.com
La science est au milieu d'une crise :une fraction surprenante des études publiées ne se répliquent pas lorsque les procédures sont répétées.
Par exemple, prendre l'étude, publié en 2007, qui prétendait que les problèmes mathématiques délicats nécessitant une réflexion approfondie sont plus faciles à résoudre lorsqu'ils sont présentés dans une police floue. Lorsque les chercheurs ont découvert dans une petite étude que l'utilisation d'une police floue améliorait la précision des performances, il soutenait une affirmation selon laquelle rencontrer des défis de perception pourrait inciter les gens à réfléchir plus attentivement.
Cependant, 16 tentatives pour reproduire le résultat ont échoué, démontrant définitivement que la demande initiale était erronée. Tracés ensemble sur un graphique, les études ont formé une courbe en cloche parfaite centrée autour de l'effet zéro. Comme c'est souvent le cas pour les échecs de réplication, sur les 17 tentatives totales, l'original avait à la fois la plus petite taille d'échantillon et le résultat le plus extrême.
Le projet de reproductibilité, une collaboration de 270 psychologues, a tenté de reproduire 100 études de psychologie, tandis qu'un rapport de 2018 a examiné des études publiées dans les prestigieuses revues savantes Nature et Science entre 2010 et 2015. Ces efforts révèlent qu'environ les deux tiers des études se reproduisent dans une certaine mesure, mais que la force des résultats est souvent plus faible qu'on ne le prétendait à l'origine.
Est-ce mauvais pour la science ? C'est certainement inconfortable pour de nombreux scientifiques dont le travail est compromis, et le taux d'échecs peut actuellement être inacceptablement élevé. Mais, en tant que psychologue et statisticien, Je pense que faire face à la crise de la réplication est bon pour la science dans son ensemble.
Pratiquer la bonne science
D'abord, ces tentatives de réplication sont des exemples de bonne science fonctionnant comme il se doit. Ce sont des applications ciblées de la méthode scientifique, une expérimentation et une observation minutieuses dans la poursuite de résultats reproductibles.
Beaucoup de gens supposent à tort que, en raison du "p <.05" seuil pour la signification statistique, seulement 5% des découvertes se révéleront être des erreurs. Cependant, il y a 15 ans, le médecin John Ioannidis a souligné certaines erreurs dans cette hypothèse, arguant que les fausses découvertes constituaient la majorité de la littérature publiée. Les efforts de réplication confirment que le taux de fausses découvertes est bien supérieur à 5%.
La prise de conscience de la crise de réplication semble favoriser un meilleur comportement parmi les scientifiques. Il y a vingt ans, le cycle de publication était pratiquement terminé après qu'un scientifique ait convaincu trois réviseurs et un éditeur que le travail était solide. Oui, la recherche publiée ferait partie de la littérature, et donc ouvert à révision – mais c'était un processus lent.
Aujourd'hui, les enjeux ont été relevés pour les chercheurs. Ils savent qu'il est possible que leur étude soit examinée par des milliers de commentateurs avisés sur Internet ou par un groupe de haut niveau comme le Reproductibility Project. Certaines revues demandent désormais aux scientifiques de mettre à disposition leurs données et leur code informatique, ce qui rend plus probable que d'autres détectent des erreurs dans leur travail. Quoi de plus, certains scientifiques peuvent désormais « préenregistrer » leurs hypothèses avant de commencer leur étude – l'équivalent d'appeler votre coup avant de le prendre.
Combiné avec un partage ouvert de matériaux et de données, la préinscription améliore la transparence et la reproductibilité de la science, en espérant qu'une plus petite fraction des études futures ne se reproduira pas.
Bien qu'il y ait des signes que les scientifiques sont en train de réformer leurs méthodes, il y a encore un long chemin à parcourir. Sur les 1, 500 présentations acceptées lors de la réunion annuelle de la Society for Behavioral Medicine en mars, seulement 1 auteur sur 4 a déclaré avoir utilisé ces techniques de science ouverte dans le travail qu'ils ont présenté.
Améliorer l'intuition statistique
Finalement, la crise de réplication contribue à améliorer les intuitions des scientifiques sur l'inférence statistique.
Les chercheurs comprennent désormais mieux comment les conceptions faibles avec une incertitude élevée - en combinaison avec le choix de publier uniquement lorsque les résultats sont statistiquement significatifs - produisent des résultats exagérés. En réalité, c'est l'une des raisons pour lesquelles plus de 800 scientifiques ont récemment plaidé en faveur de l'abandon des tests de signification statistique.
Nous comprenons également mieux comment les résultats de recherche isolés s'intègrent dans le modèle plus large des résultats. Dans une autre étude, Ionnadis et l'oncologue Jonathan Schoenfeld ont examiné la littérature épidémiologique pour des études associant 40 ingrédients alimentaires courants au cancer. Il y avait quelques grandes tendances cohérentes - sans surprise, Bacon, le sel et le sucre ne se sont jamais avérés protecteurs contre le cancer.
Mais tracer les effets de 264 études a produit un schéma déroutant. L'ampleur des effets signalés était très variable. En d'autres termes, une étude pourrait dire qu'un ingrédient donné était très mauvais pour vous, tandis qu'un autre pourrait conclure que les dommages étaient minimes. Dans de nombreux cas, les études étaient même en désaccord sur la question de savoir si un ingrédient donné était nocif ou bénéfique.
Chacune des études avait à un moment donné été signalée isolément dans un journal ou un site Web comme la dernière découverte en matière de santé et de nutrition. Mais pris dans son ensemble, les preuves de toutes les études n'étaient pas aussi définitives que chaque étude pouvait l'être.
Schoenfeld et Ioannidis ont également représenté graphiquement les 264 tailles d'effet publiées. Contrairement aux réplications de polices floues, leur graphique des effets publiés ressemblait aux queues d'une courbe en cloche. Il était centré à zéro avec tous les résultats non significatifs découpés. L'impression indubitable de voir tous les résultats nutritionnels publiés présentés à la fois est que beaucoup d'entre eux pourraient ressembler au résultat de la police floue - impressionnant isolément, mais anormal lors de la réplication.
La possibilité époustouflante qu'une grande partie des résultats de la recherche publiée puisse être simplement fortuite est exactement la raison pour laquelle les gens parlent de la crise de la réplication. Mais ce n'est pas vraiment une crise scientifique, parce que la prise de conscience apporte des améliorations dans la pratique de la recherche, de nouvelles compréhensions de l'inférence statistique et une appréciation du fait que les résultats isolés doivent être interprétés comme faisant partie d'un modèle plus large.
Plutôt que de saper la science, J'ai le sentiment que cela réaffirme les bonnes pratiques de la méthode scientifique.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.