Est-ce la fin de la signification statistique ? La bataille pour rendre la science plus incertaine

Un guide rapide sur les valeurs p. Crédits :Repapetilto/Wikimedia, CC BY-SA

Le monde scientifique est en effervescence suite aux recommandations de deux des revues savantes les plus prestigieuses - Le statisticien américain et La nature – que le terme "signification statistique" soit retiré.

Dans leur introduction au numéro spécial de The American Statistician sur le sujet, les rédacteurs en chef du journal exhortent à "passer à un monde au-delà de 'p <0,05, '" le fameux seuil de 5 % pour déterminer si le résultat d'une étude est statistiquement significatif. Si une étude réussit ce test, cela signifie que la probabilité qu'un résultat soit dû au hasard seul est inférieure à 5 %. Cela a souvent été compris comme signifiant que l'étude mérite qu'on y prête attention.

Le message de base de la revue - mais pas nécessairement le consensus des 43 articles de ce numéro, l'une d'entre elles était que les scientifiques devaient avant tout « accepter l'incertitude » et « être réfléchis, ouvert et modeste."

Bien que ce soient de belles qualités, Je pense que les scientifiques ne doivent pas les laisser occulter la précision et la rigueur qu'exige la science. L'incertitude est inhérente aux données. Si les scientifiques affaiblissent encore le seuil déjà très faible de 0,05, cela rendrait inévitablement les découvertes scientifiques plus difficiles à interpréter et moins susceptibles d'être dignes de confiance.

Difficulté d'empilement sur la difficulté

Dans la pratique traditionnelle de la science, un scientifique génère une hypothèse et conçoit des expériences pour collecter des données à l'appui d'hypothèses. Il ou elle recueille ensuite des données et effectue des analyses statistiques pour déterminer si les données appuient effectivement l'hypothèse.

Une analyse statistique standard est la valeur p. Cela génère un nombre entre 0 et 1 qui indique fort, support marginal ou faible d'une hypothèse.

Mais je crains que l'abandon des normes fondées sur des preuves pour ces jugements ne rende encore plus difficile la conception d'expériences, beaucoup moins évaluer leurs résultats. Par exemple, comment pourrait-on même déterminer une taille d'échantillon appropriée sans un niveau de précision ciblé ? Et comment interpréter les résultats de la recherche ?

Ce sont des questions importantes, pas seulement pour les chercheurs des agences de financement ou de réglementation, mais pour toute personne dont la vie quotidienne est influencée par des jugements statistiques. Cela inclut toute personne qui prend des médicaments ou subit une intervention chirurgicale, conduit ou monte dans des véhicules, est investi en bourse, a une assurance-vie ou dépend de prévisions météorologiques précises… et la liste est longue. De la même manière, de nombreux organismes de réglementation s'appuient sur des statistiques pour prendre des décisions chaque jour.

Les scientifiques doivent avoir le langage pour indiquer qu'une étude, ou groupe d'études, fourni des preuves significatives en faveur d'une relation ou d'un effet. La signification statistique est le terme qui sert à cette fin.

Les groupes derrière ce mouvement

L'hostilité au terme « signification statistique » provient de deux groupes.

Le premier est en grande partie composé de scientifiques déçus lorsque leurs études produisent p=0,06. En d'autres termes, ceux dont les études ne font tout simplement pas la coupe. Ce sont en grande partie des scientifiques qui trouvent que la norme de 0,05 est un obstacle trop élevé pour être publié dans les revues savantes qui sont une source majeure de connaissances académiques – ainsi que pour la titularisation et la promotion.

Le deuxième groupe s'inquiète de l'absence de réplication des études scientifiques, et ils blâment en partie les tests de signification pour cet échec.

Par exemple, un groupe de scientifiques a récemment répété 100 expériences de psychologie publiées. Quatre-vingt-dix-sept des 100 études originales ont rapporté un résultat statistiquement significatif (p <0,05), mais seulement 36 des expériences répétées ont pu également obtenir un résultat significatif.

L'échec de la réplication de tant d'études peut être en partie imputé au biais de publication, ce qui se produit lorsque seuls les résultats significatifs sont publiés. Le biais de publication amène les scientifiques à surestimer l'ampleur d'un effet, comme la relation entre deux variables, rendant la réplication moins probable.

Pour compliquer encore plus la situation, des recherches récentes montrent que la valeur seuil de p ne fournit pas beaucoup de preuves qu'une relation réelle a été trouvée. En réalité, dans les études de réplication en sciences sociales, il apparaît maintenant que des valeurs p proches du seuil standard de 0,05 signifient probablement qu'une affirmation scientifique est fausse. C'est seulement lorsque la valeur p est beaucoup plus petite, peut-être moins de 0,005, que les affirmations scientifiques sont susceptibles de montrer une relation réelle.

La confusion qui a conduit à ce mouvement

De nombreux non-statisticiens confondent la valeur p avec la probabilité qu'aucune découverte n'ait été faite.

Regardons un exemple de l'article Nature. Deux études ont examiné le risque accru de maladie après la prise d'un médicament. Les deux études ont estimé que les patients avaient un risque 20 % plus élevé de contracter la maladie s'ils prenaient le médicament que s'ils ne le prenaient pas. En d'autres termes, les deux études ont estimé le risque relatif à 1,20.

Cependant, le risque relatif estimé à partir d'une étude était plus précis que l'autre, parce que son estimation était basée sur les résultats de beaucoup plus de patients. Ainsi, l'estimation d'une étude était statistiquement significative, et l'estimation de l'autre ne l'était pas.

Les auteurs citent cette incohérence – qu'une étude a obtenu un résultat significatif et l'autre non – comme preuve que la signification statistique conduit à une mauvaise interprétation des résultats scientifiques.

Cependant, Je pense qu'un résumé raisonnable est simplement qu'une étude a recueilli des preuves statistiquement significatives et une autre n'en a pas, mais les estimations des deux études suggèrent que le risque relatif était proche de 1,2.

Où aller en partant d'ici

Je suis d'accord avec l'article de Nature et l'éditorial de The American Statistician que les données collectées à partir de toutes les études scientifiques bien conçues devraient être rendues publiques, avec des résumés complets des analyses statistiques. Avec les valeurs p de chaque étude, il est important de publier des estimations des tailles d'effet et des intervalles de confiance pour ces estimations, ainsi que des descriptions complètes de toutes les analyses et traitements de données.

D'autre part, seules les études qui fournissent des preuves solides en faveur d'associations importantes ou de nouveaux effets devraient être publiées dans des revues de premier plan. Pour ces revues, les normes de preuve devraient être augmentées en exigeant des valeurs p plus petites pour le rapport initial des relations et des nouvelles découvertes. En d'autres termes, obliger les scientifiques à publier des résultats dont ils sont encore plus sûrs.

L'essentiel est que le démantèlement des normes acceptées de preuves statistiques réduira l'incertitude que les scientifiques ont dans la publication de leurs propres recherches. Mais cela augmentera également l'incertitude du public quant à l'acceptation des conclusions qu'il publie – et cela peut être problématique.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.