Désolé, mauvais numéro :la référence statistique est critiquée

En ce 1er juillet photo d'archive de 1960, un chimiste travaille en laboratoire à Cambridge, Mass. Pendant des décennies, les scientifiques ont utilisé la « signification statistique » pour estimer si leurs résultats sont fiables ou simplement aléatoires. Il a longtemps été critiqué, mais 2019 a apporté deux appels de haut niveau pour s'en débarrasser complètement. (AP Photo/Peter J. Carroll)

Plus tôt cet automne, le Dr Scott Solomon a présenté les résultats d'une vaste étude sur les médicaments pour le cœur à un auditoire de collègues cardiologues à Paris.

Les résultats que Salomon décrivait semblaient prometteurs :les patients qui prenaient le médicament avaient un taux d'hospitalisation et de décès inférieur à celui des patients sous un autre médicament.

Puis il a montré à son public un autre numéro.

"Il y a eu des halètements, ou 'Oooh, '" Salomon, du Brigham and Women's Hospital de Harvard, rappelé récemment. "Beaucoup de gens ont été déçus."

Un analyste d'investissement a réagi en réduisant ses prévisions de ventes maximales du médicament, de 1 milliard de dollars.

Que s'est-il passé?

Le nombre qui a causé les halètements était de 0,059. Le public cherchait quelque chose en dessous de 0,05.

Cela signifiait que les résultats prometteurs de Salomon allaient à l'encontre d'un concept statistique dont vous n'avez peut-être jamais entendu parler :la signification statistique. C'est un tout ou rien. Vos résultats statistiques sont soit significatifs, ce qui signifie qu'ils sont fiables, ou non significatif, indiquant une chance inacceptablement élevée qu'ils étaient juste un coup de chance.

Le concept est utilisé depuis des décennies. Il a beaucoup d'influence sur la façon dont les résultats scientifiques sont évalués, quelles études sont publiées, et quels médicaments arrivent dans les pharmacies.

Mais cette année a apporté deux appels très médiatisés de critiques, y compris de l'intérieur du monde mystérieux des statistiques, pour s'en débarrasser - en partie par crainte qu'il rejette prématurément des résultats comme ceux de Salomon.

L'importance se reflète dans un calcul qui produit quelque chose appelé une valeur p. D'habitude, si cela produit une valeur p inférieure à 0,05, les résultats de l'étude sont considérés comme significatifs. Si non, l'étude a échoué au test.

L'étude de Salomon vient de manquer. Ainsi, l'avantage apparent que son médicament montrait par rapport aux autres médicaments a été jugé insignifiant. Selon ce critère, il n'y avait pas de différence "réelle".

Solomon pense que le médicament a en fait produit un réel avantage et qu'une étude plus importante ou plus longue aurait pu atteindre une signification statistique.

"Je ne pleure pas sur du lait renversé, " dit-il. " Nous fixons les règles. La question est, est-ce la bonne façon de procéder ?"

Il n'est pas le seul à poser cette question.

"Il y a fort à parier que des gens ont souffert ou sont morts parce que les scientifiques (et les éditeurs, régulateurs, journalistes et autres) ont utilisé des tests de signification pour interpréter les résultats, " l'épidémiologiste Kenneth Rothman de RTI Health Solutions à Research Triangle Park, NC., et l'Université de Boston ont écrit en 2016.

Le danger est à la fois qu'une découverte médicale potentiellement bénéfique puisse être ignorée parce qu'une étude n'atteint pas la signification statistique, et une pratique médicale nocive ou stérile pourrait être acceptée simplement parce qu'elle le fait, dit-il dans un e-mail.

La valeur seuil de p pour la signification est "une mesure qui a acquis le statut de gardien ... non seulement pour la publication mais pour que les gens prennent vos résultats au sérieux, " déclare Blake McShane, statisticien de la Northwestern University.

Il n'est pas étonnant qu'un statisticien, lors d'un récent entretien avec des journalistes sur la question juste avant Halloween, affiché une diapositive d'un jack-o'-lanterne sculpté avec cette vue, évidemment terrifiant pour quiconque en science ou en médecine :"P =.06."

McShane et d'autres soutiennent que l'importance du seuil de valeur p n'est pas méritée. Il est co-auteur d'un appel à abolir la notion de signification statistique, qui a été publié dans la prestigieuse revue Nature cette année. La proposition a attiré plus de 800 cosignataires.

Même l'American Statistical Association, qui n'avait jamais publié de déclaration formelle sur des pratiques statistiques spécifiques, est tombé durement en 2016 sur l'utilisation de tout type de seuil de valeur p de cette manière. Et cette année, c'est allé plus loin, déclarant dans un numéro spécial avec 43 articles sur le sujet, "Il est temps d'arrêter complètement d'utiliser le terme" statistiquement significatif "."

Quel est le problème? McShane et d'autres en énumèrent plusieurs :

— La valeur p ne mesure pas directement la probabilité que le résultat d'une expérience ne soit qu'un coup de chance. Ce qu'il représente vraiment est largement mal compris, même par des scientifiques et certains statisticiens, dit Nicole Lazar, professeur de statistiques à l'Université de Géorgie.

— L'utilisation d'une étiquette de signification statistique "donne plus de certitude qui est réellement justifiée, " Lazar a déclaré. "Nous devons reconnaître le fait qu'il y a une incertitude dans nos conclusions."

— Le seuil traditionnel de 0,05 est arbitraire.

— Signification statistique ne signifie pas nécessairement « significatif » — ou qu'un résultat est important sur le plan pratique ou scientifique, dit Lazar. Ce n'est peut-être même pas vrai :Solomon cite une grande étude sur les médicaments pour le cœur qui a trouvé un effet thérapeutique significatif pour les patients nés en août mais pas en juillet, évidemment juste une fluctuation aléatoire.

— Le terme « importance statistique » définit une ligne d'objectif pour les chercheurs, une mesure claire du succès ou de l'échec. Cela signifie que les chercheurs peuvent essayer un peu trop fort pour l'atteindre. Ils peuvent délibérément jouer avec le système pour obtenir une valeur p acceptable, ou simplement choisir inconsciemment des méthodes analytiques qui aident, McShane et Lazar ont dit.

— Cela peut fausser les effets non seulement des expériences individuelles, mais aussi les résultats cumulés d'études sur un sujet donné, de sorte que dans l'ensemble, un médicament peut paraître "beaucoup mieux qu'il ne l'est en réalité, " a déclaré McShane.

Que faut-il faire à la place ? Abolir la ligne lumineuse de signification statistique, et rapportez simplement la valeur p avec d'autres analyses pour donner un aperçu plus complet de ce que le résultat du test peut signifier, McShane et d'autres disent.

Cela peut ne pas être aussi clair qu'une simple déclaration d'importance ou d'insignifiance, mais "nous aurons une meilleure idée de ce qui se passe, " Lazar a dit. "Je pense qu'il sera plus facile d'éliminer le mauvais travail."

Tout le monde n'achète pas l'idée de supprimer la signification statistique. L'éminent chercheur de Stanford, le Dr John Ioannidis, a déclaré que l'abolition "pourrait favoriser les préjugés. Des absurdités irréfutables régneraient". Bien qu'il reconnaisse qu'un standard de valeur p inférieur à 0,05 est faible et facilement abusif, il pense que les scientifiques devraient plutôt utiliser une valeur p plus stricte ou une autre mesure statistique, spécifié avant la réalisation de l'expérience.

McShane a déclaré que bien que les appels à l'abolition de la signification statistique aient été soulevés pendant des années, il semble y avoir plus d'élan ces derniers temps.

"Peut-être, " il a dit, "il est temps de mettre le clou dans le cercueil sur celui-ci pour de bon."

Première preuve de dinosaures polaires à plumes découvertes en Australie

Des scientifiques explorent les os d'une momie égyptienne avec des rayons X et une lumière infrarouge

Autres