Les scientifiques sont confrontés à une crise de reproductibilité. Crédit :Y Photo Studio/shutterstock.com
Les universitaires craignent de plus en plus que, dans de nombreux domaines de la science, les résultats publiés célèbres ont tendance à être impossibles à reproduire.
Cette crise peut être grave. Par exemple, en 2011, Bayer HealthCare a examiné 67 projets internes et a constaté qu'ils pouvaient être reproduits à moins de 25 %. Par ailleurs, plus des deux tiers des projets présentaient des incohérences majeures. Plus récemment, en novembre, une enquête sur 28 principaux articles de psychologie a révélé que seulement la moitié pouvait être reproduite.
Des résultats similaires sont rapportés dans d'autres domaines, compris la médecine et l'économie. Ces résultats frappants mettent la crédibilité de tous les scientifiques en difficulté.
Qu'est-ce qui cause ce gros problème ? Il existe de nombreux facteurs contributifs. En tant que statisticien, Je vois d'énormes problèmes avec la façon dont la science est faite à l'ère des mégadonnées. La crise de la reproductibilité est due en partie à des analyses statistiques invalides issues d'hypothèses fondées sur des données – à l'opposé de la façon dont les choses se font traditionnellement.
Méthode scientifique
Dans une expérience classique, le statisticien et le scientifique élaborent d'abord ensemble une hypothèse. Ensuite, les scientifiques mènent des expériences pour collecter des données, qui sont ensuite analysés par les statisticiens.
Un exemple célèbre de ce processus est l'histoire de la « dame dégustant du thé ». Dans les années 1920, à une soirée d'universitaires, une femme prétendait pouvoir faire la différence de saveur si le thé ou le lait était d'abord ajouté dans une tasse. Le statisticien Ronald Fisher doutait qu'elle ait un tel talent. Il a émis l'hypothèse que, sur huit tasses de thé, préparé de telle sorte que quatre tasses aient été ajoutées en premier au lait et que les quatre autres tasses aient été ajoutées en premier au thé, le nombre d'estimations correctes suivrait un modèle de probabilité appelé distribution hypergéométrique.
Une telle expérience a été réalisée avec huit tasses de thé envoyées à la dame dans un ordre aléatoire - et, selon la légende, elle a classé les huit correctement. C'était une preuve solide contre l'hypothèse de Fisher. Les chances que la dame ait obtenu toutes les bonnes réponses grâce à des devinettes aléatoires étaient extrêmement faibles de 1,4 %.
Ce processus - émettre une hypothèse, puis recueillir des données, puis analyser – est rare à l'ère du big data. La technologie d'aujourd'hui peut collecter d'énormes quantités de données, de l'ordre de 2,5 exaoctets par jour.
Bien que ce soit une bonne chose, la science se développe souvent à une vitesse beaucoup plus lente, et ainsi les chercheurs peuvent ne pas savoir dicter la bonne hypothèse dans l'analyse des données. Par exemple, les scientifiques peuvent désormais collecter des dizaines de milliers d'expressions génétiques de personnes, mais il est très difficile de décider si l'on doit inclure ou exclure un gène particulier dans l'hypothèse. Dans ce cas, il est intéressant de former l'hypothèse sur la base des données. Bien que de telles hypothèses puissent sembler convaincantes, les déductions conventionnelles de ces hypothèses sont généralement invalides. Ceci est dû au fait, contrairement au procédé « dame dégustation de thé », l'ordre de construire l'hypothèse et de voir les données s'est inversé.
Problèmes de données
Pourquoi cette inversion peut-elle causer un gros problème ? Considérons une version Big Data de la dame du thé, un exemple de "100 dames dégustant du thé".
Supposons qu'il y ait 100 femmes qui ne peuvent pas faire la différence entre le thé, mais devinez après avoir goûté les huit tasses. Il y a en fait 75,6% de chances qu'au moins une femme devine correctement toutes les commandes.
Maintenant, si un scientifique a vu une femme avec un résultat surprenant de toutes les tasses correctes et a effectué une analyse statistique pour elle avec la même distribution hypergéométrique ci-dessus, alors il pourrait conclure que cette dame avait la capacité de faire la différence entre chaque tasse. Mais ce résultat n'est pas reproductible. Si la même femme refait l'expérience, elle trierait très probablement les tasses de manière incorrecte – n'ayant pas la même chance que la première fois – car elle ne pouvait pas vraiment faire la différence entre elles.
Ce petit exemple illustre comment les scientifiques peuvent « heureusement » voir des signaux intéressants mais faux à partir d'un ensemble de données. Ils peuvent formuler des hypothèses après ces signaux, puis utiliser le même ensemble de données pour tirer les conclusions, prétendre que ces signaux sont réels. Il peut s'écouler un certain temps avant qu'ils découvrent que leurs conclusions ne sont pas reproductibles. Ce problème est particulièrement courant dans l'analyse des mégadonnées en raison de la grande taille des données, juste par hasard, des signaux parasites peuvent "heureusement" se produire.
Quoi de pire, ce processus peut permettre aux scientifiques de manipuler les données pour produire le résultat le plus publiable. Les statisticiens plaisantent sur une telle pratique :« Si nous torturons suffisamment les données, ils vous diront quelque chose." Cependant, ce « quelque chose » est-il valable et reproductible ? Probablement pas.
Des analyses plus solides
Comment les scientifiques peuvent-ils éviter le problème ci-dessus et obtenir des résultats reproductibles dans l'analyse des mégadonnées ? La réponse est simple :soyez plus prudent.
Si les scientifiques veulent des résultats reproductibles à partir d'hypothèses basées sur des données, ensuite, ils doivent soigneusement prendre en compte le processus basé sur les données dans l'analyse. Les statisticiens doivent concevoir de nouvelles procédures qui fournissent des inférences valides. Il y en a déjà quelques-uns en cours.
Les statistiques concernent le moyen optimal d'extraire des informations à partir de données. Par cette nature, c'est un domaine qui évolue avec l'évolution des données. Les problèmes de l'ère du big data ne sont qu'un exemple d'une telle évolution. Je pense que les scientifiques devraient adopter ces changements, car ils conduiront à des opportunités de développement de nouvelles techniques statistiques, qui à leur tour fourniront des découvertes scientifiques valables et intéressantes.
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l'article original.