• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Un chercheur discute de la crise de la réplication scientifique

    Crédit :Caltech

    S'il y a un principe central qui unit toutes les sciences, c'est probablement que les scientifiques devraient aborder la découverte sans parti pris et avec une bonne dose de scepticisme. L'idée est que la meilleure façon d'atteindre la vérité est de laisser les faits mener où ils veulent, même si ce n'est pas là où vous vouliez aller.

    Mais cela peut être plus facile à dire qu'à faire. Les humains ont des préjugés inconscients difficiles à ébranler, et la plupart des gens n'aiment pas se tromper. Au cours des dernières années, les scientifiques ont découvert des preuves troublantes que ces biais peuvent affecter l'intégrité du processus de recherche dans de nombreux domaines.

    Les preuves suggèrent également que même lorsque les scientifiques agissent avec les meilleures intentions, les erreurs graves sont plus fréquentes que prévu car même des différences subtiles dans la manière dont une procédure expérimentale est menée peuvent fausser les résultats.

    Lorsque des biais et des erreurs s'infiltrent dans la recherche, d'autres scientifiques qui tentent la même expérience peuvent constater qu'ils ne peuvent pas reproduire les conclusions du chercheur original. Cela a donné son nom au problème plus large :la crise de la réplication.

    Colin Camerer, Robert Kirby de Caltech, professeur d'économie comportementale et titulaire de la chaire T&C Chen Center for Social and Decision Neuroscience Leadership, directeur général des sciences sociales et directeur du T&C Chen Center for Social and Decision Neuroscience, a été à la pointe de la recherche sur la crise de la réplication. Il a rédigé un certain nombre d'études sur le sujet et est un ardent défenseur de la réforme. Nous avons discuté avec Camerer de la gravité du problème et de ce qui peut être fait pour le corriger ; et le mouvement "science ouverte", qui encourage le partage des données, informations, et des matériaux parmi les chercheurs.

    Quelle est exactement la crise de réplication ?

    Ce qui a déclenché tout cela, c'est la découverte que de nombreuses découvertes - à l'origine en médecine mais plus tard dans les domaines de la psychologie, en économie, et probablement dans tous les domaines—ne reproduisez pas ou ne reproduisez pas aussi bien que nous l'espérions. En se reproduisant, Je veux dire prendre des données recueillies par quelqu'un pour une étude et faire la même analyse juste pour voir si vous obtenez les mêmes résultats. Les gens peuvent obtenir des différences substantielles, par exemple, s'ils utilisent des statistiques plus récentes que celles dont disposaient les chercheurs originaux.

    Les premières études sur la reproductibilité ont également révélé qu'il est parfois même difficile d'amener les gens à partager leurs données de manière claire et opportune. Il y avait une norme selon laquelle le partage de données est en quelque sorte un bonus, mais n'est pas absolument une partie nécessaire du travail d'être un scientifique.

    À quel point est-ce un problème ?

    Je dirais que c'est assez gros pour être très préoccupant. Je vais donner un exemple de la psychologie sociale, qui a été l'un des domaines les plus problématiques. En psychologie sociale, il y a une idée appelée amorçage, ce qui veut dire que si je te fais penser à une chose inconsciemment, ces pensées peuvent activer des associations connexes et modifier votre comportement d'une manière surprenante.

    De nombreuses études sur l'amorçage ont été faites par John Bargh, qui est un psychologue bien connu à Yale. Bargh et ses collègues ont amené les jeunes à penser à leur vieillesse, puis les ont fait s'asseoir à une table et faire un test. Mais le test n'était qu'un remplissage, parce que les chercheurs n'étaient pas intéressés par les résultats du test. Ils se sont intéressés à la façon dont le fait de penser à la vieillesse affectait le comportement des jeunes. Lorsque les jeunes ont terminé le test de remplissage, l'équipe de recherche a chronométré le temps qu'il leur a fallu pour se lever de la table et marcher jusqu'à un ascenseur. Ils ont découvert que les personnes qui étaient sensibilisées à l'âge marchaient plus lentement que le groupe témoin qui n'avait pas reçu cette initiation.

    Ils essayaient d'obtenir un résultat spectaculaire montrant que les associations mentales concernant les personnes âgées affectent le comportement physique. Le problème était que lorsque d'autres ont essayé de reproduire l'étude, les résultats originaux ne se sont pas très bien reproduits. En une seule réplique, quelque chose d'encore pire est arrivé. Certains des assistants de cette expérience ont appris que l'amorçage ferait marcher les jeunes sujets plus lentement, et d'autres ont été informés que l'amorçage les ferait marcher plus rapidement - c'est ce que nous appelons un effet de réactance ou de boomerang. Et ce à quoi les assistants devaient s'attendre a influencé leurs mesures de la vitesse à laquelle les sujets marchaient, même s'ils chronométraient avec des chronomètres. Les mesures du chronomètre des assistants étaient biaisées par rapport à une minuterie automatisée. Je mentionne cet exemple parce que c'est le genre d'étude que nous considérons comme trop mignonne pour être vraie. Lorsque l'échec de la réplication est sorti, il y a eu un grand tollé sur les compétences dont un expérimentateur a besoin pour faire une réplication correcte.

    Vous avez récemment exploré cette question dans deux articles. Qu'as-tu trouvé?

    Dans notre premier article, nous avons examiné l'économie expérimentale, qui est quelque chose qui a été mis au point ici à Caltech. Nous avons pris 18 articles de plusieurs institutions qui ont été publiés dans deux des principales revues économiques. Ce sont les papiers que vous espérez reproduire le mieux. Ce que nous avons trouvé, c'est que 14 sur 18 se sont assez bien répliqués, mais quatre d'entre eux ne l'ont pas fait.

    Il est important de noter que dans deux de ces quatre cas, nous avons fait de légères déviations dans la façon dont l'expérience a été faite. C'est un rappel que de petits changements peuvent faire une grande différence dans la réplication. Par exemple, si vous étudiez la psychologie politique et la partisanerie et que vous reproduisez un article de 2010, les résultats aujourd'hui pourraient être très différents parce que le climat politique a changé. Ce n'est pas que les auteurs de l'article original se soient trompés, c'est que le phénomène dans leur étude a changé.

    Dans notre deuxième article, nous avons examiné les articles en sciences sociales publiés entre 2010 et 2015 dans Science et La nature , qui sont les revues scientifiques générales phares. Ils nous intéressaient parce qu'il s'agissait d'articles très cités et considérés comme très influents.

    Nous avons choisi ceux qui ne seraient pas trop laborieux à reproduire, et nous nous sommes retrouvés avec 21 papiers. Ce que nous avons découvert, c'est qu'environ 60 % seulement se sont reproduits, et ceux qui ne se sont pas reproduits avaient tendance à se concentrer sur des choses comme l'amorçage, dont j'ai déjà parlé. L'amorçage s'est avéré être le phénomène le moins reproductible. C'est dommage car le concept sous-jacent – ​​que penser à une chose élève les associations à des choses liées – est sans aucun doute vrai.

    Comment quelque chose comme ça se passe-t-il ?

    L'une des causes de la non-réplication des résultats est ce que nous appelons le « p-hacking ». La valeur p est une mesure de la probabilité statistique que votre hypothèse soit vraie. Si la valeur p est faible, un effet est très peu susceptible d'être un coup de chance dû au hasard. En sciences sociales et en médecine, par exemple, vous testez généralement si la modification des conditions de l'expérience modifie le comportement. Vous voulez vraiment obtenir une valeur p faible car cela signifie que la condition que vous avez modifiée a eu un effet. Le P-hacking consiste à essayer différentes analyses avec vos données jusqu'à ce que la valeur p soit faible.

    Un bon exemple de p-hacking consiste à supprimer des points de données qui ne correspondent pas à votre hypothèse (valeurs aberrantes) de votre ensemble de données. Il existe des méthodes statistiques pour traiter les valeurs aberrantes, mais parfois les gens s'attendent à voir une corrélation et n'en trouvent pas beaucoup, par exemple. Alors ils pensent à une raison plausible pour écarter quelques points aberrants, parce qu'en faisant cela, ils peuvent augmenter la corrélation. Cette pratique peut être abusée, mais en même temps, il y a parfois des valeurs aberrantes qui doivent être écartées. Par exemple, si les sujets clignent trop lorsque vous essayez de mesurer la perception visuelle, il est raisonnable de supprimer les clignotements ou de ne pas utiliser certains sujets.

    Une autre explication est que parfois les scientifiques sont simplement aidés par la chance. Lorsque quelqu'un d'autre essaie de reproduire cette expérience originale mais n'obtient pas la même chance, ils n'obtiendront pas les mêmes résultats.

    Dans les sciences, vous êtes censé être impartial et dire, "Voici mon hypothèse, et je vais prouver que c'est bien ou mal." Alors, pourquoi les gens modifient-ils les résultats pour obtenir la réponse qu'ils souhaitent ?

    Au sommet de la pyramide se trouve la fraude pure et simple et, Heureusement, c'est assez rare. Typiquement, si vous faites une autopsie ou un confessionnal en cas de fraude, vous trouvez un scientifique qui ressent une pression énorme. Parfois, c'est personnel - "Je voulais juste être respecté" - et parfois c'est de l'argent ou d'avoir trop honte pour dire la vérité.

    Dans les cas frauduleux, les scientifiques s'en tirent avec une petite quantité de tromperie, et ils s'y enfoncent beaucoup parce qu'ils parient vraiment leur carrière là-dessus. La découverte qu'ils ont truquée pourrait être ce qui les a invités à des conférences et leur a valu beaucoup de financement. Alors c'est trop embarrassant de s'arrêter et d'avouer ce qu'ils ont fait depuis le début.

    Il existe également des pratiques scientifiques défectueuses moins flagrantes que la fraude pure et simple, droit?

    Sûr. C'est le scientifique qui pense, "Je sais que j'ai raison, et même si ces données ne le prouvent pas, Je suis sûr que je pourrais faire beaucoup plus d'expériences et le prouver. Je vais donc simplement aider le processus en créant la meilleure version des données. » C'est comme une chirurgie esthétique pour les données.

    Et encore, il y a des incitations à cela. Souvent dans la Grande Science et la Grande Médecine, vous soutenez beaucoup de gens grâce à votre subvention. Si quelque chose ne va vraiment pas avec votre grande théorie ou votre méthode novatrice, ces personnes sont licenciées et leur carrière est compromise.

    Une autre force qui contribue à la faible réplicabilité est que, Dans la science, nous nous appuyons dans une très large mesure sur les normes d'honneur et sur l'idée que les gens se soucient du processus et veulent découvrir la vérité. Il y a énormément de confiance en jeu. Si je reçois un article à réviser dans une revue de premier plan, Je ne pense pas nécessairement comme un détective de police pour savoir si c'est fabriqué.

    Beaucoup de fraudes n'ont été découvertes que parce qu'il y avait une tendance dans de nombreux journaux différents. Un article était trop beau pour être vrai, et le suivant était trop beau pour être vrai, etc. Personne n'est assez bon pour obtenir 10 trop beaux pour être vrais d'affilée.

    Donc, souvent, c'est un peu un coup de chance. Quelqu'un glisse ou une personne remarque puis demande les données et creuse un peu plus loin.

    Quelles bonnes pratiques les scientifiques devraient-ils suivre pour éviter de tomber dans ces pièges ?

    Il y a beaucoup de choses que nous pouvons faire, j'appelle cela la mise à niveau de la reproductibilité. L'un est la préinscription, ce qui signifie avant de collecter vos données, vous expliquez publiquement et publiez en ligne exactement quelles données vous allez collecter, pourquoi vous avez choisi la taille de votre échantillon, et exactement quelle analyse vous allez exécuter. Ensuite, si vous faites des analyses très différentes et obtenez un bon résultat, les gens peuvent se demander pourquoi vous vous êtes écarté de ce que vous aviez préenregistré et si les analyses non planifiées ont été piratées.

    La rubrique plus générale est appelée science ouverte, dans lequel vous agissez comme si tout ce que vous faites devait être accessible à d'autres personnes, à l'exception de certaines choses comme la vie privée du patient. Cela inclut les données d'origine, code, instructions, et des matériaux expérimentaux comme des enregistrements vidéo—tout.

    La méta-analyse est une autre méthode que je pense que nous allons voir de plus en plus. C'est là que vous combinez les résultats d'études qui tentent toutes de mesurer le même effet général. Vous pouvez utiliser ces informations pour trouver des preuves de biais de publication, qui est une sorte de pensée de groupe. Par exemple, il existe de solides preuves expérimentales que donner aux gens des assiettes plus petites les fait manger moins. Alors peut-être que vous étudiez de petites et grandes assiettes, et vous ne trouvez aucun effet sur la taille des portions. Vous pourriez penser à vous-même, "J'ai probablement fait une erreur. Je ne vais pas essayer de publier ça." Ou vous pourriez dire, « Wow ! C'est vraiment intéressant. Je n'ai pas eu d'effet de petite assiette. Je vais l'envoyer à un journal. » Et les éditeurs ou les arbitres disent, "Vous avez probablement fait une erreur. Nous n'allons pas le publier." Ce sont des biais de publication. Ils peuvent être causés par des scientifiques qui retiennent les résultats ou par des revues qui ne les publient pas parce qu'ils obtiennent un résultat non conventionnel.

    Si un groupe de scientifiques en vient à croire que quelque chose est vrai et que la preuve contraire est ignorée ou balayée sous le tapis, cela signifie que beaucoup de gens essaient d'arriver à une conclusion collective sur quelque chose qui n'est pas vrai. Le gros dommage c'est que c'est une perte de temps colossale, et cela peut nuire à la perception du public quant à la solidité de la science en général.

    Les gens sont-ils réceptifs aux changements que vous proposez ?

    Je dirais que 90 pour cent des gens ont été très favorables. Une très bonne nouvelle est que l'Open Science Framework a été soutenu par la Fondation Laura et John Arnold, qui est une grande fondation privée, et par d'autres donateurs. Les fondations privées sont dans une position unique pour dépenser beaucoup d'argent dans ce genre de choses. Notre première subvention pour faire des réplications en économie expérimentale est venue lorsque j'ai rencontré l'agent de programme de la Fondation Alfred P. Sloan. Je lui ai dit que nous pilotions un grand projet reproduisant des expériences économiques. Il s'est excité, et c'était au sens figuré comme s'il avait sorti un sac d'argent de sa mallette juste là. Mes collaborateurs en Suède et en Autriche ont ensuite obtenu une subvention particulièrement importante de 1,5 million de dollars pour travailler sur la réplication. Maintenant qu'il y a de l'élan, les agences de financement ont été raisonnablement généreuses, qui est genial.

    Une autre chose intéressante est que, bien que les revues ne soient pas enclines à publier une réplique d'un article, ils aiment vraiment ce que nous avons fait, qui est un lot de réplications. Quelques mois après avoir travaillé sur le premier document de réplication en économie expérimentale financé par Sloan, J'ai reçu un e-mail d'un éditeur à Science qui a dit, « J'ai entendu dire que vous travailliez sur ce truc de réplication. Avez-vous pensé à où le publier ? » C'est un clin d'oeil, façon timide de dire « S'il vous plaît envoyez-le-nous » sans aucune promesse. Ils l'ont finalement publié.

    Quels défis voyez-vous pour l'avenir ?

    Je pense que le principal défi consiste à déterminer où se situe la responsabilité. Jusqu'en 2000 environ la sagesse conventionnelle était, "Personne ne paiera pour votre réplication et personne ne publiera votre réplication. Et si elle ne sort pas correctement, tu vas juste te faire un ennemi. Ne vous embêtez pas à reproduire. » On a souvent dit aux étudiants de ne pas faire de réplication parce que ce serait mauvais pour leur carrière. Je pense que c'est faux, mais il est vrai que personne ne gagnera un gros lot pour avoir reproduit le travail de quelqu'un d'autre. Le meilleur cheminement de carrière en science consiste à montrer que vous pouvez faire quelque chose d'original, important, et créatif. La réplication est exactement le contraire. Il est important que quelqu'un le fasse, mais ce n'est pas créatif. C'est quelque chose que la plupart des scientifiques veulent que quelqu'un d'autre fasse.

    Ce qu'il faut, ce sont des institutions qui génèrent des réplications en cours, plutôt que de compter sur des scientifiques qui essaient d'être créatifs et de faire des percées pour le faire. Il pourrait s'agir de quelques centres qui se consacrent uniquement à la réplication. Ils pourraient choisir un article sur cinq publié dans une revue donnée, le reproduire, et publier leurs résultats en ligne. Ce serait comme un audit, ou une sorte de Consumer Reports pour la science. Je pense que des institutions comme celle-là vont émerger. Ou peut-être des organismes subventionnaires, comme les National Institutes of Health ou la National Science Foundation, devrait être responsable de la mise en place de garanties. Ils pourraient avoir un processus d'audit qui met de côté l'argent de la subvention pour faire une réplication et vérifier votre travail.

    Pour moi, c'est comme un passe-temps. Maintenant, j'espère qu'un autre groupe de personnes prudentes, très passionnées et intelligentes prendra le relais et commencera à faire des réplications de manière très routinière.


    © Science https://fr.scienceaq.com