• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Biologie
    Une étude révèle des failles dans une méthode génétique populaire

    Évaluation de la précision du regroupement PCA pour une population de test hétérogène dans une simulation d'un environnement GWAS. (A) La vraie distribution de la population test Cyan (n = 1000). (B) PCA de la population test avec huit échantillons de taille égale (n = 250) provenant de populations de référence. (C) PCA de la population test avec Blue de l'analyse précédente montre un chevauchement minimal entre les cohortes. (D) PCA de la population test avec cinq échantillons de taille égale (n = 250) provenant de populations de référence, y compris Cyan (marqué par une flèche). Les couleurs (B) de haut en bas et de gauche à droite incluent :jaune [1,1,0], rouge clair [1,0,0,5], violet [1,0,1], violet foncé [0,5,0,0,5 ], Noir [0,0,0], Vert foncé [0,0.5,0], Vert [0,1,0] et Bleu [1,0,0]. Crédit :Rapports scientifiques (2022). DOI :10.1038/s41598-022-14395-4

    La méthode d'analyse la plus courante en génétique des populations est profondément défectueuse, selon une nouvelle étude de l'Université de Lund en Suède. Cela peut avoir conduit à des résultats incorrects et à des idées fausses sur l'ethnicité et les relations génétiques. La méthode a été utilisée dans des centaines de milliers d'études, affectant les résultats de la génétique médicale et même des tests d'ascendance commerciaux. L'étude est publiée dans Rapports scientifiques .

    Le rythme auquel les données scientifiques peuvent être collectées augmente de manière exponentielle, ce qui conduit à des ensembles de données massifs et très complexes, surnommés la "révolution du Big Data". Pour rendre ces données plus gérables, les chercheurs utilisent des méthodes statistiques qui visent à compacter et à simplifier les données tout en conservant la plupart des informations clés. La méthode la plus largement utilisée est peut-être appelée PCA (analyse en composantes principales). Par analogie, considérez PCA comme un four avec de la farine, du sucre et des œufs comme données d'entrée. Le four peut toujours faire la même chose, mais le résultat, un gâteau, dépend essentiellement des proportions des ingrédients et de la façon dont ils sont combinés.

    "On s'attend à ce que cette méthode donne des résultats corrects car elle est si fréquemment utilisée. Mais ce n'est ni une garantie de fiabilité ni des conclusions statistiquement robustes", déclare le Dr Eran Elhaik, professeur agrégé de biologie cellulaire moléculaire à l'Université de Lund.

    Selon Elhaik, la méthode a contribué à créer de vieilles perceptions sur la race et l'ethnicité. Il joue un rôle dans la fabrication de récits historiques sur qui et d'où viennent les gens, non seulement par la communauté scientifique mais aussi par des sociétés commerciales d'ascendance. Un exemple célèbre est celui où un éminent politicien américain a passé un test d'ascendance avant la campagne présidentielle de 2020 pour soutenir ses revendications ancestrales. Un autre exemple est l'idée fausse selon laquelle les Juifs ashkénazes sont une race ou un groupe isolé motivé par les résultats du PCA.

    "Cette étude démontre que ces résultats n'étaient pas fiables", déclare Eran Elhaik.

    L'ACP est utilisée dans de nombreux domaines scientifiques, mais l'étude d'Elhaik se concentre sur son utilisation en génétique des populations, où l'explosion de la taille des ensembles de données est particulièrement aiguë, en raison des coûts réduits du séquençage de l'ADN.

    Le domaine de la paléogénomique, où nous voulons en savoir plus sur les peuples et les individus anciens tels que les Européens de l'âge du cuivre, s'appuie fortement sur l'ACP. L'ACP est utilisée pour créer une carte génétique qui positionne l'échantillon inconnu aux côtés d'échantillons de référence connus. Jusqu'à présent, les échantillons inconnus ont été supposés être liés à la population de référence qu'ils chevauchent ou dont ils se trouvent le plus près sur la carte.

    Cependant, Elhaik a découvert que l'échantillon inconnu pouvait être amené à se trouver à proximité de pratiquement n'importe quelle population de référence simplement en modifiant le nombre et les types des échantillons de référence, générant des versions historiques pratiquement sans fin, toutes mathématiquement "correctes", mais une seule peut être biologiquement correcte. .

    Dans l'étude, Elhaik a examiné les douze applications génétiques des populations les plus courantes de l'ACP. Il a utilisé à la fois des données génétiques simulées et réelles pour montrer à quel point les résultats de l'ACP peuvent être flexibles. Selon Elhaik, cette flexibilité signifie que les conclusions basées sur l'ACP ne sont pas fiables, car toute modification de la référence ou des échantillons de test produira des résultats différents.

    Entre 32 000 et 216 000 articles scientifiques portant uniquement sur la génétique ont utilisé l'ACP pour explorer et visualiser les similitudes et les différences entre les individus et les populations et ont fondé leurs conclusions sur ces résultats.

    "Je pense que ces résultats doivent être réévalués", déclare Elhaik.

    Il espère que la nouvelle étude développera une meilleure approche pour remettre en question les résultats et contribuera ainsi à rendre la science plus fiable. Il a passé une partie importante de la dernière décennie à mettre au point de telles méthodes, comme la structure géographique de la population (GPS), pour prédire la biogéographie à partir de l'ADN, et le Pairwise Matcher, qui améliore les appariements cas-témoins utilisés dans les tests génétiques et les essais de médicaments.

    "Les techniques qui offrent une telle flexibilité encouragent la mauvaise science et sont particulièrement dangereuses dans un monde où la pression est intense pour publier. Si un chercheur exécute PCA plusieurs fois, la tentation sera toujours de sélectionner la sortie qui fait la meilleure histoire", ajoute le professeur William Amos, de l'Université de Cambridge, qui n'a pas participé à l'étude. + Explorer plus loin

    Des chercheurs développent la première méthode basée sur l'IA pour dater les vestiges archéologiques




    © Science https://fr.scienceaq.com