Les chercheurs intéressés par l'amélioration d'un caractère donné chez les plantes peuvent désormais identifier les gènes qui régulent l'expression de ce caractère sans faire d'expériences.
Kranthi Varala de l'Université Purdue et 10 co-auteurs ont publié les détails du nouvel outil de découverte de gènes régulateurs basé sur le Web dans les Actes de l'Académie nationale des sciences. . Varala a un brevet en instance sur les résultats liés à la biosynthèse de l'huile de graines d'importance économique.
L'équipe Purdue-USDA a cherché à créer une ressource qui apprend, à partir de grandes quantités de données accessibles au public, à identifier rapidement quels gènes spéciaux appelés facteurs de transcription régulent l'expression d'un trait donné chez diverses espèces végétales.
"Chaque étude se concentre sur une poignée d'entre eux", a déclaré Varala, professeur adjoint d'horticulture et d'architecture paysagère. "Notre principe était que si nous pouvions tout regrouper dans une seule analyse, nous pourrions alors utiliser ces données pour construire quelque chose de global."
Arabidopsis a servi de PNAS plante modèle de l'étude, "mais cette approche n'a rien de spécifique à Arabidopsis", a déclaré Varala. "L'approche est suffisamment générale pour que vous puissiez commencer avec un ensemble de données sur le maïs. Vous pouvez le faire avec du riz, de la tomate, quelle que soit la culture sur laquelle vous travaillez, à condition que vous disposiez de milliers de mesures d'expression génique effectuées par des personnes. Et il y a plus d'une douzaine d'espèces pour lesquelles nous disposons désormais de dizaines de milliers d'études sur l'expression des gènes. "
Pour prouver que le système fonctionne, l’équipe s’est concentrée sur une voie génétique qui régule la manière dont les plantes produisent et stockent l’huile dans leurs graines. L'équipe a choisi ce trait en raison de son importance dans la production alimentaire et de biocarburants, et parce que plus de 300 des gènes impliqués sont déjà connus.
En manipulant génétiquement les facteurs de transcription d'une plante, les chercheurs peuvent augmenter ou diminuer la quantité d'huile produite dans ses graines.
Comme d'autres chercheurs, Varala a mené de nombreux projets au fil des années, dont le but était d'identifier les gènes et les régulateurs impliqués dans la résolution d'un problème. Cela impliquait de mener des expériences minutieuses et fastidieuses. Mais les données générées n’ont pas fourni toutes les réponses qu’il cherchait. Il a comparé cela à l'élaboration d'une équation ne connaissant que trois des dix facteurs impliqués.
"Vous ne pouvez pas résoudre l'équation", a-t-il déclaré. De même, Varala souhaitait souvent poser plus de questions que les données ne pouvaient répondre. Cela l'a motivé à construire un cadre qui utilise toutes les données possibles pour poser ces questions sans avoir à faire toutes les expériences pertinentes pour obtenir une liste de candidats qui nécessitent ensuite une validation génétique.
"J'essaie de court-circuiter la phase initiale de collecte de données", a déclaré Varala, afin que les scientifiques puissent se concentrer sur les validations génétiques. Mais pour ce faire, son équipe a dû commencer avec un ensemble de données basé sur 18 000 études individuelles.
Varala et son équipe ont analysé cet ensemble de données massif à l'aide des supercalculateurs Bell et Brown, désormais retirés, du Rosen Center for Advanced Computing de Purdue. L'équipe a créé un cadre d'apprentissage automatique pour accélérer le processus pour les autres.
Il serait impossible pour une seule personne de le faire manuellement. Une équipe pourrait le faire, mais cela introduirait des biais dans la manière dont les membres du groupe traitent les données. Le classificateur d'apprentissage automatique fonctionne sans parti pris.
La nouveauté de l’approche est qu’au lieu d’extraire des données relatives à tous les organes, elle se concentre sur des ensembles de données spécifiques à un organe. Des réseaux génétiques indépendants régulent ces organes :feuilles, racines, pousses, fleurs et graines.
"Au lieu d'utiliser tous les organes, nous avons dit, dans le cadre des expériences sur les graines que les gens ont faites au fil des ans, pouvons-nous utiliser toutes les données pour apprendre quelque chose qui se passe dans la graine et pas nécessairement dans la racine, la feuille ou la fleur ? Cela a amélioré beaucoup notre approche", a déclaré Varala.
L'équipe a utilisé une méthode informatique appelée approche d'inférence pour prédire quels facteurs de transcription réguleraient le processus de biosynthèse de l'huile de graine chez Arabidopsis.
"Ceux que nous connaissons nous aident à valider que notre approche fonctionne correctement. Ceux que nous ne connaissons pas sont de bons candidats pour découvrir une nouvelle biologie", a déclaré Varala. "Cette approche purement informatique ne sait rien des graines, de l'huile ou quoi que ce soit du genre. Nous lui avons donné une liste de gènes et elle a pu redécouvrir ceux connus sans connaître aucun contexte biologique."
L'auteur principal, Rajeev Ranjan, chercheur postdoctoral au Département d'horticulture et d'architecture paysagère de Purdue, a pris les 12 autres parmi les 20 premiers et a demandé si ces prédictions étaient vraies. "Nous avons pu générer des lignées mutantes pour onze de ces douze. Cinq de ces onze modifient la teneur en huile des graines", a-t-il déclaré. "En outre, nous avons également montré que la surexpression d'un facteur augmente l'huile de graine jusqu'à douze pour cent."
Les huit gènes régulateurs connus, ajoutés aux huit nouveaux, ont montré que l'approche d'inférence a identifié avec précision 13 des 20 meilleurs candidats. La force de cette approche réside dans le fait qu'en travaillant uniquement à partir d'une liste de gènes, elle peut prédire avec une grande précision lesquels réguleront un trait d'intérêt.
"Cela a pris beaucoup de temps parce que c'est un processus long et compliqué, et il n'y avait aucune garantie que cela fonctionnerait", a déclaré Varala à propos du projet de quatre ans. "Rien de cette envergure n'avait été tenté auparavant."
Plus d'informations : Rajeev Ranjan et al, Les réseaux de régulation des gènes délimités par des organes fournissent une grande précision dans la sélection des facteurs de transcription candidats à travers divers processus, Actes de l'Académie nationale des sciences (2024). DOI : 10.1073/pnas.2322751121
Informations sur le journal : Actes de l'Académie nationale des sciences
Fourni par l'Université Purdue