Des chatbots intelligents aux applications capables d'écrire des articles entiers, l'intelligence artificielle (IA) devient une partie de plus en plus omniprésente dans nos vies. Michael Schon, associé de recherche à l'Université et recherche de Wageningen, conçoit un outil d'IA capable d'effectuer des comparaisons d'ARN non codants sur les génomes végétaux. Cet outil devrait accélérer et simplifier le développement futur de nouvelles variétés végétales plus résistantes à la sécheresse ou aux maladies, par exemple.
Les protéines sont les éléments constitutifs des cellules des organismes. Les instructions pour fabriquer ces protéines sont émises (codées) par l'ARN des gènes. A côté de ces ARN codants, certains gènes peuvent produire des ARN non codants :autrement dit, des ARN qui ne contiennent pas d'instructions pour fabriquer une protéine.
Ce type d'ARN joue également un rôle important dans le développement des organismes, explique Michael Schon. "Par exemple, ils peuvent activer des gènes, ou faire le contraire et les désactiver. Cela affectera l'apparence d'une plante et ses propriétés. Certains ARN non codants importants déterminent également si une plante atteint sa maturité."
L’ARN non codant pourrait également potentiellement révéler pourquoi une espèce végétale appartient à une famille particulière tout en présentant des caractéristiques différentes. Dans des recherches antérieures, Schon a identifié des ARN non codants d'Arabidopsis thaliana (thale cress). Cette plante est utilisée par les phytologues comme organisme modèle.
"Arabidopsis appartient à la famille des Brassicaceae, avec des cultures importantes comme le brocoli, le chou-fleur et le chou-rave. Cette famille est également connue sous le nom de famille de la moutarde ou des crucifères. Cependant, il est difficile de comparer les ARN non codants d'Arabidopsis avec ceux d'autres plantes de la famille. famille de la moutarde, car les travaux antérieurs sur ces espèces se sont principalement concentrés sur les gènes codant pour les protéines."
Annotation limitée de l'ARN non codant
Cela signifie qu’une comparaison entre plantes nécessite une annotation génétique distincte pour l’ARN non codant de chaque culture. Grâce à son projet Veni, Schon recherche de nouvelles façons d'identifier les ARN non codants en utilisant les connaissances d'espèces apparentées.
"Plus de 200 séquences génomiques sont disponibles pour les plantes de la famille de la moutarde. Chaque génome est stocké sous la forme d'un gros fichier texte composé de millions de lettres qui représentent les bases d'une molécule d'ADN (A, C, T et G). Parce que le non -les bits codants ne sont pas catalogués (annotés) correctement dans ces génomes, il est impossible de comparer tous les gènes non codants dispersés dans cette montagne de données. Nous avons besoin de nouvelles stratégies et de nouveaux outils pour cela. J'essaie de les développer.
Le premier problème est de savoir où chercher dans le génome. L'un des outils que Schon développe est quelque chose qu'il appelle GeneSketch. Pour trouver les parties correspondantes de différents génomes, il utilise une méthode appelée Minimizer Sketch.
"L'idée derrière Minimizer Sketch est qu'il suffit de regarder un petit morceau d'ADN (un croquis) plutôt que la séquence entière", explique Schon. "Cela signifie qu'il suffit de prêter attention à quelques milliers de caractères par génome pour effectuer une comparaison, plutôt qu'à des millions.
Le Minimizer Sketch était auparavant utilisé pour construire un arbre de l’évolution des primates, qui inclut les humains et leurs plus proches parents. Il s’est avéré qu’un arbre généalogique très précis de nos ancêtres peut être réalisé à partir de croquis représentant moins de 1 % de l’ensemble du génome. Un croquis minimiseur est donc un moyen très efficace d'estimer à quel point les morceaux d'ADN sont similaires les uns aux autres, il devrait donc également être utile pour comparer les génomes au sein de la famille moutarde."
Une fois que vous savez où chercher, l’étape suivante consiste à comprendre ce que vous regardez. La technologie que Schon prévoit d'utiliser dans GeneSketch est la même que celle actuellement utilisée dans d'autres outils d'IA, tels que ChatGPT.
"C'est ce qu'on appelle la technologie des 'transformateurs'", explique Schon.
"Vous pouvez par exemple demander à un transformateur de remplir un mot manquant dans une phrase. Au départ, le transformateur vous donne un mot aléatoire car il n'a jamais vu de mots auparavant. Mais si vous l'entraînez sur des millions d'exemples de phrases, il apprend lentement deviner les bons mots en prêtant attention aux modèles dans le texte.
"Après la formation, un grand modèle de langage comme ChatGPT devient très efficace pour certaines tâches, comme répondre à des questions ou traduire d'une langue à une autre. Un transformateur peut être formé pour apprendre non seulement les langues humaines, mais aussi le langage de l'ADN, qui a ses propres propres modèles distincts. Je travaille sur un modèle permettant de détecter des modèles dans l'ADN de nombreuses espèces différentes et de traduire ces modèles dans un langage que nous, humains, pouvons comprendre. "
Schon formera le transformateur de GeneSketch pour qu'il prête attention à la façon dont les gènes changent d'une espèce à l'autre, en particulier les gènes non codants. Mais il s'attend à rencontrer quelques défis en cours de route.
"Un problème important est la fiabilité. Le transformateur est une technologie relativement nouvelle et il commet des erreurs. ChatGPT, par exemple, a été formé sur de nombreuses sources de texte différentes, mais si vous lui posez un sujet qu'il n'a jamais vu pendant la formation, il doit inventez quelque chose. Vous espérez que cela constitue quelque chose de raisonnable en fonction des modèles qu'il a vus, mais ce n'est jamais une garantie. Vous voulez évidemment éviter les sorties absurdes. Plus vous entraînez un transformateur, moins il produit d'absurdités. peut coûter beaucoup de temps et d'argent. Est-il préférable de former le modèle entièrement à partir de zéro ou de partir de modèles existants ? J'essaie les deux approches. »
Schon espère disposer d'un prototype du GeneSketch après la première année du projet, qui a débuté en octobre 2023. Il prévoit de l'utiliser pour créer des annotations génétiques pour toute la famille des moutardes.
Cet outil pourrait être utile non seulement au secteur de la recherche, mais également au secteur agricole, estime Schon. "Cela pourrait, par exemple, fournir aux sélectionneurs de semences un moyen rapide de comprendre l'ADN d'une culture et de ses espèces sauvages apparentées. En en apprenant davantage sur la façon dont les cultures ont pu développer des caractères uniques au fil des siècles, les sélectionneurs pourraient prendre des décisions plus éclairées pour améliorer les caractéristiques, par exemple en rendant les cultures plus résilientes au changement climatique. L'impact potentiel pourrait donc être énorme."
Fourni par l'Université de Wageningen