L’IA peut aider les chercheurs à comprendre ce que font les virus dans les océans et dans vos intestins

Les virus constituent une force mystérieuse et mal comprise dans les écosystèmes microbiens. Les chercheurs savent qu’ils peuvent infecter, tuer et manipuler les cellules humaines et bactériennes dans presque tous les environnements, des océans jusqu’aux intestins. Mais les scientifiques n'ont pas encore une idée complète de la façon dont les virus affectent leur environnement, en grande partie à cause de leur extraordinaire diversité et de leur capacité à évoluer rapidement.

Les communautés de microbes sont difficiles à étudier en laboratoire. De nombreux microbes sont difficiles à cultiver, et leur environnement naturel présente bien plus de caractéristiques qui influencent leur succès ou leur échec que ce que les scientifiques peuvent reproduire en laboratoire.

Ainsi, les biologistes systémiques comme moi séquencent souvent tout l’ADN présent dans un échantillon (par exemple, un échantillon fécal d’un patient), séparent les séquences d’ADN viral, puis annotent les sections du génome viral qui codent pour les protéines. Ces notes sur l'emplacement, la structure et d'autres caractéristiques des gènes aident les chercheurs à comprendre les fonctions que les virus peuvent remplir dans l'environnement et à identifier différents types de virus. Les chercheurs annotent les virus en faisant correspondre les séquences virales d'un échantillon aux séquences précédemment annotées disponibles dans les bases de données publiques de séquences génétiques virales.

Cependant, les scientifiques identifient des séquences virales dans l’ADN collecté dans l’environnement à un rythme qui dépasse de loin notre capacité à annoter ces gènes. Cela signifie que les chercheurs publient des résultats sur les virus dans les écosystèmes microbiens en utilisant des fractions inacceptablement petites des données disponibles.

Pour améliorer la capacité des chercheurs à étudier les virus du monde entier, mon équipe et moi avons développé une nouvelle approche pour annoter les séquences virales à l’aide de l’intelligence artificielle. Grâce à des modèles de langage protéique semblables à de grands modèles de langage comme ChatGPT mais spécifiques aux protéines, nous avons pu classer des séquences virales inédites. Cela ouvre la porte aux chercheurs non seulement pour en apprendre davantage sur les virus, mais également pour aborder des questions biologiques auxquelles il est difficile de répondre avec les techniques actuelles.

Annoter les virus avec l'IA

Les grands modèles de langage utilisent les relations entre les mots dans de grands ensembles de données de texte pour fournir des réponses potentielles à des questions auxquelles on ne leur a pas explicitement « appris » la réponse. Lorsque vous demandez à un chatbot « Quelle est la capitale de la France ? par exemple, le modèle ne recherche pas la réponse dans un tableau des capitales. Au lieu de cela, il utilise sa formation sur d'énormes ensembles de données de documents et d'informations pour déduire la réponse :"La capitale de la France est Paris."

De même, les modèles de langage protéique sont des algorithmes d’IA entraînés à reconnaître les relations entre des milliards de séquences protéiques provenant d’environnements du monde entier. Grâce à cette formation, ils pourront peut-être déduire quelque chose sur l'essence des protéines virales et leurs fonctions.

Nous nous sommes demandés si les modèles de langage protéique pouvaient répondre à cette question :« Compte tenu de toutes les séquences génétiques virales annotées, quelle est la fonction de cette nouvelle séquence ? »

Dans notre preuve de concept, nous avons formé des réseaux neuronaux sur des séquences de protéines virales précédemment annotées dans des modèles de langage protéique pré-entraînés, puis nous les avons utilisés pour prédire l'annotation de nouvelles séquences de protéines virales. Notre approche nous permet de sonder ce que le modèle « voit » dans une séquence virale particulière qui mène à une annotation particulière. Cela permet d'identifier les protéines candidates d'intérêt en fonction de leurs fonctions spécifiques ou de la manière dont leur génome est organisé, en parcourant l'espace de recherche de vastes ensembles de données.

En identifiant des fonctions de gènes viraux plus éloignées, les modèles de langage protéique peuvent compléter les méthodes actuelles pour fournir de nouvelles informations sur la microbiologie. Par exemple, mon équipe et moi avons pu utiliser notre modèle pour découvrir une intégrase jusqu’alors méconnue – un type de protéine capable de déplacer des informations génétiques dans et hors des cellules – chez les picocyanobactéries marines abondantes à l’échelle mondiale, Prochlorococcus et Synechococcus. Notamment, cette intégrase pourrait être capable de déplacer des gènes vers et hors de ces populations de bactéries dans les océans et permettre à ces microbes de mieux s'adapter aux environnements changeants.

Notre modèle linguistique a également identifié une nouvelle protéine de capside virale répandue dans les océans du monde. Nous avons produit la première image de la façon dont ses gènes sont disposés, montrant qu'il peut contenir différents ensembles de gènes qui, selon nous, indiquent que ce virus remplit différentes fonctions dans son environnement.

Ces résultats préliminaires ne représentent que deux des milliers d'annotations fournies par notre approche.

Analyser l'inconnu

La plupart des centaines de milliers de virus récemment découverts restent non classifiés. De nombreuses séquences génétiques virales correspondent à des familles de protéines sans fonction connue ou n’ayant jamais été observées auparavant. Nos travaux montrent que des modèles de langage protéique similaires pourraient aider à étudier la menace et la promesse des nombreux virus non caractérisés de notre planète.

Alors que notre étude s’est concentrée sur les virus présents dans les océans du monde, une meilleure annotation des protéines virales est essentielle pour mieux comprendre le rôle que jouent les virus dans la santé et les maladies du corps humain. Nous et d'autres chercheurs avons émis l'hypothèse que l'activité virale dans le microbiome intestinal humain pourrait être modifiée lorsque vous êtes malade. Cela signifie que les virus peuvent aider à identifier le stress dans les communautés microbiennes.

Cependant, notre approche est également limitée car elle nécessite des annotations de haute qualité. Les chercheurs développent de nouveaux modèles de langage protéique qui intègrent d'autres « tâches » dans le cadre de leur formation, notamment la prédiction des structures protéiques afin de détecter des protéines similaires, afin de les rendre plus puissantes.

Rendre tous les outils d'IA disponibles via les principes de données FAIR (des données trouvables, accessibles, interopérables et réutilisables) peut aider les chercheurs dans leur ensemble à réaliser le potentiel de ces nouvelles façons d'annoter les séquences de protéines conduisant à des découvertes bénéfiques pour la santé humaine.

Fourni par The Conversation

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.