Les chaînes d'acides aminés se replient en protéines. Crédit :LadyofHats/Wikimedia Commons
Tous les organismes vivants utilisent des protéines, qui englobent un grand nombre de molécules complexes. Ils remplissent un large éventail de fonctions, allant de permettre aux plantes d'utiliser l'énergie solaire pour la production d'oxygène, d'aider votre système immunitaire à lutter contre les agents pathogènes et de laisser vos muscles effectuer un travail physique. De nombreux médicaments sont également à base de protéines.
Cependant, dans de nombreux domaines de la recherche biomédicale et du développement de médicaments, il n'existe pas de protéines naturelles pouvant servir de points de départ appropriés pour créer de nouvelles protéines. Les chercheurs qui concevaient de nouveaux médicaments pour prévenir l'infection au COVID-19, ou développaient des protéines capables d'activer ou de désactiver des gènes ou de transformer des cellules en ordinateurs, devaient créer de nouvelles protéines à partir de rien.
Ce processus de conception de protéines de novo peut être difficile à maîtriser. Les ingénieurs en protéines comme moi ont essayé de trouver des moyens de concevoir plus efficacement et plus précisément de nouvelles protéines dotées des propriétés dont nous avons besoin.
Heureusement, une forme d'intelligence artificielle appelée apprentissage en profondeur peut fournir un moyen élégant de créer des protéines qui n'existaient pas auparavant :l'hallucination.
Concevoir des protéines à partir de rien
Les protéines sont constituées de centaines à des milliers de blocs de construction plus petits appelés acides aminés. Ces acides aminés sont reliés les uns aux autres par de longues chaînes qui se replient pour former une protéine. L'ordre dans lequel ces acides aminés sont connectés les uns aux autres détermine la structure et la fonction uniques de chaque protéine.
Le plus grand défi auquel sont confrontés les ingénieurs en protéines lors de la conception de nouvelles protéines est de trouver une structure protéique qui remplira une fonction souhaitée. Pour contourner ce problème, les chercheurs créent généralement des modèles de conception basés sur des protéines naturelles ayant une fonction similaire. Ces modèles contiennent des instructions sur la façon de créer les plis uniques de chaque protéine particulière. Cependant, comme un modèle doit être créé pour chaque pli individuel, cette stratégie prend du temps, demande beaucoup de travail et est limitée par les protéines disponibles dans la nature.
Au cours des dernières années, divers groupes de recherche, y compris le laboratoire dans lequel je travaille, ont développé un certain nombre de réseaux de neurones profonds dédiés - des programmes informatiques qui utilisent plusieurs couches de traitement pour "apprendre" des données d'entrée afin de faire des prédictions sur une sortie souhaitée. /P>
Lorsque la sortie souhaitée est une nouvelle protéine, des millions de paramètres décrivant différentes facettes d'une protéine sont mis dans le réseau. Ce qui est prédit est une séquence d'acides aminés choisie au hasard et cartographiée sur la structure 3D la plus probable que cette séquence prendrait.
Les prédictions du réseau pour une séquence aléatoire d'acides aminés sont floues, ce qui signifie que la structure finale de la protéine n'est pas très claire, tandis que les protéines naturelles et les protéines construites à partir de zéro produisent des structures protéiques beaucoup plus bien définies.
De nouvelles protéines hallucinantes
Ces observations suggèrent une façon de générer de nouvelles protéines à partir de rien :en ajustant les entrées aléatoires du réseau jusqu'à ce que les prédictions produisent une structure bien définie.
La méthode de génération de protéines que mes collègues et moi avons développée est conceptuellement similaire aux méthodes de vision par ordinateur telles que DeepDream de Google, qui trouve et améliore les motifs dans les images.
Ces méthodes fonctionnent en prenant des réseaux entraînés à reconnaître des visages humains ou d'autres motifs dans des images, comme la forme d'un animal ou d'un objet, et en les inversant afin qu'ils apprennent à reconnaître ces motifs là où ils n'existent pas. Dans DeepDream, par exemple, le réseau reçoit des images d'entrée arbitraires qui sont ajustées jusqu'à ce que le réseau puisse reconnaître un visage ou une autre forme dans l'image. Bien que l'image finale ne ressemble pas beaucoup à un visage pour une personne qui la regarde, elle le serait pour le réseau de neurones.
Les produits de cette technique sont souvent appelés hallucinations, et c'est aussi ce que nous appelons nos protéines conçues.
Notre méthode commence par faire passer une séquence aléatoire d'acides aminés à travers un réseau neuronal profond. Les prédictions qui en résultent sont initialement floues, avec des structures peu claires, comme prévu pour des séquences aléatoires. Ensuite, nous introduisons une mutation qui transforme un acide aminé de la chaîne en un autre et transmettons à nouveau cette nouvelle séquence à travers le réseau. Si ce changement donne à la protéine une structure plus définie, alors on garde l'acide aminé et on introduit une autre mutation dans la séquence.
À chaque répétition de ce processus, les protéines se rapprochent de plus en plus de la forme réelle qu'elles prendraient si elles étaient produites dans la nature. Des milliers de répétitions sont nécessaires pour créer une toute nouvelle protéine.
En utilisant ce processus, nous avons généré 2 000 nouvelles séquences de protéines censées se replier dans des structures bien définies. Parmi ceux-ci, nous en avons sélectionné plus de 100 qui avaient la forme la plus distincte à recréer physiquement en laboratoire. Enfin, nous avons choisi trois des meilleurs candidats pour une analyse détaillée et avons confirmé qu'ils correspondaient étroitement aux formes prédites par nos modèles hallucinés.
Pourquoi halluciner de nouvelles protéines ?
Notre approche d'hallucination simplifie grandement le pipeline de conception de protéines. En éliminant le besoin de modèles, les chercheurs peuvent se concentrer directement sur la création d'une protéine basée sur les fonctions souhaitées et laisser le réseau s'occuper de déterminer la structure pour eux.
Nos travaux ouvrent de multiples pistes aux chercheurs. Notre laboratoire étudie actuellement la meilleure façon d'utiliser cette approche d'hallucination pour générer encore plus de spécificité dans la fonction des protéines conçues. Notre approche peut également être facilement étendue pour concevoir de nouvelles protéines en utilisant d'autres réseaux de neurones profonds récemment développés.
Les applications potentielles des protéines de novo sont vastes. Grâce aux réseaux de neurones profonds, les chercheurs pourront créer encore plus de protéines capables de décomposer les plastiques pour réduire la pollution de l'environnement, identifier et répondre aux cellules malsaines et améliorer les vaccins contre les agents pathogènes existants et nouveaux, pour n'en nommer que quelques-uns.