L'acide aminé sélénocystéine, Modèle de boules 3D. Crédit :YassineMrabet/CC BY 3.0/Wikipédia
Presque tous les processus biologiques fondamentaux nécessaires à la vie sont effectués par des protéines. Ils créent et maintiennent les formes des cellules et des tissus; constituent les enzymes qui catalysent les réactions chimiques vitales ; agissent comme des usines moléculaires, transporteurs et moteurs; servir à la fois de signal et de récepteur pour les communications cellulaires ; et beaucoup plus.
Composé de longues chaînes d'acides aminés, les protéines effectuent ces innombrables tâches en se repliant dans des structures 3D précises qui régissent la façon dont elles interagissent avec d'autres molécules. Parce que la forme d'une protéine détermine sa fonction et l'étendue de son dysfonctionnement dans la maladie, les efforts pour éclairer les structures des protéines sont au cœur de toute la biologie moléculaire, et en particulier, la science thérapeutique et le développement de médicaments qui sauvent et modifient la vie.
Dans les années récentes, les méthodes informatiques ont fait des progrès significatifs dans la prédiction de la façon dont les protéines se replient sur la base de la connaissance de leur séquence d'acides aminés. Si pleinement réalisé, ces méthodes ont le potentiel de transformer pratiquement toutes les facettes de la recherche biomédicale. Approches actuelles, cependant, sont limités dans l'échelle et la portée des protéines qui peuvent être déterminées.
Maintenant, un scientifique de la Harvard Medical School a utilisé une forme d'intelligence artificielle connue sous le nom d'apprentissage en profondeur pour prédire la structure 3-D de n'importe quelle protéine en fonction de sa séquence d'acides aminés.
Signalement en ligne dans Systèmes cellulaires le 17 avril, Le biologiste des systèmes Mohammed AlQuraishi détaille une nouvelle approche pour déterminer par ordinateur la structure des protéines, atteignant une précision comparable aux méthodes de pointe actuelles, mais à des vitesses un million de fois plus rapides.
"Le repliement des protéines a été l'un des problèmes les plus importants pour les biochimistes au cours du dernier demi-siècle, et cette approche représente une manière fondamentalement nouvelle de relever ce défi, " a déclaré AlQuraishi, instructeur en biologie des systèmes à l'Institut Blavatnik de HMS et membre du Laboratoire de pharmacologie des systèmes. « Nous avons maintenant une toute nouvelle perspective à partir de laquelle explorer le repliement des protéines, et je pense que nous venons juste de commencer à gratter la surface."
Facile à énoncer
Bien que très réussi, les processus qui utilisent des outils physiques pour identifier les structures des protéines sont coûteux et longs, même avec des techniques modernes telles que la cryomicroscopie électronique. En tant que tel, la grande majorité des structures protéiques et les effets des mutations causant la maladie sur ces structures sont encore largement inconnus.
Les méthodes informatiques qui calculent le repliement des protéines ont le potentiel de réduire considérablement le coût et le temps nécessaires pour déterminer la structure. Mais le problème est difficile et reste sans solution après près de quatre décennies d'efforts intenses.
Les protéines sont construites à partir d'une bibliothèque de 20 acides aminés différents. Ceux-ci agissent comme des lettres dans un alphabet, combiner en mots, phrases et paragraphes pour produire un nombre astronomique de textes possibles. Contrairement aux lettres de l'alphabet, cependant, les acides aminés sont des objets physiques positionnés dans l'espace 3-D. Souvent, les sections d'une protéine seront à proximité physique mais seront séparées par de grandes distances en termes de séquence, comme ses chaînes d'acides aminés forment des boucles, spirales, feuilles et torsades.
« Ce qui est convaincant dans le problème, c'est qu'il est assez facile à énoncer :prenez une séquence et déterminez la forme, " a déclaré AlQuraishi. " Une protéine commence comme une chaîne non structurée qui doit prendre une forme 3-D, et les ensembles de formes possibles dans lesquels une chaîne peut se plier sont énormes. De nombreuses protéines sont longues de milliers d'acides aminés, et la complexité dépasse rapidement la capacité de l'intuition humaine ou même des ordinateurs les plus puissants."
Difficile à résoudre
Pour relever ce défi, les scientifiques tirent parti du fait que les acides aminés interagissent les uns avec les autres sur la base des lois de la physique, rechercher des états énergétiquement favorables comme une boule qui dévale une pente pour s'installer au fond d'une vallée.
Les algorithmes les plus avancés calculent la structure des protéines en s'exécutant sur des superordinateurs - ou sur une puissance de calcul participative dans le cas de projets tels que Rosetta@Home et Folding@Home - pour simuler la physique complexe des interactions d'acides aminés par force brute. Pour réduire les exigences de calcul massives, ces projets reposent sur le mappage de nouvelles séquences sur des modèles prédéfinis, qui sont des structures protéiques préalablement déterminées par l'expérience.
D'autres projets tels que l'AlphaFold de Google ont récemment suscité un enthousiasme considérable en utilisant les progrès de l'intelligence artificielle pour prédire la structure d'une protéine. Faire cela, ces approches analysent d'énormes volumes de données génomiques, qui contiennent le schéma directeur des séquences protéiques. Ils recherchent des séquences parmi de nombreuses espèces qui ont probablement évolué ensemble, utiliser de telles séquences comme indicateurs de proximité physique étroite avec l'assemblage de la structure de guidage.
Ces approches d'IA, cependant, ne prédisent pas des structures basées uniquement sur la séquence d'acides aminés d'une protéine. Ainsi, ils ont une efficacité limitée pour les protéines pour lesquelles il n'y a pas de connaissance préalable, protéines évolutives uniques ou nouvelles protéines conçues par l'homme.
S'entraîner en profondeur
Pour développer une nouvelle approche, AlQuraishi a appliqué ce que l'on appelle l'apprentissage en profondeur différentiable de bout en bout. Cette branche de l'intelligence artificielle a considérablement réduit la puissance et le temps de calcul nécessaires pour résoudre des problèmes tels que la reconnaissance d'image et de parole, permettant des applications telles que Siri d'Apple et Google Translate.
En substance, l'apprentissage différentiable implique un seul, énorme fonction mathématique - une version beaucoup plus sophistiquée d'une équation de calcul de lycée - arrangée comme un réseau de neurones, avec chaque composant du réseau alimentant l'information en avant et en arrière.
Cette fonction peut s'accorder et s'ajuster, encore et encore à des niveaux de complexité inimaginables, afin "d'apprendre" précisément comment une séquence protéique se rapporte mathématiquement à sa structure.
AlQuraishi a développé un modèle d'apprentissage en profondeur, appelé réseau géométrique récurrent, qui se concentre sur les caractéristiques clés du repliement des protéines. Mais avant de pouvoir faire de nouvelles prédictions, il doit être entraîné à l'aide de séquences et de structures préalablement déterminées.
Pour chaque acide aminé, le modèle prédit l'angle le plus probable des liaisons chimiques qui relient l'acide aminé à ses voisins. Il prédit également l'angle de rotation autour de ces liaisons, qui affecte la façon dont toute section locale d'une protéine est liée géométriquement à la structure entière.
Ceci est fait à plusieurs reprises, avec chaque calcul informé et affiné par les positions relatives de chaque autre acide aminé. Une fois toute la structure terminée, le modèle vérifie l'exactitude de sa prédiction en la comparant à la structure de « vérité terrain » de la protéine.
Tout ce processus est répété pour des milliers de protéines connues, avec le modèle apprenant et améliorant sa précision à chaque itération.
Nouvelle vue
Une fois son modèle formé, AlQuraishi a testé son pouvoir prédictif. Il a comparé ses performances à d'autres méthodes de plusieurs années récentes de la Critical Assessment of Protein Structure Prediction, une expérience annuelle qui teste les méthodes de calcul pour leur capacité à faire des prédictions à l'aide de structures de protéines qui ont été déterminées mais non rendues publiques.
Il a découvert que le nouveau modèle surpassait toutes les autres méthodes pour prédire les structures protéiques pour lesquelles il n'y a pas de modèles préexistants, y compris les méthodes qui utilisent des données co-évolutives. Il a également surpassé toutes les méthodes, sauf les meilleures, lorsque des modèles préexistants étaient disponibles pour faire des prédictions.
Bien que ces gains de précision soient relativement faibles, AlQuraishi note que toute amélioration au sommet de ces tests est difficile à réaliser. Et parce que cette méthode représente une approche entièrement nouvelle du repliement des protéines, il peut compléter les méthodes existantes, à la fois informatique et physique, pour déterminer une gamme de structures beaucoup plus large qu'auparavant.
Étonnamment, le nouveau modèle effectue ses prédictions à environ six à sept ordres de grandeur plus rapidement que les méthodes de calcul existantes. La formation du modèle peut prendre des mois, mais une fois entraîné, il peut faire des prédictions en millisecondes par rapport aux heures ou aux jours qu'il faut en utilisant d'autres approches. Cette amélioration spectaculaire est en partie due à la fonction mathématique unique sur laquelle elle est basée, ne nécessitant que quelques milliers de lignes de code informatique pour s'exécuter au lieu de millions.
La rapidité des prédictions de ce modèle permet de nouvelles applications qui étaient auparavant lentes ou difficiles à réaliser, AlQuraishi a dit, comme prédire comment les protéines changent de forme lorsqu'elles interagissent avec d'autres molécules.
"Approches d'apprentissage en profondeur, pas seulement le mien, continueront de croître en pouvoir prédictif et en popularité, car ils représentent un minimum, paradigme simple qui peut intégrer de nouvelles idées plus facilement que les modèles complexes actuels, " il ajouta.
Le nouveau modèle n'est pas immédiatement prêt à l'emploi, dire, la découverte ou la conception de médicaments, AlQuraishi a dit, parce que sa précision se situe actuellement autour de 6 angströms, toujours à une certaine distance des 1 à 2 angströms nécessaires pour résoudre la structure atomique complète d'une protéine. Mais il existe de nombreuses opportunités pour optimiser l'approche, il a dit, y compris des règles d'intégration supplémentaires tirées de la chimie et de la physique.
"La prédiction précise et efficace du repliement des protéines a été un Saint Graal pour le domaine, et j'espère et j'attends que cette approche, combiné avec toutes les autres méthodes remarquables qui ont été développées, pourra le faire dans un avenir proche, " a déclaré AlQuraishi. " Nous pourrions résoudre ce problème bientôt, et je pense que personne n'aurait dit cela il y a cinq ans. C'est très excitant et aussi un peu choquant en même temps."
Pour aider les autres à participer au développement de la méthode, AlQuraishi a rendu son logiciel et ses résultats disponibles gratuitement via la plate-forme de partage de logiciels GitHub.
"Une caractéristique remarquable du travail d'AlQuraishi est qu'un seul chercheur, intégré dans le riche écosystème de recherche de la Harvard Medical School et de la communauté biomédicale de Boston, peut rivaliser avec des entreprises telles que Google dans l'un des domaines les plus en vogue de l'informatique, " dit Peter Sorger, HMS Otto Krayer Professeur de pharmacologie des systèmes à l'Institut Blavatnik de HMS, directeur du Laboratoire de pharmacologie des systèmes à HMS et mentor académique d'AlQuraishi.
"Il est imprudent de sous-estimer l'impact perturbateur de brillants boursiers comme AlQuraishi travaillant avec des logiciels open source dans le domaine public, " dit Sorger.