• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Chimie
    Le modèle apprend comment les acides aminés individuels déterminent la fonction des protéines

    Un nouveau modèle développé par des chercheurs du MIT crée des des représentations plus facilement calculables de la façon dont les acides aminés individuels déterminent la fonction d'une protéine, qui pourraient être utilisées pour concevoir et tester de nouvelles protéines. Crédit : Institut de technologie du Massachusetts

    Un modèle d'apprentissage automatique des chercheurs du MIT décompose informatiquement la façon dont les segments de chaînes d'acides aminés déterminent la fonction d'une protéine, qui pourraient aider les chercheurs à concevoir et tester de nouvelles protéines pour le développement de médicaments ou la recherche biologique.

    Les protéines sont des chaînes linéaires d'acides aminés, reliés par des liaisons peptidiques, qui se replient en structures tridimensionnelles extrêmement complexes, en fonction de la séquence et des interactions physiques au sein de la chaîne. Cette structure, à son tour, détermine la fonction biologique de la protéine. Connaître la structure 3-D d'une protéine, donc, est précieux pour, dire, prédire comment les protéines peuvent répondre à certains médicaments.

    Cependant, malgré des décennies de recherche et de développement de multiples techniques d'imagerie, nous ne connaissons qu'une très petite fraction des structures protéiques possibles, des dizaines de milliers sur des millions. Les chercheurs commencent à utiliser des modèles d'apprentissage automatique pour prédire les structures des protéines en fonction de leurs séquences d'acides aminés, qui pourraient permettre la découverte de nouvelles structures protéiques. Mais c'est difficile, car diverses séquences d'acides aminés peuvent former des structures très similaires. Et il n'y a pas beaucoup de structures sur lesquelles former les modèles.

    Dans un article présenté à la Conférence internationale sur les représentations de l'apprentissage en mai, les chercheurs du MIT développent une méthode pour "apprendre" des représentations facilement calculables de chaque position d'acide aminé dans une séquence protéique, en utilisant initialement la structure des protéines 3-D comme guide de formation. Les chercheurs peuvent ensuite utiliser ces représentations comme entrées qui aident les modèles d'apprentissage automatique à prédire les fonctions des segments d'acides aminés individuels, sans plus jamais avoir besoin de données sur la structure de la protéine.

    À l'avenir, le modèle pourrait être utilisé pour améliorer l'ingénierie des protéines, en donnant aux chercheurs une chance de mieux cibler et de modifier des segments d'acides aminés spécifiques. Le modèle pourrait même éloigner complètement les chercheurs de la prédiction de la structure des protéines.

    « Je veux marginaliser la structure, " dit le premier auteur Tristan Bepler, étudiante aux cycles supérieurs dans le groupe Calcul et biologie du Laboratoire d'informatique et d'intelligence artificielle (CSAIL). "Nous voulons savoir à quoi servent les protéines, et connaître la structure est important pour cela. Mais peut-on prédire la fonction d'une protéine à partir de sa seule séquence d'acides aminés ? La motivation est de s'éloigner de la prédiction spécifique des structures, et avancer vers [trouver] comment les séquences d'acides aminés se rapportent à la fonction."

    Rejoindre Bepler est co-auteur Bonnie Berger, le professeur Simons de mathématiques au MIT avec un poste de professeur conjoint au département de génie électrique et d'informatique, et chef du groupe Calcul et biologie.

    Apprendre de la structure

    Plutôt que de prédire la structure directement, comme le tentent les modèles traditionnels, les chercheurs ont codé les informations structurelles prédites des protéines directement dans les représentations. Faire cela, ils utilisent des similitudes structurelles connues de protéines pour superviser leur modèle, car le modèle apprend les fonctions d'acides aminés spécifiques.

    Ils ont formé leur modèle sur environ 22, 000 protéines de la base de données de la Classification Structurelle des Protéines (SCOP), qui contient des milliers de protéines organisées en classes par similitudes de structures et de séquences d'acides aminés. Pour chaque paire de protéines, ils ont calculé un vrai score de similarité, ce qui signifie à quel point ils sont proches dans la structure, en fonction de leur classe SCOP.

    Les chercheurs ont ensuite nourri leurs modèles de paires aléatoires de structures protéiques et leurs séquences d'acides aminés, qui ont été convertis en représentations numériques appelées plongements par un encodeur. Dans le traitement du langage naturel, les plongements sont essentiellement des tableaux de plusieurs centaines de nombres combinés de manière à correspondre à une lettre ou à un mot dans une phrase. Les deux plongements les plus similaires sont, plus les lettres ou les mots apparaîtront ensemble dans une phrase.

    Dans les travaux des chercheurs, chaque inclusion dans la paire contient des informations sur la similitude de chaque séquence d'acides aminés par rapport à l'autre. Le modèle aligne les deux inclusions et calcule un score de similarité pour ensuite prédire à quel point leurs structures 3D seront similaires. Puis, le modèle compare son score de similarité prédit avec le score de similarité SCOP réel pour leur structure, et envoie un signal de retour au codeur.

    Simultanément, le modèle prédit une "carte de contact" pour chaque encastrement, qui indique essentiellement à quelle distance chaque acide aminé est de tous les autres dans la structure 3-D prédite de la protéine - essentiellement, prennent-ils contact ou pas ? Le modèle compare également sa carte de contact prédite avec la carte de contact connue de SCOP, et envoie un signal de retour au codeur. Cela aide le modèle à mieux savoir où se situent exactement les acides aminés dans la structure d'une protéine, qui met à jour la fonction de chaque acide aminé.

    Essentiellement, les chercheurs entraînent leur modèle en lui demandant de prédire si les inclusions de séquences appariées partageront ou non une structure de protéine SCOP similaire. Si le score prédit du modèle est proche du score réel, il sait qu'il est sur la bonne voie; si non, ça s'ajuste.

    Conception de protéines

    À la fin, pour une chaîne d'acides aminés entrée, le modèle produira une représentation numérique, ou encastrement, pour chaque position d'acide aminé dans une structure 3-D. Les modèles d'apprentissage automatique peuvent ensuite utiliser ces intégrations de séquences pour prédire avec précision la fonction de chaque acide aminé en fonction de son « contexte » structurel en 3D prédit, c'est-à-dire sa position et son contact avec d'autres acides aminés.

    Par exemple, les chercheurs ont utilisé le modèle pour prédire quels segments, si seulement, traverser la membrane cellulaire. Étant donné seulement une séquence d'acides aminés, le modèle des chercheurs a prédit tous les segments transmembranaires et non transmembranaires avec plus de précision que les modèles de pointe.

    "Les travaux de Bepler et Berger sont une avancée significative dans la représentation des propriétés structurelles locales d'une séquence protéique, " dit Serafim Batzoglou, professeur d'informatique à l'Université de Stanford. "La représentation est apprise à l'aide de méthodes d'apprentissage en profondeur de pointe, qui ont fait des progrès majeurs dans la prédiction de la structure des protéines dans des systèmes tels que RaptorX et AlphaFold. Ce travail a une application ultime en santé humaine et en pharmacogénomique, car il facilite la détection des mutations délétères qui perturbent les structures protéiques."

    Prochain, les chercheurs visent à appliquer le modèle à plus de tâches de prédiction, comme déterminer quels segments de séquence se lient à de petites molécules, ce qui est essentiel pour le développement de médicaments. Ils travaillent également sur l'utilisation du modèle pour la conception de protéines. En utilisant leurs plongements de séquence, ils peuvent prédire, dire, à quelles longueurs d'onde de couleur une protéine émettra une fluorescence.

    "Notre modèle nous permet de transférer des informations de structures protéiques connues vers des séquences de structure inconnue. En utilisant nos inclusions comme fonctionnalités, nous pouvons mieux prédire la fonction et permettre une conception de protéines plus efficace basée sur les données, " Bepler dit. " A un niveau élevé, ce type d'ingénierie des protéines est l'objectif."

    Berger ajoute :"Nos modèles d'apprentissage automatique nous permettent ainsi d'apprendre le" langage "du repliement des protéines - l'un des problèmes originaux du" Saint Graal "- à partir d'un nombre relativement restreint de structures connues."

    Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.




    © Science https://fr.scienceaq.com