Schéma global de DeepEC. Crédit :KAIST
Un cadre de calcul basé sur l'apprentissage en profondeur, 'DeepEC, ' permettra la prédiction de haute qualité et à haut débit des nombres de commission d'enzymes, ce qui est essentiel pour la compréhension précise des fonctions enzymatiques.
Une équipe composée du Dr Jae Yong Ryu, Professeur Hyun Uk Kim, et le professeur distingué Sang Yup Lee de KAIST ont rapporté le cadre de calcul alimenté par l'apprentissage en profondeur qui prédit les nombres de commission enzymatique (CE) avec une grande précision et à haut débit.
DeepEC prend une séquence de protéines en entrée et prédit avec précision les nombres d'EC en sortie. Les enzymes sont des protéines qui catalysent les réactions biochimiques et les nombres EC, qui se composent de quatre numéros de niveau (c'est-à-dire, une, b, c, d) indiquer des réactions biochimiques. Ainsi, l'identification des numéros EC est essentielle pour comprendre avec précision les fonctions enzymatiques et le métabolisme.
Les numéros EC sont généralement attribués à une séquence protéique codant pour une enzyme lors d'une procédure d'annotation du génome. En raison de l'importance des numéros EC, plusieurs outils de prédiction du nombre EC ont été développés, mais ils peuvent encore être améliorés en termes de temps de calcul, précision, couverture, et la taille totale des fichiers nécessaires à la prédiction du nombre EC.
DeepEC utilise trois réseaux de neurones convolutifs (CNN) comme moteur majeur pour la prédiction des nombres EC, et met également en œuvre une analyse d'homologie pour les numéros EC si les trois CNN ne produisent pas de numéros EC fiables pour une séquence protéique donnée. DeepEC a été développé en utilisant un ensemble de données de référence couvrant 1, 388, 606 séquences protéiques et 4, 669 numéros CE.
En particulier, Des études comparatives de DeepEC et de cinq autres outils de prédiction de nombre EC représentatifs ont montré que DeepEC faisait les prédictions les plus précises et les plus rapides pour les nombres EC. DeepEC nécessitait également le plus petit espace disque pour la mise en œuvre, ce qui en fait un composant logiciel tiers idéal.
Par ailleurs, DeepEC était le plus sensible dans la détection de la perte de fonction enzymatique à la suite de mutations dans les domaines/résidus du site de liaison des séquences protéiques; dans cette analyse comparative, tous les domaines ou résidu de site de liaison ont été substitués par un résidu L-alanine afin d'éliminer la fonction protéique, qui est connu comme la méthode de balayage L-alanine.
Cette étude a été publiée en ligne dans le Actes de l'Académie nationale des sciences ( PNAS ) le 20 juin, 2019, intitulé « L'apprentissage en profondeur permet une prédiction de haute qualité et à haut débit des numéros de commission d'enzymes ».
« DeepEC peut être utilisé comme un outil indépendant et également comme un composant logiciel tiers en combinaison avec d'autres plates-formes de calcul qui examinent les réactions métaboliques. DeepEC est disponible gratuitement en ligne, " a déclaré le professeur Kim.
Le distingué professeur Lee a dit, "Avec DeepEC, il est devenu possible de traiter des volumes toujours croissants de données de séquences protéiques de manière plus efficace et plus précise."