Des chercheurs du MIT ont développé un modèle d'apprentissage automatique qui sélectionne mieux les molécules candidates à des fins thérapeutiques, tout en permettant également une modification automatisée de la structure moléculaire pour une puissance plus élevée. L'innovation a le potentiel d'accélérer le développement de médicaments. Crédit :Massachusetts Institute of Technology
Concevoir de nouvelles molécules pour les produits pharmaceutiques est avant tout un manuel, processus chronophage sujet aux erreurs. Mais les chercheurs du MIT ont maintenant franchi une étape vers l'automatisation complète du processus de conception, ce qui pourrait considérablement accélérer les choses et produire de meilleurs résultats.
La découverte de médicaments repose sur l'optimisation des leads. Dans ce processus, les chimistes sélectionnent une molécule cible (« lead ») avec un potentiel connu pour lutter contre une maladie spécifique, puis ajustez ses propriétés chimiques pour une puissance plus élevée et d'autres facteurs.
Souvent, les chimistes utilisent des connaissances d'experts et effectuent des ajustements manuels de molécules, ajouter et soustraire des groupes fonctionnels (atomes et liaisons responsables de réactions chimiques spécifiques) un par un. Même s'ils utilisent des systèmes qui prédisent des propriétés chimiques optimales, les chimistes doivent encore effectuer chaque étape de modification eux-mêmes. Cela peut prendre des heures pour chaque itération et peut toujours ne pas produire de candidat médicament valide.
Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et du Département de génie électrique et informatique (EECS) du MIT ont développé un modèle qui sélectionne mieux les molécules candidates en fonction des propriétés souhaitées. Il modifie également la structure moléculaire nécessaire pour atteindre une puissance plus élevée, tout en s'assurant que la molécule est toujours chimiquement valide.
Le modèle prend essentiellement en entrée des données de structure moléculaire et crée directement des graphiques moléculaires - des représentations détaillées d'une structure moléculaire, avec des nœuds représentant des atomes et des arêtes représentant des liaisons. Il décompose ces graphiques en groupes plus petits de groupes fonctionnels valides qu'il utilise comme "blocs de construction" qui l'aident à reconstruire plus précisément et à mieux modifier les molécules.
"La motivation derrière cela était de remplacer le processus de modification humaine inefficace de la conception de molécules par une itération automatisée et d'assurer la validité des molécules que nous générons, " dit Wengong Jin, un doctorat étudiant à CSAIL et auteur principal d'un article décrivant le modèle présenté à la Conférence internationale 2018 sur l'apprentissage automatique en juillet.
Rejoindre Jin sur le papier sont Regina Barzilay, le professeur Delta Electronics au CSAIL et EECS et Tommi S. Jaakkola, le professeur Thomas Siebel de génie électrique et d'informatique au CSAIL, EECS, et à l'Institut des données, Systèmes, et Société.
La recherche a été menée dans le cadre du Consortium Machine Learning for Pharmaceutical Discovery and Synthesis entre le MIT et huit sociétés pharmaceutiques, annoncé en mai. Le consortium a identifié l'optimisation des leads comme l'un des principaux défis de la découverte de médicaments.
"Aujourd'hui, c'est vraiment un métier, qui nécessite beaucoup de chimistes qualifiés pour réussir, et c'est ce que nous voulons améliorer, " dit Barzilay. " La prochaine étape consiste à faire passer cette technologie du milieu universitaire à de véritables cas de conception pharmaceutique, et démontrer qu'il peut aider les chimistes humains à faire leur travail, ce qui peut être difficile."
« L'automatisation du processus présente également de nouveaux défis en matière d'apprentissage automatique, " Jaakkola dit. "Apprendre à se rapporter, modifier, et générer des graphiques moléculaires entraîne de nouvelles idées et méthodes techniques."
Génération de graphiques moléculaires
Des systèmes qui tentent d'automatiser la conception de molécules ont fait leur apparition ces dernières années, mais leur problème est la validité. Ces systèmes, Jin dit, génèrent souvent des molécules invalides selon les règles chimiques, et ils ne parviennent pas à produire des molécules avec des propriétés optimales. Cela rend essentiellement l'automatisation complète de la conception des molécules infaisable.
Ces systèmes fonctionnent sur des notations linéaires de molécules, appelés « systèmes d'entrée de ligne à entrée moléculaire simplifiée », " ou SOURIRE, où de longues chaînes de lettres, Nombres, et les symboles représentent des atomes ou des liaisons individuels qui peuvent être interprétés par un logiciel informatique. Comme le système modifie une molécule de plomb, il développe sa représentation sous forme de chaîne symbole par symbole - atome par atome, et liaison par liaison - jusqu'à ce qu'elle génère une chaîne SMILES finale avec une puissance plus élevée d'une propriété souhaitée. À la fin, le système peut produire une chaîne SMILES finale qui semble valide sous la grammaire SMILES, mais est en fait invalide.
Les chercheurs résolvent ce problème en construisant un modèle qui s'exécute directement sur des graphiques moléculaires, au lieu de chaînes SMILES, qui peuvent être modifiés de manière plus efficace et précise.
Le modèle est alimenté par un auto-encodeur variationnel personnalisé, un réseau de neurones qui "code" une molécule d'entrée dans un vecteur, qui est essentiellement un espace de stockage pour les données structurelles de la molécule, puis "décode" ce vecteur en un graphique qui correspond à la molécule d'entrée.
En phase d'encodage, le modèle décompose chaque graphique moléculaire en clusters, ou "sous-graphes, " dont chacun représente un bloc de construction spécifique. De tels clusters sont automatiquement construits par un concept commun d'apprentissage automatique, appelée décomposition arborescente, où un graphe complexe est mappé dans une structure arborescente de clusters - "ce qui donne un échafaudage du graphe d'origine, " dit Jin.
La structure arborescente de l'échafaudage et la structure du graphe moléculaire sont codées dans leurs propres vecteurs, où les molécules sont regroupées par similarité. Cela facilite la recherche et la modification des molécules.
En phase de décodage, le modèle reconstruit le graphe moléculaire d'une manière « grossière à fine », augmentant progressivement la résolution d'une image basse résolution pour créer une version plus raffinée. Il génère d'abord l'échafaudage arborescent, puis assemble les clusters associés (nœuds dans l'arbre) en un graphe moléculaire cohérent. Cela garantit que le graphique moléculaire reconstruit est une réplique exacte de la structure d'origine.
Pour l'optimisation des prospects, le modèle peut ensuite modifier les molécules de plomb en fonction d'une propriété souhaitée. Il le fait à l'aide d'un algorithme de prédiction qui attribue à chaque molécule une valeur de puissance de cette propriété. Dans le journal, par exemple, les chercheurs ont recherché des molécules présentant une combinaison de deux propriétés :une solubilité élevée et une accessibilité synthétique.
Étant donné une propriété souhaitée, le modèle optimise une molécule de plomb en utilisant l'algorithme de prédiction pour modifier son vecteur et, donc, structure—en modifiant les groupes fonctionnels de la molécule pour obtenir un score de puissance plus élevé. Il répète cette étape pour plusieurs itérations, jusqu'à ce qu'il trouve le score de puissance prédit le plus élevé. Puis, le modèle décode enfin une nouvelle molécule à partir du vecteur mis à jour, avec une structure modifiée, en compilant tous les clusters correspondants.
Valide et plus puissant
Les chercheurs ont entraîné leur modèle sur 250, 000 graphiques moléculaires de la base de données ZINC, une collection de structures moléculaires 3-D disponibles pour un usage public. Ils ont testé le modèle sur des tâches pour générer des molécules valides, trouver les meilleures molécules de plomb, et concevoir de nouvelles molécules avec des puissances accrues.
Dans le premier essai, le modèle des chercheurs a généré 100 % de molécules chimiquement valides à partir d'une distribution d'échantillons, par rapport aux modèles SMILES qui ont généré 43 % de molécules valides à partir de la même distribution.
Le deuxième test comportait deux tâches. D'abord, le modèle a recherché l'ensemble de la collection de molécules pour trouver la meilleure molécule principale pour les propriétés souhaitées :solubilité et accessibilité synthétique. Dans cette tâche, le modèle a trouvé une molécule de plomb avec une puissance 30 pour cent plus élevée que les systèmes traditionnels. La deuxième tâche consistait à modifier 800 molécules pour une puissance plus élevée, mais sont structurellement similaires à la molécule de plomb. Ce faisant, le modèle a créé de nouvelles molécules, ressemblant étroitement à la structure du plomb, en moyenne une amélioration de plus de 80 pour cent de la puissance.
Les chercheurs visent ensuite à tester le modèle sur plus de propriétés, au-delà de la solubilité, qui sont plus pertinents sur le plan thérapeutique. Cette, cependant, nécessite plus de données. « Les entreprises pharmaceutiques s'intéressent davantage aux propriétés qui luttent contre les cibles biologiques, mais ils ont moins de données sur ceux-ci. Un défi consiste à développer un modèle qui peut fonctionner avec une quantité limitée de données d'entraînement, " dit Jin.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.