Crédit :CC0 Domaine public
Pour fabriquer des médicaments, les chimistes doivent trouver les bonnes combinaisons de produits chimiques pour créer les structures chimiques nécessaires. C'est plus compliqué qu'il n'y paraît, comme les réactions chimiques typiques utilisent plusieurs composants différents, et chaque produit chimique impliqué dans une réaction ajoute une autre dimension aux calculs.
Dans un monde idéal, les chimistes aimeraient prédire quelle combinaison de produits chimiques fournirait le rendement le plus élevé de produit et éviterait les sous-produits involontaires ou d'autres pertes, mais prédire le résultat de ces réactions multidimensionnelles s'est avéré difficile.
Un groupe de chercheurs dirigé par Abigail Doyle, le professeur A. Barton Hepburn de chimie à l'Université de Princeton, et le Dr Spencer Dreher des Laboratoires de recherche Merck, a trouvé un moyen de prédire avec précision les rendements de réaction tout en faisant varier jusqu'à quatre composants de réaction, en utilisant une application d'intelligence artificielle connue sous le nom d'apprentissage automatique. Ils ont transformé leur méthode en un logiciel qu'ils ont mis à disposition d'autres chimistes. Ils ont publié leurs recherches le 15 février dans la revue Science .
"Le logiciel que nous avons développé peut fonctionner pour n'importe quelle réaction, tout substrat, ", a déclaré Doyle. "L'idée était de laisser quelqu'un appliquer cet outil et, espérons-le, de le développer avec d'autres réactions."
De vastes ressources et du temps sont consacrés à la fabrication de molécules synthétiques, souvent de manière largement ponctuelle, elle a dit. Grâce à ce nouveau logiciel, les chimistes peuvent identifier des combinaisons à haut rendement de produits chimiques et de substrats de manière plus économique et efficace.
"Nous espérons que ce sera un outil précieux pour accélérer la synthèse de nouveaux médicaments, " a déclaré Derek Ahneman, qui a terminé son doctorat en chimie. dans le laboratoire de Doyle en 2017 et travaille maintenant pour IBM.
"Beaucoup de ces algorithmes d'apprentissage automatique existent depuis un certain temps, " dit Jesús Estrada, un étudiant diplômé du laboratoire de Doyle qui a contribué à la recherche et à l'article. "Toutefois, au sein de la communauté de la chimie organique de synthèse, nous n'avons pas vraiment exploité les opportunités passionnantes offertes par l'apprentissage automatique."
« En tant que chimistes, nous nous sommes traditionnellement éloignés de l'analyse multidimensionnelle, " a déclaré Doyle. "Nous ne regardons qu'une variable à la fois, ou un seul ensemble de conditions pour une gamme de substrats."
Quand Ahneman a dit à Doyle qu'il voulait utiliser l'apprentissage automatique pour s'attaquer au problème multidimensionnel, elle l'encouragea. "J'essaie toujours, surtout pour mes étudiants les plus talentueux, de leur donner carte blanche en dernière année de doctorat, " dit-elle. " C'est le projet qu'il m'a proposé. "
Doyle et Ahneman ont entrepris de modéliser le rendement de la réaction tout en modifiant quatre composants de réaction différents, une entreprise exponentiellement plus difficile que de modifier une variable à la fois.
« Au départ, nous savions qu'il y aurait de nombreux défis à surmonter, " Ahneman a déclaré. "Nous n'étions pas sûrs que ce soit même possible."
Historiquement, un obstacle au développement de modèles multidimensionnels a été de collecter suffisamment de données sur les rendements de réaction pour construire un « ensemble d'entraînement » efficace, " dit-il. Mais récemment, Merck a inventé des systèmes robotiques qui peuvent exécuter des milliers de réactions de l'ordre de quelques jours.
Un autre défi a été de calculer des descripteurs quantitatifs pour chaque produit chimique, à utiliser comme entrées pour le modèle. Ces descripteurs ont généralement été calculés un par un, ce qui aurait été peu pratique pour le grand nombre de combinaisons chimiques qu'ils voulaient utiliser.
Ils ont surmonté cette limitation en écrivant du code qui utilisait un programme existant, Spartiate, pour calculer puis extraire des descripteurs pour chaque produit chimique utilisé dans le modèle.
Une fois qu'ils ont eu leurs descripteurs quantitatifs, ils ont essayé plusieurs approches statistiques. D'abord, ils utilisent la régression linéaire, la norme de l'industrie, mais a constaté qu'il n'a pas réussi à prédire avec précision le rendement de la réaction. Ils ont ensuite exploré plusieurs modèles d'apprentissage automatique courants et ont découvert que l'un d'entre eux, appelé "forêt aléatoire", fournissait des prévisions de rendement étonnamment précises.
Un modèle de forêt aléatoire fonctionne en sélectionnant au hasard de petits échantillons dans l'ensemble de données d'apprentissage et en utilisant cet échantillon pour construire un arbre de décision. Chaque arbre de décision individuel prédit alors le rendement pour une réaction donnée, puis le résultat est moyenné sur les arbres pour générer une prévision de rendement global.
Une autre percée s'est produite lorsque les chercheurs ont découvert qu'avec les forêts aléatoires, « les rendements des réactions peuvent être prédits avec précision en utilisant les résultats de « seulement » des centaines de réactions (au lieu de milliers), un nombre que les chimistes sans robots peuvent effectuer eux-mêmes, " a déclaré Ahneman.
Ils ont en outre découvert que les modèles forestiers aléatoires peuvent prédire les rendements des composés chimiques non inclus dans l'ensemble d'apprentissage.
« Les techniques utilisées sont tout à fait à la pointe de la technologie, " a déclaré Chloé-Agathe Azencott, chercheur en machine learning au Centre de biologie computationnelle de l'Université Paris Sciences et Lettres, qui n'a pas participé à la recherche. "Les graphiques de corrélation dans le document sont suffisamment bons pour que je pense que nous pouvons envisager de nous appuyer sur ces prédictions à l'avenir, ce qui limitera le besoin d'expériences de laboratoire coûteuses."
"Ces résultats sont passionnants, parce qu'ils suggèrent que cette méthode peut être utilisée pour prédire le rendement de réactions où le matériau de départ n'a jamais été fabriqué, ce qui aiderait à minimiser la consommation de produits chimiques qui sont longs à fabriquer, " Ahneman a dit. " Dans l'ensemble, cette méthodologie est prometteuse pour (1) prédire le rendement des réactions utilisant des matériaux de départ non encore fabriqués et (2) prédire les conditions optimales pour une réaction avec un matériau de départ et un produit connus."
Après qu'Ahneman ait terminé ses études, Estrada a continué la recherche. L'objectif était de créer un logiciel accessible non seulement aux informaticiens comme Ahneman et Estrada, mais à la communauté plus large de la chimie de synthèse, dit Doyle.
Elle a expliqué le fonctionnement du logiciel :« Vous dessinez les structures, les matériaux de départ, catalyseurs, bases—and the software will figure out shared descriptors between all of them. That's your input. The outcome is the yields of the reactions. The machine learning matches all those descriptors to the yields, with the goal that you can put in any structure and it will tell you the outcome of the reaction.
"The idea is to help people navigate the multi-dimensional space where you can't intuit the outcomes, " said Doyle.