Crédit :Pixabay/CC0 Domaine public
Les ingénieurs chimistes et les scientifiques des matériaux sont constamment à la recherche du prochain matériau, produit chimique et médicament révolutionnaire. L'essor des approches d'apprentissage automatique accélère le processus de découverte, qui pourrait autrement prendre des années. "Idéalement, l'objectif est de former un modèle d'apprentissage automatique sur quelques échantillons chimiques existants, puis de lui permettre de produire autant de molécules manufacturables de la même classe que possible, avec des propriétés physiques prévisibles", explique Wojciech Matusik, professeur de génie électrique. et l'informatique au MIT. "Si vous avez tous ces composants, vous pouvez créer de nouvelles molécules avec des propriétés optimales, et vous savez également comment les synthétiser. C'est la vision globale que les gens dans cet espace veulent atteindre"
Cependant, les techniques actuelles, principalement l'apprentissage en profondeur, nécessitent de vastes ensembles de données pour les modèles de formation, et de nombreux ensembles de données chimiques spécifiques à une classe contiennent une poignée d'exemples de composés, limitant leur capacité à généraliser et à générer des molécules physiques qui pourraient être créées dans le monde réel.
Maintenant, un nouvel article de chercheurs du MIT et d'IBM aborde ce problème en utilisant un modèle de graphe génératif pour construire de nouvelles molécules synthétisables dans la même classe chimique que leurs données d'entraînement. Pour ce faire, ils traitent la formation des atomes et des liaisons chimiques comme un graphe et développent une grammaire des graphes - une analogie linguistique des systèmes et des structures pour l'ordre des mots - qui contient une séquence de règles pour la construction de molécules, telles que les monomères et les polymères. En utilisant les règles de grammaire et de production qui ont été déduites de l'ensemble d'apprentissage, le modèle peut non seulement désosser ses exemples, mais peut également créer de nouveaux composés de manière systématique et efficace en termes de données. "Nous avons essentiellement construit un langage pour créer des molécules", déclare Matusik. "Cette grammaire est essentiellement le modèle génératif."
Les co-auteurs de Matusik incluent les étudiants diplômés du MIT Minghao Guo, qui est l'auteur principal, et Beichen Li ainsi que Veronika Thost, Payal Das et Jie Chen, membres du personnel de recherche d'IBM Research. Matusik, Thost et Chen sont affiliés au MIT-IBM Watson AI Lab. Leur méthode, qu'ils ont appelée grammaire de graphes efficace pour les données (DEG), sera présentée à la Conférence internationale sur les représentations d'apprentissage.
"Nous voulons utiliser cette représentation grammaticale pour la génération de monomères et de polymères, car cette grammaire est explicable et expressive", explique Guo. "Avec seulement quelques règles de production, nous pouvons générer de nombreux types de structures."
Une structure moléculaire peut être considérée comme une représentation symbolique dans un graphe - une chaîne d'atomes (nœuds) reliés entre eux par des liaisons chimiques (arêtes). Dans cette méthode, les chercheurs permettent au modèle de prendre la structure chimique et de réduire une sous-structure de la molécule à un nœud ; il peut s'agir de deux atomes reliés par une liaison, d'une courte séquence d'atomes liés ou d'un cycle d'atomes. Cela se fait à plusieurs reprises, créant les règles de production au fur et à mesure, jusqu'à ce qu'il ne reste qu'un seul nœud. Les règles et la grammaire pourraient ensuite être appliquées dans l'ordre inverse pour recréer l'ensemble d'apprentissage à partir de zéro ou combinées dans différentes combinaisons pour produire de nouvelles molécules de la même classe chimique.
"Les méthodes de génération de graphes existantes produiraient un nœud ou une arête de manière séquentielle à la fois, mais nous examinons des structures de niveau supérieur et, en particulier, exploitons les connaissances en chimie, de sorte que nous ne traitons pas les atomes et les liaisons individuels comme l'unité. Cela simplifie le processus de génération et rend également l'apprentissage des données plus efficace", déclare Chen.
De plus, les chercheurs ont optimisé la technique afin que la grammaire ascendante soit relativement simple et directe, de sorte qu'elle fabriquait des molécules qui pouvaient être fabriquées.
"Si nous inversons l'ordre d'application de ces règles de production, nous obtiendrons une autre molécule; de plus, nous pouvons énumérer toutes les possibilités et en générer des tonnes", explique Chen. "Certaines de ces molécules sont valides et d'autres non, donc l'apprentissage de la grammaire elle-même consiste en fait à déterminer un ensemble minimal de règles de production, de sorte que le pourcentage de molécules pouvant réellement être synthétisées soit maximisé." Alors que les chercheurs se sont concentrés sur trois ensembles de formation de moins de 33 échantillons chacun (acrylates, allongeurs de chaîne et isocyanates), ils ont noté que le processus pouvait être appliqué à n'importe quelle classe chimique.
Pour voir comment leur méthode fonctionnait, les chercheurs ont testé DEG par rapport à d'autres modèles et techniques de pointe, en examinant les pourcentages de molécules chimiquement valides et uniques, la diversité de celles créées, le taux de réussite de la rétrosynthèse et le pourcentage de molécules appartenant à la classe de monomères des données d'apprentissage.
"Nous montrons clairement que, pour la synthétisabilité et l'adhésion, notre algorithme surpasse toutes les méthodes existantes par une très large marge, alors qu'il est comparable pour certaines autres métriques largement utilisées", déclare Guo. De plus, "ce qui est étonnant avec notre algorithme, c'est que nous n'avons besoin que d'environ 0,15 % de l'ensemble de données d'origine pour obtenir des résultats très similaires par rapport aux approches de pointe qui s'entraînent sur des dizaines de milliers d'échantillons. Notre algorithme peut gérer spécifiquement le problème de la rareté des données."
Dans un avenir immédiat, l'équipe prévoit d'étendre ce processus d'apprentissage de la grammaire pour pouvoir générer de grands graphiques, ainsi que produire et identifier des produits chimiques aux propriétés souhaitées.
Sur la route, les chercheurs voient de nombreuses applications pour la méthode DEG, car elle est adaptable au-delà de la génération de nouvelles structures chimiques, souligne l'équipe. Un graphe est une représentation très flexible et de nombreuses entités peuvent être symbolisées sous cette forme, par exemple des robots, des véhicules, des bâtiments et des circuits électroniques. "Essentiellement, notre objectif est de développer notre grammaire, afin que notre représentation graphique puisse être largement utilisée dans de nombreux domaines différents", explique Guo, car "DEG peut automatiser la conception de nouvelles entités et structures", explique Chen.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT. Recherche d'une grammaire des matériaux pour aider à la découverte de catalyseurs