Au cours de la dernière décennie, des modèles d’apprentissage profond génératif ont été appliqués avec succès à la conception de nouvelles molécules médicamenteuses, de voies de synthèse organique et de molécules fonctionnelles adaptées aux dispositifs électroniques/optoélectroniques. Ceci est largement rendu possible par la disponibilité de la représentation SMILES pour les molécules :une représentation inversible et invariante bien adaptée aux modèles de traitement du langage naturel tels que les réseaux neuronaux récurrents, les transformateurs, etc.
Cependant, concevoir des solides inorganiques cristallins dotés des propriétés souhaitées reste un formidable défi. Cela est principalement dû à l'absence d'une représentation cristalline « équivalente à SMILES » pour relier les matériaux périodiques à l'état solide et les architectures d'apprentissage profond de pointe.
Les méthodes précédentes de conception de cristaux inverses reposaient principalement sur des grilles de voxels 3D ou des coordonnées spatiales absolues pour représenter les structures. Mais ces approches manquent intrinsèquement d’invariance rotationnelle. Il existe également des tentatives d'utilisation de graphes cristallins, qui sont invariants mais non inversibles en raison de l'absence d'informations explicites sur la périodicité ou la composition. Pour relever ce défi, nous avons proposé une nouvelle représentation cristalline appelée SLICES. L'étude est publiée dans la revue Nature Communications .
La principale motivation derrière le développement de SLICES est de créer une représentation cristalline inversible et invariante, analogue à la représentation SMILES largement utilisée pour la conception moléculaire inverse (Figure 1). L'inversibilité signifie que la représentation peut être reconvertie sans ambiguïté à la structure cristalline d'origine. Ceci est essentiel pour que les modèles génératifs effectuent une conception inverse, dans laquelle les modèles créent de nouvelles structures cristallines qui sont décodées à partir de la représentation.
L'invariance indique que la représentation reste inchangée sous les traductions, rotations et permutations de la structure cristalline. Des invariances satisfaisantes permettent à la représentation de se concentrer uniquement sur le codage des informations topologiques et compositionnelles essentielles d'un système plutôt que sur les caractéristiques superficielles qui changent sous les transformations. Cela réduit la redondance et améliore l'efficacité de l'apprentissage.
En satisfaisant l'inversibilité et les invariances, SLICES permet une exploration efficace du vaste espace de composés chimiques pour les matériaux cristallins à l'aide de modèles génératifs profonds.
Conceptuellement, SLICES code la topologie et la composition des structures cristallines en chaînes, un peu comme la façon dont SMILES convertit les graphiques moléculaires en notations linéaires. Plus précisément, SLICES exploite le concept mathématique de « graphiques de quotient étiqueté » pour représenter les structures cristallines périodiques. Les atomes et les liaisons au sein d'une cellule unitaire sont mappés aux nœuds et aux bords du graphique de quotient. Des étiquettes supplémentaires sont attribuées aux arêtes indiquant les vecteurs de décalage périodiques requis pour connecter des atomes équivalents dans des cellules unitaires voisines.
Un exemple est la structure cristalline du diamant (Figure 1), qui contient deux atomes de carbone liés ensemble dans la cellule unitaire primitive. La chaîne SLICES code explicitement les symboles atomiques "C" et l'étiquette de bord "001" désignant la liaison périodique qui se propage dans la direction [001]. En analysant la chaîne SLICES, la composition et la connectivité de la structure du diamant peuvent être obtenues.
Notamment, SLICES code uniquement les informations de topologie et de composition. Les attributs tels que les coordonnées atomiques et les paramètres de réseau ne sont pas explicitement intégrés. Cela rend SLICES invariables aux traductions, aux rotations et aux permutations d'index atomiques de par leur conception.
Reconstruire des structures cristallines à partir de SLICES
Bien que l'encodage des cristaux dans SLICES soit relativement simple, le défi réside dans la garantie de l'inversibilité, c'est-à-dire la capacité de reconstruire avec précision les structures cristallines à partir des chaînes SLICES. Pour parvenir à l'inversibilité, nous avons développé un pipeline de reconstruction (Figure 2) pour SLICES qui contient trois étapes clés :
Les performances de reconstruction ont été comparées sur une base de données contenant plus de 40 000 matériaux connus expérimentalement contenant jusqu'à 20 atomes par cellule unitaire. Le pipeline de reconstruction de SLICES a permis de reconstruire 94,95 % des structures d'origine, surpassant considérablement les méthodes précédentes. Cette inversibilité de SLICES permet la génération de nouvelles structures à partir de représentations apprises, ce qui est la clé de la conception de matériaux inverses.
Application en conception inverse de matériaux fonctionnels
À titre de démonstration, nous avons appliqué SLICES à la conception inverse de semi-conducteurs directs à bande interdite étroite pour les dispositifs optoélectroniques utilisant des réseaux de neurones récurrents (RNN). Le flux de travail comprend (Figure 3) :
Grâce à ce flux de travail combinant SLICES, RNN et calculs à haut débit, 14 nouveaux semi-conducteurs avec des bandes interdites directes dans la plage optimale ont été découverts (Figure 4). Cela met en valeur la promesse de SLICES en tant que catalyseur de découverte accélérée de matériaux fonctionnels à l'aide de l'IA générative.
Génération dirigée de nouveaux matériaux avec des énergies de formation spécifiées
De plus, nous utilisons une architecture de réseau neuronal récurrent conditionnel (cRNN), comme illustré sur la figure 5, pour générer des chaînes SLICES correspondant à des cristaux avec une énergie de formation souhaitée spécifiée par l'utilisateur. La distribution des énergies de formation des structures générées se rapproche de la valeur cible spécifiée par rapport à la distribution de l'ensemble de données. Les cRNN basés sur SLICES surpassent considérablement les modèles de pointe précédents. Cette approche marque une avancée significative dans la capacité de concevoir et de découvrir de nouveaux matériaux de manière contrôlée et précise.
En tant que première représentation cristalline inversible et invariante basée sur des cordes, SLICES ouvre de nombreuses opportunités passionnantes dans la conception inverse de solides cristallins, tout comme SMILES l'a fait pour les molécules au cours de la dernière décennie. Au cours des dernières années, nous avons assisté à d’énormes progrès dans les modèles génératifs allant des images, des vidéos, de la parole aux protéines et molécules. Nous envisageons que les matériaux solides soient la prochaine frontière, grâce à cette nouvelle capacité d'exploration efficace des données et intégrée à la chimie, renforcée par des représentations telles que SLICES.
Cette histoire fait partie de Science X Dialog, où les chercheurs peuvent rapporter les résultats de leurs articles de recherche publiés. Visitez cette page pour plus d'informations sur ScienceX Dialog et comment participer.
Plus d'informations : Hang Xiao et al, Une représentation cristalline inversible et invariante pour la conception inverse de matériaux à l'état solide utilisant l'apprentissage profond génératif, Nature Communications (2023). DOI :10.1038/s41467-023-42870-7
Informations sur le journal : Communications naturelles
Hang Xiao est affilié à l'École d'études interdisciplinaires de l'Université de Lingnan; il a obtenu son doctorat de l'Université de Columbia. Yan Chen est affilié au Laboratoire de mécanique multi-échelle et de sciences médicales, SV LAB, School of Aerospace, Xi'an Jiaotong University, où il a également obtenu son doctorat.