La génération automatisée d'ensembles de données fournit un échantillonnage très diversifié de positions atomiques pour former un modèle d'apprentissage automatique précis et général. Crédit :Laboratoire national de Los Alamos
Une approche révolutionnaire d'apprentissage automatique (ML) pour simuler les mouvements des atomes dans des matériaux tels que l'aluminium est décrite dans l'article de cette semaine. Communication Nature journal. Cette approche automatisée du « développement du potentiel interatomique » pourrait transformer le domaine de la découverte de matériaux informatiques.
"Cette approche promet d'être une brique importante pour l'étude des dommages et du vieillissement des matériaux à partir des premiers principes, " a déclaré le chef de projet Justin Smith du Laboratoire national de Los Alamos. " La simulation de la dynamique des atomes en interaction est la pierre angulaire de la compréhension et du développement de nouveaux matériaux. Les méthodes d'apprentissage automatique fournissent aux informaticiens de nouveaux outils pour effectuer avec précision et efficacité ces simulations atomistiques. Des modèles d'apprentissage automatique comme celui-ci sont conçus pour émuler les résultats de simulations quantiques très précises, à une petite fraction du coût de calcul."
Pour maximiser la précision générale de ces modèles d'apprentissage automatique, il a dit, il est essentiel de concevoir un ensemble de données très diversifié à partir duquel entraîner le modèle. Un défi est que ce n'est pas évident, a priori, quelles données d'entraînement seront les plus nécessaires au modèle ML. Les travaux récents de l'équipe présentent une méthodologie automatisée "d'apprentissage actif" pour la construction itérative d'un ensemble de données de formation.
A chaque itération, la méthode utilise le meilleur modèle d'apprentissage automatique actuel pour effectuer des simulations atomistiques ; lorsque de nouvelles situations physiques sont rencontrées qui dépassent les connaissances du modèle ML, de nouvelles données de référence sont collectées via des simulations quantiques coûteuses, et le modèle ML est recyclé. Grâce à ce processus, la procédure d'apprentissage actif collecte des données concernant de nombreux types différents de configurations atomiques, y compris une variété de structures cristallines, et une variété de motifs de défauts apparaissant dans les cristaux.