Etalumis effectue une inférence bayésienne - une méthode d'inférence statistique dans laquelle le théorème de Bayes est utilisé pour mettre à jour la probabilité d'une hypothèse à mesure que davantage de preuves ou d'informations deviennent disponibles - en inversant essentiellement le simulateur pour prédire les paramètres d'entrée à partir des observations. Cette image donne un aperçu du cadre logiciel. Crédit :Wahid Bhimji, Laboratoire national Lawrence Berkeley
Les scientifiques ont construit des simulations pour aider à expliquer le comportement dans le monde réel, y compris la modélisation pour la transmission et la prévention des maladies, véhicules autonomes, climatologie, et dans la recherche des secrets fondamentaux de l'univers. Mais comment interpréter de vastes volumes de données expérimentales en termes de simulations détaillées reste un défi majeur. La programmation probabiliste offre une solution - essentiellement la rétro-ingénierie de la simulation - mais cette technique a longtemps été limitée en raison de la nécessité de réécrire la simulation dans des langages informatiques personnalisés, plus la puissance de calcul intense requise.
Pour relever ce défi, une collaboration multinationale de chercheurs utilisant les ressources informatiques du Centre national de calcul scientifique de recherche énergétique (NERSC) du Lawrence Berkeley National Laboratory a développé le premier cadre de programmation probabiliste capable de contrôler les simulateurs existants et de fonctionner à grande échelle sur des plates-formes HPC. Le système, appelé Etalumis ("simuler" épelé à l'envers), a été développé par un groupe de scientifiques de l'Université d'Oxford, Université de la Colombie-Britannique (UBC), Intel, L'Université de New York, CERN, et NERSC dans le cadre d'un projet Big Data Center.
Etalumis effectue une inférence bayésienne - une méthode d'inférence statistique dans laquelle le théorème de Bayes est utilisé pour mettre à jour la probabilité d'une hypothèse à mesure que davantage de preuves ou d'informations deviennent disponibles - en inversant essentiellement le simulateur pour prédire les paramètres d'entrée à partir des observations. L'équipe a déployé Etalumis pour la première fois pour le Grand collisionneur de hadrons (LHC) au CERN, apportant un nouveau niveau d'interprétabilité à l'analyse des données des détecteurs de physique des hautes énergies du LHC. Un article basé sur Etalumis a été sélectionné comme finaliste pour le meilleur article au SC19. Les auteurs parleront d'Etalumis au SC19 mardi, 19 novembre à 16h30
Des jours aux minutes
L'inférence bayésienne est utilisée dans pratiquement toutes les disciplines scientifiques, selon Frank Wood, un collaborateur Etalumis, Professeur agrégé d'informatique à l'UBC, et l'un des pionniers de la programmation probabiliste.
"J'étais particulièrement intéressé par l'application de l'inférence bayésienne à un problème de physique extrêmement complexe, et les détecteurs de physique des hautes énergies semblaient être le terrain d'essai idéal pour les recherches fondatrices de notre groupe, " dit-il. " Le projet Etalumis a fourni une opportunité unique de combiner un réseau de neurones de pointe basé sur une approche de « compilation d'inférences » avec un cadre logiciel (pyprob) pour coupler directement ce moteur d'inférence aux simulateurs de physique des particules détaillés existants et l'exécuter. sur les ressources à l'échelle du HPC."
Une comparaison de certaines des prédictions de l'approche de compilation d'inférences du projet Etalumis (histogrammes de contour), qui peuvent atteindre les mêmes niveaux de précision que les méthodes difficilement calculables (histogrammes remplis). Crédit :Lawrence Berkeley National Laboratory
Les scientifiques disposent déjà de progiciels de simulation robustes qui modélisent la physique et tout ce qui se passe dans le détecteur. Etalumis apporte la programmation probabiliste à coupler avec ce logiciel existant, donnant essentiellement aux chercheurs la possibilité de dire « Nous avons eu cette observation ; comment en sommes-nous arrivés là ? »
"Ce projet est passionnant car il soumet les simulateurs existants dans de nombreux domaines de la science et de l'ingénierie à un apprentissage automatique probabiliste, " dit Atilim Gunes Baydin, développeur principal du projet Etalumis et auteur principal de l'article SC19. Gunes est actuellement chercheur postdoctoral en apprentissage automatique à l'Université d'Oxford. "Cela signifie que le simulateur n'est plus utilisé comme une boîte noire pour générer des données d'entraînement synthétiques, mais comme un modèle génératif probabiliste interprétable que le code du simulateur spécifie déjà, dans lequel nous pouvons effectuer une inférence.
"Nous devons être en mesure de contrôler le programme pour réduire toutes les possibilités, donc dans ce projet, nous avons ajouté cette capacité en tant que couche logicielle, " ajoute Wahid Bhimji, un architecte Big Data dans l'équipe des services de données et d'analyse de la NERSC. Cependant, effectuer des inférences dans des environnements aussi complexes pose des problèmes de calcul. "Les méthodes conventionnelles pour ce type d'inférence bayésienne sont extrêmement coûteuses en calculs, " Bhimji ajoute. " Etalumis nous permet de faire en quelques minutes ce qui prendrait normalement des jours, en utilisant les ressources HPC du NERSC."
Interprétabilité approfondie
Pour le cas d'utilisation du LHC, l'équipe a formé un réseau de neurones pour effectuer l'inférence, apprendre à faire de bonnes propositions sur la chaîne détaillée de processus physiques du simulateur qui aurait pu se produire. Cela a nécessité des améliorations au cadre d'apprentissage en profondeur PyTorch pour former un réseau neuronal dynamique complexe sur plus de 1, 000 nœuds (32, 000 cœurs de processeur) du supercalculateur Cori du NERSC. Par conséquent, une formation qui prendrait des mois avec le logiciel d'origine non optimisé sur un seul nœud peut désormais être effectuée en moins de 10 minutes sur Cori. Les scientifiques ont ainsi eu l'occasion d'étudier les choix qui ont permis de produire chaque résultat, leur donnant une meilleure compréhension des données.
"Dans de nombreux cas, vous savez qu'il existe une incertitude dans la détermination de la physique qui s'est produite lors d'une collision du LHC, mais vous ne connaissez pas les probabilités de tous les processus qui auraient pu donner lieu à une observation particulière ; avec Etalumis, vous obtenez un modèle de cela, " explique Bhimji.
L'interprétabilité approfondie qu'Etalumis apporte à l'analyse des données du LHC pourrait soutenir des avancées majeures dans le monde de la physique. « Des signes d'une nouvelle physique pourraient bien se cacher dans les données du LHC ; révéler ces signaux peut nécessiter un changement de paradigme du traitement algorithmique classique des données à une approche probabiliste plus nuancée, " dit Kyle Cranmer, un physicien de la NYU qui faisait partie du projet Etalumis. "Cette approche nous amène à la limite de ce qui est connaissable mécaniquement."