Cartes de convergence à lentilles faibles pour le modèle cosmologique ΛCDM. Cartes sélectionnées au hasard à partir de l'ensemble de données de validation (en haut) et d'exemples générés par le GAN (en bas). Crédit :Berkeley Lab
Alors que les cosmologistes et les astrophysiciens approfondissent les recoins les plus sombres de l'univers, leur besoin d'outils d'observation et de calcul de plus en plus puissants s'est accru de façon exponentielle. Des installations telles que l'instrument spectroscopique de l'énergie noire aux superordinateurs comme le système Cori du Lawrence Berkeley National Laboratory à l'installation de calcul scientifique de la recherche énergétique nationale (NERSC), ils sont en quête de collection, simuler, et analyser des quantités croissantes de données qui peuvent aider à expliquer la nature des choses que nous ne pouvons pas voir, ainsi que ceux que nous pouvons.
Vers cette fin, la lentille gravitationnelle est l'un des outils les plus prometteurs dont disposent les scientifiques pour extraire ces informations en leur donnant la possibilité de sonder à la fois la géométrie de l'univers et la croissance de la structure cosmique. La lentille gravitationnelle déforme les images de galaxies lointaines d'une manière qui est déterminée par la quantité de matière dans la ligne de mire dans une certaine direction, et il fournit un moyen de regarder une carte bidimensionnelle de la matière noire, selon Deborah Bard, Chef de groupe pour le Data Science Engagement Group au Centre national de calcul scientifique de la recherche énergétique (NERSC) de Berkeley Lab.
"La lentille gravitationnelle est l'un des meilleurs moyens d'étudier la matière noire, ce qui est important car cela nous en dit long sur la structure de l'univers, " dit-elle. " La majorité de la matière dans l'univers est de la matière noire, que l'on ne voit pas directement, nous devons donc utiliser des méthodes indirectes pour étudier comment il est distribué. »
Mais à mesure que les ensembles de données expérimentales et théoriques augmentent, ainsi que les simulations nécessaires pour imager et analyser ces données, un nouveau défi est apparu :ces simulations sont de plus en plus coûteuses, voire prohibitives, en calcul. Ainsi, les cosmologistes computationnels ont souvent recours à des modèles de substitution moins coûteux en calcul, qui émulent des simulations coûteuses. Plus récemment, cependant, « les progrès dans les modèles génératifs profonds basés sur les réseaux de neurones ont ouvert la possibilité de construire des modèles de substitution plus robustes et moins conçus à la main pour de nombreux types de simulateurs, y compris ceux de la cosmologie, " dit Mustafa Mustafa, un ingénieur en apprentissage automatique au NERSC et auteur principal d'une nouvelle étude qui décrit une telle approche développée par une collaboration impliquant Berkeley Lab, Recherche Google, et l'Université du KwaZulu-Natal.
Une variété de modèles génératifs profonds sont à l'étude pour des applications scientifiques, mais l'équipe dirigée par Berkeley Lab adopte une approche unique :les réseaux contradictoires génératifs (GAN). Dans un article publié le 6 mai, 2019 en Astrophysique computationnelle et cosmologie , ils discutent de leur nouveau réseau de deep learning, surnommé CosmoGAN, et sa capacité à créer de la haute fidélité, cartes de convergence de lentilles gravitationnelles faibles.
"Une carte de convergence est en fait une carte 2D de la lentille gravitationnelle que nous voyons dans le ciel le long de la ligne de visée, " dit Barde, un co-auteur sur le Astrophysique computationnelle et cosmologie papier. « Si vous avez un pic dans une carte de convergence qui correspond à un pic dans une grande quantité de matière le long de la ligne de visée, cela signifie qu'il y a une énorme quantité de matière noire dans cette direction."
Les avantages des GAN
Pourquoi opter pour les GAN plutôt que pour d'autres types de modèles génératifs ? Performance et précision, selon Mustafa.
"Du point de vue de l'apprentissage en profondeur, il existe d'autres façons d'apprendre à générer des cartes de convergence à partir d'images, mais lorsque nous avons commencé ce projet, les GAN semblaient produire des images à très haute résolution par rapport aux méthodes concurrentes, tout en étant efficace en termes de calcul et de taille de réseau de neurones, " il a dit.
« Nous recherchions deux choses :être précis et être rapide, " a ajouté le co-auteur Zaria Lukic, chercheur au Computational Cosmology Center du Berkeley Lab. "Les GAN offrent l'espoir d'être presque aussi précis que les simulations physiques complètes."
L'équipe de recherche s'intéresse particulièrement à la construction d'un modèle de substitution qui réduirait le coût de calcul de l'exécution de ces simulations. Dans le Astrophysique computationnelle et cosmologie papier, ils décrivent un certain nombre d'avantages des GAN dans l'étude de grandes simulations physiques.
"Les GAN sont connus pour être très instables pendant l'entraînement, surtout lorsque vous atteignez la toute fin de la formation et que les images commencent à être belles, c'est à ce moment-là que les mises à jour du réseau peuvent être vraiment chaotiques, " dit Mustafa. " Mais parce que nous avons les statistiques sommaires que nous utilisons en cosmologie, nous avons pu évaluer les GAN à chaque étape de la formation, ce qui nous a aidés à déterminer le générateur que nous pensions être le meilleur. Cette procédure n'est généralement pas utilisée dans la formation des GAN."
En utilisant le réseau de générateurs CosmoGAN, l'équipe a été en mesure de produire des cartes de convergence qui sont décrites par, avec une grande confiance statistique, les mêmes statistiques récapitulatives que les cartes entièrement simulées. Ce très haut niveau d'accord entre les cartes de convergence qui sont statistiquement impossibles à distinguer des cartes produites par des modèles génératifs basés sur la physique offre une étape importante vers la construction d'émulateurs à partir de réseaux de neurones profonds.
"L'énorme avantage ici était que le problème que nous abordions était un problème de physique qui avait des métriques associées, " dit Bard. " Mais avec notre approche, il existe des mesures réelles qui vous permettent de quantifier la précision de votre GAN. Pour moi, c'est ce qui est vraiment passionnant à ce sujet :comment ces types de problèmes de physique peuvent influencer les méthodes d'apprentissage automatique.
En fin de compte, de telles approches pourraient transformer la science qui repose actuellement sur des simulations physiques détaillées qui nécessitent des milliards d'heures de calcul et occupent des pétaoctets d'espace disque, mais il reste encore beaucoup de travail à faire. Les données de cosmologie (et les données scientifiques en général) peuvent nécessiter des mesures à très haute résolution, telles que les images de télescope plein ciel.
« Les images 2D envisagées pour ce projet sont précieuses, mais les simulations physiques réelles sont en 3D et peuvent varier dans le temps et irrégulières, produire un riche, structure de fonctionnalités de type Web, " dit Wahid Bhmiji, un architecte Big Data dans le groupe Data and Analytics Services au NERSC et un co-auteur sur le Astrophysique computationnelle et cosmologie papier. "En outre, l'approche doit être étendue pour explorer de nouveaux univers virtuels plutôt que ceux qui ont déjà été simulés, pour finalement construire un CosmoGAN contrôlable."
« L'idée de créer des GAN contrôlables est essentiellement le Saint Graal de tout le problème sur lequel nous travaillons :pour pouvoir véritablement émuler les simulateurs physiques dont nous avons besoin pour construire des modèles de substitution basés sur des GAN contrôlables, " a ajouté Mustafa. " En ce moment, nous essayons de comprendre comment stabiliser la dynamique d'entraînement, compte tenu de toutes les avancées dans le domaine qui ont eu lieu au cours des deux dernières années. Stabiliser l'entraînement est extrêmement important pour pouvoir réellement faire ce que nous voulons faire ensuite."