Un rendu d'artiste de la basse fréquence du SKA, antennes en forme de cône en Australie occidentale. Crédit :Bureau de projet SKA
Pendant près de trois décennies, des scientifiques et des ingénieurs du monde entier ont travaillé sur le Square Kilometer Array (SKA), un projet axé sur la conception et la construction du plus grand radiotélescope du monde. Bien que le SKA collecte d'énormes quantités de données astronomiques précises en un temps record, les percées scientifiques ne seront possibles qu'avec des systèmes capables de traiter efficacement ces données.
Étant donné que la construction du SKA ne devrait pas commencer avant 2021, les chercheurs ne peuvent pas collecter suffisamment de données d'observation pour s'entraîner à analyser les énormes quantités que les experts prévoient que le télescope produira. Au lieu, une équipe du Centre international de recherche en radioastronomie (ICRAR) en Australie, le Laboratoire national d'Oak Ridge (ORNL) du Department of Energy (DOE) aux États-Unis, et l'Observatoire astronomique de Shanghai (SHAO) en Chine a récemment utilisé Summit, le supercalculateur le plus puissant du monde, pour simuler la production attendue du SKA. Summit est situé à Oak Ridge Leadership Computing Facility, une installation d'utilisateurs du DOE Office of Science à l'ORNL.
"Le supercalculateur Summit a fourni une occasion unique de tester un simple flux de données SKA à l'échelle que nous attendons du réseau de télescopes, " a déclaré Andreas Wicenec, directeur de Data Intensive Astronomy à l'ICRAR.
Pour traiter les données simulées, l'équipe s'est appuyée sur le système d'E/S adaptable développé par ORNL (ADIOS), un framework d'entrée/sortie (E/S) open source dirigé par Scott Klasky de l'ORNL, qui dirige également le groupe de données scientifiques du laboratoire. ADIOS est conçu pour accélérer les simulations en augmentant l'efficacité des opérations d'E/S et pour faciliter les transferts de données entre les systèmes de calcul haute performance et d'autres installations, ce qui serait autrement une tâche complexe et chronophage.
La simulation SKA sur Summit marque la première fois que des données de radioastronomie sont traitées à une si grande échelle et prouve que les scientifiques ont l'expertise, outils logiciels, et des ressources informatiques qui seront nécessaires pour traiter et comprendre les données réelles du SKA.
"Le groupe de données scientifiques se consacre à la recherche de technologies de nouvelle génération pouvant être développées et déployées pour les applications les plus exigeantes sur le plan scientifique sur les ordinateurs les plus rapides du monde, " a déclaré Klasky. " Je suis fier de tout le travail acharné que l'équipe ADIOS et les scientifiques du SKA ont fait avec l'ICRAR, ORNL, et SHAO."
En utilisant deux types de récepteurs radio, le télescope détectera les ondes lumineuses radio émanant des galaxies, l'environnement des trous noirs, et d'autres objets d'intérêt dans l'espace pour aider les astronomes à répondre à des questions fondamentales sur l'univers. En étudiant ces faibles, vagues insaisissables nécessite une armée d'antennes.
La première phase du SKA en comptera plus de 130, 000 basse fréquence, antennes en forme de cône situées en Australie occidentale et à environ 200 fréquences plus élevées, antennes paraboliques situées en Afrique du Sud. L'équipe internationale du projet gérera à terme près d'un million d'antennes pour mener des études inédites des phénomènes astronomiques.
Pour imiter la partie ouest australienne du SKA, les chercheurs ont exécuté deux modèles sur Summit, l'un du réseau d'antennes et l'autre de l'univers primitif, via un simulateur logiciel conçu par des scientifiques de l'Université d'Oxford qui imite la collecte de données du SKA. Les simulations ont généré 2,6 pétaoctets de données à 247 gigaoctets par seconde.
"Générer une telle quantité de données avec le simulateur de réseau d'antennes nécessite beaucoup de puissance et des milliers d'unités de traitement graphique pour fonctionner correctement, ", a déclaré Ruonan Wang, ingénieur logiciel ORNL. "Summit est probablement le seul ordinateur au monde qui peut faire cela."
Bien que le simulateur fonctionne généralement sur un seul ordinateur, l'équipe a utilisé un outil de gestion de flux de travail spécialisé. Wang a aidé l'ICRAR à développer le moteur de graphe de flux activé par les données (DALiuGE) pour faire évoluer efficacement la capacité de modélisation jusqu'à 4, 560 nœuds de calcul sur Summit. DALiuGE a une tolérance aux pannes intégrée, s'assurer que des erreurs mineures n'entravent pas le flux de travail.
"Le problème avec les ressources traditionnelles, c'est qu'un problème peut faire s'effondrer tout le travail, " a déclaré Wang. Wang a obtenu son doctorat à l'Université d'Australie occidentale, qui gère l'ICRAR avec l'Université Curtin.
L'afflux intense de données provenant des simulations de réseau a entraîné un goulot d'étranglement des performances, que l'équipe a résolu en réduisant, En traitement, et stocker les données à l'aide d'ADIOS. Les chercheurs branchent généralement ADIOS directement dans le sous-système d'E/S d'une application donnée, mais le logiciel inhabituellement compliqué du simulateur a obligé l'équipe à personnaliser un module d'extension pour rendre les deux ressources compatibles.
"C'était beaucoup plus complexe qu'une application normale, " a déclaré Wang.
Wang a commencé à travailler sur ADIOS1, la première itération de l'outil, Il y a 6 ans lors de son passage à l'ICRAR. Maintenant, il est l'un des principaux développeurs de la dernière version, ADIOS2. Son équipe vise à positionner ADIOS comme une ressource de stockage supérieure pour la prochaine génération de données d'astronomie et la solution d'E/S par défaut pour les futurs télescopes au-delà même de la portée gargantuesque du SKA.
"Plus vite nous pouvons traiter les données, mieux nous pourrons comprendre l'univers, " il a dit.