Une illustration conceptuelle de la méthode multigrille pour la QCD sur réseau montre à la fois des grilles fines et grossières. Les modes énergétiques à haute fréquence d'un proton apparaissent sous forme de duvet sur une grille fine (en haut). Le processus multigrille projette plus facilement, modes de longueur d'onde plus longue qui peuvent être capturés avec une grille plus grossière, qui demande moins de travail à résoudre (en bas). Le processus multigrille effectue des cycles entre les grilles pour résoudre le problème de manière optimale. Crédit :Joanna Griffin, Laboratoire Jefferson
À la recherche de prédictions numériques pour les particules exotiques, les chercheurs simulent des particules de quark et de gluon pour la construction d'atomes plus de 70 fois plus rapidement sur Summit, le supercalculateur scientifique le plus puissant au monde, que sur son prédécesseur Titan au laboratoire national d'Oak Ridge (ORNL) du département américain de l'Énergie (DOE). Les interactions des quarks et des gluons sont calculées à l'aide de la chromodynamique quantique sur réseau (QCD) - une version conviviale du cadre mathématique qui décrit ces interactions à force forte.
Avec de nouveaux algorithmes et optimisations pour les systèmes basés sur GPU comme Summit, les physiciens computationnels Balint Joo du Jefferson Lab du DOE et Kate Clark du développeur de GPU NVIDIA combinent deux codes QCD open source, Chroma et la librairie QUDA pour GPU, sur Sommet. Situé à Oak Ridge Leadership Computing Facility (OLCF), Summit est un 200 pétaflop, Système IBM AC922 lancé en juin en tant que système le mieux classé sur la liste Top500.
Les calculs QCD peuvent aider à révéler des informations insaisissables, particules à courte durée de vie qui sont difficiles à capturer dans l'expérience. Les avancées dans les applications QCD pour cette nouvelle génération de calcul intensif bénéficieront à l'équipe, dirigé par le physicien Robert Edwards du Jefferson Lab, dans sa quête pour découvrir les propriétés des particules exotiques.
"Nous obtenons des prédictions de QCD, " dit Joo. " Là où il y a des inconnues théoriques, les calculs informatiques peuvent nous donner des états d'énergie et des désintégrations de particules à rechercher dans des expériences. »
Edwards et Joo travaillent en étroite collaboration avec une expérience d'accélérateur de particules au Jefferson Lab appelée GlueX qui relie les prédictions théoriques de la QCD et les preuves expérimentales.
"GlueX est une expérience phare de la mise à niveau de 338 millions de dollars récemment achevée de l'accélérateur CEBAF du laboratoire Jefferson. L'expérience dans le nouveau hall D du laboratoire utilise le faisceau d'électrons pour créer un faisceau de photons polarisés intense pour produire des particules, y compris éventuellement des mésons exotiques, " a déclaré Edwards. "Nos calculs QCD informent et guident ces recherches expérimentales."
Pleine vitesse
L'équipe a reçu un accès anticipé à Summit pour tester les performances de son code sur l'architecture du système. Summit a environ un quart du nombre de nœuds du supercalculateur Titan à 27 pétaflops. Cependant, Les nœuds de Summit, comprenant deux processeurs IBM Power9 et six GPU NVIDIA Tesla V100, sont exceptionnellement rapides et riches en mémoire, dont 42 téraflops de performances et 512 gigaoctets de mémoire par nœud.
Grâce à une combinaison d'améliorations matérielles et d'optimisations logicielles, l'équipe a augmenté le débit sur Summit neuf fois par rapport à leurs précédentes simulations Titan, tout en compressant leur taille de problème d'origine pour utiliser huit fois moins de GPU pour une accélération totale des performances d'environ 72 fois.
Dans les simulations QCD sur réseau, l'espace-temps est représenté par un treillis, et les scientifiques génèrent des instantanés du champ de force forte sur les maillons de ce réseau, appelées configurations de jauge. Cette première étape est appelée génération de jauge. Puis, dans une étape connue sous le nom de calcul du propagateur de quarks, les chercheurs introduisent une charge dans le champ de jauge et résolvent un grand système d'équations qui représente la façon dont un quark se déplacerait dans l'espace et le temps. Dans une dernière étape d'analyse, ces propagateurs de quarks sont combinés en états de particules initial et final, à partir de laquelle les spectres d'énergie peuvent être calculés et liés à l'expérience.
Pour préparer leur code pour Summit, l'équipe a apporté des améliorations algorithmiques pour augmenter l'efficacité. D'abord, ils ont avancé un solveur multigrille adaptatif dans la bibliothèque QUDA qui génère des grilles grossières et fines basées sur des états d'énergie à basse et haute énergie, respectivement. Le processus multi-réseaux implique une phase de configuration, qui est ensuite utilisé dans les étapes de solution.
"Les GPU Summit sont très bien adaptés à cet algorithme multigrille, et nous y avons vu un potentiel d'accélération, " dit Clark.
Précédemment, les étapes de la solution ont été optimisées pour les GPU de Titan, et le solveur multigrille a été utilisé pour la phase de propagation des quarks des calculs effectués pour chaque configuration de jauge. Pour le Sommet, l'équipe a intégré le solveur multigrille dans la phase initiale de génération de jauge.
« Dans la phase de génération de jauge, les configurations de jauge changent rapidement et nécessitent que le processus de configuration soit répété fréquemment, " dit Joo. " Par conséquent, une étape d'optimisation cruciale consistait à déplacer entièrement cette phase de configuration sur les GPU."
L'équipe a vu une autre opportunité d'accélérer la génération de configuration de jauge en incorporant d'autres améliorations algorithmiques et logicielles aux côtés du solveur multigrille.
D'abord, pour réduire la quantité de travail nécessaire pour passer d'une configuration de jauge à l'autre, l'équipe a mis en œuvre un intégrateur à gradient de force qui utilise une méthode de dynamique moléculaire précédemment adaptée pour la CDQ.
"Le processus est mathématiquement similaire à la simulation des molécules d'un gaz, ainsi une procédure de dynamique moléculaire est réutilisée pour générer chaque nouvelle configuration de jauge à partir de la précédente, " dit Joo.
Seconde, alors que la bibliothèque QUDA exécute automatiquement les calculs nécessaires à la génération de configuration de jauge sur les GPU, l'algorithme complet contient de nombreux autres morceaux de code qui peuvent entraîner un goulot d'étranglement des performances s'il n'est pas également accéléré par le GPU. Pour éviter ce goulot d'étranglement et améliorer les performances, l'équipe a utilisé la version QDP-Just-in-Time (JIT) de la couche logicielle QDP++ sous-jacente à Chroma pour cibler toutes les expressions mathématiques afin qu'elles s'exécutent pleinement sur les GPU.
"Les améliorations de l'accélération grâce à ces optimisations nous ont permis de lancer une série de simulations que nous ne pouvions tout simplement pas envisager de réaliser auparavant, " dit Joo. " Sur Titan, nous avons déjà commencé une nouvelle série dans le cadre du programme ASCR Leadership Computing Challenge avec des quarks dont les masses ressemblent davantage à celles de la nature, qui vise directement notre programme de spectroscopie au Jefferson Lab."