Crédit :Pixabay/CC0 Domaine public
Lorsque le Lincoln Laboratory Supercomputing Center (LLSC) du MIT a dévoilé son supercalculateur TX-GAIA en 2019, il a fourni à la communauté du MIT une nouvelle ressource puissante pour appliquer l'intelligence artificielle à ses recherches. N'importe qui au MIT peut soumettre une tâche au système, qui effectue des milliards d'opérations par seconde pour former des modèles pour diverses applications, telles que la détection de tumeurs sur des images médicales, la découverte de nouveaux médicaments ou la modélisation des effets climatiques. Mais cette grande puissance s'accompagne de la grande responsabilité de la gérer et de l'exploiter de manière durable, et l'équipe cherche des moyens de s'améliorer.
"Nous avons ces puissants outils de calcul qui permettent aux chercheurs de créer des modèles complexes pour résoudre des problèmes, mais ils peuvent essentiellement être utilisés comme des boîtes noires. Ce qui se perd là-dedans, c'est si nous utilisons réellement le matériel aussi efficacement que possible", déclare Siddharth Samsi. , chercheur scientifique au LLSC.
Pour mieux comprendre ce défi, la LLSC a recueilli des données détaillées sur l'utilisation de TX-GAIA au cours de l'année écoulée. Plus d'un million d'emplois d'utilisateurs plus tard, l'équipe a publié l'ensemble de données open source pour la communauté informatique.
Leur objectif est de permettre aux informaticiens et aux opérateurs de centres de données de mieux comprendre les possibilités d'optimisation des centres de données, une tâche importante alors que les besoins de traitement ne cessent de croître. Ils voient également un potentiel pour tirer parti de l'IA dans le centre de données lui-même, en utilisant les données pour développer des modèles permettant de prédire les points de défaillance, d'optimiser la planification des tâches et d'améliorer l'efficacité énergétique. Alors que les fournisseurs de cloud travaillent activement à l'optimisation de leurs centres de données, ils ne mettent pas souvent leurs données ou modèles à la disposition de la communauté informatique haute performance (HPC) au sens large. La publication de cet ensemble de données et du code associé vise à remplir cet espace.
« Les centres de données changent. Nous avons une explosion de plates-formes matérielles, les types de charges de travail évoluent et les types de personnes qui utilisent les centres de données changent », explique Vijay Gadepally, chercheur principal au LLSC. "Jusqu'à présent, il n'existait pas de moyen efficace d'analyser l'impact sur les centres de données. Nous considérons cette recherche et cet ensemble de données comme un grand pas en avant vers une approche fondée sur des principes pour comprendre comment ces variables interagissent les unes avec les autres, puis appliquer l'IA. pour des idées et des améliorations."
Les articles décrivant l'ensemble de données et les applications potentielles ont été acceptés dans un certain nombre de lieux, notamment le Symposium international de l'IEEE sur l'architecture informatique haute performance, le Symposium international de traitement parallèle et distribué de l'IEEE, la Conférence annuelle du chapitre nord-américain de l'Association for Computational linguistique, la conférence IEEE sur le calcul haute performance et embarqué et la conférence internationale sur le calcul haute performance, la mise en réseau, le stockage et l'analyse.
Classification de la charge de travail
Parmi les supercalculateurs TOP500 au monde, TX-GAIA combine du matériel informatique traditionnel (unités centrales de traitement, ou CPU) avec près de 900 accélérateurs d'unités de traitement graphique (GPU). Ces GPU NVIDIA sont spécialisés pour l'apprentissage en profondeur, la classe d'IA qui a donné naissance à la reconnaissance vocale et à la vision par ordinateur.
L'ensemble de données couvre l'utilisation du processeur, du processeur graphique et de la mémoire par tâche ; journaux de planification ; et les données de surveillance physique. Comparé à des ensembles de données similaires, tels que ceux de Google et de Microsoft, l'ensemble de données LLSC offre "des données étiquetées, une variété de charges de travail d'IA connues et des données de séries chronologiques plus détaillées par rapport aux ensembles de données précédents. À notre connaissance, c'est l'un des plus complets et ensembles de données à granularité fine disponibles », déclare Gadepally.
L'équipe a notamment collecté des données de séries chronologiques à un niveau de détail sans précédent :des intervalles de 100 millisecondes sur chaque GPU et des intervalles de 10 secondes sur chaque CPU, car les machines ont traité plus de 3 000 tâches d'apprentissage en profondeur connues. L'un des premiers objectifs est d'utiliser cet ensemble de données étiqueté pour caractériser les charges de travail que différents types de tâches d'apprentissage en profondeur placent sur le système. Ce processus extrairait des caractéristiques qui révèlent des différences dans la façon dont le matériel traite les modèles de langage naturel par rapport à la classification d'images ou aux modèles de conception de matériaux, par exemple.
L'équipe a maintenant lancé le MIT Datacenter Challenge pour mobiliser cette recherche. Le défi invite les chercheurs à utiliser des techniques d'IA pour identifier avec une précision de 95 % le type de travail qui a été exécuté, en utilisant leurs données de séries chronologiques étiquetées comme vérité de terrain.
De telles informations pourraient permettre aux centres de données de mieux faire correspondre la demande de travail d'un utilisateur avec le matériel le mieux adapté, ce qui pourrait potentiellement économiser de l'énergie et améliorer les performances du système. La classification des charges de travail pourrait également permettre aux opérateurs de remarquer rapidement les écarts résultant de pannes matérielles, de schémas d'accès aux données inefficaces ou d'une utilisation non autorisée.
Trop de choix
Aujourd'hui, le LLSC propose des outils qui permettent aux utilisateurs de soumettre leur travail et de sélectionner les processeurs qu'ils souhaitent utiliser, "mais c'est beaucoup de conjectures de la part des utilisateurs", explique Samsi. "Quelqu'un pourrait vouloir utiliser le dernier GPU, mais peut-être que son calcul n'en a pas réellement besoin et qu'il pourrait obtenir des résultats tout aussi impressionnants sur des processeurs ou des machines moins puissantes."
Le professeur Devesh Tiwari de la Northeastern University travaille avec l'équipe du LLSC pour développer des techniques qui peuvent aider les utilisateurs à faire correspondre leurs charges de travail au matériel approprié. Tiwari explique que l'émergence de différents types d'accélérateurs d'IA, de GPU et de CPU a laissé les utilisateurs souffrant de trop de choix. Sans les bons outils pour tirer parti de cette hétérogénéité, ils passent à côté des avantages :meilleures performances, réduction des coûts et augmentation de la productivité.
« Nous corrigeons cet écart de capacité en rendant les utilisateurs plus productifs et en aidant les utilisateurs à faire de la science mieux et plus rapidement sans se soucier de la gestion de matériel hétérogène », déclare Tiwari. "Mon étudiant au doctorat, Baolin Li, développe de nouvelles capacités et de nouveaux outils pour aider les utilisateurs HPC à tirer parti de l'hétérogénéité de manière quasi optimale sans intervention de l'utilisateur, en utilisant des techniques fondées sur l'optimisation bayésienne et d'autres méthodes d'optimisation basées sur l'apprentissage. Mais ce n'est que le Nous recherchons des moyens d'introduire l'hétérogénéité dans nos centres de données dans le cadre d'une approche fondée sur des principes pour aider nos utilisateurs à tirer le meilleur parti de l'hétérogénéité de manière autonome et rentable."
La classification de la charge de travail est le premier des nombreux problèmes posés par le Datacenter Challenge. D'autres incluent le développement de techniques d'intelligence artificielle pour prévoir les défaillances des tâches, économiser l'énergie ou créer des approches de planification des tâches qui améliorent l'efficacité du refroidissement des centres de données.
Économie d'énergie
Pour mobiliser la recherche vers une informatique plus verte, l'équipe prévoit également de publier un ensemble de données environnementales des opérations TX-GAIA, contenant la température du rack, la consommation d'énergie et d'autres données pertinentes.
Selon les chercheurs, d'énormes opportunités existent pour améliorer l'efficacité énergétique des systèmes HPC utilisés pour le traitement de l'IA. À titre d'exemple, des travaux récents du LLSC ont déterminé qu'un simple réglage du matériel, comme la limitation de la quantité d'énergie qu'un GPU individuel peut consommer, pourrait réduire de 20 % le coût énergétique de la formation d'un modèle d'IA, avec seulement de modestes augmentations du temps de calcul. "Cette réduction se traduit par environ une semaine entière d'énergie domestique pour une simple augmentation de temps de trois heures", déclare Gadepally.
Ils ont également développé des techniques pour prédire la précision du modèle, afin que les utilisateurs puissent rapidement mettre fin aux expériences qui ne donneront probablement pas de résultats significatifs, économisant ainsi de l'énergie. Le Datacenter Challenge partagera des données pertinentes pour permettre aux chercheurs d'explorer d'autres possibilités d'économiser l'énergie.
L'équipe s'attend à ce que les leçons tirées de cette recherche puissent être appliquées aux milliers de centres de données exploités par le département américain de la Défense.
Parmi les autres collaborateurs figurent des chercheurs du Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL). Le groupe de recherche Supertech du professeur Charles Leiserson étudie des techniques d'amélioration des performances pour le calcul parallèle, et le chercheur scientifique Neil Thompson conçoit des études sur les moyens d'inciter les utilisateurs de centres de données à adopter un comportement respectueux du climat.
Samsi a présenté ce travail lors de l'atelier inaugural AI for Datacenter Optimization (ADOPT'22) au printemps dernier dans le cadre du IEEE International Parallel and Distributed Processing Symposium. L'atelier a officiellement présenté leur Datacenter Challenge à la communauté HPC.
"Nous espérons que cette recherche nous permettra, à nous et à d'autres qui gèrent des centres de calcul intensif, d'être plus réactifs aux besoins des utilisateurs tout en réduisant la consommation d'énergie au niveau du centre", a déclaré Samsi.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT. Premières études avec Quantum Machine Learning au LHCb