Les chercheurs ont livré un logiciel d'apprentissage en profondeur de 15 pétaflops et l'ont exécuté sur Cori, un supercalculateur du Centre national de calcul scientifique de la recherche énergétique, une installation utilisateur du ministère de l'Énergie du Bureau des sciences. Crédit :Lawrence Berkeley National Laboratory
Apprentissage automatique, une forme d'intelligence artificielle, connaît un succès sans précédent dans les applications commerciales. Cependant, l'utilisation de l'apprentissage automatique dans le calcul haute performance pour la science a été limitée. Pourquoi? Les outils avancés d'apprentissage automatique n'ont pas été conçus pour les grands ensembles de données, comme ceux utilisés pour étudier les étoiles et les planètes. Une équipe d'Intel, Centre national de calcul scientifique de la recherche énergétique (NERSC), et Stanford a changé cette situation. Ils ont développé le premier logiciel d'apprentissage en profondeur de 15 pétaflops. Ils ont démontré sa capacité à gérer de grands ensembles de données via des tests sur le supercalculateur Cori.
En utilisant des techniques d'apprentissage automatique sur des supercalculateurs, les scientifiques pourraient extraire des informations de grandes, ensembles de données complexes. Instruments puissants, comme les accélérateurs, produire des ensembles de données massifs. Le nouveau logiciel pourrait permettre aux plus grands superordinateurs du monde d'intégrer ces données dans des utilisations d'apprentissage en profondeur. Les informations qui en résultent pourraient profiter à la modélisation des systèmes terrestres, énergie de fusion, et l'astrophysique.
Les techniques d'apprentissage automatique ont le potentiel pour permettre aux scientifiques d'extraire des informations précieuses de grandes, des ensembles de données complexes produits par des accélérateurs, sources lumineuses, télescopes, et simulations informatiques. Bien que ces techniques aient connu un grand succès dans une variété d'applications commerciales, leur utilisation dans le calcul haute performance pour la science a été limitée parce que les outils existants n'étaient pas conçus pour fonctionner avec les ensembles de données de la taille d'un téraoctet à un pétaoctet trouvés dans de nombreux domaines scientifiques.
Pour résoudre ce problème, une collaboration entre Intel, le Centre national de calcul scientifique de la recherche énergétique, et l'Université de Stanford a travaillé pour résoudre les problèmes qui surviennent lors de l'utilisation de techniques d'apprentissage en profondeur, une forme d'apprentissage automatique, sur des ensembles de données de téraoctets et pétaoctets. L'équipe a développé le premier logiciel d'apprentissage en profondeur de 15 pétaflops. Ils ont démontré son évolutivité pour les applications gourmandes en données en exécutant un certain nombre de cycles de formation à l'aide de grands ensembles de données scientifiques. Les exécutions ont utilisé des ensembles de données basées sur la physique et le climat sur Cori, un supercalculateur situé au Centre national de calcul scientifique de la recherche énergétique. Ils ont atteint un taux de pointe entre 11,73 et 15,07 pétaflops (simple précision) et une performance moyenne soutenue de 11,41 à 13,47 pétaflops. (Un pétaflop, c'est un million de milliards de calculs par seconde.)