• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • L'évolution high-tech du calcul scientifique

    L'évolution high-tech du calcul scientifique. Crédit :Département américain de l'Énergie

    La science s'est toujours appuyée sur une combinaison d'approches pour obtenir une réponse ou développer une théorie. Les graines de la théorie de la sélection naturelle de Darwin ont germé sous une agrégation herculéenne d'observations, Les données, et expérimenter. La confirmation plus récente des ondes gravitationnelles par le Laser Interferometer Gravitational-Wave Observatory (LIGO) était une interaction théorique de plusieurs décennies, expérience, et calcul.

    Certainement, cette idée n'a pas été perdue pour le laboratoire national d'Argonne du département américain de l'Énergie (DOE), qui a contribué à repousser les limites des technologies de calcul haute performance grâce à l'Argonne Leadership Computing Facility (ALCF).

    Réalisant la promesse de l'informatique exascale, l'ALCF développe le cadre permettant d'exploiter cette immense puissance de calcul à une combinaison avancée de simulation, l'analyse des données, et l'apprentissage automatique. Cet effort recadrera sans aucun doute la manière dont la science est conduite, et le faire à l'échelle mondiale.

    Depuis la création de l'ALCF en 2006, les méthodes utilisées pour collecter, analyser et utiliser les données ont radicalement changé. Là où les données étaient autrefois le produit et limitées par l'observation physique et l'expérimentation, les avancées dans les flux d'instruments scientifiques tels que les lignes de lumière, collisionneurs, et les télescopes spatiaux - pour n'en nommer que quelques-uns - ont considérablement augmenté la production de données, céder la place à de nouvelles terminologies, comme les « données volumineuses ».

    Alors que la méthode scientifique reste intacte et que l'instinct humain de poser de grandes questions guide toujours la recherche, la façon dont nous répondons à cette nouvelle manne d'informations nécessite un changement fondamental dans la façon dont nous utilisons les technologies informatiques émergentes pour l'analyse et la découverte.

    Cette convergence de simulation, Les données, et l'apprentissage entraîne une boucle de rétroaction toujours plus complexe mais logique.

    Une capacité de calcul accrue prend en charge des simulations scientifiques plus importantes qui génèrent des ensembles de données massifs utilisés pour alimenter un processus d'apprentissage automatique, dont la sortie informe une simulation plus poussée et plus précise. Cette, trop, est encore complétée par des données d'observations, expériences, etc., pour affiner le processus en utilisant des approches basées sur les données.

    "Bien que nous ayons toujours eu cette tradition d'exécuter des simulations, nous travaillons progressivement depuis plus de quelques années pour intégrer de manière robuste les données et l'apprentissage, " dit Michael Papka, directeur de l'ALCF et directeur adjoint du laboratoire associé pour l'informatique, Environnement et Sciences de la Vie (CELS).

    Pour faire avancer cet objectif, l'installation a lancé son programme de science des données ALCF en 2016 pour explorer et améliorer les méthodes de calcul qui pourraient mieux permettre des découvertes basées sur les données dans toutes les disciplines scientifiques. L'ALCF a également récemment étendu son programme Aurora Early Science avec l'ajout de 10 nouveaux projets qui aideront à préparer le futur supercalculateur exascale de l'installation pour les approches de données et d'apprentissage.

    Et plus tôt cette année, la direction du CELS a annoncé la création des divisions Computational Science (CPS) et Data Science and Learning (DSL) pour explorer des problèmes scientifiques difficiles à travers une modélisation et une simulation avancées, et l'analyse de données et d'autres méthodes d'intelligence artificielle, respectivement.

    "Ces efforts combinés se concentreront sur les sciences du domaine et identifieront les problèmes importants qui peuvent être résolus grâce à une combinaison de simulation, science des données, et les approches d'apprentissage automatique. Dans de nombreux cas, nous nous appuierons sur des personnes possédant une expertise pertinente dans plusieurs divisions, ", explique le directeur du CPS, Paul Messina.

    Déjà, cette combinaison de programmes et d'entités est testée et prouvée par des études qui traversent le spectre scientifique, de la compréhension des origines de l'univers au déchiffrement de la connectivité neuronale du cerveau.

    Convergence pour un avenir meilleur

    Les données ont toujours été un moteur clé en science et oui, c'est vrai qu'il y a une quantité exponentiellement plus grande qu'il n'y en avait, dire, il y a dix ans. Mais si la taille et la complexité des données désormais disponibles posent des problèmes, il offre également des opportunités pour de nouvelles perspectives.

    Il ne fait aucun doute que les recherches de Darwin étaient des mégadonnées pour l'époque, mais c'était l'aboutissement de près de 30 ans de collecte et d'analyse minutieuses. Il aurait peut-être considérablement réduit le processus s'il avait eu accès à des ordinateurs hautes performances, et des techniques d'analyse de données et d'apprentissage automatique, comme l'exploration de données.

    "Ces techniques ne changent pas fondamentalement la méthode scientifique, mais ils changent l'échelle ou la vitesse ou le type de complexité que vous pouvez gérer, " note Rick Stevens, Directeur du laboratoire associé du CELS et professeur à l'Université de Chicago.

    Prendre, par exemple, recherche de nouveaux matériaux conçus pour produire de l'énergie solaire lorsque la lumière du soleil traverse les fenêtres. La technologie a été entravée par manque de la bonne molécule de colorant, dont la découverte nécessite la tâche fastidieuse de rechercher dans des rames de littérature sur la chimie pour trouver des molécules avec les bons paramètres.

    La chimiste et physicienne Jacqueline Cole dirige un effort de collaboration entre Argonne et l'Université de Cambridge pour mettre en lumière de telles molécules. Cole a développé un processus en plusieurs étapes qui parcourt la simulation; extraction de données, enrichissement, et l'exploitation minière; prédiction des matériaux et validation expérimentale.

    L'équipe exécute des simulations à grande échelle sur des molécules ciblées pour prédire des colorants chimiques dotés de propriétés optiques clés. A partir de ces données, les molécules sont sélectionnées pour la synthèse, et les produits chimiques résultants sont transformés en dispositifs pour valider leurs perspectives dans les fenêtres à énergie solaire. Les résultats déterminent si une enquête plus approfondie est nécessaire.

    "Il y a une boucle de rétroaction positive inhérente à cela, " dit-elle. " Même si le processus de validation ne se passe pas bien, il peut encore fournir des informations utiles. Nous pourrions apprendre, par exemple, que nous devons affiner les relations structure-fonction des molécules pour une application particulière ou ajouter un nouveau type de données aux données existantes."

    Une grande partie de l'effort a été concentrée sur la construction d'une base de données de molécules organiques souhaitables, dont une grande partie a été compilée par l'exploration de données quelque 300, 000 articles de recherche publiés. La recherche a été stimulée par la Materials Genome Initiative, une initiative gouvernementale visant à commercialiser des matériaux fonctionnels beaucoup plus rapidement qu'il n'en a fallu des décennies auparavant.

    "L'avantage de ce procédé est de vraiment supprimer l'ancienne curation manuelle des bases de données, qui est des vies de travail, et le réduire à quelques mois. Finalement, quelques jours, " dit Cole.

    Une machine pour les lier tous

    Qu'il s'agisse de rechercher des molécules de colorant très spécifiques ou de comprendre la physique des écoulements clés pour développer des pales d'éoliennes plus efficaces, la fusion et l'épanouissement de la simulation, Les données, et l'apprentissage n'est possible que grâce au développement exponentiel et délibéré de systèmes de calcul et de transmission de données haute performance.

    "Les architectures de supercalculateurs sont structurées pour les rendre plus aptes à traiter de grandes quantités de données et faciliter l'apprentissage, en plus des simulations traditionnelles, " dit Venkat Vishwanath, Responsable des sciences des données de l'ALCF. "Et nous équipons ces machines de conduits massifs qui nous permettent de diffuser de grandes quantités de données du monde extérieur, comme le Grand collisionneur de hadrons au CERN et notre propre source de photons avancée (APS) et permettent des modèles basés sur les données. »

    De nombreuses architectures actuelles nécessitent encore le transfert de données d'ordinateur à ordinateur, d'une machine, dont la seule fonction est la simulation, à un autre qui excelle dans l'analyse de données et/ou l'apprentissage automatique.

    Au cours des dernières années, Argonne et l'ALCF ont réalisé un solide investissement dans le calcul haute performance qui les rapproche d'une machine totalement intégrée. Le processus s'est accéléré en 2017, avec l'introduction du système Intel-Cray, Thêta, qui est capable de combiner des simulations traditionnelles et des techniques d'apprentissage automatique.

    L'ALCF aidera à piloter la simulation, Les données, et apprendre à un nouveau niveau en 2021, quand ils dévoilent la première machine exascale du pays, Aurore. Alors qu'il peut effectuer un milliard de milliards de calculs par seconde, son principal avantage peut être sa capacité à conduire et faire converger la simulation, l'analyse des données, et l'apprentissage automatique sous un même capot. Le résultat final permettra aux chercheurs d'aborder de nouveaux types ainsi que des problèmes beaucoup plus vastes et de réduire le temps de résolution.

    "Aurora va changer la donne, " dit Papka de l'ALCF. " Nous travaillons avec les fournisseurs Intel et Cray pour nous assurer que nous pouvons soutenir la science à travers cette confluence de la simulation, Les données, et tout apprendre dès le premier jour du déploiement d'Aurora."

    Que ce soit par Darwin ou Turing, que ce soit au tableau ou au papier millimétré, certaines des grandes innovations scientifiques mondiales sont le fruit d'un ou de plusieurs individus déterminés qui ont bien compris l'importance d'appliquer des approches équilibrées et variées pour soutenir – ou réfuter – une hypothèse.

    Parce que l'innovation actuelle est motivée par la collaboration entre collègues et entre disciplines, le potentiel de découverte grâce à l'application pragmatique de nouvelles ressources informatiques, couplé à un flux de données illimité, étourdit l'imagination.


    © Science https://fr.scienceaq.com