• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Physique
    Le nouveau système de données laser à rayons X du SLAC traitera un million d'images par seconde

    Crédit :Greg Stewart/SLAC National Accelerator Laboratory

    Lorsque les mises à niveau du laser à rayons X du laboratoire national de l'accélérateur SLAC du ministère de l'Énergie seront terminées, la nouvelle machine puissante capturera jusqu'à 1 téraoctet de données par seconde; c'est un débit de données équivalent à la diffusion en continu d'environ un millier de longs métrages en une seule seconde, et en analysant chaque image de chaque film au fur et à mesure qu'ils zooment dans ce mode d'avance ultra-rapide.

    Les experts en données du laboratoire trouvent des moyens de gérer cette énorme quantité d'informations à mesure que les mises à niveau de la source de lumière cohérente Linac (LCLS) seront mises en service au cours des prochaines années.

    LCLS accélère les électrons à presque la vitesse de la lumière pour générer des faisceaux de rayons X extrêmement brillants. Ces rayons X sondent un échantillon tel qu'une protéine ou un matériau quantique, et un détecteur capture une série d'images qui révèlent le mouvement atomique de l'échantillon en temps réel. En enchaînant ces images, chimistes, biologistes, et les scientifiques des matériaux peuvent créer des films moléculaires d'événements tels que la façon dont les plantes absorbent la lumière du soleil, ou comment nos médicaments aident à combattre la maladie.

    Au fur et à mesure que LCLS est mis à niveau, les scientifiques passent de 120 impulsions par seconde à 1 million d'impulsions par seconde. Cela créera un 10, Faisceau de rayons X 000 fois plus lumineux qui permettra de nouvelles études de systèmes qui ne pouvaient pas être étudiés auparavant. Mais cela s'accompagnera également d'un énorme défi en matière de données :le laser à rayons X produira des centaines à des milliers de fois plus de données par période de temps donnée qu'auparavant.

    Pour traiter ces données, un groupe de scientifiques dirigé par Jana Thayer, directrice de la division LCLS Data Systems, développe de nouveaux outils de calcul, y compris les algorithmes informatiques et les moyens de se connecter aux superordinateurs. Le groupe de Thayer utilise une combinaison d'informatique, analyse de données et apprentissage automatique pour déterminer les motifs dans les images radiographiques, puis enchaîner un film moléculaire.

    Aller dans le sens du courant

    Chez LCLS, les données circulent en continu. « Quand les scientifiques ont accès à une expérience, c'est soit une journée de 12 heures, soit une nuit de 12 heures, et limité à quelques quarts de travail avant l'arrivée de l'équipe suivante, " dit Ryan Coffee, Scientifique senior du SLAC. Pour utiliser efficacement un temps d'expérimentation précieux, les goulots d'étranglement doivent être totalement évités pour préserver le flux de données et leur analyse.

    La diffusion et le stockage des données représentent un défi important pour les ressources réseau et informatiques, et pouvoir surveiller la qualité des données en temps quasi réel signifie que les données doivent être traitées immédiatement. Une étape essentielle pour rendre cela possible est de réduire autant que possible la quantité de données avant de les stocker pour une analyse plus approfondie.

    Pour activer cela, L'équipe de Thayer a mis en œuvre une réduction des données à la volée en utilisant plusieurs types de compression pour réduire la taille des données enregistrées sans affecter la qualité du résultat scientifique. Une forme de compression, appelé veto, jette les données indésirables, comme des images où les rayons X ont raté leur cible. Un autre, appelée extraction de caractéristiques, enregistre uniquement les informations importantes sur le plan scientifique, comme l'emplacement et la luminosité d'un point sur une image radiographique.

    « Si nous enregistrions toutes les données brutes, comme nous l'avons fait jusqu'à présent, cela nous coûterait un quart de milliard de dollars par an, " dit Thayer. "Notre mission est de comprendre comment réduire les données avant de les écrire. L'un des vraiment chouettes, les éléments innovants du nouveau système de données que nous avons développé sont le pipeline de réduction des données, qui supprime les informations non pertinentes et réduit les données qui doivent être transférées et stockées."

    Café dit, "Alors vous économisez beaucoup d'énergie, mais plus important, vous économisez sur le débit. Si vous devez envoyer les données brutes via le réseau, vous allez le submerger complètement en essayant d'envoyer des images à chaque microseconde."

    Le groupe a également créé un endroit intermédiaire pour mettre les données avant qu'elles ne soient stockées. Thayer explique, "Nous ne pouvons pas écrire directement dans le stockage, car s'il y a un problème dans le système, il doit faire une pause et attendre. Ou s'il y a un problème de réseau, alors vous pouvez perdre complètement des données. Donc, nous avons un tampon petit mais fiable dans lequel nous pouvons écrire; alors nous pouvons déplacer les données vers un stockage permanent."

    Stimuler l'innovation

    Thayer souligne que le système de données est conçu pour fournir aux chercheurs les résultats de leurs travaux aussi rapidement que le système actuel, afin qu'ils obtiennent des informations en temps réel. Il est également construit pour accueillir l'expansion de la science LCLS au cours des 10 prochaines années. Le grand défi est de suivre le bond énorme du débit de données.

    "Si vous imaginez passer de l'analyse de 120 images par seconde à 1 million par seconde, cela nécessite beaucoup plus de défilement, " dit-elle. " L'informatique n'est pas magique - ça fonctionne toujours de la même manière - nous augmentons simplement le nombre de cerveaux travaillant sur chacune des images. "

    Soutenu par un récent prix du DOE, et travailler avec des collègues de tout le complexe de laboratoire national du DOE, l'équipe cherche également à intégrer des techniques d'intelligence artificielle et d'apprentissage automatique pour réduire davantage la quantité de données à traiter, et pour signaler les caractéristiques intéressantes des données au fur et à mesure qu'elles surviennent.

    Pour comprendre le défi des données LCLS, Coffee fait une analogie avec les voitures autonomes :« Ils doivent calculer en temps réel :ils ne peuvent pas analyser un lot d'images qui viennent d'être enregistrées et ensuite dire « Nous prédisons que vous auriez dû tourner à gauche sur l'image numéro 10 ». beaucoup plus élevé que n'importe laquelle de ces voitures connaîtra, mais le problème est le même :les chercheurs doivent orienter leur expérimentation pour trouver les destinations les plus excitantes !"

    Les mises à niveau à l'origine de ce bond massif en termes de débit de données et de performances se dérouleront en deux phases au cours des années à venir, y compris LCLS-II et une mise à niveau à haute énergie qui suit. Le travail des experts en données garantira que les scientifiques pourront tirer pleinement parti des deux. "En fin de compte, cela aura un effet dramatique sur le type de science que nous pouvons faire, ouvrant des opportunités qui ne sont pas possibles aujourd'hui, ", dit le café.


    © Science https://fr.scienceaq.com