Un événement de collision enregistré par CMS en 2012 montrant un « candidat Higgs », disponible sur le portail Open Data du CERN avec la dernière version de CMS Open Data. Crédit :Tom McCauley/CMS/CERN
La collaboration CMS au CERN vient de rendre publiques environ la moitié des données collectées en 2012 par le détecteur CMS du Large Hadron Collider. Cette version comprend des ensembles utilisés pour découvrir le boson de Higgs, et est partagé via le portail Open Data du CERN.
Il s'agit de la troisième version du CMS Open Data de haut niveau, suite à la diffusion des données 2010 en 2014, et les données de 2012 en 2016. Ce lot contient plus de 550 téraoctets de données de collision proton-proton enregistrées à une énergie de centre de masse de 8 TeV ainsi qu'environ 510 téraoctets de données de simulation Monte Carlo.
Les données du LHC sont complexes et volumineuses. Les chercheurs de CMS ont enregistré des pétaoctets de données de collisions au LHC et ont jusqu'à présent publié des centaines d'articles scientifiques avec eux. En publiant les données dans le domaine public, les chercheurs en dehors de la collaboration CMS ont la possibilité de mener de nouvelles recherches avec eux.
"Nos données sont un élément important du riche héritage scientifique de la collaboration CMS, " déclare le porte-parole de CMS, Joël Butler. « Nous voudrions nous assurer qu'ils soient non seulement conservés sur le long terme mais qu'ils soient également accessibles au public, afin que les membres de la CMS et les chercheurs externes puissent les réexaminer à l'avenir. Cela fait partie de notre engagement en faveur de l'ouverture et de la préservation des données à long terme."
Animation montrant un événement « candidat Higgs », enregistré par CMS en 2012 et disponible sur le portail Open Data du CERN avec la dernière version de CMS Open Data. Crédit :Tom McCauley et Achintya Rao CMS/CERN
Récemment, les deux premiers de ces articles de recherche ont été publiés par une équipe de théoriciens du MIT intéressés par la réalisation d'une mesure que les scientifiques de CMS n'avaient pas eux-mêmes effectuée :ils voulaient spécifiquement mesurer des sous-structures particulières dans des amas de particules appelés "jets" produits lors de collisions proton-proton.
La dernière version de CMS Open Data offre également la possibilité fascinante de permettre aux gens de répéter l'analyse qui a conduit à la découverte du Higgs en étudiant les mêmes données utilisées par les scientifiques de CMS pour annoncer l'existence de la particule en 2012. Comme preuve de concept, Nur Zulaiha Jomhari, doctorante à CMS, a analysé les données ouvertes de CMS et a produit des graphiques similaires à certains de ceux présentés lors de l'annonce de la découverte du Higgs. Cette analyse est beaucoup moins sophistiquée que celle officielle du CMS et n'est pas examinée par la communauté d'experts CMS au sens large, mais il démontre le potentiel du CMS Open Data.
À gauche :le tracé officiel du CMS pour le canal « Higgs à quatre leptons », montré le jour de l'annonce de la découverte du Higgs. À droite :un graphique similaire produit par Nur Zulaiha Jomhari et al. utilisant CMS Open Data de 2011 et 2012. Bien que les graphiques semblent similaires, l'analyse avec CMS Open Data utilise plus de données (à 8 TeV et globalement) que l'analyse CMS officielle de la découverte originale, mais elle est beaucoup moins sophistiquée et n'est pas examinée par la communauté d'experts CMS au sens large. Crédit :CMS/CERN
En plus des ensembles de données eux-mêmes, l'équipe CMS Data Preservation and Open Data a également rassemblé une collection complète de documents supplémentaires, y compris un exemple de code pour effectuer des analyses relativement simples, ainsi que des métadonnées telles que des informations sur la manière dont les données ont été sélectionnées et sur les conditions de fonctionnement du LHC au moment de la collecte des données.
À l'heure actuelle, CMS s'est engagé à publier jusqu'à 50 % des données enregistrées chaque année quelques années après leur collecte, une fois que les scientifiques de CMS auront terminé la plupart de leur analyse de ces ensembles de données. "Voir nos données ouvertes utilisées en dehors du CMS a été très enrichissant, " dit Kati Lassila-Perini, le coordinateur CMS Data Preservation and Open Access. « Cela a été une grande motivation pour nous et nous sommes impatients de poursuivre nos efforts de pionniers pour publier des données ouvertes de qualité recherche du LHC dans les années à venir. »