L'observatoire Vera Rubin abritera la caméra LSST, qui recueillera des données sur 37 milliards de galaxies et d'étoiles au cours de 10 ans. Les scientifiques développent des programmes d'apprentissage automatique pour analyser le flot de données. Crédit :M. Park/Inigo Films/LSST/AURA/NSF
Regardant le ciel nocturne dans une zone rurale, vous verrez probablement la lune brillante entourée d'étoiles. Si tu es chanceux, vous pourriez apercevoir la chose la plus éloignée visible à l'œil nu :la galaxie d'Andromède. C'est le voisin le plus proche de notre galaxie, la voie Lactée. Mais ce n'est que la plus petite fraction de ce qui existe. Lorsque la caméra Legacy Survey of Space and Time (LSST) du Department of Energy (DOE) de l'observatoire Vera Rubin de la National Science Foundation s'allumera en 2022, il prendra des photos de 37 milliards de galaxies et d'étoiles au cours d'une décennie.
La sortie de cet énorme télescope inondera les chercheurs de données. Au cours de ces 10 années, la caméra LSST en prendra 2, 000 photos pour chaque patch du ciel austral qu'il couvre. Chaque image peut contenir jusqu'à un million d'objets.
"En ce qui concerne l'échelle des données, la quantité de données, la complexité des données, ils sont bien au-delà de tous les ensembles de données actuels que nous avons, " dit Rachel Mandelbaum, professeur à l'Université Carnegie Mellon et porte-parole du LSST Dark Energy Science Collaboration. "Cela ouvre une énorme quantité d'espace de découverte."
Les scientifiques ne construisent pas la caméra LSST pour prendre de jolies photos. Ils veulent identifier, classer par catégories, et mesurer les objets célestes qui peuvent révéler des informations sur la structure même de l'univers. Comprendre l'énergie noire et d'autres mystères cosmologiques nécessite des données sur les supernovae et les galaxies. Les chercheurs peuvent même trouver des classes d'objets entièrement nouvelles.
"Il va y avoir des objets que nous n'avons jamais vus auparavant parce que c'est le point d'une nouvelle découverte, " a déclaré Renée Hložek, professeur adjoint d'astrophysique à l'Université de Toronto, qui travaille avec le LSST Dark Energy Science Collaboration. "Nous allons trouver un tas de ce que nous appelons des cinglés, ou anomalies."
Le volume et l'étrangeté des données rendront leur analyse difficile. Alors qu'un astronome novice dans une région peut aller sur le terrain avec un expert local, les scientifiques n'ont pas un tel guide pour les nouvelles pièces de l'univers. Alors ils fabriquent le leur. Plus précisément, ils créent de nombreux guides différents qui peuvent les aider à identifier et à catégoriser ces objets. Les astrophysiciens soutenus par le DOE Office of Science développent ces guides sous la forme de modèles informatiques qui s'appuient sur l'apprentissage automatique pour examiner les données LSST. L'apprentissage automatique est un processus par lequel un programme informatique apprend au fil du temps les relations dans un ensemble de données.
Programmes informatiques qui apprennent
Le traitement rapide des données est un must pour les scientifiques de la Dark Energy Science Collaboration. Les scientifiques doivent savoir que la caméra pointe exactement au bon endroit et prend correctement les données à chaque fois. Ce traitement rapide les aide également à savoir si quelque chose a changé dans cette partie du ciel depuis la dernière fois qu'ils en ont pris des photos. La soustraction de la photo actuelle des précédentes leur montre s'il y a un signe d'un objet ou d'un phénomène céleste intéressant.
Ils doivent également combiner de nombreuses photos de manière précise et utilisable. Ce projet explore les profondeurs de l'univers pour capturer des images de certaines des étoiles et galaxies les plus faibles. Il prendra également des photos dans des conditions atmosphériques moins qu'idéales. Pour compenser, les scientifiques ont besoin de programmes capables de combiner des images pour améliorer la clarté.
L'apprentissage automatique peut relever ces défis en plus de gérer la grande quantité de données. Comme ces programmes analysent plus de données, plus ils deviennent précis. Tout comme une personne qui apprend à identifier une constellation, ils acquièrent un meilleur jugement au fil du temps.
« De nombreux scientifiques considèrent le machine learning comme l'option la plus prometteuse pour classer les sources sur la base de mesures photométriques (mesures d'intensité lumineuse), " dit Eve Kovacs, un physicien au laboratoire national d'Argonne du DOE.
Mais les programmes d'apprentissage automatique doivent s'auto-apprendre avant de pouvoir s'attaquer à un tas de nouvelles données. Il existe deux manières principales de « former » un programme d'apprentissage automatique :non supervisé et supervisé.
L'apprentissage automatique non supervisé, c'est comme quelqu'un qui se renseigne sur les étoiles à partir de ses observations nocturnes. Le programme s'entraîne sur des données non étiquetées. Alors que l'apprentissage automatique non supervisé peut regrouper les images et identifier les valeurs aberrantes, il ne peut pas les catégoriser sans un guide quelconque.
L'apprentissage automatique supervisé est comme un débutant s'appuyant sur un guide. Les chercheurs lui alimentent un ensemble massif de données qui sont étiquetées avec les classes de chaque objet. En examinant les données à plusieurs reprises, le programme apprend la relation entre l'observation et les étiquettes. Cette technique est particulièrement utile pour classer les objets en groupes connus.
Dans certains cas, les chercheurs alimentent également le programme d'un ensemble spécifique de fonctionnalités à rechercher, comme la luminosité, forme, ou couleur. Ils fournissent des conseils sur l'importance de chaque caractéristique par rapport aux autres. Dans d'autres programmes, le programme d'apprentissage automatique détermine lui-même les fonctionnalités pertinentes.
Cependant, la précision de l'apprentissage automatique supervisé dépend d'un bon ensemble d'entraînement, avec toute la diversité et la variabilité d'un vrai. Pour les photos de la caméra LSST, cette variabilité pourrait inclure des traînées de satellites se déplaçant dans le ciel. L'étiquetage doit également être extrêmement précis.
"Nous devons mettre autant de physique que possible dans les ensembles d'entraînement, " a déclaré Mandelbaum. " Cela ne nous enlève pas le fardeau de comprendre la physique. Cela le déplace simplement dans une autre partie du problème. »
Marqueurs de miles sur l'autoroute spatiale
Certains des objets les plus intéressants de l'univers ne restent pas longtemps. Les objets transitoires apparaissent très lumineux, s'estomper sur une période de temps spécifique, puis s'assombrir. Les supernovae, les étoiles qui explosent massivement, sont un type d'objet transitoire. Les objets variables changent de luminosité au fil du temps de manière cohérente. Certains types des deux peuvent être des "bougies standard, " éléments que les scientifiques peuvent utiliser pour mesurer la distance de la Terre, comme des bornes kilométriques sur une autoroute. Ces bougies standard fournissent des informations sur la taille et l'histoire de l'univers.
"Si vous regardez suffisamment de galaxies une nuit donnée, vous êtes presque assuré de découvrir une supernova, " a déclaré Kovacs.
Pour savoir si une supernova va servir de bougie standard ou non, les scientifiques doivent savoir de quel type il s'agit. Les supernovae de type Ia peuvent être des bougies standard. Tout comme l'expérience peut dire aux astronomes s'ils regardent Mars ou Vénus, un programme informatique peut utiliser son apprentissage pour classer une supernova à partir d'une image.
"La petite mouche dans tout cela est que les supernovae de type Ia ne sont pas exactement des bougies standard. Elles ont une certaine variation, " a déclaré Kovacs. " Comprendre cette variation … est en fait au cœur de la réalisation de tout ce travail. "
Kovacs et ses collaborateurs ont créé un programme qui utilise les couleurs des supernovae pour les trier en catégories. Précédemment, les scientifiques ont formé des algorithmes d'apprentissage automatique en leur faisant comparer la luminosité d'une supernova spécifique au fil du temps à un modèle basé sur la supernova de type Ia. Mais les programmes étaient susceptibles de classer à tort trop de supernovae dans le type Ia. Son équipe a adopté une approche différente. Ils ont identifié un ensemble de 17 caractéristiques caractérisant les courbes lumineuses (variation temporelle de l'intensité lumineuse) des supernovae. À l'aide d'un ensemble d'apprentissage de plusieurs milliers de supernovae simulées, ils ont pu réaliser des classifications avec des niveaux de précision extrêmement élevés.
Déterminer à quelle distance les objets cosmiques sont de la Terre est un autre domaine prometteur pour l'apprentissage automatique. Précédemment, les scientifiques se sont appuyés sur des télescopes spectroscopiques qui utilisent des fibres optiques pour mesurer avec précision les distances de ces objets. Mais la caméra LSST va en trouver plus de 1, 000 objets transitoires par nuit. C'est trop pour le suivi de l'utilisation de cette technique. Mandelbaum et son équipe ont développé un programme d'apprentissage automatique qui peut estimer cette distance avec précision à partir de photos uniquement. Il peut également adapter et intégrer des données spectroscopiques si elles sont disponibles.
Mais les supernovae ne sont pas les seuls objets pouvant être utilisés comme bougies standard. En réalité, les astrophysiciens utilisent souvent d'autres objets pour calibrer leur distance. Mandelbaum et son équipe ont utilisé l'apprentissage automatique pour trouver d'autres bougies standard potentielles. En alimentant le programme en données sur de nombreuses étoiles variables, ils ont découvert qu'il pouvait proposer et appliquer des fonctionnalités qui identifient une bonne bougie standard sans avoir besoin de classer l'étoile au préalable. Sauter cette étape, ce qui nécessite beaucoup d'étiquettes, des données catégorisées — a simplifié le processus. Cela a également permis d'éviter les biais ou les erreurs de classification. Le programme a produit un échantillon avec des étoiles qui étaient d'aussi bonnes bougies standard que les Céphéides, une étoile variable utile mais rare. Il y avait un autre bonus :les étoiles de leur échantillon étaient généralement plus brillantes et plus faciles à mesurer que les Céphéides.
"Le machine learning vous aide à dénicher ces espaces compliqués car les humains ont du mal à penser dans plus de trois dimensions, ", a déclaré Kovacs.
Choisir et choisir au niveau galactique
Alors que les étoiles individuelles peuvent révéler beaucoup d'informations, Parfois, vous avez besoin de toute une galaxie. En utilisant une photo seule, il est plus facile de déterminer la distance de la galaxie hôte d'une supernova plutôt que la supernova elle-même. Mais les scientifiques doivent choisir la bonne galaxie hôte. Autrefois, ils ont fait cette correspondance à la main. Mais la caméra LSST va créer beaucoup trop de données à gérer pour les humains.
Dans l'un des projets de Kovac, l'équipe scientifique a développé un algorithme qui a fait correspondre correctement la galaxie hôte à la supernova 90 à 92 pour cent du temps. Pas assez précis. Mais l'apprentissage automatique est venu à la rescousse. L'équipe a développé un programme d'apprentissage automatique pour leur indiquer la probabilité qu'une classification soit bonne ou mauvaise. Il a identifié sept à huit pour cent de la sortie originale comme très probablement erronée. La suppression de ces éléments des données a augmenté la précision et a facilité le suivi des photos délicates à la main.
Exploiter l'esprit collectif
Pour explorer davantage la puissance de l'apprentissage automatique, deux des groupes scientifiques de la caméra LSST ont trouvé un moyen unique de tirer parti de la matière grise des scientifiques :ils ont organisé un concours. En partenariat avec Kaggle, un site web pour les data scientists, ils ont ciblé des non-astronomes spécialisés dans l'apprentissage automatique pour développer des programmes permettant de trier les futures données de la caméra LSST.
"Si vous ne parlez qu'aux personnes que vous connaissez, vous perdez cette diversité de pensée de la communauté plus large, " dit Hložek, qui dirigeait le concours. « Nous voulions que les gens travaillent ensemble pour mettre en commun leurs modèles et leurs données. »
Ils voulaient en particulier que les programmes sélectionnent des types d'objets que les astrophysiciens n'avaient peut-être pas vus auparavant. Ils ont donné au groupe trois millions d'objets à trier en 15 catégories, le 15 étant « Je ne l'ai jamais vu auparavant ».
"Nous voulons nous préparer à être ouverts à ce genre de travail, " dit Hložek. " De quelles manières l'étrangeté peut-elle se manifester ? "
Plus de 1, 300 concurrents en 1, 000 équipes ont participé au challenge, qui a pris fin en décembre 2018. Maintenant, les chercheurs de la caméra LSST trient les codes pour les combiner dans le meilleur ensemble de programmes possible.
Toute cette activité se déroule des années avant même que la caméra LSST ne soit allumée. Les programmes d'apprentissage automatique ne manqueront pas d'en révéler encore plus une fois que les données commenceront à affluer. Alors que les ordinateurs ne peuvent pas contempler les étoiles avec émerveillement, ils fourniront toujours plus de perspicacité dans les objets célestes qui inspirent une telle crainte en nous.