• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  Science >> Science >  >> Astronomie
    L'astronomie génère des montagnes de données, c'est parfait pour l'IA
    Vue d'un drone de l'observatoire Rubin en construction en 2023. Le télescope de 8,4 mètres est sur le point d'être terminé et sa première lumière est prévue en 2025. Le télescope créera une grande quantité de données qui nécessiteront des ressources spéciales pour être gérées, notamment l'IA. . Crédit :Observatoire Rubin/NSF/AURA/A. Pizarro D

    L'IA grand public fait son chemin dans la vie quotidienne des gens grâce à sa capacité à générer du texte et des images et à automatiser les tâches. Mais les astronomes ont besoin d’une IA spécialisée et beaucoup plus puissante. Les grandes quantités de données d'observation générées par les télescopes et observatoires modernes défient les efforts des astronomes pour en extraire toute leur signification.

    Une équipe de scientifiques développe une nouvelle IA pour les données astronomiques appelée AstroPT. Ils l'ont présenté dans un nouvel article intitulé "AstroPT:Scaling Large Observation Models for Astronomy". L'article est disponible sur arXiv serveur de préimpression, et l'auteur principal est Michael J. Smith, scientifique des données et astronome d'Aspia Space.

    Les astronomes sont confrontés à un déluge croissant de données, qui augmentera considérablement lorsque l'Observatoire Vera Rubin (VRO) sera mis en service en 2025. Le VRO possède la plus grande caméra du monde et chacune de ses images pourrait remplir 1 500 téléviseurs grand écran. Au cours de sa mission de 10 ans, le VRO générera environ 0,5 exaoctet de données, soit environ 50 000 fois plus de données que ce que contient la Bibliothèque du Congrès des États-Unis.

    D’autres télescopes dotés d’énormes miroirs s’approchent également de la première lumière. Le télescope géant Magellan, le télescope de trente mètres et le télescope européen de très grande taille combinés généreront une quantité impressionnante de données.

    Le besoin du VRO de disposer de plusieurs sites pour gérer toutes ses données témoigne de l'énorme volume de données qu'il générera. Sans une IA efficace, ces données resteront bloquées dans un goulot d’étranglement. Crédit :NOIRLab

    Avoir des données qui ne peuvent pas être traitées équivaut à ne pas avoir de données du tout. Il est fondamentalement inerte et n’a aucune signification tant qu’il n’est pas traité d’une manière ou d’une autre. "Quand vous avez trop de données et que vous n'avez pas la technologie pour les traiter, c'est comme ne pas avoir de données", a déclaré Cecilia Garraffo, astrophysicienne computationnelle au Harvard-Smithsonian Center for Astrophysics.

    C'est là qu'AstroPT entre en jeu.

    AstroPT signifie Astro Pretrained Transformer, où un transformateur est un type particulier d'IA. Les transformateurs peuvent changer ou transformer une séquence d'entrée en séquence de sortie. L'IA doit être entraînée, et AstroPT a été entraîné sur 8,6 millions d'images de 512 x 512 pixels provenant de la version 8 des données d'enquête DESI Legacy. DESI est l'instrument spectroscopique de l'énergie noire. DESI étudie l'effet de l'énergie noire en capturant les spectres optiques de dizaines de millions de galaxies et de quasars.

    AstroPT et des IA similaires traitent des « jetons ». Les jetons sont des éléments visuels dans une image plus grande qui contiennent du sens. En décomposant les images en jetons, une IA peut comprendre la signification plus large d’une image. AstroPT peut transformer des jetons individuels en sortie cohérente.

    AstroPT a été formé sur les jetons visuels. L’idée est d’apprendre à l’IA à prédire le prochain jeton. Plus il aura été entraîné de manière approfondie pour cela, meilleures seront ses performances.

    "Nous avons démontré que de simples modèles autorégressifs génératifs peuvent apprendre des informations scientifiquement utiles lorsqu'ils sont pré-entraînés à la tâche de substitution consistant à prédire le prochain patch de 16 × 16 pixels dans une séquence de patchs d'images de galaxies", écrivent les auteurs. Dans ce schéma, chaque patch d'image est un jeton.

    Cette image illustre comment les auteurs ont entraîné AstroPT à prédire le prochain jeton dans une séquence « en spirale » de patchs d'images de galaxies. Il montre l'ordre d'alimentation des jetons. "Comme les galaxies sont au centre de chaque timbre-poste, cette configuration nous permet de pré-entraîner et d'effectuer des inférences de manière transparente sur des timbres-poste de galaxies de tailles différentes", expliquent les auteurs. Crédit :Smith et al, 2024

    L’un des obstacles à la formation d’IA comme AstroPT concerne ce que les scientifiques en IA appellent la « crise symbolique ». Pour être efficace, l’IA doit être entraînée sur un grand nombre de tokens de qualité. Dans un article de 2023, une autre équipe de chercheurs a expliqué qu’un manque de jetons peut limiter l’efficacité de certaines IA, telles que les LLM ou les Large Language Models. "Les LLM de pointe nécessitent de grandes quantités de données textuelles à l'échelle Internet pour la pré-formation", ont-ils écrit. "Malheureusement,… le taux de croissance des données textuelles de haute qualité sur Internet est beaucoup plus lent que le taux de croissance des données requis par les LLM."

    AstroPT est confronté au même problème :une pénurie de jetons de qualité sur lesquels s'entraîner. Comme les autres IA, elle utilise des LOM ou Large Observation Models. L'équipe affirme que leurs résultats jusqu'à présent suggèrent qu'AstroPT peut résoudre la crise des jetons en utilisant les données d'observations. "Il s'agit d'un résultat prometteur qui suggère que les données issues des sciences observationnelles compléteraient les données d'autres domaines lorsqu'elles sont utilisées pour pré-entraîner un seul LOM multimodal, et pointe donc vers l'utilisation des données observationnelles comme une solution à la "crise symbolique". '"

    Les développeurs d'IA sont impatients de trouver des solutions à la crise des jetons et à d'autres défis de l'IA.

    Sans une meilleure IA, un goulot d’étranglement dans le traitement des données empêchera les astronomes et les astrophysiciens de faire des découvertes à partir des grandes quantités de données qui arriveront bientôt. AstroPT peut-il vous aider ?

    Les auteurs espèrent que ce sera possible, mais cela nécessite beaucoup plus de développement. Ils se disent ouverts à collaborer avec d’autres pour renforcer AstroPT. Pour y parvenir, ils ont suivi le plus fidèlement possible les « principaux modèles communautaires actuels ». Ils appellent cela un "projet ouvert à tous".

    "Nous avons pris ces décisions avec la conviction que le développement d'une communauté collaborative ouvre la voie la plus rapide vers la réalisation d'un grand modèle d'observation open source à l'échelle du Web", écrivent-ils.

    "Nous invitons chaleureusement les collaborateurs potentiels à nous rejoindre", concluent-ils.

    Il sera intéressant de voir comment les développeurs d'IA parviendront à suivre la grande quantité de données astronomiques qui nous parviennent.




    © Science https://fr.scienceaq.com