Crédit :Institut de recherche du sud-ouest
Les mégadonnées sont devenues un grand défi pour les scientifiques de l'espace qui analysent de vastes ensembles de données à partir d'instruments spatiaux de plus en plus puissants. Pour résoudre ce problème, une équipe du Southwest Research Institute a développé un outil d'apprentissage automatique pour étiqueter efficacement de grands ensembles de données complexes afin de permettre aux modèles d'apprentissage en profondeur de passer au crible et d'identifier les événements solaires potentiellement dangereux. Le nouvel outil d'étiquetage peut être appliqué ou adapté pour relever d'autres défis impliquant de vastes ensembles de données.
Alors que les ensembles d'instruments spatiaux collectent des données de plus en plus complexes dans des volumes sans cesse croissants, il devient de plus en plus difficile pour les scientifiques de traiter et d'analyser les tendances pertinentes. L'apprentissage automatique (ML) devient un outil essentiel pour le traitement de grands ensembles de données complexes, où les algorithmes apprennent à partir des données existantes pour prendre des décisions ou des prédictions qui peuvent factoriser plus d'informations simultanément que les humains. Cependant, pour tirer parti des techniques de ML, les humains doivent d'abord étiqueter toutes les données, ce qui est souvent une tâche monumentale.
"L'étiquetage des données avec des annotations significatives est une étape cruciale du ML supervisé. Cependant, l'étiquetage des ensembles de données est fastidieux et prend du temps", a déclaré le Dr Subhamoy Chatterjee, chercheur postdoctoral au SwRI spécialisé dans l'astronomie et l'instrumentation solaires et auteur principal d'un article à ce sujet. résultats publiés dans la revue Nature Astronomy . "Une nouvelle recherche montre comment les réseaux de neurones convolutifs (CNN), formés sur des vidéos astronomiques grossièrement étiquetées, peuvent être exploités pour améliorer la qualité et l'étendue de l'étiquetage des données et réduire le besoin d'intervention humaine."
Les techniques d'apprentissage en profondeur peuvent automatiser le traitement et interpréter de grandes quantités de données complexes en extrayant et en apprenant des modèles complexes. L'équipe SwRI a utilisé des vidéos du champ magnétique solaire pour identifier les zones où des champs magnétiques puissants et complexes émergent sur la surface solaire, qui sont le principal précurseur des événements météorologiques spatiaux.
"Nous avons formé des CNN à l'aide d'étiquettes brutes, en vérifiant manuellement uniquement nos désaccords avec la machine", a déclaré le co-auteur, le Dr Andrés Muñoz-Jaramillo, un physicien solaire SwRI spécialisé dans l'apprentissage automatique. "Nous avons ensuite recyclé l'algorithme avec les données corrigées et répété ce processus jusqu'à ce que nous soyons tous d'accord. Alors que l'étiquetage de l'émergence de flux est généralement effectué manuellement, cette interaction itérative entre l'algorithme humain et ML réduit la vérification manuelle de 50 %."
Les approches d'étiquetage itératives telles que l'apprentissage actif peuvent considérablement gagner du temps, réduisant ainsi le coût de la préparation du Big Data ML. De plus, en masquant progressivement les vidéos et en recherchant le moment où l'algorithme ML change de classification, les scientifiques de SwRI ont davantage exploité l'algorithme ML formé pour fournir une base de données encore plus riche et plus utile.
"Nous avons créé une approche d'apprentissage en profondeur de bout en bout pour classer les vidéos de l'évolution des patchs magnétiques sans fournir explicitement des images segmentées, des algorithmes de suivi ou d'autres fonctionnalités artisanales", a déclaré le Dr Derek Lamb de SwRI, co-auteur spécialisé dans l'évolution de champs magnétiques à la surface du Soleil. "Cette base de données sera essentielle dans le développement de nouvelles méthodologies pour prévoir l'émergence des régions complexes propices aux événements météorologiques spatiaux, augmentant potentiellement le délai dont nous disposons pour nous préparer à la météo spatiale." L'apprentissage automatique réduit radicalement la charge de travail du comptage des cellules pour le diagnostic des maladies