Les géoscientifiques ont exploité une technique couramment utilisée pour la reconnaissance vocale afin de détecter des événements allant des glissements de terrain alpins aux signes avant-coureurs volcaniques qui, autrement, passeraient inaperçus. Crédit :USGS Hawaiian Volcano Observatory
Les scientifiques cherchant à comprendre l'horlogerie interne de la Terre ont déployé des armées de capteurs à l'écoute des signes de glissade, gronde, exhale et autres perturbations émanant des failles les plus profondes de la planète jusqu'à ses volcans les plus hauts. "Nous mesurons le mouvement du sol en continu, collecte généralement 100 échantillons par seconde sur des centaines à des milliers d'instruments, ", a déclaré le géophysicien de Stanford Gregory Beroza. "C'est juste un énorme flux de données."
Pourtant, la capacité des scientifiques à extraire du sens de ces informations n'a pas suivi le rythme.
La Terre solide, les océans et l'atmosphère forment ensemble un géosystème dans lequel physique, les processus biologiques et chimiques interagissent à des échelles allant de la milliseconde à des milliards d'années, et de la taille d'un seul atome à celle d'une planète entière. "Toutes ces choses sont couplées à un certain niveau, " expliqua Beroza, le professeur Wayne Loel à l'École de la Terre, Sciences de l'énergie et de l'environnement (Stanford Earth). "Nous ne comprenons pas les systèmes individuels, et nous ne comprenons pas leurs relations les uns avec les autres."
Maintenant, comme Beroza et ses co-auteurs le décrivent dans un article publié le 21 mars dans la revue Science , algorithmes d'apprentissage automatique formés pour explorer la structure de flux de données géologiques en constante expansion, s'appuyer sur les observations au fur et à mesure et donner un sens à des choses de plus en plus complexes, des simulations tentaculaires aident les scientifiques à répondre à des questions persistantes sur le fonctionnement de la Terre.
De l'automatisation à la découverte
"Quand j'ai commencé à collaborer avec des géoscientifiques il y a cinq ans, il y avait de l'intérêt et de la curiosité pour l'apprentissage automatique et la science des données, " se souvient Karianne Bergen, auteure principale de l'article et chercheuse à la Harvard Data Science Initiative, qui a obtenu son doctorat en génie informatique et mathématique à Stanford. "Mais la communauté de chercheurs utilisant l'apprentissage automatique pour les applications géoscientifiques était relativement petite."
Cela change rapidement. Les applications les plus simples de l'apprentissage automatique en sciences de la Terre automatisent des tâches répétitives telles que la catégorisation des particules de cendres volcaniques et l'identification du pic dans un ensemble de tremblements sismiques qui indiquent le début d'un tremblement de terre. Ce type d'apprentissage automatique est similaire aux applications dans d'autres domaines qui pourraient entraîner un algorithme pour détecter le cancer dans des images médicales sur la base d'un ensemble d'exemples étiquetés par un médecin. Des algorithmes plus avancés débloquant de nouvelles découvertes en sciences de la Terre et au-delà peuvent commencer à reconnaître des modèles sans travailler à partir d'exemples connus.
"Supposons que nous développions un détecteur de tremblement de terre basé sur des tremblements de terre connus. Il va trouver des tremblements de terre qui ressemblent à des tremblements de terre connus, " Beroza a expliqué. " Il serait beaucoup plus excitant de trouver des tremblements de terre qui ne ressemblent pas à des tremblements de terre connus. " Beroza et ses collègues de Stanford ont pu faire exactement cela en utilisant un algorithme qui signale toute signature répétitive dans les ensembles de tremblements captés par les sismographes – les instruments qui enregistrent les secousses des tremblements de terre – plutôt que de rechercher uniquement les modèles créés par les tremblements de terre que les scientifiques ont déjà catalogués.
Le géophysicien Gregory Beroza fait partie d'un nombre croissant de scientifiques qui forment des algorithmes d'apprentissage automatique pour donner un sens à des simulations de plus en plus complexes des géosystèmes de la Terre. Crédit :Stacy Geiken
Les deux types d'algorithmes - ceux avec un étiquetage explicite dans les données d'entraînement et ceux sans - peuvent être structurés comme des réseaux de neurones profonds, qui agissent comme un système à plusieurs couches dans lequel les résultats d'une transformation de données dans une couche servent d'entrée pour un nouveau calcul dans la couche suivante. Parmi les autres efforts notés dans le document, ces types de réseaux ont permis aux géoscientifiques de calculer rapidement la vitesse des ondes sismiques - un calcul essentiel pour estimer les heures d'arrivée des tremblements de terre - et de faire la distinction entre les secousses causées par le mouvement naturel de la Terre et les explosions.
Une mimique imparfaite
En plus de repérer les motifs négligés, L'apprentissage automatique peut également aider à apprivoiser des ensembles de données écrasants. Modéliser comment un tremblement de terre affecte la partie visqueuse de la couche à l'intérieur de la Terre qui s'étend à des centaines de kilomètres sous la croûte la plus externe de la planète, par exemple, nécessite une puissance de calcul insurmontable. Mais les algorithmes d'apprentissage automatique peuvent trouver des raccourcis, imitant essentiellement des solutions à des équations plus détaillées avec moins de calcul.
"Nous pouvons obtenir une assez bonne approximation de la réalité, que nous pourrons appliquer à des ensembles de données si gros ou à des simulations si étendues que les ordinateurs les plus puissants disponibles ne seraient pas en mesure de les traiter, " dit Beroza.
Quoi de plus, toute lacune dans la précision des solutions basées sur l'intelligence artificielle à ces équations est souvent de faible importance par rapport à l'influence des propres décisions des scientifiques sur la façon de configurer les calculs en premier lieu. "Notre plus grande source d'erreur ne vient pas de notre incapacité à résoudre les équations, " a déclaré Beroza. "Cela vient de la connaissance de la structure intérieure de la Terre et des paramètres qui devraient entrer dans ces équations."
Science ouverte
Être sûr, L'apprentissage automatique est loin d'être un outil parfait pour répondre aux questions les plus épineuses des sciences de la Terre. « Les algorithmes d'apprentissage automatique les plus puissants nécessitent généralement de grands ensembles de données étiquetés, qui ne sont pas disponibles pour de nombreuses applications géoscientifiques, " a déclaré Bergen. Si les scientifiques entraînent un algorithme sur des données insuffisantes ou mal étiquetées, elle a prévenu, cela peut amener les modèles à reproduire des biais qui ne reflètent pas nécessairement la réalité.
Ce type d'erreur peut être combattu en partie par une plus grande transparence et la création de jeux de données "benchmark", ce qui, selon les chercheurs, peut stimuler la concurrence et permettre des comparaisons pommes à pommes des performances des algorithmes. Selon Bergen, "Adoption des principes de la science ouverte, y compris le partage de données et de code, contribuera à accélérer la recherche et permettra également à la communauté d'identifier et de remédier aux limites ou aux faiblesses des approches proposées."
L'impatience humaine peut être plus difficile à contrôler. "Ce qui m'inquiète, c'est que les gens vont utiliser l'IA naïvement, " dit Beroza. " Vous pouvez imaginer que quelqu'un entraîne un réseau de neurones profonds pour faire la prédiction des tremblements de terre - et ensuite ne pas tester la méthode d'une manière qui valide correctement sa valeur prédictive."