Des chercheurs de l'ISI et de l'USC Dornsife créent une nouvelle plate-forme pour normaliser les données paléoclimatologiques. Crédit :Cassidy Joyes CC-BY-SA-4.0
Parfois, les choses les moins liées peuvent produire les résultats les plus innovants. Prendre, par exemple, l'aïkido - un art martial japonais que l'on peut traduire par "la voie de l'unification de l'énergie" - et la paléoclimatologie, un domaine scientifique examinant l'évolution du climat.
Julien Emile Geay, professeur agrégé au Département des sciences de la Terre de l'USC Dornsife College of Letters, Arts et Sciences, en a eu un avant-goût direct en 2011 lors d'un séjour chez un ami pour un camp d'aïkido à San Francisco. Son ami développait des bases de données sémantiques pour les données biomédicales et Emile-Geay a découvert que cette approche pouvait également fonctionner pour les données extrêmement idiosyncratiques collectées par les paléoclimatologues.
Après une rencontre fortuite en 2012 avec Yolanda Gil, directeur des technologies de la connaissance à l'Institut des sciences de l'information (ISI) de l'USC et professeur-chercheur au département d'informatique de l'USC Viterbi, les chercheurs ont créé une proposition pour intégrer l'expertise en IA de Gil avec la formation en sciences de la Terre d'Emile-Geay, développer une nouvelle plate-forme qui donne aux paléoclimatologues un moyen d'unifier les ensembles de données disparates de données paléoclimatiques, style aïkido.
Avec Emile Geay, le groupe de paléoclimatologie comprend Deborah Khider, un post-doctorant au Département des sciences de la Terre de l'USC et scientifique des données de l'ISI, et Nicholas McKay, professeur agrégé à la School of Earth Sciences and Environmental Sustainability de la North Arizona University. Du côté de l'IA, Gil a collaboré avec Daniel Garijo et Varun Ratnakar, informaticien et programmeur de recherche à l'ISI, respectivement. Les équipes ont travaillé pour créer une nouvelle approche pour normaliser les données paléoclimatologiques afin que les scientifiques de la Terre puissent mieux prédire le climat futur pour comprendre les causes et les effets du changement climatique.
Leur recherche a fait l'objet d'un article de fond dans l'American Geophysicist's Union (AGU) Paléocéanographie et Paléoclimatologie journal et a été souligné lors de la conférence du centenaire de l'AGU, du 9 au 13 décembre à San Francisco.
Les combattants solitaires
La paléoclimatologie est l'étude de l'histoire du climat, avec des chercheurs utilisant des empreintes et des indicateurs pour reconstituer les climats passés. Ces indicateurs sont généralement des échantillons physiques collectés à partir de sources naturelles, comme les carottes de glace de glacier, cernes des arbres, coquilles, dépôts de grottes, et les sédiments lacustres et océaniques. Après avoir intégré les divers ensembles de données résultants, les chercheurs peuvent reconstituer les variables climatiques, comme les températures et les niveaux de précipitations. En recréant les climats passés, Les scientifiques de la Terre sont capables de prédire les climats futurs.
Exemple de sondages sur (a) la plateforme LinkedEarth et (b) Twitter (@Linked_Earth). Crédit: Paléocéanographie et Paléoclimatologie
Cependant, ironiquement, un enjeu majeur de la discipline réside dans l'une de ses forces :la diversité des jeux de données. Alors que les différents ensembles de données facilitent la création de simulations de modèles complexes pour aider les chercheurs à comprendre la progression du climat, les particularités de chaque ensemble de données peuvent être difficiles à intégrer.
Les scientifiques de la Terre ont leurs propres approches, processus, et des méthodes de collecte et de codage des données qui ne sont pas toujours complémentaires ou intuitives, et transformer les données dans un format utilisable pour la recherche et l'analyse, ou "discussion de données, " peut être une tâche fastidieuse. Certains chercheurs peuvent passer jusqu'à 80 % de leur temps à débattre des données, comme l'identification des valeurs aberrantes et des valeurs manquantes ou la recherche d'enregistrements dispersés dans plusieurs bases de données. Le besoin de standardisation sur le terrain était clair. "La vie sans normes est misérable!" dit Émile-Gay. "Imaginez avoir besoin d'un type de prise différent pour chaque élément de votre maison - c'est actuellement l'état des données paléoclimatiques, obligeant les jeunes gens qui veulent intégrer leurs données à passer des mois de leur vie à réinventer la roue à chaque fois qu'ils font quelque chose. Emile-Geay a noté, cette querelle de données est essentiellement une perte de temps. "Nous en avions marre et nous voulions éviter aux générations futures de gaspiller leur cerveau de doctorat de cette façon."
Une approche socio-technique
Pour répondre à ces préoccupations, les équipes de paléoclimatologie et d'IA ont développé une nouvelle plateforme. Cette nouvelle plateforme fait partie du projet LinkedEarth de la NSF (financé par EarthCube), et repose sur une approche de « crowdsourcing contrôlé », où la foule (c'est-à-dire les experts en paléoclimatologie utilisant le système) peuvent développer des termes, ou des propriétés, pour coder leurs données, qui sont ensuite mis immédiatement à la disposition des autres utilisateurs. En créant de nouvelles propriétés, les utilisateurs peuvent choisir les termes appropriés pour définir l'ensemble de données avec lequel ils travaillent.
Le processus est contrôlé en ce qu'un groupe sélectionné d'utilisateurs représentant un large éventail de domaines paléoclimatologiques établit un comité de rédaction, qui examine les demandes de propriétés nouvelles ou modifiées et détermine si les propositions des utilisateurs doivent être incorporées dans le Paléoclimate Community Reporting Standard, ou PaCTS. Toutes les décisions prises concernant PaCTS impliquent la contribution de chercheurs en paléoclimatologie, en faire un transparent, effort communautaire inclusif et de bonne foi.
Le système met en œuvre l'IA pour aider à établir des liens entre les données et les rendre plus accessibles. "Les techniques d'IA que nous utilisons sont des technologies sémantiques qui nous permettent de représenter des connaissances scientifiques, " a expliqué Gil. " Nous construisons également ce que nous appelons le " graphe de connaissances de la Terre liée " qui exprime les connexions entre les ensembles de données, des chercheurs, Emplacements, éditions, etc." Elle a noté que, en outre, les utilisateurs peuvent poser des « requêtes sophistiquées sur les ontologies et le graphe de connaissances pour accéder facilement aux données qui les intéressent ».
La plateforme est décrite comme un système sociotechnique. Outre tous les aspects techniques, l'approche a des aspects sociaux forts, car la valeur de la plateforme repose sur le partage d'informations. Une incitation clé pour les utilisateurs est qu'ils reçoivent une reconnaissance pour tout ce qu'ils contribuent à la plate-forme, qui est suivi et affiché sur leurs pages de profil. En outre, ils peuvent télécharger des spécifications de métadonnées et des ensembles de données existants dans plusieurs formats standards, faciliter la contribution à, accès, et unifier les données.
Exemple de question d'enquête pour un nouvel ensemble de données. L'histogramme représente le nombre de votes sur chaque plateforme (orange :LinkedEarth, violet :Twitter, et vert :sondage Google). Le camembert représente la fraction des votes pour l'essentiel (vert), recommandé (rose), et désiré (bleu). Crédit: Paléocéanographie et Paléoclimatologie
Établir la norme
Développer la plate-forme n'était pas une promenade dans le parc. Khider a expliqué, "L'un des défis était de proposer le cadre de la norme, " qui se compose de trois éléments :la représentation des données, les exigences de vocabulaire et de rapport. "Le deuxième [défi] était d'impliquer la communauté, " a-t-elle poursuivi. " Nous voulons tous que les normes fassent avancer la science, mais personne ne veut vraiment en parler. » Un autre problème était de savoir par où et comment commencer. Comme Khider l'a noté, "À la fin, nous avons décidé que la norme devrait refléter les besoins d'une communauté spécifique afin de faire la science la plus rigoureuse et la plus passionnante."
Il y avait aussi des obstacles du point de vue de l'IA. "Le plus grand défi est que les connaissances scientifiques évoluent constamment, afin que les scientifiques développent une meilleure compréhension des données et de leurs modèles, ils peuvent changer la manière dont ils souhaitent que les données soient décrites et organisées dans la plateforme Linked Earth, ", a déclaré Gil. "[Nous avions besoin] de nous adapter à l'évolution des ontologies et du graphe de connaissances tout en ne perdant pas le travail que les utilisateurs avaient effectué sur la plate-forme en utilisant les versions précédentes de ces connaissances."
Mais le travail acharné a payé. Sans surprise, la plateforme a reçu des retours positifs de la communauté paléoclimatique. Depuis 2019, le wiki de crowdsourcing contrôlé compte 692 jeux de données, avec 150 utilisateurs enregistrés et plus de 50 contributeurs. Plus de 14, 000 pages ont été créées, alors que les équipes de paléoclimatologie et d'IA poursuivent leurs travaux pour améliorer la plateforme et impliquer davantage d'utilisateurs.
La reconnaissance de l'AGU est venue après la mise en œuvre du projet. « Les éditeurs de Paléocéanographie et Paléoclimatologie ont joué un rôle déterminant dans la visibilité de ce projet au sein de la communauté en sélectionnant le manuscrit de leur série Grands Défis, " a fait remarquer Khider. " Le fait que les éditeurs fassent pression pour des normes contribue à l'engagement de la communauté pour la deuxième version de la norme, car ils voient de l'intérêt pour ce type de travail."
La plate-forme peut également être appliquée à d'autres domaines. "Nous utilisons [la plate-forme] maintenant pour décrire les données de neurosciences dans un projet financé par le NIH que nous avons avec la collaboration ENIGMA, " a déclaré Gil. " Un aspect nouveau de ce domaine est que chaque ensemble de données décrit les données d'une cohorte de personnes qui font partie d'une étude, et contient une collection d'observations et pas seulement une en particulier."
De plus, PaCTS n'est qu'un tiers du processus de normalisation, car il tient compte des exigences de déclaration. La standardisation de la représentation des données et de la terminologie complète le processus. Ce dernier concerne le vocabulaire et l'orthographe associée, Khider a noté, comme la plupart des bases de données contiennent des concepts identiques énoncés de différentes manières, ce qui peut rendre difficile l'interrogation d'un ensemble de données particulier. « La prochaine étape la plus évidente consiste à créer une bibliothèque de cahiers exemplaires montrant comment ces normes et ce code aident à résoudre les problèmes de recherche courants en paléoclimatologie, et comment ils ouvrent la porte à de nouvelles enquêtes, " a déclaré Emile-Geay. "Il est maintenant temps de faire fonctionner ces normes pour [les scientifiques]."