Les chercheurs ont créé un nouveau système de gestion de données open source pour les scientifiques, dans l'espoir que le système puisse faciliter la collaboration. Crédit :Markus Spiske sur Unsplash
Les données sont souvent au cœur de la science :les chercheurs suivent les vitesses, mesurer la lumière provenant des étoiles, analyser les fréquences cardiaques et les taux de cholestérol et scanner le cerveau humain à la recherche d'impulsions électriques.
Mais souvent, partager ces données avec d'autres scientifiques ou avec des éditeurs de revues à comité de lecture, ou des bailleurs de fonds—est difficile. Le logiciel peut être propriétaire, et prohibitif à l'achat. Cela peut prendre des années de formation pour qu'une personne soit capable de gérer et de comprendre le logiciel. Ou la société qui a créé le logiciel a peut-être cessé ses activités.
Une équipe de recherche a développé un système de gestion de données open source qui, selon les scientifiques, résoudra tous ces problèmes. Les chercheurs ont décrit leur système aujourd'hui dans la revue PLOS UN .
« Nous voulions créer un format de fichier et un modèle de jeu de données qui encapsuleraient la majorité des jeux de données sur lesquels nous travaillons, sur tous les instruments d'un laboratoire, " dit Philippe Grandinetti, professeur de chimie à l'Ohio State University et auteur principal de l'article. "Il y a ce problème de longue date, omniprésent parmi les scientifiques, que vous achetez un instrument de plusieurs millions de dollars et que les entreprises qui fabriquent cet instrument ont leur propre format propriétaire, et c'est un cauchemar à partager avec quelqu'un d'autre."
Les grands ensembles de données sont difficiles à partager, en partie parce que le logiciel est souvent propriétaire, mais aussi en partie parce que les fichiers sont souvent si volumineux qu'ils sont difficiles à partager dans un e-mail ou via un serveur basé sur le cloud. Et même si les fichiers peuvent être exportés en tant que type de fichier pouvant être partagé, les métadonnées importantes (les éléments qui expliquent ce qu'est réellement l'ensemble de données) sont souvent perdues.
Leur système, que Grandinetti et ses collègues ont nommé le « Core Scientific Data Model », " est conçu pour partager facilement des ensembles de données complexes, sans fichiers volumineux qui prennent beaucoup de bande passante et d'espace disque dur, et sans perdre de métadonnées. Considérons un ensemble de données qui inclut la température de l'air, pression de l'air, la vitesse du vent et le flux solaire - ce système peut le gérer. Ou considérez les mesures et la couleur d'une lumière provenant d'une étoile dans une galaxie lointaine - ce système peut le gérer.
« Vous avez besoin d'un ensemble de données incroyablement flexible dans sa capacité à contenir toutes ces choses dans un seul format de fichier sans perdre d'informations, " a déclaré Grandinetti. " L'idée est donc que nous avons créé un modèle que nous pensions être suffisamment flexible pour le faire. "
L'équipe de l'Ohio State University, en collaboration avec le professeur Thomas Vosegaard de l'Université d'Aarhus au Danemark, et le Dr Dominique Massiot à l'Université d'Orléans en France, logiciel intégré qui peut fonctionner sur un Mac ou un PC. Ils l'ont téléchargé sur le Web et ont rendu le code open source (ce qui signifie que tout le monde peut le regarder, utilise le, et téléchargez-le gratuitement.) La publication en PLOS UN est intentionnel :le journal est également accessible à tous, gratuit.
Et, les chercheurs espèrent, le système pourrait être un simple, moyen gratuit de combiner plusieurs types de données en un seul endroit.
"Nous étudions plusieurs ensembles de données en tant que scientifiques - et en tant que scientifique moi-même, J'aimerais pouvoir obtenir les données de tous ces fichiers et les assembler de manière à pouvoir travailler avec, " a déclaré Deepansh Srivastava, chercheur postdoctoral dans le groupe de Grandinetti.
"Au lieu de rechercher des données et de les extraire d'ensembles de données, si nous pouvions simplement l'exporter en tant que type de fichier unique - en tant que type de fichier de données scientifiques de base - nous serions capables de travailler dans un système commun."