• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Les joyaux cachés des déclarations d'accessibilité des données

    Parfois, la meilleure partie de la lecture d'un article scientifique est un moment inattendu de reconnaissance - pas dans la science, mais dans l'humanité des scientifiques. C'est rassurant en quelque sorte de trouver de petits écarts par rapport à la formule scientifique guindée :une note qui sort de la syntaxe attendue de Résumé-Introduction-Méthodes-Résultats-Discussion. En tant que scientifique en début de carrière qui est en train de sculpter des chapitres de thèse en manuscrits, il est bon de se rappeler que les #365articles que j'ai lus sont le produit d'auteurs qui, comme moi, lutté à travers les révisions et a dupé avec les co-auteurs et a trouvé un humour sombre dans les moments sombres.

    Blogs d'écologie, Twitter, et les médias plus larges aiment aussi noter les titres fantaisistes, remerciements drôles (et sérieux), chiffres mémorables, et les déterminations uniques de l'ordre de co-auteur qui sont apparues dans les pages de revues scientifiques. J'aime trébucher sur ces moments de légèreté dans mon dossier A LIRE; Au printemps dernier, j'ai remis à plus tard la mise en forme de ma thèse en lisant avidement la section Remerciements de toute personne avec qui j'avais même vaguement chevauché dans mon doctorat. programme. Un endroit où je n'ai pas pensé à chercher un humour scientifique fortuit :la déclaration de disponibilité des données. Comme il s'avère, J'ai raté une histoire intéressante.

    Un article récent de PLOS ONE a analysé les déclarations de disponibilité des données de près de 50, 000 articles PLOS ONE récents. Cela peut sembler un sujet ennuyeux, mais le travail de Lisa Federer et des coauteurs est étonnamment engageant, topique, et provoquant la réflexion. En mars 2014, PLOS a dévoilé une politique de données exigeant que les articles de recherche incluent une déclaration de disponibilité des données fournissant aux lecteurs des détails sur la façon d'accéder aux données pertinentes pour chaque article. Mais, comme le soulignent Federer et al, « la « disponibilité » peut être interprétée de manières qui ont des résultats pratiques très différents en termes de qui peut accéder aux données et comment. »

    Pourquoi les déclarations de disponibilité des données sont-elles importantes ? En écologie, les défenseurs des données ouvertes plaident en faveur de la reproductibilité et de la réutilisation. Nous sommes si nombreux à travailler sur de petites zones d'étude et à accumuler des feuilles de calcul isolées de données, puis publier sur notre système, peut-être jeter un sous-ensemble des données que nous avons collectées dans un fichier supplémentaire. Mais les grandes questions qui regardent à travers les échelles, écosystèmes, et les approches reposent sur le big data, et le big data est souvent un amalgame de nombreux petits ensembles de données provenant d'un large éventail de scientifiques. Ensembles de données de petite taille (ou de toute taille) accessibles au public, et facile d'accès dans les référentiels de données au lieu d'anciens cahiers de laboratoire ou d'ordinateurs de laboratoire défunts, sont beaucoup plus susceptibles d'avoir des jambes, pour être réutilisé et re-testé, et contribuer au domaine dans son ensemble.

    Crédit :Eric Heupel, https://www.flickr.com/photos/eclectic-echoes/

    Alors que PLOS était à l'avant-garde des déclarations d'accessibilité des données parmi les revues à comité de lecture, L'examen par Federer du contenu de ces déclarations de disponibilité des données montre clairement que nous ne sommes pas encore dans le brillant avenir des données ouvertes. La politique d'accessibilité des données de PLOS « recommande fortement » que les données soient déposées dans un référentiel public ; Federer a constaté que seulement 18,2 % des PLOS les documents nommaient un référentiel ou une source spécifique où les données étaient disponibles. La plupart des déclarations d'accessibilité des données dirigent le lecteur vers le document lui-même ou vers des informations supplémentaires. Même parmi les articles du référentiel de données, certaines déclarations d'accessibilité des données indiquaient un référentiel mais n'incluaient pas d'URL, EST CE QUE JE, ou numéro d'accession—envoyant essentiellement les lecteurs dans une chasse à l'oie sauvage pour localiser leurs données dans le référentiel.

    D'autres déclarations semblent avoir été saisies en tant qu'espaces réservés, potentiellement destiné à être remplacé lors de la publication de l'article, tels que « Toutes les données brutes sont disponibles dans la base de données XXX [sic] (numéro(s) d'accès XXX, XXX [sic])" ou "Les données et l'ensemble complet des instructions expérimentales de cette étude peuvent être consultés à l'adresse . [Ce lien sera rendu publiquement [sic] accessible dès la publication de cet article.]" Ces deux articles, publié en 2016 et 2015, respectivement, contiennent toujours ce texte d'espace réservé au moment de la rédaction de cet article.

    Ces exemples d'espaces réservés qui ont été publiés sont embarrassants, mais humain, et comme le souligne Federer, Les déclarations d'accessibilité des données doivent être examinées par les éditeurs et les pairs examinateurs avec le même examen minutieux que nous appliquons à la conception de l'étude, analyses statistiques, et citations.

    J'ai travaillé sur des méta-analyses et des projets qui s'appuient sur des données d'archives numériques existantes. La frustration de courir après des informations supplémentaires, Dryades DOI, et les adresses GitHub uniquement pour trouver une impasse ou une adresse e-mail d'auteur correspondante cassée est un sentiment semblable à des écureuils terrestres qui mâchent les fils de l'enregistreur de température à mi-chemin de la saison sur le terrain. Federer note que le vent tourne vers les données ouvertes :après un début difficile en 2014—l'équipe de Federer a analysé de nombreux articles probablement soumis avant (mais publiés après) l'entrée en vigueur de la politique de disponibilité des données—2015 et 2016 ont vu le pourcentage d'articles qui manquaient de La déclaration de disponibilité des données chute considérablement. Sur la même période, Federer note de légères augmentations du nombre de déclarations faisant référence à des données dans un référentiel et moins qui prétendent que les données sont dans le papier ou – frisson – disponibles sur demande.

    A un niveau plus large, les données ouvertes sont un sujet nouvellement politisé. L'EPA a récemment proposé de nouvelles normes qui interdiraient aux études scientifiques d'informer à des fins réglementaires à moins que toutes les données brutes ne soient largement accessibles au public et puissent être reproduites. Ce n'est pas tant un étalon-or qu'une règle de bâillon. Dans un éditorial de PLOS, John P. A. Ioannidis fait remarquer qu'en « faisant des données scientifiques, méthodes, protocoles, Logiciel, et des scripts largement disponibles est une expérience passionnante, louable aspiration" en éliminant tout sauf la soi-disant science parfaite du processus de réglementation, l'EPA s'engage à prendre des décisions qui « dépendent uniquement de l'opinion et des caprices ». La plupart des données brutes des études antérieures ne sont pas accessibles au public et, comme le montre la recherche de Federer, même à une époque où les déclarations de disponibilité des données sont obligatoires, les données ouvertes sont toujours un travail en cours. Et donc nous avons battu les scientifiques contre les administrateurs anti-scientifiques de l'Environmental Protection Agency, sans cesse en faveur de l'édition accessible, les données ouvertes comme une sorte de feu vert aux recherches passées.

    Cette histoire est republiée avec l'aimable autorisation de PLOS Blogs :blogs.plos.org.




    © Science https://fr.scienceaq.com