Image graphique de la réutilisation des données. Crédit :Kroon-Batenburg et al.
Le sujet de plus en plus populaire du dépôt de données brutes de diffraction est examiné dans une Revue d'actualité en IUCrJ . S'appuyant sur l'atelier 2015 organisé par le groupe de travail de l'IUCr sur les dépôts de données de diffraction (DDDWG), les auteurs actualisent l'histoire avec des récits de nouveaux référentiels de données disciplinaires et institutionnelles, et des pressions politiques croissantes sur la gestion des données de recherche telles que l'initiative européenne Open Science.
L'article est, cependant, plus qu'un simple rapport d'atelier ou une enquête sur l'évolution des politiques. Il cherche à éclairer les arguments coûts-avantages sur le dépôt de données de diffraction avec des exemples de vraies recherches de première ligne. Par exemple, Kroon-Batenburg et Helliwell ont collaboré à des études de liaison aux protéines de l'agent chimiothérapeutique cisplatine, et ont rendu leurs 34 ensembles de données brutes disponibles via la bibliothèque de données de l'Université de Manchester. Certains de ces ensembles de données ont été réanalysés et ont permis de mieux comprendre les modèles cisplatine-lysozyme.
La perspective d'extraire de cette manière des informations supplémentaires à partir d'ensembles de données primaires archivés (soit par la compréhension de nouvelles paires d'yeux, soit par des améliorations ultérieures de l'analyse logicielle) a des implications pour les bases de données structurelles, faciliter l'idée d'amélioration continue des études, comme pour les modèles de structure macromoléculaire (longtemps défendus par Terwilliger).
Ce n'est pas seulement dans le domaine de la détermination de la structure macromoléculaire que ces considérations sont importantes. L'un des plus grands défis de la réutilisation de données brutes est le besoin de métadonnées complètes associées à tout ensemble de données brutes, pour permettre son interprétation ultérieure et son évaluation complète.
Diverses commissions de l'IUCr publient activement leurs résumés des métadonnées essentielles qui doivent être saisies avec tous les ensembles de données expérimentales. Ces initiatives et leur relation avec le standard de l'IUCr pour la caractérisation des données (CIF, le Crystallographic Information Framework) sont examinés dans l'article. De nouveau, des pointeurs pratiques sont donnés aux métadonnées essentielles qui doivent être capturées avec les ensembles de données de diffraction.
Bien qu'il y ait des signes encourageants indiquant que la communauté scientifique s'intéresse de plus en plus à la gestion des données et à son potentiel scientifique, de nouveaux défis sont lancés par la dernière génération d'instrumentation, capable de générer de grandes quantités de données à un rythme incroyable. Il peut ne pas être possible d'archiver ou même d'analyser en profondeur toutes les données produites. Cependant, cet article aidera à fournir une compréhension approfondie des raisons pour lesquelles la société devrait investir des efforts et des ressources pour extraire la plus grande valeur possible du déluge de données, en cristallographie comme dans toute science.