Crédit :CC0 Domaine public
La ténacité vient naturellement à un gars qui vient de la "capitale mule du monde". Ce trait a résisté à Columbia, Tennessee, natif Elliot Perryman en bonne place en tant que stagiaire au Lawrence Berkeley National Laboratory (Berkeley Lab). L'automne dernier, il a commencé à travailler avec le scientifique Peter Zwart au Center for Advanced Mathematics for Energy Research Applications (CAMERA) dans le cadre du programme de recherche de premier cycle du Berkeley Lab.
CAMERA vise à identifier les domaines de la science expérimentale qui peuvent être aidés par de nouvelles connaissances mathématiques appliquées. Ces chercheurs interdisciplinaires développent les outils algorithmiques nécessaires et les livrent sous forme de logiciels conviviaux. Zwart a mis Perryman, une majeure en informatique et physique à l'Université du Tennessee, sur un projet qu'il a comparé à "se promener dans une pièce sombre en essayant de trouver un chat".
Le félin insaisissable dans ce cas était un problème mathématique qui tourmentait la communauté de la cristallographie expérimentale depuis un certain temps :comment modéliser la présence de bruit dans les données de manière plus réaliste.
La cristallographie est un outil indispensable pour déterminer les structures atomiques des molécules, qui à leur tour donnent aux chercheurs un aperçu de leur comportement et de leur fonction. Lorsqu'un faisceau de lumière focalisé est dirigé vers une surface purifiée, échantillon cristallin, la lumière diffracte les atomes et un détecteur enregistre la lumière diffractée. Au fur et à mesure de la rotation de l'échantillon, des images bidimensionnelles des motifs de diffraction sont capturées dans diverses orientations. Des algorithmes sont ensuite appliqués aux données de diffraction pour reconstruire une carte tridimensionnelle de la disposition des atomes dans l'échantillon.
Lorsque vous déterminez, ou résoudre, une structure à partir de données de diffraction, vous devez relier le modèle à vos observations, expliqua Zwart, qui fait partie de la division Biophysique moléculaire et intégration de la bioimagerie du Berkeley Lab. Les fonctions cibles utilisées pour ce faire sont appelées fonctions de maximum de vraisemblance. Ils fonctionnent très bien si vos données sont bonnes, note-t-il, mais lorsque la quantité de bruit dans les données augmente, ce qui devient le cas à des résolutions plus élevées, les méthodes actuelles ne sont pas en mesure de fournir la meilleure réponse possible.
La raison pour laquelle les fonctions cibles sont insuffisantes dans de tels cas est qu'il y a une étape dans le calcul, une intégration, cela ne peut pas être fait analytiquement, c'est-à-dire avec des maths crayon et papier qui vous donnent une expression que vous pouvez transformer en code. Les tentatives précédentes pour résoudre ce problème ont soit simplement ignoré l'étape d'intégration, ou proposer des approximations qui ne fonctionnent que dans des scénarios spécifiques à une expérience ou à une technique. Alors Zwart et Perryman sont revenus à l'essentiel, essayer une multitude d'approches d'apprentissage automatique différentes pour dériver numériquement une approximation aussi exacte que possible de la manière la plus efficace.
Aux trois quarts du stage de 16 semaines de Perryman, les deux sont arrivés à la conclusion que la plupart des chemins qui avaient semblé prometteurs au départ étaient en fait des impasses. "J'essayais des choses et il m'a fallu du temps pour savoir si quelque chose était un succès ou un échec parce que, avec un problème totalement nouveau, tu ne sais pas, " a déclaré Perryman. Les choses ont finalement cliqué lorsqu'ils ont réalisé qu'une hypothèse commune que les gens font depuis 30 ans pourrait être améliorée.
Univ. Elliot Perryman (à droite) de premier cycle du Tennessee a travaillé avec Peter Zwart, scientifique du personnel des biosciences, lors de son stage de recherche de premier cycle au Berkeley Lab (BLUR) à l'automne 2019. Crédit :Thor Swift/Laboratoire de Berkeley
L'hypothèse a à voir avec la forme du bruit dans les données. L'opinion largement acceptée est que les erreurs expérimentales tombent dans une distribution normale classique, comme la courbe en cloche de Gauss, où près de 100 pour cent des observations se situent dans les 3,5 écarts types. Mais une courbe plus réaliste a des "queues" plus épaisses en raison d'événements rares mais prévisibles. "L'inclusion de ces modèles d'erreur légèrement plus réalistes dans les fonctions cibles cristallographiques nous permet de modéliser la présence de ce que l'on pourrait normalement appeler des valeurs aberrantes d'une manière plus réaliste, " a déclaré Zwart.
Leur méthode, qu'ils ont publié dans la revue Acta Crystallographica Section D :Biologie structurale , est largement applicable dans le domaine de la cristallographie expérimentale et permettra aux chercheurs de mieux utiliser les données de diffraction marginales ou de faible qualité. Cette recherche a été soutenue par les National Institutes of Health et CAMERA est financée par le U.S. Department of Energy's Office of Science.
Un chercheur postdoctoral du laboratoire de Zwart travaille actuellement à transformer le cadre conceptuel mathématique en une application qui pourra éventuellement être implémentée dans la suite logicielle Phenix. Le directeur du MBIB, Paul Adams, dirige le développement de Phenix, une collection d'outils pour une solution de structure automatisée largement utilisée par la communauté de la cristallographie.
"Elliot a consacré beaucoup de temps et d'énergie à des approches qui n'ont finalement pas fonctionné, mais étaient cruciales pour l'effort total car il a pu apprendre beaucoup lui-même et m'éduquer en même temps, " a ajouté Zwart. Et l'expérience acquise par Perryman l'a aidé à décrocher un stage de suivi en travaillant avec Tess Smidt, un post-doctorat au sein de la Division de la recherche informatique, et finalement un poste d'assistant étudiant travaillant avec le postdoctorant CAMERA Marcus Noack sur la prise de décision assistée par machine pour les sciences expérimentales.
Le projet sur lequel Perryman et Noack ont travaillé vise à renverser les méthodes traditionnelles d'échantillonnage automatisé d'images. Ils proposent d'utiliser une approche aléatoire qui est des ordres de grandeur plus efficace et donnera une prédiction de la façon dont l'image pourrait ressembler à un endroit, ainsi qu'une indication de l'incertitude de cette prédiction. Perryman a travaillé sur une approche d'optimisation distribuée, nommé HGDL (Hybrid Global Deflated Local), pour améliorer une fonction d'optimisation critique.
Il y a beaucoup de problèmes informatiques difficiles dans les biosciences qui peuvent être résolus avec des approches qui ont déjà été développées par des mathématiciens appliqués, a noté Zwart. "Certaines idées mettent plus de temps à s'infiltrer dans d'autres domaines, " a-t-il dit. " C'est pourquoi travailler au sein de CAMERA est si formidable :les mathématiciens ont une vision différente du monde, un ensemble différent de compétences, et lire différents articles. Mais ils ne connaissent pas les domaines expérimentaux comme le font les biologistes structurels. Il est important de réunir ces personnes afin que nous puissions identifier les problèmes dans les biosciences et trouver des solutions dans les mathématiques et l'informatique. »
"C'est l'un des gros avantages de ce stage, " a déclaré Perryman. " J'ai commencé en physique nucléaire, donc je connaissais juste les types de problèmes dans ce domaine. Mais après avoir travaillé avec Peter, ou en travaillant avec Tess au printemps dernier, ou Marcus, Je me rends compte qu'il y a tellement de problèmes analogues. Comme, si vous avez le même problème, Marcus le définirait en termes de quelque chose de géophysique, et Tess dirait que c'est un problème de géométrie, mais c'est probablement aussi un problème de biologie."
À la fin, Perryman n'a été découragé par aucun de ces défis tenaces :« Il y a tellement de projets intéressants, il est difficile de ne pas s'enthousiasmer pour eux."