Une illustration artistique d'un mélange de processus gaussiens et d'un faisceau lumineux ou de particules traversant. L'image fait allusion au fonctionnement interne de l'algorithme à l'intérieur de gpCAM, un outil logiciel développé par des chercheurs de l'installation CAMERA de Berkeley Lab pour faciliter la découverte scientifique autonome. Crédit :Marcus Noack, Laboratoire de Berkeley
Les installations expérimentales du monde entier sont confrontées à un défi :leurs instruments deviennent de plus en plus puissants, conduisant à une augmentation constante du volume et de la complexité des données scientifiques qu'ils collectent. À la fois, ces outils exigent de nouveaux, des algorithmes avancés pour tirer parti de ces capacités et permettre de poser et de répondre à des questions scientifiques toujours plus complexes. Par exemple, le projet ALS-U visant à moderniser l'installation Advanced Light Source du Lawrence Berkeley National Laboratory (Berkeley Lab) produira une lumière à rayons X douce 100 fois plus lumineuse et comportera des détecteurs ultrarapides qui entraîneront une augmentation considérable des taux de collecte de données.
Pour utiliser pleinement les instruments et les installations modernes, les chercheurs ont besoin de nouvelles façons de réduire la quantité de données nécessaires à la découverte scientifique et d'aborder les taux d'acquisition de données que les humains ne peuvent plus suivre. Une voie prometteuse réside dans un domaine émergent connu sous le nom de découverte autonome, où les algorithmes apprennent à partir d'une quantité relativement faible de données d'entrée et décident eux-mêmes des prochaines étapes à suivre, permettant d'explorer plus rapidement les espaces de paramètres multidimensionnels, efficacement, et avec une intervention humaine minimale.
« De plus en plus de domaines expérimentaux profitent de cette nouvelle acquisition de données optimale et autonome car, quand il s'agit de ça, il s'agit toujours d'approximer une fonction, données bruitées, " dit Marcus Noack, chercheur au Center for Advanced Mathematics for Energy Research Applications (CAMERA) du Berkeley Lab et auteur principal d'un nouvel article sur les processus gaussiens pour l'acquisition de données autonome publié le 28 juillet dans Nature Avis Physique . Le document est l'aboutissement d'un travail de plusieurs années, effort multinational mené par CAMERA pour introduire des techniques innovantes de découverte autonome dans une large communauté scientifique.
Les processus stochastiques prennent les devants
Au cours des dernières années, les méthodes de découverte autonome sont devenues plus sophistiquées, avec des processus stochastiques (par exemple, régression du processus gaussien [GPR]) émergeant comme la méthode de choix pour orienter de nombreuses classes d'expériences. Le succès du GPR dans les expérimentations de pilotage est dû à son caractère probabiliste, ce qui nous permet de prendre des décisions basées sur l'incertitude du modèle actuel. C'est ce qui est au cœur de gpCAM, un outil logiciel développé par CAMERA.
"Contrairement à l'apprentissage en profondeur, les processus stochastiques peuvent être utilisés pour prendre des décisions basées sur des ensembles de données relativement petits, et ils fournissent des estimations d'incertitude qui peuvent optimiser le processus d'apprentissage, " dit Noack.
Alors que les efforts de recherche initiaux de CAMERA se sont concentrés principalement sur les expériences de lignes de lumière synchrotron, un nombre croissant de scientifiques d'autres disciplines voient maintenant les avantages d'incorporer des techniques de découverte autonome dans leurs flux de travail de projets expérimentaux. En avril, un atelier sur la découverte autonome en science et en ingénierie parrainé par CAMERA et présidé par Noack a attiré des centaines de scientifiques du monde entier, reflétant l'intérêt croissant pour ce domaine émergent.
"Nous en sommes encore aux premiers jours avec ça, mais beaucoup de progrès ont été accomplis au cours de l'année écoulée, " a déclaré Martin Böhm, un instrumentiste dans le groupe de spectroscopie de l'Institut Laue-Langevin à Grenoble, La France, et co-auteur de l'article de Nature Reviews Physics. "Pour la spectrométrie, par exemple, il offre une nouvelle façon de faire des expériences et laisse les instruments faire le travail, ce qui se traduit par un gain de temps pour les utilisateurs. » D'autres domaines d'application potentiels incluent la physique, math, chimie, la biologie, la science des matériaux, études environnementales, découverte de médicament, l'informatique, et génie électrique.
De multiples usages émergents
Par exemple, Jean Thomas, chercheur post-doctoral à la fonderie moléculaire de Berkeley Lab, utilise la microscopie à sonde à balayage photocouplée pour comprendre les propriétés des matériaux des systèmes semi-conducteurs à couche mince et a travaillé avec gpCAM pour améliorer ces efforts.
« Des applications à l'échelle nanométrique qui utilisent des algorithmes d'intelligence artificielle et d'apprentissage automatique, spécifiquement pour les systèmes de sondes à balayage, s'intéressent depuis quelque temps au groupe Weber-Bargioni [à la Fonderie], ", a déclaré Thomas. "Nous nous sommes intéressés à l'utilisation de processus gaussiens pour une découverte autonome à l'été 2020."
Le groupe a récemment terminé une application qui utilise gpCAM dans une interface Python-to-LabVIEW, où, avec une entrée utilisateur pour l'initialisation, gpCAM pilote une sonde atomiquement pointue à travers un matériau bidimensionnel semi-conducteur pour la collecte de données hyperspectrales. Les images obtenues représentent une convolution d'informations à la fois électroniques et topographiques, et la spectroscopie ponctuelle extrait la structure électronique locale.
« Conduite autonome d'instruments à sonde à balayage, sans avoir besoin d'une opération humaine constante, peut optimiser les performances des outils pour les ingénieurs et les scientifiques en poursuivant les expériences pendant les heures creuses ou en fournissant des itinéraires pour des tâches simultanées dans un flux de travail donné ; C'est, l'outil peut être configuré pour une exécution autonome tandis que l'utilisateur peut utiliser efficacement le temps imparti, " dit Thomas. " En conséquence, nous pouvons maintenant utiliser des processus gaussiens pour cartographier et identifier les régions défectueuses dans les hétérostructures 2D avec une résolution inférieure à Ångström."
Aaron Michelson, un chercheur diplômé du groupe Oleg Gang de l'Université Columbia travaillant sur l'auto-assemblage basé sur l'origami d'ADN, commence tout juste à appliquer gpCAM à ses recherches. Pour un projet, cela l'aide, lui et ses collègues, à étudier l'histoire du recuit thermique des super-réseaux d'origami d'ADN à l'échelle nanométrique; en autre, il est utilisé pour extraire de grands ensembles de données à partir d'expériences de microscopie à rayons X 2D.
"La nanotechnologie de l'ADN dans la recherche d'un matériau fonctionnel auto-assemblé souffre souvent d'une capacité limitée à échantillonner le grand espace de paramètres pour la synthèse, " Il a dit. " Soit cela nécessite un grand volume de données à collecter, soit une solution d'expérimentation plus efficace. La découverte autonome peut être directement intégrée à la fois à l'exploration de grands ensembles de données et à l'orientation de nouvelles expériences. Cela permet au chercheur d'éviter de faire plus d'échantillons sans réfléchir et nous met dans le siège du conducteur pour prendre des décisions. »
« Le travail et le leadership de Noack ont réuni un large, communauté de co-conception interdisciplinaire. Ce type de construction de communauté scientifique est au cœur de ce que CAMERA essaie de faire, " a déclaré le directeur de CAMERA James Sethian, un co-auteur sur le Nature Avis Physique papier.