Les scientifiques utilisent Theta, un système de calcul haute performance à l'Argonne Leadership Computing Facility, pour les aider à analyser les protéines COVID-19. Crédit :Laboratoire National d'Argonne
Un nouveau pipeline d'outils d'IA et de simulation peut rendre le processus de criblage de candidats-médicaments pour COVID-19 50, 000 fois plus rapide.
Pour trouver un médicament qui peut arrêter le virus SARS-CoV-2, les scientifiques veulent cribler des milliards de molécules pour la bonne combinaison de propriétés. Le processus est généralement risqué et lent, prend souvent plusieurs années. Cependant, une équipe internationale de scientifiques dit avoir trouvé un moyen de rendre le processus 50, 000 fois plus rapide grâce à l'intelligence artificielle (IA).
Dix organisations, y compris le Laboratoire national d'Argonne du Département de l'énergie des États-Unis (DOE), ont développé un pipeline de techniques d'IA et de simulation pour accélérer la découverte de candidats médicaments prometteurs pour COVID-19, la maladie causée par le virus SARS-CoV-2. Le pipeline est nommé IMPECCABLE, abréviation de Integrated Modeling PipelinE for COVID Cure by Assessing Better Leads.
"Avec l'IA que nous avons implémentée, nous avons été en mesure de cribler quatre milliards de candidats médicaments potentiels en une journée, alors que les outils de calcul existants pourraient ne filtrer de manière réaliste qu'un à 10 millions, " a déclaré Thomas Brettin, responsable de programme stratégique chez Argonne.
Pourquoi une approche intégrée est nécessaire
IMPECCABLE intègre de multiples techniques de traitement des données, modélisation et simulation basées sur la physique, et l'apprentissage automatique, une forme d'IA qui utilise des modèles dans les données pour générer des modèles prédictifs.
"Nous intégrons plusieurs approches car il n'y a pas d'algorithme ou de méthode unique qui puisse fonctionner à lui seul avec une grande efficacité et précision, " a déclaré Arvind Ramanathan, biologiste informaticien d'Argonne. " Si nous ne nous appuyions que sur des simulations, il nous faudrait des années pour trouver une cible probable, même avec les supercalculateurs les plus rapides."
Composants du pipeline
Au début du pipeline, des techniques de calcul sont utilisées pour calculer les propriétés de base de milliards de molécules. Ces données sont utilisées dans la prochaine étape du pipeline pour créer des modèles d'apprentissage automatique qui peuvent prédire la probabilité qu'une molécule donnée se lie à une protéine virale connue. Celles jugées les plus prometteuses sont ensuite simulées sur des systèmes de calcul haute performance.
« Les protéines sont des structures fluides, et les simulations nous montrent de nouvelles conformations pour eux. Nous les utilisons pour améliorer nos modèles d'apprentissage automatique, ", a déclaré Austin Clyde, informaticien d'Argonne. "Le processus itératif se poursuit jusqu'à ce que nous puissions valider que les molécules que nous avons identifiées comme susceptibles de se lier aux protéines du SRAS-CoV-2 sont prometteuses."
De très grands ensembles de données expérimentales sont également collectés à partir de milliers de cristaux de protéines à l'aide de rayons X à la source avancée de photons (APS), une installation d'utilisateurs du DOE Office of Science sur le campus d'Argonne. La technique qu'ils utilisent pour obtenir ces données est connue sous le nom de cristallographie aux rayons X. Avec ça, les chercheurs peuvent capturer des images détaillées des protéines virales et de leurs états chimiques pour améliorer la précision de leurs modèles d'apprentissage automatique.
« Depuis le début de la pandémie, nous avons pu déterminer plus de 45 structures cristallines à haute résolution des protéines du SRAS-CoV-2 et leurs complexes avec d'autres composés. Cette information, lorsqu'il est combiné avec une analyse informatique, peut fournir des informations essentielles pour d'autres efforts de conception de médicaments basés sur la structure et permettre la conception d'inhibiteurs d'affinité plus élevée et, à terme des thérapeutiques pouvant être utilisées pour traiter le COVID-19, " a déclaré Andrzej Joachimiak, directeur du Centre de biologie structurale (SBC) de la ligne 19-ID-D de l'APS.
Les objectifs ultimes du pipeline sont (1) de comprendre la fonction des protéines virales; (2) identifier des molécules à fort potentiel de liaison avec ces protéines et, par conséquent, bloquer la prolifération du SRAS-CoV-2 ; et (3) fournir ces informations aux concepteurs et développeurs de médicaments pour la poursuite de la recherche et du développement.
« Contrairement à l'approche traditionnelle, où vous comptez sur le scientifique pour réfléchir très fort et, sur la base de ce qu'ils savent, trouver des idées pour une molécule, avec notre pipeline, vous pouvez cribler automatiquement un grand nombre de molécules, augmenter considérablement vos chances de trouver un candidat probable, " a déclaré Ian Foster, directeur de la division Data Science and Learning d'Argonne.