Les chercheurs de Purdue ont créé un nouveau système, appelé Citron, pour l'extraction rapide de données d'interaction biomoléculaire à utiliser avec des méthodes d'apprentissage automatique pour la conception de médicaments. Crédit :Image fournie
L'un des défis de l'utilisation de l'apprentissage automatique pour le développement de médicaments est de créer un processus permettant à l'ordinateur d'extraire les informations nécessaires à partir d'un pool de points de données. Les scientifiques du médicament doivent extraire des données biologiques et former le logiciel pour comprendre comment un corps humain typique interagira avec les combinaisons qui se réunissent pour former un médicament.
Les chercheurs en découverte de médicaments de l'Université Purdue ont créé un nouveau cadre d'exploration de données pour la formation de modèles d'apprentissage automatique. Le cadre, appelé Citron, aide les chercheurs en médicaments à mieux exploiter la base de données sur les protéines (PDB) - une ressource complète avec plus de 140, 000 structures biomoléculaires et de nouvelles sont publiées chaque semaine. L'ouvrage est publié dans l'édition du 15 octobre de Bioinformatique .
« PDB est un outil essentiel pour la communauté de la découverte de médicaments, " dit Gaurav Chopra, professeur adjoint de chimie analytique et physique au Collège des sciences de Purdue qui travaille avec d'autres chercheurs du Purdue Institute for Drug Discovery et a dirigé l'équipe qui a créé Lemon. "Le problème est que le tri de toutes les données accumulées peut prendre énormément de temps. L'apprentissage automatique peut aider, mais vous avez toujours besoin d'un cadre solide à partir duquel l'ordinateur peut analyser rapidement les données pour aider à la création de médicaments sûrs et efficaces."
La plate-forme logicielle Lemon est une bibliothèque C++11 rapide avec des liaisons Python qui exploite le PDB en quelques minutes. Le chargement de tous les fichiers mmCIF traditionnels dans la PDB prend environ 290 minutes, mais Lemon le fait en environ six minutes lorsqu'il applique un flux de travail simple sur une machine à 8 cœurs. Lemon permet à l'utilisateur d'écrire des fonctions personnalisées, l'inclure dans leur suite logicielle, et développer des fonctions personnalisées de manière standard pour générer des ensembles de données d'analyse comparative uniques pour l'ensemble de la communauté scientifique.
« Les structures expérimentales déposées dans PDB ont entraîné plusieurs avancées pour les communautés scientifiques et éducatives en biologie structurelle et computationnelle qui contribuent à faire progresser le développement de médicaments et d'autres domaines, " a déclaré Jonathan Fine, un doctorat étudiant en chimie qui a travaillé avec Chopra pour développer la plateforme. "Nous avons créé Lemon comme un guichet unique pour exploiter rapidement l'ensemble de la banque de données et extraire les informations biologiques utiles qui sont essentielles au développement de médicaments."
Lemon tire son nom du fait qu'il a été conçu à l'origine pour créer des ensembles d'analyse comparative pour les logiciels de conception de médicaments et identifier les citrons, interactions biomoléculaires qui ne peuvent pas être bien modélisées, dans l'APB.
Le travail de développement du logiciel est le dernier projet impliquant des innovations en matière de santé de Chopra et de son équipe. Lemon est disponible gratuitement sur GitHub chez lemon" target="_blank"> github.com/chopralab/lemon . Une documentation détaillée est disponible sur chopralab.github.io/lemon/latest/index.html .