Des scientifiques du Skoltech Center for Computational and Data-Intensive Science and Engineering (CDISE) et du Helmholtz Munich Center for Environmental Health (HMGU, Allemagne) ont créé un réseau de neurones pour visualiser l'espace chimique des composés qui peuvent avoir une valeur potentielle pour l'industrie pharmaceutique. La nouvelle méthode aidera à créer de nouveaux composés chimiques et à naviguer dans l'espace des produits chimiques existants. Les résultats de l'étude ont été publiés dans RSC Advances.
Les chimistes doivent souvent parcourir d'énormes bases de données contenant des dizaines voire des centaines de milliers de structures chimiques pour sélectionner les meilleurs candidats. Faire cela, ils ont besoin de savoir quelles classes de composés la base de données contient. Cependant, traverser des milliers de molécules est une tâche laborieuse, ce qui serait beaucoup plus facile si les molécules étaient représentées sous forme de points et placées sur un plan ou dans l'espace, avec des molécules similaires blotties ensemble. Cela permettrait d'étudier l'espace chimique à l'aide d'un outil simple de la même manière que le géographe utilise des cartes numériques à différentes échelles pour voir une image plus grande ou zoomer sur une zone particulière. Mais voici le hic :comment l'algorithme saurait-il où placer les molécules si l'outil n'a aucune connaissance en chimie ?
Un groupe conjoint de chercheurs du CDISE (Dmitry Karlov, Sergey Sosnin et Maxim Fedorov) et HMGU (Igor Tetko) ont appliqué des méthodes d'IA pour extraire des informations directement à partir des données, et couplé le réseau neuronal profond avec la méthode populaire de réduction de dimension t-SNE pour créer un réseau neuronal capable de générer une vue 2-D du composé sur un plan basé sur la structure multidimensionnelle du composé reçue en entrée. La nouvelle méthode place des molécules ayant des propriétés similaires à proximité les unes des autres, de sorte que les composés peuvent être regroupés en classes selon leurs propriétés. Les auteurs de l'étude ont entraîné leur réseau neuronal sur des millions de composés ayant une activité biologique connue.
« Nous avons adapté la méthode t-SNE pour permettre de visualiser l'espace chimique des composés à potentiel pharmaceutique en entraînant le réseau de neurones profonds et en sélectionnant des descripteurs simples et une métrique pour calculer les distances dans un espace multidimensionnel. Nous avons également montré que cette approche permet d'économiser plus d'informations. par rapport à d'autres méthodes de réduction de dimension, tout en étant à égalité avec PCA en termes de vitesse, " explique le chercheur de Skoltech et premier auteur de l'étude Dmitry Karlov.
À l'avenir, les scientifiques prévoient de développer une série d'outils pour les chimistes et les pharmaciens afin de visualiser l'agencement de nouveaux, composés inexplorés par rapport à ceux déjà étudiés et décrits dans la littérature. Cela accélérera la phase de R&D dans la recherche de nouveaux médicaments.