• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Chimie
    Votre ensemble de formation en machine learning est-il biaisé ? Comment développer de nouveaux médicaments basés sur des ensembles de données fusionnés

    Les auteurs ont combiné des ensembles de données propriétaires (GSK) et publiés (CCDC) pour mieux former les modèles d'apprentissage automatique (ML) pour la découverte de médicaments. Crédit :Alex Moldave.

    Les polymorphes sont des molécules qui ont des arrangements moléculaires différents malgré des compositions chimiques identiques. Dans un article récent, les chercheurs de GlaxoSmithKline (GSK) et du Cambridge Crystallographic Data Center (CCDC) ont combiné leurs ensembles de données propriétaires (GSK) et publiés (CCDC) pour mieux former les modèles d'apprentissage automatique (ML) afin de prédire les polymorphes stables à utiliser dans de nouveaux candidats médicaments.

    Quelles sont les principales différences entre les ensembles de données CCDC et GSK ?

    Le CCDC gère et maintient la Cambridge Structural Database (CSD). Depuis un siècle, des scientifiques du monde entier ont contribué à publier, structures cristallines expérimentales au CSD, qui compte aujourd'hui plus de 1,1 million de structures. Les auteurs de l'article ont utilisé un sous-ensemble de médicaments du CSD combiné à des structures de GSK. Les structures GSK ont été collectées à différentes étapes du pipeline pharmaceutique et ne se limitent pas aux produits commercialisés. Co-auteur Dr Jason Cole, chercheur principal au sein de l'équipe de recherche et développement du CCDC, expliqué pourquoi les structures réunies à différentes étapes du pipeline de découverte de médicaments sont si importantes.

    "Dans la découverte de médicaments à un stade précoce, une structure cristalline peut aider à rationaliser les effets conformationnels, par exemple, ou caractériser la chimie d'une nouvelle entité chimique là où d'autres techniques ont conduit à l'ambiguïté, " a déclaré Cole. " Plus tard dans le processus, lorsqu'une nouvelle entité chimique est étudiée comme molécule candidate, les structures cristallines sont essentielles car elles informent la sélection de la forme et peuvent plus tard aider à surmonter les problèmes de formulation et de mise en comprimés."

    Ces informations peuvent aider les chercheurs à hiérarchiser leurs efforts, ce qui leur permet de gagner du temps et potentiellement des vies plus tard.

    "En comprenant une gamme de structures cristallines, les scientifiques peuvent également évaluer le risque qu'une forme donnée soit instable à long terme, " a déclaré Cole. " Une caractérisation complète du paysage structurel conduit à la confiance pour prendre une forme en avant. "

    Comment les modèles de ML en science pharmaceutique bénéficient-ils de plusieurs ensembles de données ?

    Les ensembles de données industrielles reflètent plus que la science; ils reflètent des choix culturels au sein d'une organisation donnée.

    "Vous ne trouverez des co-cristaux que si vous cherchez des co-cristaux, " Cole a dit, par exemple. « La plupart des entreprises préfèrent formuler un libre, ou non relié, médicament. On peut supposer que les types de structures dans un ensemble industriel reflètent des décisions conscientes de rechercher des formes de types donnés, alors que moins de limites sont imposées aux chercheurs qui contribuent au CSD. »

    Les modèles de ML bénéficient de deux éléments clés :le volume de données et la spécificité des données. C'est pourquoi il est si utile de coupler le volume et la variété des données du CSD avec des ensembles de données propriétaires.

    "De grandes quantités de données conduisent à des prédictions plus fiables, " a déclaré Cole. " Les données les plus directement pertinentes pour le problème conduisent à des prédictions plus précises. Dans les prédictions qui utilisent le logiciel CCDC, nous sélectionnons un sous-ensemble des entrées les plus pertinentes qui est suffisamment grand pour donner confiance. L'ensemble GSK contiendra forcément des composés très pertinents par rapport à d'autres composés dans leur portefeuille commercial. Ainsi, le logiciel de création de modèles peut les utiliser."

    Les chercheurs industriels travaillant avec des données très pertinentes peuvent rencontrer des problèmes lorsqu'ils n'en ont pas assez pour générer des modèles fiables.

    "Considérez que le logiciel CSD sélectionne généralement environ deux mille structures parmi les 1,1 million du CSD, " a déclaré Cole. " L'ensemble industriel est minuscule en comparaison, mais tu pourrais choisir, dire, 40 ou 50 structures très pertinentes. Vous auriez des données insuffisantes pour construire un bon modèle avec cela seul, mais les composés ajoutés du CSD complètent l'ensemble de données. En substance, en incluant les ensembles GSK et CSD, nous obtenons le meilleur des deux mondes :toutes les structures industrielles hautement pertinentes et un ensemble de structures CSD assez pertinentes ensemble pour construire un modèle de haute qualité. »

    Pourquoi les polymorphes présentent-ils un risque pour l'industrie pharmaceutique ?

    Les différentes dispositions d'emballage signifient qu'un polymorphe pourrait être plus adapté à l'administration thérapeutique, alors qu'une autre forme du même composé pourrait ne pas l'être. Les chercheurs utilisent des bases de données sur la structure cristalline pour faire des prédictions fondées sur les connaissances pour savoir si un nouveau médicament potentiel est composé d'un bon, forme stable que les fabricants peuvent faire, boutique, et délivrer de manière thérapeutique. Les auteurs de GSK et du CCDC ont réalisé une solide analyse des structures cristallines de petites molécules contenant les résultats de la diffraction des rayons X de GSK et de ses sociétés patrimoniales au cours des 40 dernières années. Ils ont ensuite combiné ces résultats avec un sous-ensemble de structures médicamenteuses du CSD du CCDC, qui contient plus de 1,1 million de structures cristallines organiques et métallo-organiques à petites molécules provenant de chercheurs du monde entier.


    © Science https://fr.scienceaq.com