« La découverte de médicaments est un processus très long. À chaque étape, vous pouvez trouver que votre médicament n'est pas assez bon et vous devez chercher un autre candidat, " explique Xiao-Li Li d'A*STAR. Son équipe a remporté le prix du "meilleur article" à la Conférence internationale sur la bioinformatique de 2016 pour une nouvelle approche permettant de corriger un problème intrinsèque avec les méthodes d'apprentissage automatique.
Simulation par ordinateur, ou des techniques de découverte de médicaments « in silico », peut améliorer la précision et réduire l'étirement, route extrêmement coûteuse pour mettre un médicament sur le marché - en moyenne plus de 12 ans et 1,8 milliard de dollars.
Cependant, de nombreuses simulations informatiques nécessitent d'abord une « formation » sur des ensembles de données de médicaments connus et de leurs cibles. Ces données peuvent inclure des informations supplémentaires sur la structure 3D, composition chimique, et d'autres propriétés moléculaires. En s'appuyant sur les tendances de cette base de données de données connues, la simulation peut alors prédire les interactions de molécules inconnues, conduisant à de nouveaux médicaments et de nouvelles protéines cibles.
Cependant, de tous les médicaments et cibles de la base de données, seules certaines combinaisons interagissent. Les appariements potentiels sont largement compensés par des paires sans interaction appelées « déséquilibre entre les classes ». Un déséquilibre supplémentaire est présent sous la forme de sous-types d'interaction différents et inégaux, surnommé le « déséquilibre intra-classe ».
"Tous les modèles de calcul conçus pour optimiser la précision seront biaisés et auront tendance à classer les paires inconnues en classe majoritaire ou sans interaction, " dit Li. "Les classes majoritaires sont mieux représentées dans les données que les classes d'interaction minoritaires, ce qui fausse ces modèles et produit des erreurs. Le déséquilibre des données est un problème difficile."
L'équipe de Li au A*STAR Institute for Infocomm Research, a cherché à surmonter ce problème en développant un algorithme « sensible aux déséquilibres » qui prédit avec plus de précision les interactions médicament-cible sur la base d'une base de données de 12, 600 interactions connues et environ 18 millions de paires connues sans interaction. L'algorithme a été conçu pour mieux reconnaître les groupes d'interaction sous-représentés et améliorer les données qu'ils contiennent.
En améliorant la capacité du modèle informatique à se concentrer sur les données les plus utiles (les interactions), l'équipe a créé un système qui surpasse les techniques de modélisation existantes, prédire de nouveaux, interactions médicament-cible inconnues avec une grande précision.
L'avenir de l'apprentissage automatique dépend de l'intelligence artificielle et de l'apprentissage avancé tel que le « deep learning ». Néanmoins, comme l'ajoute Li :« les données sont essentielles. Afin d'améliorer encore notre capacité de prévision, la première chose que nous pouvons faire est de collecter des données plus pertinentes sur les médicaments et les cibles."