Présentation de MMACE. L'entrée est une molécule à prédire. L'espace chimique est élargi et regroupé. Les contrefactuels sont sélectionnés à partir de clusters pour trouver une explication succincte de la prédiction de la molécule de base. Crédit :Sciences chimiques (2022). DOI :10.1039/D1SC05259D
Les scientifiques s'appuient de plus en plus sur des modèles entraînés avec l'apprentissage automatique pour fournir des solutions à des problèmes complexes. Mais comment savons-nous que les solutions sont dignes de confiance lorsque les algorithmes complexes utilisés par les modèles ne sont pas facilement interrogés ou capables d'expliquer leurs décisions aux humains ?
Cette confiance est particulièrement cruciale dans la découverte de médicaments, par exemple, où l'apprentissage automatique est utilisé pour trier des millions de composés potentiellement toxiques afin de déterminer lesquels pourraient être des candidats sûrs pour les médicaments pharmaceutiques.
"Il y a eu des accidents très médiatisés en informatique où un modèle pouvait très bien prédire les choses, mais les prédictions n'étaient basées sur rien de significatif", déclare Andrew White, professeur agrégé de génie chimique à l'Université de Rochester, dans une interview. avec le monde de la chimie.
White et son laboratoire ont développé une nouvelle méthode "contrefactuelle", décrite dans Chemical Science , qui peut être utilisé avec n'importe quel modèle d'apprentissage automatique basé sur la structure moléculaire pour mieux comprendre comment le modèle est parvenu à une conclusion.
Les contrefactuels peuvent indiquer aux chercheurs "le plus petit changement dans les caractéristiques qui modifierait la prédiction", explique l'auteur principal Geemi Wellawatte, titulaire d'un doctorat. étudiant dans le laboratoire de White. "En d'autres termes, un contrefactuel est un exemple aussi proche de l'original, mais avec un résultat différent."
Les contrefactuels peuvent aider les chercheurs à déterminer rapidement pourquoi un modèle a fait une prédiction et si elle est valide.
L'article identifie trois exemples de la manière dont la nouvelle méthode, appelée MMACE (Molecular Model Agonistic Counterfactual Explanations), peut être utilisée pour expliquer pourquoi :
Le laboratoire a dû surmonter des défis majeurs dans le développement de MMACE. Ils avaient besoin d'une méthode pouvant être adaptée au large éventail de méthodes d'apprentissage automatique utilisées en chimie. En outre, la recherche de la molécule la plus similaire pour un scénario donné était également difficile en raison du nombre considérable de molécules candidates possibles.
De gauche à droite :l'étudiante au doctorat Geemi Wellawatte, Andrew White, professeur agrégé de génie chimique, et Aditi Seshadri '22 à Wegmans Hall. Le laboratoire de White a développé un moyen de vérifier les prédictions des modèles d'apprentissage automatique utilisés dans la découverte de médicaments en utilisant des contrefactuels. Crédit :Université de Rochester/J. Adam Fenster
Le co-auteur Aditi Seshadri du laboratoire de White a aidé à résoudre ce problème en suggérant au groupe d'adapter l'algorithme STONED (Superfast Traversal, Optimisation, Nouveauté, Exploration et Découverte) développé à l'Université de Toronto. STONED génère efficacement des molécules similaires, le carburant de la génération contrefactuelle. Seshadri est chercheur de premier cycle dans le laboratoire de White et a pu contribuer au projet via un programme de recherche d'été à Rochester appelé "Discover".
White dit que son équipe continue d'améliorer MMACE, en essayant d'autres bases de données dans leur recherche de molécules les plus similaires, par exemple, et en affinant la définition de la similarité moléculaire. Technique d'IA restreinte pour ne proposer que des molécules candidates pouvant être produites en laboratoire