Crédit :CC0 Domaine public
Imaginez que votre flux Facebook pose un casse-tête alléchant. On vous présente quelques fragments sur une personne :la couleur des yeux, couleur de cheveux, âge, et la taille et n'avez qu'une minute pour choisir le nom et l'identité de la personne parmi des centaines de profils. Si vous faites comme ceci, vous gagnez 100 millions de dollars.
Mais vous ne connaissez que 10 de ces personnes par leur nom. Pour les autres, vous n'avez qu'un manque de données pour travailler. Certains sont jeunes et certains ne sont pas si jeunes. Certaines sont blondes et d'autres brunes. Certains de leurs noms vous sont familiers, mais vous ne pouvez pas vraiment déterminer comment vous les connaissez.
Ce type de scénario - une tâche apparemment impossible avec un énorme gain - confronte les chercheurs du PNNL qui étudient la métabolomique. C'est l'étude des petites molécules qui sous-tendent et informent chaque aspect de notre vie, y compris la production d'énergie, le sort de la planète, et notre santé.
Les scientifiques estiment que moins de 1 % des petites molécules sont connues. Une bibliothèque métabolomique typique disponible dans le commerce en a peut-être 5, 000 composés, mais les scientifiques savent qu'il y en a des milliards d'autres.
Comment « identifient-ils » quelque chose dont ils savent si peu ? C'est comme demander à Galilée d'identifier des étoiles dans l'espace lointain qui étaient impossibles à détecter lorsqu'il utilisait l'un des premiers télescopes il y a plus de 400 ans.
Entrez DarkChem, un projet de recherche financé par Deep Learning for Scientific Discovery Agile Investment du PNNL. Une équipe dirigée par Ryan Renslow apporte l'intelligence artificielle à la table pour s'attaquer au vaste, paysage méconnu de métabolites qui tourmentent les chercheurs comme Tom Metz, qui dirige l'effort de métabolomique du PNNL.
"À l'heure actuelle, nous ne faisons qu'effleurer ce qui est potentiellement connaissable et dire adieu aux données très intéressantes car nous ne pouvons pas identifier la grande majorité des métabolites que notre technologie détecte, " a déclaré Metz. " L'apprentissage en profondeur offre une nouvelle façon de résoudre le puzzle. "
Renslow et ses collègues Sean Colby et Jamie Nunez ont adopté des principes d'apprentissage en profondeur couramment utilisés dans des applications telles que la traduction de langues et les ont appliqués à cette matière noire du monde moléculaire.
Les premiers résultats sont remarquables :le réseau DarkChem de l'équipe peut calculer une caractéristique clé d'une molécule en quelques millisecondes et avec 13 % d'erreurs en moins, contre 40 heures sur un supercalculateur exécutant le logiciel phare de chimie quantique du PNNL, NWchem.
"Nous avons été choqués de voir à quel point DarkChem a bien fait, " dit Renslow.
Le réseau ne se contente pas d'analyser les données pour compiler les résultats. Plutôt, le réseau s'appuie sur l'intelligence artificielle. DarkChem a été développé pour qu'il puisse découvrir de nouvelles choses encore inconnues des humains.
Du football et de la section transversale de collision
Dans ce cas, l'équipe a formé le programme pour comprendre et prédire une propriété chimique connue sous le nom de section efficace de collision (CCS). Alors que CCS se fait passer pour un acronyme scientifique intimidant, quiconque a regardé un match de football a vu quelque chose comme CCS en action.
Imaginez un porteur de balle fracassant les joueurs adverses. Un joueur plus petit peut avoir moins de collisions, mais quand ils entrent en collision avec un adversaire, l'effet est différent de celui d'un Marshawn Lynch ressemblant à un hulk qui passe en mode bête et secoue plusieurs impacts.
Vous en apprenez beaucoup sur les joueurs de football en les regardant s'écraser les uns sur les autres.
De la même manière, le suivi des collisions entre les ions métabolites traversant un instrument de laboratoire rempli de molécules de gaz en dit long aux scientifiques sur les structures des ions métabolites :leur taille, leur masse, et d'autres fonctionnalités. CCS est la mesure mathématique de cette action, et c'est essentiel pour débloquer la structure chimique en phase gazeuse - la véritable « identification » - d'une molécule.
Renslow et son équipe ont formé DarkChem pour calculer le CCS pour les structures chimiques, puis l'a lâché pour faire le calcul pour plus de 50 millions de composés, une partie de la bibliothèque de PubChem. Le programme a résolu cette tâche en un clin d'œil.
Bien qu'il s'agisse d'un pas en avant prometteur, l'équipe est plus enthousiasmée par les implications pour toutes ces petites molécules encore non identifiées.
Le réseau peut fonctionner en avant comme en arrière, c'est-à-dire il peut résoudre le CCS d'une molécule et prédire d'autres propriétés, mais il peut aussi générer de nouvelles structures chimiques basées sur les propriétés recherchées. Par exemple, L'équipe de Renslow a utilisé DarkChem pour mettre en avant plusieurs nouvelles structures chimiques susceptibles d'influencer le récepteur NMDA, qui est impliqué dans la mémoire et d'autres fonctions cérébrales importantes.
Le réseau ne se contente pas de mémoriser des données. En réalité, l'équipe ajoute intentionnellement un flou numérique aux défis auxquels le réseau est confronté pour l'empêcher de mémoriser.
"C'est comme apprendre à un ordinateur à reconnaître un chien, " a déclaré Renslow. " Il pourrait simplement mémoriser l'image, mais vous voulez que le réseau puisse reconnaître une variété de chiens, vous pourriez donc retourner l'image à l'envers, l'étirer un peu, changer ses couleurs. Vous perturbez l'image de sorte que le programme est obligé de généraliser et de s'appuyer sur les connaissances et les règles qu'il a apprises."
Apprendre au réseau à apprendre
Pour créer le réseau, l'équipe a utilisé une forme d'intelligence artificielle appelée apprentissage par transfert, où le réseau apprend d'un ensemble de données et applique ensuite ses connaissances à un autre ensemble de données. La formation comportait principalement trois étapes :
Le programme a parcouru plus de 50 millions de molécules connues dans PubChem, apprendre les bases de la chimie et comment représenter mathématiquement les structures chimiques. Mais la base de données manquait d'informations sur le CSC, une mesure cruciale pour comprendre les métabolites.
Puis, l'équipe a exposé DarkChem à un ensemble de données de calcul CCS développé par le PNNL, environ 700, 000 molécules. Cela a aidé à former le programme sur la façon de lier les informations générales qu'il avait apprises sur la structure chimique au CSC.
Finalement, l'équipe a affiné le réseau à l'aide d'un petit ensemble de données robuste d'environ 1, 000 structures chimiques dont les mesures CCS ont été déterminées grâce à un travail minutieux en laboratoire.
La capacité de calculer le CCS pour des molécules inconnues - des molécules dont le seul indice d'existence peut être une fine ligne d'une expérience de spectrométrie de masse - ajoute une caractéristique importante pour aider les scientifiques à différencier un métabolite d'un autre. Pour mettre en lumière la matière moléculaire noire.
"Chaque dimension que vous ajoutez vous donne un meilleur pouvoir de résolution, " dit Colby, qui aide à déterminer d'autres caractéristiques moléculaires possibles à analyser par DarkChem, tels que les spectres infrarouges, modèles de fragmentation, et les données de surface accessibles aux solvants.
Cela revient à perfectionner notre capacité à identifier des milliers de connaissances sur Facebook.
"Vous pouvez dire que quelqu'un est un homme et porte des lunettes, " dit Renslow. " Mais si vous pouvez ajouter qu'il a 54 ans et conduit une Mercedes rouge, vous limitez les candidats.
"Ce n'est pas très différent avec les métabolites. Nous continuons d'ajouter des caractéristiques que nous pouvons mesurer, et finalement il n'y a qu'une seule molécule dans l'univers qui correspond à cette combinaison de données, " il ajouta.