Le réseau d'apprentissage en profondeur du PNNL s'attaque à des problèmes de chimie difficiles à l'aide d'une formation préalable. Crédit :Timothy Holland/PNNL
Les scientifiques ont développé un réseau neuronal profond qui contourne un problème qui a entravé les efforts visant à appliquer l'intelligence artificielle pour lutter contre la chimie complexe - une pénurie de données chimiques étiquetées avec précision. La nouvelle méthode donne aux scientifiques un outil supplémentaire pour appliquer l'apprentissage en profondeur pour explorer la découverte de médicaments, de nouveaux matériaux pour la fabrication, et une foule d'autres applications.
Prédire les propriétés chimiques et les réactions parmi des millions et des millions de composés est l'une des tâches les plus ardues auxquelles les scientifiques sont confrontés. Il n'existe aucune source d'informations complètes à partir de laquelle un programme d'apprentissage en profondeur pourrait s'appuyer. D'habitude, une telle pénurie d'une grande quantité de données propres est un obstacle pour un projet d'apprentissage en profondeur.
Des scientifiques du Pacific Northwest National Laboratory du ministère de l'Énergie ont découvert un moyen de contourner le problème. Ils ont créé un système de pré-formation, une sorte de tutoriel accéléré où ils fournissent au programme des informations de base sur la chimie, l'équiper pour apprendre de ses expériences, puis défiez le programme avec d'énormes ensembles de données.
Le travail a été présenté au KDD2018, la Conférence sur la découverte des connaissances et l'exploration de données, à Londres.
Chats, chiens, et nettoyer les données
Pour les réseaux d'apprentissage en profondeur, des données abondantes et claires ont longtemps été la clé du succès. Dans le dialogue chat contre chien qui parsème les discussions sur les systèmes d'IA, les chercheurs reconnaissent l'importance des « données étiquetées - une photo d'un chat est marquée comme un chat, un chien est marqué chien, etc. En avoir beaucoup, de nombreuses photos de chats et de chiens, clairement marqué comme tel, est un bon exemple du type de données que les scientifiques en IA aiment avoir. Les photos fournissent des points de données clairs qu'un réseau de neurones peut utiliser pour apprendre lorsqu'il commence à différencier les chats des chiens.
Mais la chimie est plus complexe que de trier les chats des chiens. Des centaines de facteurs affectent la promiscuité d'une molécule, et des milliers d'interactions peuvent se produire en un éclair d'une seconde. Les chercheurs en IA en chimie sont souvent confrontés à des ensembles de données petits mais complets ou à des ensembles de données énormes mais incohérents - pensez à 100 images claires de chihuahuas ou à 10 millions d'images de taches à fourrure. Ni l'un ni l'autre n'est idéal ou même réalisable seul.
Les scientifiques ont donc créé un moyen de combler le fossé, combinant le meilleur des « données minces mais bonnes » avec des « données volumineuses mais médiocres ».
L'équipe, dirigé par l'ancien scientifique du PNNL Garrett Goh, a utilisé une technique connue sous le nom d'apprentissage supervisé basé sur des règles. Les scientifiques dirigent le réseau de neurones vers un vaste référentiel de données chimiques connu sous le nom de ChEMBL, et ils génèrent des étiquettes basées sur des règles pour chacune de ces nombreuses molécules, par exemple calculer la masse de la molécule. Le réseau de neurones analyse les données brutes, apprendre les principes de la chimie qui relient la molécule aux empreintes chimiques de base. Prenant le réseau de neurones entraîné sur les données basées sur des règles, les scientifiques lui ont présenté le petit, mais de haute qualité, jeu de données contenant les propriétés finales à prédire.
La pré-formation a payé. Le programme, appelé ChemNet, atteint un niveau de connaissances et de précision aussi précis ou supérieur aux meilleurs modèles actuels d'apprentissage en profondeur disponibles lors de l'analyse de molécules pour leur toxicité, leur niveau d'activité biochimique liée au VIH, et leur niveau d'un processus chimique connu sous le nom de solvatation. Le programme l'a fait avec beaucoup moins de données étiquetées que ses homologues et a obtenu les résultats avec moins de calculs, ce qui se traduit par des performances plus rapides.