Intel collabore avec Novartis sur l'utilisation de réseaux de neurones profonds (DNN) pour accélérer le criblage à haut contenu - un élément clé de la découverte précoce de médicaments. L'équipe de collaboration a réduit le temps d'entraînement des modèles d'analyse d'images de 11 heures à 31 minutes, soit une amélioration de plus de 20 fois.
Le criblage à haut contenu des phénotypes cellulaires est un outil fondamental pour la découverte précoce de médicaments. Le terme « contenu élevé » désigne l'ensemble riche de milliers de fonctionnalités prédéfinies (telles que la taille, forme, texture) qui sont extraites d'images à l'aide de techniques classiques de traitement d'images. Le criblage à haut contenu permet l'analyse d'images microscopiques pour étudier les effets de milliers de traitements génétiques ou chimiques sur différentes cultures cellulaires.
La promesse de l'apprentissage en profondeur est que les caractéristiques d'image pertinentes qui peuvent distinguer un traitement d'un autre sont "automatiquement" apprises à partir des données. En appliquant une accélération de réseau de neurones profond, les biologistes et data scientists d'Intel et de Novartis espèrent accélérer l'analyse des écrans d'imagerie à haut contenu. Dans ce travail commun, l'équipe se concentre sur des images de microscopie entières au lieu d'utiliser un processus distinct pour identifier d'abord chaque cellule d'une image. Les images entières de microscopie peuvent être beaucoup plus grandes que celles que l'on trouve généralement dans les ensembles de données d'apprentissage en profondeur. Par exemple, les images utilisées dans cette évaluation sont plus de 26 fois plus grandes que les images généralement utilisées à partir du célèbre ensemble de données d'animaux ImageNet, objets et scènes.
Modèles de réseaux de neurones à convolution profonde, pour l'analyse d'images de microscopie, fonctionnent généralement sur des millions de pixels par image, des millions de paramètres dans le modèle et peut-être des milliers d'images d'entraînement à la fois. Cela constitue une charge de calcul élevée. Même avec des capacités de calcul avancées sur l'infrastructure informatique existante, une exploration plus approfondie des modèles DNN peut être prohibitive en termes de temps.
Pour relever ces défis, la collaboration applique des techniques d'accélération de réseau de neurones profonds pour traiter plusieurs images en beaucoup moins de temps tout en extrayant une meilleure compréhension des caractéristiques de l'image que le modèle apprend finalement.
L'équipe de collaboration avec des représentants de Novartis et d'Intel a montré une amélioration de plus de 20 fois1 du temps de traitement d'un ensemble de données de 10 000 images pour la formation. En utilisant le jeu de données Broad Bioimage Benchmark Collection 021 (BBBC-021), l'équipe a atteint un temps de traitement total de 31 minutes avec une précision de plus de 99 %.
Pour ce résultat, l'équipe a utilisé huit serveurs CPU, une interconnexion matricielle à haut débit, et optimisé TensorFlow1. En exploitant le principe fondamental du parallélisme des données dans la formation en apprentissage profond et la possibilité d'utiliser pleinement les avantages de la prise en charge d'une grande mémoire sur la plate-forme serveur, l'équipe a pu passer à plus de 120 images de 3,9 mégapixels par seconde avec 32 travailleurs TensorFlow.
Alors que les méthodes d'apprentissage en profondeur supervisées sont essentielles pour accélérer la classification des images et accélérer le temps d'obtention de l'aperçu, les méthodes d'apprentissage en profondeur dépendent de grands ensembles de données étiquetés par des experts pour former les modèles. Le temps et les efforts manuels nécessaires pour créer de tels ensembles de données sont souvent prohibitifs. Les méthodes d'apprentissage en profondeur non supervisées - qui peuvent être appliquées à des images de microscopie non étiquetées - promettent de révéler de nouvelles connaissances pour la biologie cellulaire et, finalement, la découverte de médicaments. Ce sera l'objet d'efforts continus à l'avenir.