Une puce comprenant plusieurs dispositifs PCM. Les sondes électriques entrant en contact avec elle sont utilisées pour envoyer des signaux à des appareils individuels pour effectuer la multiplication en mémoire. Crédit :IBM
Cette semaine, à l'International Electron Devices Meeting (IEDM) et à la Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS), Les chercheurs d'IBM présenteront un nouveau matériel qui amènera l'IA plus loin qu'elle ne l'a jamais été :jusqu'à la périphérie. Nos nouvelles approches pour les puces d'IA numériques et analogiques augmentent la vitesse et réduisent la demande d'énergie pour l'apprentissage en profondeur, sans sacrifier la précision. Côté numérique, nous préparons le terrain pour une nouvelle norme de l'industrie en matière de formation à l'IA avec une approche qui atteint une précision totale avec une précision de huit bits, accélérer le temps de formation de deux à quatre fois par rapport aux systèmes actuels. Côté analogique, nous rapportons une précision de huit bits, la plus élevée à ce jour, pour une puce analogique, doublant à peu près la précision par rapport aux puces analogiques précédentes tout en consommant 33 fois moins d'énergie qu'une architecture numérique de précision similaire. Ces réalisations annoncent une nouvelle ère de matériel informatique conçu pour libérer tout le potentiel de l'IA.
Dans l'ère post-GPU
Les innovations dans les logiciels et le matériel d'IA ont largement contribué à une amélioration de 2,5 fois par an des performances de calcul de l'IA depuis 2009, lorsque les GPU ont été adoptés pour la première fois pour accélérer l'apprentissage en profondeur. Mais nous atteignons les limites de ce que les GPU et les logiciels peuvent faire. Pour résoudre nos problèmes les plus difficiles, le matériel doit évoluer. La prochaine génération d'applications d'IA nécessitera des temps de réponse plus rapides, des charges de travail d'IA plus importantes, et les données multimodales de nombreux flux. Pour libérer tout le potentiel de l'IA, nous repensons le matériel en pensant à l'IA :des accélérateurs au matériel spécialement conçu pour les charges de travail de l'IA, comme nos nouvelles puces, et finalement l'informatique quantique pour l'IA. La mise à l'échelle de l'IA avec de nouvelles solutions matérielles fait partie d'un effort plus large d'IBM Research pour passer d'une IA étroite, souvent utilisé pour résoudre des problèmes spécifiques, tâches bien définies, à l'IA large, qui couvre toutes les disciplines pour aider les humains à résoudre nos problèmes les plus urgents.
Accélérateurs d'IA numériques avec une précision réduite
IBM Research a lancé l'approche à précision réduite de la formation et de l'inférence de modèles d'IA avec un article historique décrivant une nouvelle approche de flux de données pour les technologies CMOS conventionnelles afin d'accélérer les plates-formes matérielles en réduisant considérablement la précision des bits des données et des calculs. Des modèles entraînés avec une précision de 16 bits ont été présentés, pour la toute première fois, ne présente aucune perte de précision par rapport aux modèles entraînés avec une précision de 32 bits. Dans les années suivantes, l'approche à précision réduite a été rapidement adoptée comme norme de l'industrie, avec l'apprentissage 16 bits et l'inférence huit bits désormais monnaie courante, et a stimulé une explosion de startups et de capital-risque pour des puces d'IA numériques basées sur une précision réduite.
La prochaine norme de l'industrie pour la formation à l'IA
Le prochain jalon majeur de la formation à précision réduite sera présenté à NeurIPS dans un article intitulé « Training Deep Neural Networks with Eight-bit Floating Point Numbers » (auteurs :Naigang Wang, Jungwook Choi, Daniel Marque, Chia Yu Chen, Kailash Gopalakrishnan). Dans ce document, un certain nombre de nouvelles idées ont été proposées pour surmonter les défis (et les orthodoxies) antérieurs associés à la réduction de la précision de l'entraînement en dessous de 16 bits. En utilisant ces nouvelles approches proposées, nous avons démontré, pour la première fois, la possibilité de former des modèles d'apprentissage en profondeur avec une précision de huit bits tout en préservant pleinement la précision du modèle dans toutes les principales catégories de jeux de données d'IA :image, discours, et texte. Les techniques accélèrent le temps de formation pour les réseaux de neurones profonds (DNN) de deux à quatre fois par rapport aux systèmes 16 bits actuels. Bien qu'il ait été précédemment considéré comme impossible de réduire davantage la précision pour l'entraînement, nous nous attendons à ce que cette plate-forme de formation huit bits devienne une norme largement adoptée dans l'industrie dans les années à venir.
La réduction de la précision des bits est une stratégie qui devrait contribuer à des plates-formes d'apprentissage automatique à grande échelle plus efficaces, et ces résultats marquent un pas en avant significatif dans la mise à l'échelle de l'IA. En combinant cette approche avec une architecture de flux de données personnalisée, une architecture à puce unique peut être utilisée pour exécuter efficacement la formation et l'inférence sur une gamme de charges de travail et de réseaux grands et petits. Cette approche peut également accueillir des « mini-lots » de données, requis pour les capacités d'IA étendues critiques sans compromettre les performances. La réalisation de toutes ces capacités avec une précision de huit bits pour l'entraînement ouvre également le domaine de l'IA large et économe en énergie à la périphérie.
Puces analogiques pour l'informatique en mémoire
Grâce à ses faibles besoins en énergie, haute efficacité énergétique, et haute fiabilité, la technologie analogique est un choix naturel pour l'IA à la périphérie. Les accélérateurs analogiques alimenteront une feuille de route de l'accélération matérielle de l'IA au-delà des limites des approches numériques conventionnelles. Cependant, alors que le matériel d'IA numérique est dans une course pour réduire la précision, analogique a jusqu'à présent été limité par sa précision intrinsèque relativement faible, impact sur la précision du modèle. Nous avons développé une nouvelle technique pour compenser cela, atteindre la plus haute précision à ce jour pour une puce analogique. Notre papier à l'IEDM, « Multiplication en mémoire de précision 8 bits avec mémoire à changement de phase projeté » (auteurs :Iason Giannopoulos, Abou Sébastien, Manuel Le Gallo, V.P. Jonnalagadda, M. Sousa, M. N. Boon, Evangelos Eleftheriou), montre que cette technique a atteint une précision de huit bits dans une opération de multiplication scalaire, doublant à peu près la précision des puces analogiques précédentes, et consommait 33 fois moins d'énergie qu'une architecture numérique de précision similaire.
La clé pour réduire la consommation d'énergie est de changer l'architecture de l'informatique. Avec le matériel informatique d'aujourd'hui, les données doivent être déplacées de la mémoire vers les processeurs pour être utilisées dans les calculs, ce qui demande beaucoup de temps et d'énergie. Une alternative est l'informatique en mémoire, dans lesquelles les unités de mémoire font le clair de lune en tant que processeurs, faisant efficacement le double devoir de stockage et de calcul. Cela évite d'avoir à transférer des données entre la mémoire et le processeur, gain de temps et réduction de la demande d'énergie de 90 % ou plus.
Mémoire à changement de phase
Notre appareil utilise une mémoire à changement de phase (PCM) pour le calcul en mémoire. PCM enregistre les poids synaptiques dans son état physique le long d'un gradient entre amorphe et cristallin. La conductance du matériau change avec son état physique et peut être modifiée à l'aide d'impulsions électriques. C'est ainsi que PCM est capable d'effectuer des calculs. Parce que l'état peut être n'importe où le long du continuum entre zéro et un, elle est considérée comme une valeur analogique, par opposition à une valeur numérique, qui est soit un zéro, soit un un, rien entre les deux.
Nous avons amélioré la précision et la stabilité des poids stockés dans le PCM avec une nouvelle approche, appelé PCM projeté (Proj-PCM), dans laquelle on insère un segment de projection non isolant en parallèle au segment à changement de phase. Pendant le processus d'écriture, le segment de projection a un impact minimal sur le fonctionnement de l'appareil. Cependant, pendant la lecture, les valeurs de conductance des états programmés sont principalement déterminées par le segment de projection, qui est remarquablement immunisé contre les variations de conductance. Cela permet aux appareils Proj-PCM d'atteindre une précision beaucoup plus élevée que les appareils PCM précédents.
L'amélioration de la précision obtenue par notre équipe de recherche indique que l'informatique en mémoire peut être en mesure de réaliser un apprentissage en profondeur hautes performances dans des environnements à faible consommation d'énergie, telles que l'IoT et les applications de périphérie. Comme pour nos accélérateurs numériques, nos puces analogiques sont conçues pour évoluer pour la formation et l'inférence de l'IA à travers le visuel, discours, et des ensembles de données textuelles et s'étendant à l'IA large émergente. Nous allons faire la démonstration d'une puce PCM déjà publiée toute la semaine à NeurIPS, l'utiliser pour classer les chiffres écrits à la main en temps réel via le cloud.
Cette histoire est republiée avec l'aimable autorisation d'IBM Research. Lisez l'histoire originale ici.