Cette nouvelle puce informatique est idéale pour l'IA

L'architecture de calcul en mémoire sans transistor permet trois tâches de calcul essentielles pour les applications d'IA :la recherche, le stockage et les opérations de réseau neuronal. Crédit :Nano Letters (2022). DOI :10.1021/acs.nanolett.2c03169

L'intelligence artificielle représente un défi majeur pour l'architecture informatique conventionnelle. Dans les modèles standard, le stockage de la mémoire et le calcul ont lieu dans différentes parties de la machine, et les données doivent se déplacer de leur zone de stockage vers un CPU ou un GPU pour le traitement.

Le problème avec cette conception est que le mouvement prend du temps. Trop de temps. Vous pouvez avoir l'unité de traitement la plus puissante du marché, mais ses performances seront limitées car elle attend les données au ralenti, un problème connu sous le nom de "mur de mémoire" ou "goulot d'étranglement".

Lorsque l'informatique surpasse le transfert de mémoire, la latence est inévitable. Ces retards deviennent de sérieux problèmes lorsqu'il s'agit de traiter les énormes quantités de données essentielles pour l'apprentissage automatique et les applications d'IA.

Alors que les logiciels d'intelligence artificielle continuent de se perfectionner et que l'essor de l'Internet des objets, riche en capteurs, produit des ensembles de données de plus en plus volumineux, les chercheurs se sont concentrés sur la refonte du matériel pour apporter les améliorations requises en termes de vitesse, d'agilité et de consommation d'énergie.

Une équipe de chercheurs de la School of Engineering and Applied Science de l'Université de Pennsylvanie, en partenariat avec des scientifiques des Sandia National Laboratories et du Brookhaven National Laboratory, a introduit une architecture informatique idéale pour l'IA.

Co-dirigé par Deep Jariwala, professeur adjoint au Département de génie électrique et des systèmes (ESE), Troy Olsson, professeur agrégé en ESE, et Xiwen Liu, titulaire d'un doctorat. candidat au laboratoire de recherche et d'ingénierie sur les dispositifs de Jarawala, le groupe de recherche s'est appuyé sur une approche connue sous le nom de calcul en mémoire (CIM).

Dans les architectures CIM, le traitement et le stockage se produisent au même endroit, éliminant le temps de transfert et minimisant la consommation d'énergie. Le nouveau design CIM de l'équipe, le sujet d'une étude récente publiée dans Nano Letters , se distingue par son absence totale de transistor. Cette conception est parfaitement adaptée à la façon dont les applications Big Data ont transformé la nature de l'informatique.

"Même lorsqu'ils sont utilisés dans une architecture de calcul en mémoire, les transistors compromettent le temps d'accès aux données", explique Jariwala. "Ils nécessitent beaucoup de câblage dans l'ensemble des circuits d'une puce et utilisent donc plus de temps, d'espace et d'énergie que ce que nous voudrions pour les applications d'IA. La beauté de notre conception sans transistor est qu'elle est simple, petite et rapide et il nécessite très peu d'énergie."

L'avancée n'est pas seulement au niveau de la conception au niveau du circuit. Cette nouvelle architecture informatique s'appuie sur les travaux antérieurs de l'équipe en science des matériaux axés sur un semi-conducteur appelé nitrure d'aluminium allié au scandium (AlScN). L'AlScN permet la commutation ferroélectrique, dont la physique est plus rapide et plus économe en énergie que les autres éléments de mémoire non volatile.

"L'un des principaux attributs de ce matériau est qu'il peut être déposé à des températures suffisamment basses pour être compatible avec les fonderies de silicium", explique Olsson. "La plupart des matériaux ferroélectriques nécessitent des températures beaucoup plus élevées. Les propriétés spéciales d'AlScN signifient que nos dispositifs de mémoire démontrés peuvent aller au-dessus de la couche de silicium dans une pile verticale hétéro-intégrée. Pensez à la différence entre un parking à plusieurs étages avec une capacité de cent voitures et un une centaine de places de stationnement individuelles réparties sur un seul terrain. Qu'est-ce qui est le plus efficace en termes d'espace ? Il en va de même pour les informations et les appareils dans une puce très miniaturisée comme la nôtre. Cette efficacité est aussi importante pour les applications qui nécessitent des contraintes de ressources, telles que en tant qu'appareils mobiles ou portables, comme c'est le cas pour les applications extrêmement énergivores, telles que les centres de données."

En 2021, l'équipe a établi la viabilité de l'AlScN en tant que centrale de calcul en mémoire. Sa capacité de miniaturisation, son faible coût, son efficacité des ressources, sa facilité de fabrication et sa faisabilité commerciale ont démontré de sérieux progrès aux yeux de la recherche et de l'industrie.

Dans l'étude la plus récente portant sur la conception sans transistor, l'équipe a observé que leur ferrodiode CIM pouvait fonctionner jusqu'à 100 fois plus rapidement qu'une architecture informatique conventionnelle.

D'autres recherches dans le domaine ont utilisé avec succès des architectures de calcul en mémoire pour améliorer les performances des applications d'IA. Cependant, ces solutions ont été limitées, incapables de surmonter le compromis conflictuel entre performance et flexibilité. L'architecture informatique utilisant des réseaux crossbar memristor, une conception qui imite la structure du cerveau humain pour prendre en charge des performances de haut niveau dans les opérations de réseau neuronal, a également démontré des vitesses admirables.

Pourtant, les opérations de réseau de neurones, qui utilisent des couches d'algorithmes pour interpréter les données et reconnaître les modèles, ne sont qu'une des nombreuses catégories clés de tâches de données nécessaires à l'IA fonctionnelle. La conception n'est pas suffisamment adaptable pour offrir des performances adéquates sur toute autre opération de données d'IA.

La conception de la ferrodiode de l'équipe Penn offre une flexibilité révolutionnaire que les autres architectures de calcul en mémoire n'offrent pas. Il atteint une précision supérieure et fonctionne aussi bien dans non pas une mais trois opérations de données essentielles qui constituent la base d'applications d'IA efficaces. Il prend en charge le stockage sur puce, ou la capacité de contenir les énormes quantités de données requises pour l'apprentissage en profondeur, la recherche parallèle, une fonction qui permet un filtrage et une analyse précis des données, et l'accélération de la multiplication matricielle, le processus de base de l'informatique en réseau neuronal.

« Disons », dit Jariwala, « que vous avez une application d'IA qui nécessite une grande mémoire pour le stockage ainsi que la capacité de faire de la reconnaissance de formes et de la recherche. Pensez aux voitures autonomes ou aux robots autonomes, qui doivent réagir rapidement et avec précision. aux environnements dynamiques et imprévisibles. En utilisant des architectures conventionnelles, vous auriez besoin d'une zone différente de la puce pour chaque fonction et vous brûleriez rapidement la disponibilité et l'espace. Notre conception de ferrodiode vous permet de tout faire en un seul endroit en changeant simplement la façon vous appliquez des tensions pour le programmer."

Le bénéfice d'une puce CIM capable de s'adapter à plusieurs opérations de données est clair :lorsque l'équipe a exécuté une simulation d'une tâche d'apprentissage automatique via sa puce, elle a fonctionné avec un degré de précision comparable à celui d'un logiciel basé sur l'IA fonctionnant sur un processeur conventionnel.

"Cette recherche est très importante car elle prouve que nous pouvons compter sur la technologie de la mémoire pour développer des puces qui intègrent plusieurs applications de données d'IA d'une manière qui défie vraiment les technologies informatiques conventionnelles", déclare Liu, le premier auteur de l'étude.

L'approche de conception de l'équipe tient compte du fait que l'IA n'est ni matériel ni logiciel, mais une collaboration essentielle entre les deux.

"Il est important de réaliser que tout le calcul de l'IA actuellement effectué est activé par logiciel sur une architecture matérielle en silicium conçue il y a des décennies", déclare Jariwala. "C'est pourquoi l'intelligence artificielle en tant que domaine a été dominée par les ingénieurs en informatique et en logiciel. La refonte fondamentale du matériel pour l'IA va changer la donne dans les semi-conducteurs et la microélectronique. La direction dans laquelle nous allons maintenant est celle du matériel et des logiciels co-conception."

"Nous concevons du matériel qui améliore le fonctionnement des logiciels", ajoute Liu, "et avec cette nouvelle architecture, nous nous assurons que la technologie est non seulement rapide, mais aussi précise." + Explorer plus loin