Une nouvelle technique permet une formation sur l'appareil en utilisant moins d'un quart de mégaoctet de mémoire

Les chercheurs ont testé leur cadre en formant un modèle de vision par ordinateur pour détecter les personnes dans les images. Après seulement 10 minutes de formation, il a appris à accomplir la tâche avec succès. Crédit :Ji Lin et al

Les microcontrôleurs, des ordinateurs miniatures capables d'exécuter des commandes simples, sont à la base de milliards d'appareils connectés, des appareils de l'Internet des objets (IoT) aux capteurs dans les automobiles. Mais les microcontrôleurs bon marché et à faible consommation ont une mémoire extrêmement limitée et aucun système d'exploitation, ce qui rend difficile la formation de modèles d'intelligence artificielle sur des "dispositifs de pointe" qui fonctionnent indépendamment des ressources informatiques centrales.

La formation d'un modèle d'apprentissage automatique sur un appareil de périphérie intelligent lui permet de s'adapter aux nouvelles données et de faire de meilleures prédictions. Par exemple, la formation d'un modèle sur un clavier intelligent pourrait permettre au clavier d'apprendre continuellement de l'écriture de l'utilisateur. Cependant, le processus de formation nécessite tellement de mémoire qu'il est généralement effectué à l'aide d'ordinateurs puissants dans un centre de données, avant que le modèle ne soit déployé sur un appareil. Cela est plus coûteux et pose des problèmes de confidentialité puisque les données des utilisateurs doivent être envoyées à un serveur central.

Pour résoudre ce problème, des chercheurs du MIT et du MIT-IBM Watson AI Lab ont développé une nouvelle technique qui permet une formation sur appareil en utilisant moins d'un quart de mégaoctet de mémoire. D'autres solutions de formation conçues pour les appareils connectés peuvent utiliser plus de 500 mégaoctets de mémoire, dépassant largement la capacité de 256 kilooctets de la plupart des microcontrôleurs (il y a 1 024 kilooctets dans un mégaoctet).

Les algorithmes intelligents et le cadre développés par les chercheurs réduisent la quantité de calculs nécessaires pour former un modèle, ce qui rend le processus plus rapide et plus efficace en termes de mémoire. Leur technique peut être utilisée pour former un modèle d'apprentissage automatique sur un microcontrôleur en quelques minutes.

Cette technique préserve également la confidentialité en conservant les données sur l'appareil, ce qui pourrait être particulièrement bénéfique lorsque les données sont sensibles, comme dans les applications médicales. Cela pourrait également permettre la personnalisation d'un modèle en fonction des besoins des utilisateurs. De plus, le cadre préserve ou améliore la précision du modèle par rapport à d'autres approches de formation.

"Notre étude permet aux appareils IoT non seulement d'effectuer des inférences, mais également de mettre à jour en permanence les modèles d'IA en fonction des données nouvellement collectées, ouvrant la voie à un apprentissage permanent sur l'appareil. La faible utilisation des ressources rend l'apprentissage en profondeur plus accessible et peut avoir une portée plus large, en particulier pour les dispositifs de périphérie à faible consommation », déclare Song Han, professeur associé au Département de génie électrique et d'informatique (EECS), membre du MIT-IBM Watson AI Lab et auteur principal de l'article décrivant cette innovation.

Rejoindre Han sur le papier sont co-auteurs principaux et EECS Ph.D. les étudiants Ji Lin et Ligeng Zhu, ainsi que les post-doctorants du MIT Wei-Ming Chen et Wei-Chen Wang, et Chuang Gan, membre principal du personnel de recherche du MIT-IBM Watson AI Lab. La recherche sera présentée à la conférence sur les systèmes de traitement de l'information neuronale.

Dans le cadre de leur initiative TinyML, Han et son équipe s'étaient déjà penchés sur les goulots d'étranglement liés à la mémoire et aux calculs qui existent lorsqu'ils tentent d'exécuter des modèles d'apprentissage automatique sur de minuscules appareils périphériques.

Entraînement léger

Un type courant de modèle d'apprentissage automatique est connu sous le nom de réseau de neurones. Librement basés sur le cerveau humain, ces modèles contiennent des couches de nœuds interconnectés, ou neurones, qui traitent les données pour accomplir une tâche, comme reconnaître des personnes sur des photos. Le modèle doit d'abord être formé, ce qui implique de lui montrer des millions d'exemples afin qu'il puisse apprendre la tâche. Au fur et à mesure qu'il apprend, le modèle augmente ou diminue la force des connexions entre les neurones, appelées poids.

Le modèle peut subir des centaines de mises à jour au fur et à mesure de son apprentissage, et les activations intermédiaires doivent être stockées à chaque tour. Dans un réseau de neurones, l'activation est le résultat intermédiaire de la couche intermédiaire. Comme il peut y avoir des millions de pondérations et d'activations, l'entraînement d'un modèle nécessite beaucoup plus de mémoire que l'exécution d'un modèle pré-entraîné, explique Han.

Han et ses collaborateurs ont utilisé deux solutions algorithmiques pour rendre le processus de formation plus efficace et moins gourmand en mémoire. La première, connue sous le nom de mise à jour parcimonieuse, utilise un algorithme qui identifie les poids les plus importants à mettre à jour à chaque cycle d'entraînement. L'algorithme commence à geler les poids un par un jusqu'à ce qu'il voit la précision chuter à un seuil défini, puis il s'arrête. Les poids restants sont mis à jour, tandis que les activations correspondant aux poids gelés n'ont pas besoin d'être stockées en mémoire.

"La mise à jour de l'ensemble du modèle coûte très cher car il y a beaucoup d'activations, donc les gens ont tendance à ne mettre à jour que la dernière couche, mais comme vous pouvez l'imaginer, cela nuit à la précision. Pour notre méthode, nous mettons à jour de manière sélective ces poids importants et nous nous assurons la précision est entièrement préservée », déclare Han.

Leur deuxième solution implique un entraînement quantifié et une simplification des poids, qui sont généralement de 32 bits. Un algorithme arrondit les poids afin qu'ils ne soient que de huit bits, grâce à un processus appelé quantification, qui réduit la quantité de mémoire pour l'apprentissage et l'inférence. L'inférence est le processus d'application d'un modèle à un ensemble de données et de génération d'une prédiction. Ensuite, l'algorithme applique une technique appelée mise à l'échelle sensible à la quantification (QAS), qui agit comme un multiplicateur pour ajuster le rapport entre le poids et le gradient, afin d'éviter toute baisse de précision pouvant provenir d'un entraînement quantifié.

Les chercheurs ont développé un système, appelé un petit moteur de formation, qui peut exécuter ces innovations algorithmiques sur un simple microcontrôleur dépourvu de système d'exploitation. Ce système modifie l'ordre des étapes du processus de formation afin que davantage de travail soit effectué à l'étape de compilation, avant que le modèle ne soit déployé sur l'appareil périphérique.

"Nous poussons une grande partie des calculs, tels que l'auto-différenciation et l'optimisation des graphes, au moment de la compilation. Nous élaguons également de manière agressive les opérateurs redondants pour prendre en charge les mises à jour clairsemées. Une fois à l'exécution, nous avons beaucoup moins de charge de travail à faire sur l'appareil", Han explique.

Une accélération réussie

Leur optimisation ne nécessitait que 157 kilo-octets de mémoire pour former un modèle d'apprentissage automatique sur un microcontrôleur, alors que d'autres techniques conçues pour une formation légère nécessiteraient encore entre 300 et 600 mégaoctets.

Ils ont testé leur cadre en formant un modèle de vision par ordinateur pour détecter les personnes dans les images. Après seulement 10 minutes de formation, il a appris à accomplir la tâche avec succès. Leur méthode a permis d'entraîner un modèle plus de 20 fois plus rapidement que les autres approches.

Maintenant qu'ils ont démontré le succès de ces techniques pour les modèles de vision par ordinateur, les chercheurs souhaitent les appliquer à des modèles de langage et à différents types de données, comme les données de séries chronologiques. Dans le même temps, ils veulent utiliser ce qu'ils ont appris pour réduire la taille de modèles plus grands sans sacrifier la précision, ce qui pourrait aider à réduire l'empreinte carbone de la formation de modèles d'apprentissage automatique à grande échelle. + Explorer plus loin

Apprentissage automatique collaboratif qui préserve la confidentialité

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT.

Les législateurs européens imposent un chargeur unique pour tous les smartphones

De nouveaux algorithmes aident les robots à quatre pattes à courir dans la nature

Électronique