Crédit :Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Ces dernières années, les progrès de l'immense capacité de traitement et du parallélisme des unités de traitement graphique (GPU) modernes ont généré le développement rapide de l'apprentissage en profondeur basé sur les réseaux de neurones convolutifs (CNN), conduisant à des solutions efficaces pour une variété de problèmes dans les applications d'intelligence artificielle. . Cependant, les quantités massives de données impliquées dans le traitement de la vision limitent l'application des CNN à ces matériels portables, économes en énergie et efficaces en calcul pour traiter les données sur site.
Plusieurs études ont été menées dans le domaine de l'informatique optique pour surmonter les défis des réseaux de neurones électriques. L'informatique optique présente de nombreux avantages attrayants, tels que le parallélisme optique, qui peut considérablement améliorer la vitesse de calcul, et la passivité optique peut réduire les coûts énergétiques et minimiser la latence. Les réseaux de neurones optiques (ONN) offrent un moyen d'augmenter la vitesse de calcul et de surmonter les goulots d'étranglement de la bande passante des unités électriques. Cependant, les ONN nécessitent un laser cohérent comme source de lumière pour le calcul et peuvent difficilement être combinés avec un système de vision artificielle mature dans des scènes de lumière naturelle. Ainsi, des réseaux de neurones hybrides opto-électroniques, dans lesquels le front-end est optique et le back-end électrique, ont été proposés. Ces systèmes basés sur des lentilles augmentent la difficulté d'utilisation dans les appareils périphériques, tels que les véhicules autonomes.
Dans un nouvel article publié dans Light :Science &Applications, une équipe de chercheurs, dirigée par le professeur Hongwei Chen du Centre national de recherche sur les sciences et technologies de l'information (BNRist) de Pékin, Département de génie électronique, Université Tsinghua, Chine, a développé une architecture de réseau de neurones optoélectroniques sans lentille (LOEN) pour la vision par ordinateur tâches qui utilisent un masque passif inséré dans le chemin de la lumière d'imagerie pour effectuer des opérations de convolution dans le domaine optique et relever le défi du traitement des signaux lumineux incohérents et à large bande dans les scènes naturelles. De plus, la liaison optique, le traitement du signal d'image et le réseau back-end sont combinés en douceur pour réaliser une optimisation conjointe pour des tâches spécifiques afin de réduire l'effort de calcul et la consommation d'énergie sur l'ensemble du pipeline.
Crédit :Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Par rapport à l'architecture matérielle en vision industrielle classique, un masque optique proche du capteur d'imagerie est proposé pour remplacer les lentilles. Selon la théorie de l'optique géométrique selon laquelle la lumière se propage en ligne droite, les scènes peuvent être considérées comme des ensembles de sources lumineuses ponctuelles, et le signal optique est modulé spatialement par le masque pour réaliser l'opération de convolution de décalage et de superposition sur le capteur d'image. Il a été vérifié que les masques optiques peuvent remplacer les couches convolutionnelles des réseaux de neurones pour l'extraction de caractéristiques dans le domaine optique.
Pour les tâches de classification d'objets telles que la reconnaissance de chiffres manuscrits, un réseau léger de reconnaissance en temps réel est construit pour vérifier les performances de la convolution optique dans l'architecture. En utilisant un seul noyau de convolution, la précision de la reconnaissance peut atteindre 93,47 %. Lorsque l'opération de convolution multicanal est mise en œuvre en disposant plusieurs noyaux en parallèle sur le masque, la précision de classification peut être améliorée à 97,21 %. Par rapport aux liens de vision industrielle traditionnels, il peut économiser environ 50 % de la consommation d'énergie.
Crédit :Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
De plus, en élargissant la dimension du masque optique, l'image est convoluée dans le domaine optique et le capteur capture une image crénelée qui est méconnaissable à l'œil humain, qui peut naturellement crypter des informations privées sans consommation de calcul. La performance du cryptage optique a été vérifiée sur la tâche de reconnaissance faciale. Par rapport au modèle MLS aléatoire, la précision de reconnaissance du masque optimisé conjointement par un réseau de bout en bout a été améliorée de plus de 6 %. En même temps que le cryptage de la protection de la vie privée, il a essentiellement atteint les mêmes performances de précision de reconnaissance que les méthodes sans cryptage.
Ce travail propose un système extrêmement simplifié pour les tâches de vision artificielle, qui non seulement réalise le calcul du réseau neuronal optoélectronique dans des scènes naturelles, mais ouvre également l'ensemble du lien optoélectronique pour compléter l'optimisation conjointe afin d'obtenir les meilleurs résultats pour une tâche de vision spécifique. Combiné avec les matériaux non linéaires, le réseau neuronal à lumière naturelle sera réalisé. La nouvelle architecture aura de nombreuses applications potentielles dans de nombreux scénarios réels, tels que la conduite autonome, les maisons intelligentes et la sécurité intelligente. Calcul tout-optique basé sur des réseaux de neurones convolutifs