Comparaison conceptuelle d'un RNN standard et d'un système physique basé sur les ondes. (A) Schéma d'une cellule RNN fonctionnant sur une séquence d'entrée discrète et produisant une séquence de sortie discrète. (B) Composants internes de la cellule RNN, constitué de matrices denses entraînables W(h), W(x), et W(y). Les fonctions d'activation pour l'état caché et la sortie sont représentées par σ(h) et σ(y), respectivement. (C) Diagramme du graphe orienté de la cellule RNN. (D) Schéma d'une représentation récurrente d'un système physique continu fonctionnant sur une séquence d'entrée continue et produisant une séquence de sortie continue. (E) Composants internes de la relation de récurrence pour l'équation des ondes lorsqu'ils sont discrétisés à l'aide de différences finies. (F) Diagramme du graphe orienté des pas de temps discrets du système physique continu et illustration de la façon dont une perturbation des ondes se propage dans le domaine. Crédit: Avancées scientifiques , doi:10.1126/sciadv.aay6946
Le matériel d'apprentissage automatique analogique offre une alternative prometteuse aux homologues numériques en tant que plate-forme plus économe en énergie et plus rapide. La physique des ondes basée sur l'acoustique et l'optique est un candidat naturel pour construire des processeurs analogiques pour des signaux variant dans le temps. Dans un nouveau rapport sur Avancées scientifiques Tyler W. Hughes et une équipe de recherche des départements de physique appliquée et de génie électrique de l'Université de Stanford, Californie, cartographie identifiée entre la dynamique de la physique des ondes et le calcul dans les réseaux de neurones récurrents.
La carte indiquait la possibilité d'entraîner des systèmes d'ondes physiques pour apprendre des caractéristiques complexes dans des données temporelles à l'aide de techniques d'entraînement standard utilisées pour les réseaux de neurones. Comme preuve de principe, ils ont démontré une conception inverse, médium inhomogène pour effectuer une classification des voyelles anglaises sur la base de signaux audio bruts alors que leurs formes d'onde se diffusent et se propagent à travers celui-ci. Les scientifiques ont atteint des performances comparables à une implémentation numérique standard d'un réseau de neurones récurrents. Les résultats ouvriront la voie à une nouvelle classe de plates-formes d'apprentissage automatique analogiques pour un traitement rapide et efficace de l'information dans son domaine natif.
Le réseau de neurones récurrents (RNN) est un important modèle d'apprentissage automatique largement utilisé pour effectuer des tâches telles que le traitement du langage naturel et la prédiction de séries chronologiques. L'équipe a formé des systèmes physiques basés sur les ondes pour qu'ils fonctionnent comme un RNN et traitent passivement les signaux et les informations dans leur domaine natif sans conversion analogique-numérique. Les travaux ont permis un gain substantiel de vitesse et une réduction de la consommation électrique. Dans le cadre actuel, au lieu de mettre en œuvre des circuits pour acheminer délibérément les signaux vers l'entrée, la relation de récurrence s'est produite naturellement dans la dynamique temporelle de la physique elle-même. L'appareil fournissait la capacité de mémoire pour le traitement de l'information basée sur les ondes au fur et à mesure qu'elles se propageaient dans l'espace.
Schéma de la configuration de la reconnaissance des voyelles et de la procédure d'apprentissage. (A) Formes d'onde audio brutes d'échantillons de voyelles parlées de trois classes. (B) Disposition du système de reconnaissance des voyelles. Les échantillons de voyelles sont injectés indépendamment à la source, situé à gauche du domaine, et se propager à travers la région centrale, indiqué en vert, où une répartition matérielle est optimisée lors de l'entraînement. La région gris foncé représente une couche limite absorbante. (C) Pour le classement, la puissance intégrée dans le temps à chaque sonde est mesurée et normalisée pour être interprétée comme une distribution de probabilité sur les classes de voyelles. (D) En utilisant la différenciation automatique, le gradient de la fonction de perte par rapport à la densité de matériau dans la région verte est calculé. La densité du matériau est mise à jour de manière itérative, en utilisant des techniques d'optimisation stochastique basées sur le gradient jusqu'à la convergence Avancées scientifiques , doi:10.1126/sciadv.aay6946
Équivalence entre la dynamique des ondes et un RNN
Pour démontrer l'équivalence entre la dynamique des ondes et un RNN, Hugues et al. introduit la fonction d'un RNN et sa connexion à la dynamique des ondes. Par exemple, un RNN peut convertir une séquence d'entrées en une séquence de sorties en appliquant la même opération de base à chaque membre de la séquence d'entrée dans un processus pas à pas. L'état caché du RNN encode alors la mémoire des étapes précédentes pour se mettre à jour à chaque étape. Les états cachés pourraient conserver la mémoire des informations passées et apprendre la structure temporelle et les dépendances à long terme des données.
A une étape donnée, par exemple, le RNN peut fonctionner sur le vecteur d'entrée courant dans la séquence (x
Résultats de l'apprentissage de la reconnaissance des voyelles. Matrice de confusion sur les jeux de données d'apprentissage et de test pour la structure initiale (A et B) et la structure finale (C et D), indiquant le pourcentage de voyelles correctement (diagonales) et incorrectement (hors diagonale) prédites. Résultats d'entraînement à validation croisée montrant la moyenne (ligne continue) et l'écart-type (région ombrée) de (E) la perte d'entropie croisée et (F) la précision de la prédiction sur 30 époques d'entraînement et cinq fois l'ensemble de données, qui se compose d'un total de 279 échantillons de voyelles de locuteurs masculins et féminins. (G à I) La distribution d'intensité intégrée dans le temps pour une voyelle ae d'entrée (G) sélectionnée au hasard, (H) voyelle ei, et (I) iy voyelle. Crédit :Avancées scientifiques, doi:10.1126/sciadv.aay6946
Entraîner un système physique pour classer les voyelles
L'équipe a ensuite démontré comment la dynamique de l'équation d'onde pouvait être entraînée pour classer les voyelles en construisant une distribution matérielle inhomogène. Pour ça, ils ont utilisé un ensemble de données de 930 enregistrements audio bruts de 10 classes de voyelles provenant de 45 locuteurs masculins différents et de 48 locuteurs féminins différents. Pour la tâche d'apprentissage, Hugues et al. sélectionné un sous-ensemble de 279 enregistrements correspondant à trois classes de voyelles représentées par les voyelles "ae, " "ei" et "iy, " par rapport à leur emploi dans les mots " avait, " "hayed" et "heed". La disposition physique du système de reconnaissance des voyelles contenait un domaine bidimensionnel dans le plan xy et infiniment étendu dans la direction z. Ils ont injecté la forme d'onde audio de chaque voyelle via une source à un seul cellule de grille sur le côté gauche du domaine pour émettre des formes d'onde pour se propager à travers une région centrale avec une distribution entraînable de la vitesse d'onde. Ils ont défini trois sondes sur le côté droit de la région et attribué chacune à l'une des trois classes de voyelles Hugh et al., ont ensuite mesuré la puissance intégrée dans le temps à chaque sonde pour déterminer la sortie du système.
La simulation a évolué pendant toute la durée de l'enregistrement des voyelles et l'équipe a inclus une région limite absorbante représentée par une région gris foncé pour empêcher l'accumulation d'énergie dans le domaine de calcul. Les vitesses d'onde pourraient être modifiées pour correspondre à différents matériaux dans la pratique. Dans un cadre acoustique, par exemple, si la distribution matérielle était constituée d'air, la vitesse du son était de 331 m/s, tandis que le caoutchouc de silicone poreux constituait une vitesse du son de 150 m/s. Le choix de la structure de départ leur a permis de déplacer l'optimiseur vers l'un ou l'autre des deux matériaux, pour produire une structure binarisée contenant un seul des deux matériaux. Hugues et al. entraîné le système en effectuant une rétro-propagation à travers le modèle de l'équation d'onde, dans une approche mathématiquement équivalente à la méthode adjointe largement utilisée pour la conception inverse. En utilisant ces informations de conception, ils ont mis à jour la densité du matériau via l'algorithme d'optimisation Adam, répéter jusqu'à convergence sur une structure finale.
Contenu fréquentiel des classes de voyelles. La quantité tracée est le spectre d'énergie moyenne pour le ae, ei, et iy classes de voyelles. a.u., unités arbitraires. Crédit :Avancées scientifiques, doi:10.1126/sciadv.aay6946
Visualiser les performances
Les scientifiques ont utilisé une matrice de confusion pour visualiser les performances dans les ensembles de données d'entraînement et de test pour les structures de départ, en moyenne sur cinq courses d'entraînement à validation croisée. La matrice de confusion a défini le pourcentage de voyelles correctement prédites le long de ses entrées diagonales et le pourcentage de voyelles incorrectement prédites pour chaque classe dans ses entrées hors diagonale. Les matrices de confusion entraînées à dominante diagonale indiquaient que la structure pouvait en effet effectuer la reconnaissance des voyelles. Hugues et al. a noté la valeur de perte d'entropie croisée et la précision de la prédiction en fonction de l'époque d'apprentissage sur les ensembles de données de test et d'apprentissage.
La première époque a entraîné la plus grande réduction de la fonction de perte et le plus grand gain de précision de prédiction, avec une précision moyenne de 92,6 % sur l'ensemble de données d'entraînement et une précision moyenne de 86,3 % sur l'ensemble de données de test. L'équipe a observé que le système obtenait des performances de prédiction presque parfaites sur la voyelle "ae" ainsi que la possibilité de différencier la voyelle "iy" de la voyelle "ei", mais avec une précision moindre dans les échantillons invisibles des ensembles de données de test. De cette façon, l'équipe a fourni une confirmation visuelle de la procédure d'optimisation pour acheminer la majeure partie de l'énergie du signal vers la sonde appropriée. En tant que référence de performance, ils ont entraîné un RNN conventionnel sur la même tâche pour obtenir une précision de classification comparable à l'équation des ondes. Cependant, ils nécessitaient un grand nombre de paramètres libres pour la tâche.
De cette façon, Tyler W. Hughes et ses collègues ont présenté un RNN basé sur les ondes avec un certain nombre de qualités favorables pour former un candidat prometteur pour traiter des informations codées temporellement. L'utilisation de la physique pour effectuer des calculs peut inspirer une nouvelle plate-forme pour les dispositifs d'apprentissage automatique analogiques afin d'effectuer des calculs beaucoup plus naturellement et efficacement que ses homologues numériques. L'équipe de recherche a déterminé la taille de l'état caché du RNN analogique et sa capacité de mémoire en utilisant la taille du support de propagation. Ils ont montré que la dynamique de l'équation d'onde était conceptuellement équivalente à celle d'un RNN. La connexion conceptuelle ouvrira la voie à une nouvelle classe de plates-formes matérielles analogiques, où l'évolution de la dynamique temporelle jouera un rôle majeur à la fois dans la physique et dans l'ensemble de données.
© 2020 Réseau Science X