(L-R) Le professeur adjoint du MIT Michael Carbin et le doctorant Jonathan Frankle. Crédit :Jason Dorfman/MIT CSAIL
Ces jours, presque tous les produits basés sur l'intelligence artificielle dans nos vies reposent sur des « réseaux de neurones profonds » qui apprennent automatiquement à traiter des données étiquetées.
Pour la plupart des organisations et des individus, bien que, l'apprentissage en profondeur est difficile à percer. Pour bien apprendre, les réseaux de neurones doivent normalement être assez volumineux et nécessitent des ensembles de données massifs. Ce processus de formation nécessite généralement plusieurs jours de formation et des unités de traitement graphique (GPU) coûteuses, et parfois même du matériel conçu sur mesure.
Mais que se passe-t-il s'ils n'ont pas besoin d'être si gros, après tout?
Dans un nouveau journal, des chercheurs du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL) ont montré que les réseaux de neurones contiennent des sous-réseaux jusqu'à un dixième de la taille mais capables d'être formés pour faire des prédictions tout aussi précises - et peuvent parfois apprendre à le faire encore plus rapidement que le originaux.
L'approche de l'équipe n'est pas particulièrement efficace à l'heure actuelle :elle doit former et « élaguer » l'ensemble du réseau plusieurs fois avant de trouver le sous-réseau efficace. Cependant, Le professeur adjoint du MIT, Michael Carbin, déclare que les découvertes de son équipe suggèrent que, si nous pouvons déterminer précisément quelle partie du réseau d'origine est pertinente pour la prédiction finale, les scientifiques pourraient un jour ignorer complètement ce processus coûteux. Une telle révélation a le potentiel d'économiser des heures de travail et de faciliter la création de modèles significatifs par des programmeurs individuels, et pas seulement les grandes entreprises technologiques.
"Si le réseau initial n'avait pas besoin d'être aussi grand en premier lieu, pourquoi ne pouvez-vous pas simplement en créer un de la bonne taille au début ?", explique Jonathan Frankle, étudiant au doctorat, qui a présenté son nouvel article co-écrit avec Carbin à la Conférence internationale sur les représentations de l'apprentissage (ICLR) à la Nouvelle-Orléans. Le projet a été nommé l'un des deux meilleurs articles de l'ICLR, sur environ 1, 600 soumissions.
L'équipe compare les méthodes traditionnelles d'apprentissage en profondeur à une loterie. Entraîner de grands réseaux de neurones, c'est un peu comme essayer de garantir que vous gagnerez à la loterie en achetant aveuglément tous les billets possibles. Mais et si nous pouvions sélectionner les numéros gagnants au tout début ?
"Avec un réseau de neurones traditionnel, vous initialisez aléatoirement cette grande structure, et après l'avoir entraîné sur une énorme quantité de données, cela fonctionne comme par magie, " dit Carbin. " Cette grande structure, c'est comme acheter un gros sac de billets, même s'il n'y a qu'un petit nombre de billets qui vous rendront réellement riche. La science restante consiste à trouver comment identifier les billets gagnants sans voir d'abord les numéros gagnants."
Le travail de l'équipe peut également avoir des implications pour ce que l'on appelle « l'apprentissage par transfert, " où les réseaux formés pour une tâche comme la reconnaissance d'images sont construits pour aider ensuite à une tâche complètement différente.
L'apprentissage par transfert traditionnel implique la formation d'un réseau, puis l'ajout d'une couche supplémentaire qui est formée pour une autre tâche. Dans de nombreux cas, un réseau formé à une fin est capable d'extraire une sorte de connaissance générale qui peut ensuite être utilisée à une autre fin.
Pour autant de battage médiatique que les réseaux de neurones ont reçu, on ne parle pas souvent de la difficulté de les former. Parce qu'ils peuvent être d'un coût prohibitif à former, les data scientists doivent faire de nombreuses concessions, peser une série de compromis par rapport à la taille du modèle, le temps qu'il faut pour s'entraîner, et sa performance finale.
Pour tester leur soi-disant « hypothèse de billet de loterie » et démontrer l'existence de ces sous-réseaux plus petits, l'équipe avait besoin d'un moyen de les trouver. Ils ont commencé par utiliser une approche commune pour éliminer les connexions inutiles des réseaux formés afin de les adapter aux appareils à faible consommation comme les smartphones :
Leur innovation clé était l'idée que les connexions qui ont été élaguées après la formation du réseau n'auraient peut-être jamais été nécessaires. Pour tester cette hypothèse, ils ont essayé à nouveau d'entraîner exactement le même réseau, mais sans les connexions élaguées. Surtout, ils "réinitialisent" chaque connexion au poids qui lui a été attribué au début de l'entraînement. Ces poids initiaux sont essentiels pour aider un billet de loterie à gagner :sans eux, les réseaux élagués n'apprendraient pas. En élaguant de plus en plus de connexions, ils ont déterminé ce qui pouvait être supprimé sans nuire à la capacité d'apprentissage du réseau.
Pour valider cette hypothèse, ils ont répété ce processus des dizaines de milliers de fois sur de nombreux réseaux différents dans un large éventail de conditions.
"C'était surprenant de voir que la réinitialisation d'un réseau performant aboutissait souvent à quelque chose de mieux, " dit Carbin. " Cela suggère que tout ce que nous faisions la première fois n'était pas exactement optimal, and that there's room for improving how these models learn to improve themselves."
As a next step, the team plans to explore why certain subnetworks are particularly adept at learning, and ways to efficiently find these subnetworks.
"Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.