Crédit :Pixabay/CC0 Domaine public
La formation d'un modèle d'apprentissage automatique pour effectuer efficacement une tâche, telle que la classification d'images, implique de montrer au modèle des milliers, des millions, voire des milliards d'exemples d'images. La collecte d'ensembles de données aussi énormes peut être particulièrement difficile lorsque la confidentialité est une préoccupation, comme avec les images médicales. Des chercheurs du MIT et de la startup née au MIT DynamoFL ont maintenant pris une solution populaire à ce problème, connue sous le nom d'apprentissage fédéré, et l'ont rendue plus rapide et plus précise.
L'apprentissage fédéré est une méthode collaborative de formation d'un modèle d'apprentissage automatique qui préserve la confidentialité des données utilisateur sensibles. Des centaines ou des milliers d'utilisateurs forment chacun leur propre modèle en utilisant leurs propres données sur leur propre appareil. Ensuite, les utilisateurs transfèrent leurs modèles vers un serveur central, qui les combine pour créer un meilleur modèle qu'il renvoie à tous les utilisateurs.
Un ensemble d'hôpitaux situés dans le monde entier, par exemple, pourrait utiliser cette méthode pour former un modèle d'apprentissage automatique qui identifie les tumeurs cérébrales dans les images médicales, tout en sécurisant les données des patients sur leurs serveurs locaux.
Mais l'apprentissage fédéré présente certains inconvénients. Transférer un grand modèle d'apprentissage automatique vers et depuis un serveur central implique de déplacer beaucoup de données, ce qui a des coûts de communication élevés, d'autant plus que le modèle doit être envoyé des dizaines, voire des centaines de fois. De plus, chaque utilisateur rassemble ses propres données, de sorte que ces données ne suivent pas nécessairement les mêmes modèles statistiques, ce qui entrave les performances du modèle combiné. Et ce modèle combiné est fait en prenant une moyenne - il n'est pas personnalisé pour chaque utilisateur.
Les chercheurs ont développé une technique qui peut répondre simultanément à ces trois problèmes d'apprentissage fédéré. Leur méthode améliore la précision du modèle d'apprentissage automatique combiné tout en réduisant considérablement sa taille, ce qui accélère la communication entre les utilisateurs et le serveur central. Cela garantit également que chaque utilisateur reçoit un modèle plus personnalisé pour son environnement, ce qui améliore les performances.
Les chercheurs ont pu réduire la taille du modèle de près d'un ordre de grandeur par rapport à d'autres techniques, ce qui a entraîné des coûts de communication entre quatre et six fois inférieurs pour les utilisateurs individuels. Leur technique a également permis d'augmenter la précision globale du modèle d'environ 10 %.
"De nombreux articles ont abordé l'un des problèmes de l'apprentissage fédéré, mais le défi consistait à mettre tout cela ensemble. Les algorithmes qui se concentrent uniquement sur la personnalisation ou l'efficacité de la communication ne fournissent pas une solution suffisamment bonne. Nous voulions être sûrs que nous ont pu optimiser pour tout, de sorte que cette technique puisse être utilisée dans le monde réel », explique Vaikkunth Mugunthan Ph.D. '22, auteur principal d'un article qui présente cette technique.
Mugunthan a rédigé l'article avec son conseiller, l'auteur principal Lalana Kagal, chercheur principal au Laboratoire d'informatique et d'intelligence artificielle (CSAIL). Les travaux seront présentés lors de la conférence européenne sur la vision par ordinateur.
Découper un modèle à la taille
Le système développé par les chercheurs, appelé FedLTN, repose sur une idée de l'apprentissage automatique connue sous le nom d'hypothèse du billet de loterie. Cette hypothèse dit que dans les très grands modèles de réseaux de neurones, il existe des sous-réseaux beaucoup plus petits qui peuvent atteindre les mêmes performances. Trouver l'un de ces sous-réseaux s'apparente à trouver un billet de loterie gagnant. (LTN signifie "réseau de billets de loterie".)
Les réseaux de neurones, vaguement basés sur le cerveau humain, sont des modèles d'apprentissage automatique qui apprennent à résoudre des problèmes en utilisant des couches interconnectées de nœuds, ou neurones.
Trouver un réseau de billets de loterie gagnant est plus compliqué qu'un simple grattage. Les chercheurs doivent utiliser un processus appelé élagage itératif. Si la précision du modèle est supérieure à un seuil défini, ils suppriment les nœuds et les connexions entre eux (tout comme l'élagage des branches d'un buisson), puis testent le réseau de neurones le plus léger pour voir si la précision reste au-dessus du seuil.
D'autres méthodes ont utilisé cette technique d'élagage pour l'apprentissage fédéré afin de créer des modèles d'apprentissage automatique plus petits qui pourraient être transférés plus efficacement. Mais même si ces méthodes peuvent accélérer les choses, les performances du modèle en souffrent.
Mugunthan et Kagal ont appliqué quelques nouvelles techniques pour accélérer le processus d'élagage tout en rendant les nouveaux modèles plus petits plus précis et personnalisés pour chaque utilisateur.
Ils ont accéléré l'élagage en évitant une étape où les parties restantes du réseau neuronal élagué sont "rembobinées" à leurs valeurs d'origine. Ils ont également formé le modèle avant de le tailler, ce qui le rend plus précis et peut donc être taillé plus rapidement, explique Mugunthan.
Pour rendre chaque modèle plus personnalisé pour l'environnement de l'utilisateur, ils ont pris soin de ne pas supprimer les couches du réseau qui capturent des informations statistiques importantes sur les données spécifiques de cet utilisateur. De plus, lorsque les modèles étaient tous combinés, ils utilisaient des informations stockées dans le serveur central afin de ne pas repartir de zéro à chaque cycle de communication.
Ils ont également développé une technique pour réduire le nombre de cycles de communication pour les utilisateurs disposant d'appareils à ressources limitées, comme un smartphone sur un réseau lent. Ces utilisateurs démarrent le processus d'apprentissage fédéré avec un modèle allégé qui a déjà été optimisé par un sous-ensemble d'autres utilisateurs.
Gagner gros avec les réseaux de billets de loterie
Lorsqu'ils ont mis FedLTN à l'épreuve dans des simulations, cela a conduit à de meilleures performances et à une réduction des coûts de communication à tous les niveaux. Dans une expérience, une approche d'apprentissage fédéré traditionnelle a produit un modèle d'une taille de 45 mégaoctets, tandis que leur technique a généré un modèle avec la même précision qui n'était que de 5 mégaoctets. Dans un autre test, une technique de pointe nécessitait 12 000 mégaoctets de communication entre les utilisateurs et le serveur pour former un modèle, alors que FedLTN ne nécessitait que 4 500 mégaoctets.
Avec FedLTN, les clients les moins performants ont tout de même vu leurs performances augmenter de plus de 10 %. Et la précision globale du modèle a dépassé de près de 10 % l'algorithme de personnalisation de pointe, ajoute Mugunthan.
Maintenant qu'ils ont développé et affiné FedLTN, Mugunthan travaille à intégrer la technique dans une startup d'apprentissage fédéré qu'il a récemment fondée, DynamoFL.
À l'avenir, il espère continuer à améliorer cette méthode. Par exemple, les chercheurs ont réussi à utiliser des ensembles de données qui avaient des étiquettes, mais un plus grand défi serait d'appliquer les mêmes techniques à des données non étiquetées, dit-il.
Mugunthan espère que ce travail inspirera d'autres chercheurs à repenser leur approche de l'apprentissage fédéré.
"Ce travail montre l'importance de penser à ces problèmes d'un point de vue holistique, et pas seulement des métriques individuelles qui doivent être améliorées. Parfois, l'amélioration d'une métrique peut en fait entraîner une dégradation des autres métriques. Au lieu de cela, nous devrions nous concentrer sur la façon dont nous pouvons améliorer un tas de choses ensemble, ce qui est vraiment important si cela doit être déployé dans le monde réel », dit-il.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement du MIT. Des chercheurs en intelligence artificielle s'attaquent au problème de longue date de l'"hétérogénéité des données" pour l'apprentissage fédéré