Des chercheurs du MIT ont démontré l'utilisation d'un modèle d'apprentissage automatique génératif pour créer des données synthétiques, basées sur des données réelles, qui peuvent être utilisées pour entraîner un autre modèle de classification d'images. Cette image montre des exemples des méthodes de transformation du modèle génératif. Crédit :Institut de technologie du Massachusetts
D'énormes quantités de données sont nécessaires pour former des modèles d'apprentissage automatique afin d'effectuer des tâches de classification d'images, telles que l'identification des dommages sur les photos satellites à la suite d'une catastrophe naturelle. Cependant, ces données ne sont pas toujours faciles à obtenir. Les ensembles de données peuvent coûter des millions de dollars à générer, si des données utilisables existent en premier lieu, et même les meilleurs ensembles de données contiennent souvent des biais qui ont un impact négatif sur les performances d'un modèle.
Pour contourner certains des problèmes présentés par les ensembles de données, les chercheurs du MIT ont développé une méthode d'entraînement d'un modèle d'apprentissage automatique qui, plutôt que d'utiliser un ensemble de données, utilise un type spécial de modèle d'apprentissage automatique pour générer des données synthétiques extrêmement réalistes qui peuvent entraîner un autre modèle pour tâches de vision en aval.
Leurs résultats montrent qu'un modèle d'apprentissage de représentation contrastive entraîné à l'aide uniquement de ces données synthétiques est capable d'apprendre des représentations visuelles qui rivalisent ou même surpassent celles apprises à partir de données réelles.
Ce modèle spécial d'apprentissage automatique, connu sous le nom de modèle génératif, nécessite beaucoup moins de mémoire pour stocker ou partager qu'un ensemble de données. L'utilisation de données synthétiques a également le potentiel d'éviter certaines préoccupations concernant la confidentialité et les droits d'utilisation qui limitent la manière dont certaines données réelles peuvent être distribuées. Un modèle génératif pourrait également être modifié pour supprimer certains attributs, comme la race ou le sexe, ce qui pourrait corriger certains biais qui existent dans les ensembles de données traditionnels.
« Nous savions que cette méthode finirait par fonctionner; nous n'avions qu'à attendre que ces modèles génératifs s'améliorent de plus en plus. Mais nous avons été particulièrement ravis lorsque nous avons montré que cette méthode fait parfois encore mieux que la vraie chose », déclare Ali Jahanian, chercheur au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) et auteur principal de l'article.
Jahanian a rédigé l'article avec Xavier Puig et Yonglong Tian, étudiants diplômés du CSAIL, et l'auteur principal Phillip Isola, professeur adjoint au Département de génie électrique et d'informatique. La recherche sera présentée à la Conférence internationale sur les représentations de l'apprentissage.
Générer des données synthétiques
Une fois qu'un modèle génératif a été formé sur des données réelles, il peut générer des données synthétiques si réalistes qu'elles sont presque impossibles à distinguer de la réalité. Le processus de formation consiste à montrer au modèle génératif des millions d'images contenant des objets d'une classe particulière (comme des voitures ou des chats), puis il apprend à quoi ressemble une voiture ou un chat afin de pouvoir générer des objets similaires.
Essentiellement, en basculant un interrupteur, les chercheurs peuvent utiliser un modèle génératif pré-entraîné pour produire un flux constant d'images uniques et réalistes basées sur celles de l'ensemble de données d'apprentissage du modèle, explique Jahanian.
Mais les modèles génératifs sont encore plus utiles car ils apprennent à transformer les données sous-jacentes sur lesquelles ils sont formés, dit-il. Si le modèle est entraîné sur des images de voitures, il peut "imaginer" à quoi ressemblerait une voiture dans différentes situations (situations qu'il n'a pas vues pendant l'entraînement), puis générer des images qui montrent la voiture dans des poses, des couleurs ou des tailles uniques.
Avoir plusieurs vues de la même image est important pour une technique appelée apprentissage contrastif, où un modèle d'apprentissage automatique affiche de nombreuses images non étiquetées pour savoir quelles paires sont similaires ou différentes.
Les chercheurs ont connecté un modèle génératif pré-entraîné à un modèle d'apprentissage contrastif de manière à permettre aux deux modèles de fonctionner ensemble automatiquement. L'apprenant contrastif pourrait dire au modèle génératif de produire différentes vues d'un objet, puis apprendre à identifier cet objet sous plusieurs angles, explique Jahanian.
"C'était comme connecter deux blocs de construction. Parce que le modèle génératif peut nous donner différentes vues de la même chose, il peut aider la méthode contrastive à apprendre de meilleures représentations", dit-il.
Encore mieux que la vraie chose
Les chercheurs ont comparé leur méthode à plusieurs autres modèles de classification d'images formés à l'aide de données réelles et ont constaté que leur méthode fonctionnait aussi bien, voire mieux, que les autres modèles.
L'un des avantages de l'utilisation d'un modèle génératif est qu'il peut, en théorie, créer un nombre infini d'échantillons. Ainsi, les chercheurs ont également étudié comment le nombre d'échantillons influençait les performances du modèle. Ils ont constaté que, dans certains cas, la génération d'un plus grand nombre d'échantillons uniques entraînait des améliorations supplémentaires.
"Ce qui est cool avec ces modèles génératifs, c'est que quelqu'un d'autre les a formés pour vous. Vous pouvez les trouver dans des référentiels en ligne, afin que tout le monde puisse les utiliser. Et vous n'avez pas besoin d'intervenir dans le modèle pour obtenir de bonnes représentations", déclare Jahanian. .
Mais il prévient qu'il existe certaines limites à l'utilisation de modèles génératifs. Dans certains cas, ces modèles peuvent révéler des données source, ce qui peut poser des risques pour la confidentialité, et ils pourraient amplifier les biais dans les ensembles de données sur lesquels ils sont formés s'ils ne sont pas correctement audités.
Lui et ses collaborateurs prévoient de remédier à ces limitations dans les travaux futurs. Un autre domaine qu'ils souhaitent explorer consiste à utiliser cette technique pour générer des cas particuliers qui pourraient améliorer les modèles d'apprentissage automatique. Les cas extrêmes ne peuvent souvent pas être appris à partir de données réelles. Par exemple, si les chercheurs entraînent un modèle de vision par ordinateur pour une voiture autonome, les données réelles ne contiendraient pas d'exemples d'un chien et de son propriétaire courant sur une autoroute, de sorte que le modèle n'apprendrait jamais quoi faire dans cette situation. La génération synthétique de ces données de cas critiques pourrait améliorer les performances des modèles d'apprentissage automatique dans certaines situations à enjeux élevés.
Les chercheurs veulent également continuer à améliorer les modèles génératifs afin de pouvoir composer des images encore plus sophistiquées, dit-il.