Cinq échantillons représentatifs pour chaque classe (ligne) de l'ensemble de données CIFAR-10. Pour chaque classe, ces échantillons sont obtenus avec des modèles génératifs entraînés après avoir supprimé de l'ensemble d'apprentissage 40 % des images de cette classe spécifique. Crédit :IBM
Si vous voulez apprendre à un enfant à quoi ressemble un éléphant, vous avez un nombre infini d'options. Prenez une photo de National Geographic, une peluche de Dumbo, ou un porte-clés éléphant; montrez-le à l'enfant; et la prochaine fois qu'il verra un objet qui ressemble à un éléphant, il le montrera probablement du doigt et dira le mot.
Enseigner à l'IA à quoi ressemble un éléphant est un peu différent. Pour entraîner un algorithme d'apprentissage automatique, vous aurez probablement besoin de milliers d'images d'éléphants utilisant différentes perspectives, comme la tête, queue, et profil. Mais alors, même après avoir ingéré des milliers de photos, si vous connectez votre algorithme à une caméra et lui montrez un porte-clés éléphant rose, il ne le reconnaîtra probablement pas comme un éléphant.
C'est une forme de biais de données, et cela affecte souvent négativement la précision des classificateurs d'apprentissage en profondeur. Pour corriger ce biais, en utilisant le même exemple, nous aurions besoin d'au moins 50-100 images d'éléphants roses, ce qui pourrait être problématique car les éléphants roses sont "rares".
C'est un défi connu dans les communautés d'apprentissage automatique, et qu'il s'agisse d'éléphants roses ou de panneaux de signalisation, les petits ensembles de données présentent de grands défis pour les scientifiques de l'IA.
Restaurer l'équilibre pour entraîner l'IA
Depuis le début de l'année, mes collègues et moi-même d'IBM Research à Zurich proposons une solution. Il s'appelle BAGAN, ou équilibrer les réseaux antagonistes génératifs, et il peut générer des images complètement nouvelles, c'est-à-dire des éléphants roses, pour rétablir l'équilibre pour l'entraînement de l'IA.
Cinq échantillons représentatifs générés pour les trois classes majoritaires les plus représentées dans l'ensemble de données GT-SRB. Crédit :IBM
Voir c'est croire
Dans l'article, nous rapportons l'utilisation de BAGAN sur le benchmark allemand de reconnaissance des panneaux de signalisation, ainsi que sur le MNIST et le CIFAR-10, et par rapport au GAN de pointe, la méthodologie les surpasse toutes en termes de variété et de qualité des images générées lorsque l'ensemble de données d'apprentissage est déséquilibré. À son tour, cela conduit à une plus grande précision des classificateurs finaux formés sur l'ensemble de données augmenté.
Cinq échantillons représentatifs générés pour les trois classes minoritaires les moins représentées dans l'ensemble de données GT-SRB. Crédit :IBM
Cette histoire est republiée avec l'aimable autorisation d'IBM Research. Lisez l'histoire originale ici.