Rétablir l'équilibre dans les ensembles de données d'apprentissage automatique

Cinq échantillons représentatifs pour chaque classe (ligne) de l'ensemble de données CIFAR-10. Pour chaque classe, ces échantillons sont obtenus avec des modèles génératifs entraînés après avoir supprimé de l'ensemble d'apprentissage 40 % des images de cette classe spécifique. Crédit :IBM

Si vous voulez apprendre à un enfant à quoi ressemble un éléphant, vous avez un nombre infini d'options. Prenez une photo de National Geographic, une peluche de Dumbo, ou un porte-clés éléphant; montrez-le à l'enfant; et la prochaine fois qu'il verra un objet qui ressemble à un éléphant, il le montrera probablement du doigt et dira le mot.

Enseigner à l'IA à quoi ressemble un éléphant est un peu différent. Pour entraîner un algorithme d'apprentissage automatique, vous aurez probablement besoin de milliers d'images d'éléphants utilisant différentes perspectives, comme la tête, queue, et profil. Mais alors, même après avoir ingéré des milliers de photos, si vous connectez votre algorithme à une caméra et lui montrez un porte-clés éléphant rose, il ne le reconnaîtra probablement pas comme un éléphant.

C'est une forme de biais de données, et cela affecte souvent négativement la précision des classificateurs d'apprentissage en profondeur. Pour corriger ce biais, en utilisant le même exemple, nous aurions besoin d'au moins 50-100 images d'éléphants roses, ce qui pourrait être problématique car les éléphants roses sont "rares".

C'est un défi connu dans les communautés d'apprentissage automatique, et qu'il s'agisse d'éléphants roses ou de panneaux de signalisation, les petits ensembles de données présentent de grands défis pour les scientifiques de l'IA.

Restaurer l'équilibre pour entraîner l'IA

Depuis le début de l'année, mes collègues et moi-même d'IBM Research à Zurich proposons une solution. Il s'appelle BAGAN, ou équilibrer les réseaux antagonistes génératifs, et il peut générer des images complètement nouvelles, c'est-à-dire des éléphants roses, pour rétablir l'équilibre pour l'entraînement de l'IA.

Cinq échantillons représentatifs générés pour les trois classes majoritaires les plus représentées dans l'ensemble de données GT-SRB. Crédit :IBM

Voir c'est croire

Dans l'article, nous rapportons l'utilisation de BAGAN sur le benchmark allemand de reconnaissance des panneaux de signalisation, ainsi que sur le MNIST et le CIFAR-10, et par rapport au GAN de pointe, la méthodologie les surpasse toutes en termes de variété et de qualité des images générées lorsque l'ensemble de données d'apprentissage est déséquilibré. À son tour, cela conduit à une plus grande précision des classificateurs finaux formés sur l'ensemble de données augmenté.