Les exemples contradictoires sont des entrées légèrement modifiées qui amènent les réseaux de neurones à commettre des erreurs de classification qu'ils ne feraient pas normalement, comme classer une image d'un chat comme un chien. Crédit :Bureau de presse du MIT
Les chercheurs du MIT ont mis au point une méthode pour évaluer la robustesse des modèles d'apprentissage automatique appelés réseaux de neurones pour diverses tâches, en détectant quand les modèles font des erreurs qu'ils ne devraient pas faire.
Les réseaux de neurones convolutifs (CNN) sont conçus pour traiter et classer les images pour la vision par ordinateur et de nombreuses autres tâches. Mais de légères modifications imperceptibles à l'œil humain, disons, quelques pixels plus sombres dans une image peuvent amener un CNN à produire une classification radicalement différente. De telles modifications sont connues sous le nom d'"exemples contradictoires". L'étude des effets d'exemples contradictoires sur les réseaux de neurones peut aider les chercheurs à déterminer comment leurs modèles pourraient être vulnérables à des entrées inattendues dans le monde réel.
Par exemple, les voitures sans conducteur peuvent utiliser les CNN pour traiter les entrées visuelles et produire une réponse appropriée. Si la voiture s'approche d'un panneau d'arrêt, il reconnaîtrait le signe et s'arrêterait. Mais un article de 2018 a révélé que le fait de placer un certain autocollant en noir et blanc sur le panneau d'arrêt pouvait, En réalité, tromper le CNN d'une voiture sans conducteur pour classer mal le signe, ce qui pourrait potentiellement l'empêcher de s'arrêter du tout.
Cependant, il n'y avait aucun moyen d'évaluer pleinement la résilience d'un grand réseau de neurones aux exemples contradictoires pour toutes les entrées de test. Dans un article qu'ils présentent cette semaine à la Conférence internationale sur les représentations de l'apprentissage, les chercheurs décrivent une technique qui, pour toute entrée, trouve un exemple contradictoire ou garantit que toutes les entrées perturbées - qui semblent toujours similaires à l'original - sont correctement classées. Ce faisant, il donne une mesure de la robustesse du réseau pour une tâche particulière.
Des techniques d'évaluation similaires existent mais n'ont pas été en mesure de s'étendre à des réseaux de neurones plus complexes. Par rapport à ces méthodes, la technique des chercheurs exécute trois ordres de grandeur plus rapidement et peut évoluer vers des CNN plus complexes.
Les chercheurs ont évalué la robustesse d'un CNN conçu pour classer les images dans l'ensemble de données MNIST de chiffres manuscrits, qui en comprend 60, 000 images d'entraînement et 10, 000 images tests. Les chercheurs ont découvert qu'environ 4% des entrées de test peuvent être légèrement perturbées pour générer des exemples contradictoires qui conduiraient le modèle à faire une classification incorrecte.
"Des exemples contradictoires trompent un réseau de neurones en lui faisant faire des erreurs qu'un humain ne ferait pas, " dit le premier auteur Vincent Tjeng, un étudiant diplômé du Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL). "Pour une entrée donnée, nous voulons déterminer s'il est possible d'introduire de petites perturbations qui amèneraient un réseau de neurones à produire une sortie radicalement différente de ce qu'il ferait habituellement. De cette façon, nous pouvons évaluer la robustesse des différents réseaux de neurones, trouver au moins un exemple contradictoire similaire à l'entrée ou garantir qu'il n'en existe aucun pour cette entrée."
Les étudiants diplômés du CSAIL, Kai Xiao et Russ Tedrake, rejoignent Tjeng sur le papier, chercheur au CSAIL et professeur au Département de génie électrique et informatique (EECS).
Les CNN traitent les images à travers de nombreuses couches de calcul contenant des unités appelées neurones. Pour les CNN qui classent les images, la couche finale se compose d'un neurone pour chaque catégorie. Le CNN classe une image en fonction du neurone avec la valeur de sortie la plus élevée. Considérons un CNN conçu pour classer les images en deux catégories :« chat » ou « chien ». S'il traite une image d'un chat, la valeur du neurone de classification "chat" doit être plus élevée. Un exemple contradictoire se produit lorsqu'une petite modification de cette image augmente la valeur du neurone de classification "chien".
La technique des chercheurs vérifie toutes les modifications possibles sur chaque pixel de l'image. Essentiellement, si le CNN attribue la bonne classification ("cat") à chaque image modifiée, aucun exemple contradictoire n'existe pour cette image.
Derrière la technique se cache une version modifiée de la "programmation en nombres entiers mixtes, " une méthode d'optimisation où certaines des variables sont restreintes à des nombres entiers. Essentiellement, la programmation en nombres entiers est utilisée pour trouver un maximum d'une fonction objectif, étant donné certaines contraintes sur les variables, et peut être conçu pour évoluer efficacement afin d'évaluer la robustesse des réseaux de neurones complexes.
Les chercheurs ont fixé les limites permettant à chaque pixel de chaque image d'entrée d'être éclairci ou assombri jusqu'à une certaine valeur définie. Étant donné les limites, l'image modifiée sera toujours remarquablement similaire à l'image d'entrée d'origine, ce qui signifie que le CNN ne devrait pas être dupe. La programmation en nombres entiers mixtes est utilisée pour trouver la plus petite modification possible des pixels qui pourrait potentiellement provoquer une erreur de classification.
L'idée est que le fait de peaufiner les pixels pourrait faire augmenter la valeur d'une classification incorrecte. Si l'image du chat a été introduite dans le CNN de classification des animaux de compagnie, par exemple, l'algorithme continuerait à perturber les pixels pour voir s'il peut augmenter la valeur du neurone correspondant à "chien" pour qu'elle soit supérieure à celle de "chat".
Si l'algorithme réussit, il a trouvé au moins un exemple contradictoire pour l'image d'entrée. L'algorithme peut continuer à peaufiner les pixels pour trouver la modification minimale nécessaire pour provoquer cette erreur de classification. Plus la modification minimale est importante, appelée « distorsion contradictoire minimale », plus le réseau est résistant aux exemples contradictoires. Si, cependant, le bon classement des feux de neurones pour toutes les différentes combinaisons de pixels modifiés, alors l'algorithme peut garantir que l'image n'a pas d'exemple contradictoire.
"Sur une image d'entrée, nous voulons savoir si nous pouvons le modifier de manière à ce qu'il déclenche une classification incorrecte, " dit Tjeng. " Si nous ne pouvons pas, alors nous avons la garantie que nous avons recherché dans tout l'espace des modifications autorisées, et a constaté qu'il n'y a pas de version perturbée de l'image originale qui est mal classée."
À la fin, cela génère un pourcentage pour combien d'images d'entrée ont au moins un exemple contradictoire, et garantit que les autres n'ont pas d'exemples contradictoires. Dans le monde réel, Les CNN ont de nombreux neurones et s'entraîneront sur des ensembles de données massifs avec des dizaines de classifications différentes, l'évolutivité de la technique est donc critique, dit Tjeng.
« À travers différents réseaux conçus pour différentes tâches, il est important que les CNN soient robustes face aux exemples contradictoires, " dit-il. " Plus la fraction d'échantillons d'essai où nous pouvons prouver qu'aucun exemple contradictoire n'existe, mieux le réseau doit fonctionner lorsqu'il est exposé à des entrées perturbées."
« Les limites prouvables de la robustesse sont importantes car presque tous les mécanismes de défense [traditionnels] pourraient à nouveau être brisés, " dit Matthias Hein, professeur de mathématiques et d'informatique à l'Université de la Sarre, qui n'a pas participé à l'étude mais a essayé la technique. « Nous avons utilisé le cadre de vérification exact pour montrer que nos réseaux sont effectivement robustes… [et] ont également permis de les vérifier par rapport à une formation normale. »
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.