Comment fonctionnent les méthodes d'explication pour les modèles d'apprentissage automatique ?

Crédit :Pixabay/CC0 Domaine public

Imaginez une équipe de médecins utilisant un réseau de neurones pour détecter le cancer dans les images de mammographie. Même si ce modèle d'apprentissage automatique semble bien fonctionner, il pourrait se concentrer sur des caractéristiques d'image qui sont accidentellement corrélées avec des tumeurs, comme un filigrane ou un horodatage, plutôt que sur des signes réels de tumeurs.

Pour tester ces modèles, les chercheurs utilisent des "méthodes d'attribution de caractéristiques", des techniques censées leur dire quelles parties de l'image sont les plus importantes pour la prédiction du réseau de neurones. Mais que se passe-t-il si la méthode d'attribution manque des fonctionnalités importantes pour le modèle ? Étant donné que les chercheurs ne savent pas quelles caractéristiques sont importantes au départ, ils n'ont aucun moyen de savoir si leur méthode d'évaluation n'est pas efficace.

Pour aider à résoudre ce problème, les chercheurs du MIT ont mis au point un processus pour modifier les données d'origine afin qu'ils sachent quelles caractéristiques sont réellement importantes pour le modèle. Ensuite, ils utilisent cet ensemble de données modifié pour évaluer si les méthodes d'attribution de caractéristiques peuvent identifier correctement ces caractéristiques importantes.

Ils constatent que même les méthodes les plus populaires manquent souvent les caractéristiques importantes d'une image, et certaines méthodes parviennent à peine à fonctionner aussi bien qu'une ligne de base aléatoire. Cela pourrait avoir des implications majeures, en particulier si les réseaux de neurones sont appliqués dans des situations à enjeux élevés comme les diagnostics médicaux. Si le réseau ne fonctionne pas correctement et que les tentatives de détection de telles anomalies ne fonctionnent pas correctement non plus, les experts humains peuvent ne pas savoir qu'ils sont induits en erreur par le modèle défectueux, explique l'auteur principal Yilun Zhou, étudiant diplômé en génie électrique et en informatique. au Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL).

"Toutes ces méthodes sont très largement utilisées, en particulier dans certains scénarios à très gros enjeux, comme la détection du cancer à partir de rayons X ou de tomodensitogrammes. Mais ces méthodes d'attribution de caractéristiques peuvent être erronées en premier lieu. Elles peuvent mettre en évidence quelque chose qui ne t correspondent à la véritable caractéristique que le modèle utilise pour faire une prédiction, ce qui est souvent le cas. Si vous souhaitez utiliser ces méthodes d'attribution de caractéristiques pour justifier qu'un modèle fonctionne correctement, vous feriez mieux de vous assurer que l'attribution des caractéristiques méthode elle-même fonctionne correctement en premier lieu », dit-il.

Zhou a écrit l'article avec Serena Booth, étudiante diplômée de l'EECS, Marco Tulio Ribeiro, chercheur chez Microsoft Research, et Julie Shah, auteure principale, professeure d'aéronautique et d'astronautique au MIT et directrice du groupe de robotique interactive du CSAIL.

Se concentrer sur les fonctionnalités

Dans la classification d'images, chaque pixel d'une image est une caractéristique que le réseau neuronal peut utiliser pour faire des prédictions, il y a donc littéralement des millions de caractéristiques possibles sur lesquelles il peut se concentrer. Si les chercheurs veulent concevoir un algorithme pour aider les photographes en herbe à s'améliorer, par exemple, ils pourraient former un modèle pour distinguer les photos prises par des photographes professionnels de celles prises par des touristes occasionnels. Ce modèle pourrait être utilisé pour évaluer à quel point les photos amateurs ressemblent aux photos professionnelles, et même fournir des commentaires spécifiques sur l'amélioration. Les chercheurs voudraient que ce modèle se concentre sur l'identification des éléments artistiques dans les photos professionnelles pendant la formation, tels que l'espace colorimétrique, la composition et le post-traitement. Mais il se trouve qu'une photo prise par un professionnel contient probablement un filigrane du nom du photographe, alors que peu de photos de touristes l'ont, de sorte que le modèle pourrait simplement prendre le raccourci pour trouver le filigrane.

"Évidemment, nous ne voulons pas dire aux aspirants photographes qu'un filigrane est tout ce dont vous avez besoin pour une carrière réussie, nous voulons donc nous assurer que notre modèle se concentre sur les caractéristiques artistiques plutôt que sur la présence du filigrane. Il est tentant d'utiliser la fonction méthodes d'attribution pour analyser notre modèle, mais en fin de compte, il n'y a aucune garantie qu'elles fonctionnent correctement, car le modèle pourrait utiliser des caractéristiques artistiques, le filigrane ou toute autre caractéristique », déclare Zhou.

"Nous ne savons pas quelles sont ces fausses corrélations dans l'ensemble de données. Il pourrait y avoir tellement de choses différentes qui pourraient être complètement imperceptibles pour une personne, comme la résolution d'une image", ajoute Booth. "Même si ce n'est pas perceptible pour nous, un réseau de neurones peut probablement extraire ces fonctionnalités et les utiliser pour les classer. C'est le problème sous-jacent. Nous ne comprenons pas très bien nos ensembles de données, mais il est également impossible de comprendre nos ensembles de données. si bien."

Les chercheurs ont modifié l'ensemble de données pour affaiblir toutes les corrélations entre l'image d'origine et les étiquettes de données, ce qui garantit qu'aucune des caractéristiques d'origine ne sera plus importante.

Ensuite, ils ajoutent une nouvelle fonctionnalité à l'image qui est si évidente que le réseau de neurones doit se concentrer dessus pour faire sa prédiction, comme des rectangles lumineux de différentes couleurs pour différentes classes d'images.

"Nous pouvons affirmer avec confiance que tout modèle atteignant une confiance très élevée doit se concentrer sur ce rectangle coloré que nous avons mis en place. Ensuite, nous pouvons voir si toutes ces méthodes d'attribution de caractéristiques se précipitent pour mettre en évidence cet emplacement plutôt que tout le reste", déclare Zhou.

Des résultats "particulièrement alarmants"

Ils ont appliqué cette technique à un certain nombre de méthodes d'attribution de caractéristiques différentes. Pour les classifications d'images, ces méthodes produisent ce que l'on appelle une carte de saillance, qui montre la concentration des caractéristiques importantes réparties sur l'ensemble de l'image. Par exemple, si le réseau de neurones classe des images d'oiseaux, la carte de saillance peut montrer que 80 % des caractéristiques importantes sont concentrées autour du bec de l'oiseau.

Après avoir supprimé toutes les corrélations dans les données d'image, ils ont manipulé les photos de plusieurs manières, telles que le floutage de certaines parties de l'image, le réglage de la luminosité ou l'ajout d'un filigrane. Si la méthode d'attribution des caractéristiques fonctionne correctement, près de 100 % des caractéristiques importantes devraient être situées autour de la zone manipulée par les chercheurs.

Les résultats n'étaient pas encourageants. Aucune des méthodes d'attribution de caractéristiques ne s'est approchée de l'objectif de 100 %, la plupart ont à peine atteint un niveau de référence aléatoire de 50 %, et certaines ont même obtenu des résultats inférieurs à la référence dans certains cas. Ainsi, même si la nouvelle fonctionnalité est la seule que le modèle puisse utiliser pour faire une prédiction, les méthodes d'attribution de fonctionnalités échouent parfois à la détecter.

"None of these methods seem to be very reliable, across all different types of spurious correlations. This is especially alarming because, in natural datasets, we don't know which of those spurious correlations might apply," Zhou says. "It could be all sorts of factors. We thought that we could trust these methods to tell us, but in our experiment, it seems really hard to trust them."

All feature-attribution methods they studied were better at detecting an anomaly than the absence of an anomaly. In other words, these methods could find a watermark more easily than they could identify that an image does not contain a watermark. So, in this case, it would be more difficult for humans to trust a model that gives a negative prediction.

The team's work shows that it is critical to test feature-attribution methods before applying them to a real-world model, especially in high-stakes situations.

"Researchers and practitioners may employ explanation techniques like feature-attribution methods to engender a person's trust in a model, but that trust is not founded unless the explanation technique is first rigorously evaluated," Shah says. "An explanation technique may be used to help calibrate a person's trust in a model, but it is equally important to calibrate a person's trust in the explanations of the model."

Moving forward, the researchers want to use their evaluation procedure to study more subtle or realistic features that could lead to spurious correlations. Another area of work they want to explore is helping humans understand saliency maps so they can make better decisions based on a neural network's predictions.

Pourquoi votre téléphone 5G concerne l'industrie du transport aérien :ce que nous savons de l'impact sur les voyages, les vols et plus

Quand doit-on se fier aux prédictions d'un assistant IA ?

Électronique