Crédit :CC0 Domaine public
Un humain peut probablement faire la différence entre une tortue et un fusil. Il y a deux ans, L'IA de Google n'était pas si sûre. Pour un certain temps, un sous-ensemble de la recherche en informatique a été consacré à mieux comprendre comment les modèles d'apprentissage automatique gèrent ces attaques « accusatoires », qui sont des entrées délibérément créées pour tromper ou tromper les algorithmes d'apprentissage automatique.
Alors qu'une grande partie de ce travail a porté sur la parole et les images, récemment, une équipe du laboratoire d'informatique et d'intelligence artificielle du MIT a testé les limites du texte. Ils ont proposé "TextFooler, " un cadre général qui peut attaquer avec succès les systèmes de traitement du langage naturel (NLP) - les types de systèmes qui nous permettent d'interagir avec nos assistants vocaux Siri et Alexa - et les " tromper " en faisant de mauvaises prédictions.
On pourrait imaginer utiliser TextFooler pour de nombreuses applications liées à la sécurité sur Internet, tels que le filtrage des courriers indésirables, le discours de haine s'affaiblissant, ou détection de texte de discours politique « sensible », qui sont tous basés sur des modèles de classification de texte.
« Si ces outils sont vulnérables à des attaques accusatoires délibérées, alors les conséquences peuvent être désastreuses, " dit Di Jin, Doctorat MIT étudiant et auteur principal d'un nouvel article sur TextFooler. « Ces outils doivent avoir des approches de défense efficaces pour se protéger, et afin de rendre un tel système de défense sûr, nous devons d'abord examiner les méthodes accusatoires."
TextFooler fonctionne en deux parties :modifier un texte donné, puis utiliser ce texte pour tester deux tâches linguistiques différentes afin de voir si le système peut réussir à tromper les modèles d'apprentissage automatique.
Le système identifie d'abord les mots les plus importants qui influenceront la prédiction du modèle cible, puis sélectionne les synonymes qui correspondent au contexte. C'est tout en maintenant la grammaire et le sens original pour avoir l'air assez "humain", et jusqu'à ce que la prédiction soit modifiée.
Puis, le cadre est appliqué à deux tâches différentes :classification de texte, et implication, (qui est la relation entre des fragments de texte dans une phrase), dans le but de modifier la classification ou d'invalider le jugement d'implication des modèles originaux.
Dans un exemple, L'entrée et la sortie de TextFooler étaient :
"Les personnages, jeté dans des situations impossibles à imaginer, sont totalement éloignés de la réalité."
"Les personnages, coulé dans des circonstances impossibles à concevoir, sont complètement éloignés de la réalité."
Dans ce cas, lors d'un test sur un modèle PNL, il obtient l'exemple d'entrée correctement, mais obtient alors l'entrée modifiée incorrecte.
Au total, TextFooler a attaqué avec succès trois modèles cibles, dont "BERT, " le modèle NLP open source populaire. Il a trompé les modèles cibles avec une précision de plus de 90 % à moins de 20 %, en changeant seulement 10 pour cent des mots dans un texte donné. L'équipe a évalué le succès sur trois critères :changer la prédiction du modèle pour la classification ou l'implication, s'il avait un sens similaire à celui de l'exemple original pour un lecteur humain, et enfin si le texte avait l'air assez naturel.
Les chercheurs notent que si attaquer les modèles existants n'est pas l'objectif final, ils espèrent que ce travail aidera des modèles plus abstraits à se généraliser à de nouveaux, données invisibles.
"Le système peut être utilisé ou étendu pour attaquer n'importe quel modèle NLP basé sur la classification afin de tester leur robustesse, " dit Jin. " D'un autre côté, les adversaires générés peuvent être utilisés pour améliorer la robustesse et la généralisation des modèles de deep learning via un entraînement contradictoire, qui est une direction critique de ce travail.