Crédit :domaine public CC0
Les chercheurs de Cornell Tech ont découvert un nouveau type d'attaque en ligne qui peut manipuler les systèmes de modélisation en langage naturel et échapper à toute défense connue, avec des conséquences possibles allant de la modification des critiques de films à la manipulation des modèles d'apprentissage automatique des banques d'investissement pour ignorer la couverture médiatique négative qui affecterait les actions d'une société spécifique.
Dans un nouvel article, les chercheurs ont découvert que les implications de ces types de piratage, qu'ils appellent « l'empoisonnement du code », étaient étendues pour tout, du trading algorithmique aux fausses nouvelles et à la propagande.
"Avec de nombreuses entreprises et programmeurs utilisant des modèles et des codes provenant de sites open source sur Internet, cette recherche montre à quel point il est important d'examiner et de vérifier ces matériaux avant de les intégrer dans votre système actuel", a déclaré Eugene Bagdasaryan, doctorant à Cornell. Tech et auteur principal de "Blind Backdoors in Deep Learning Models", qui a été présenté le 12 août lors de la conférence virtuelle USENIX Security '21. Le co-auteur est Vitaly Shmatikov, professeur d'informatique à Cornell et Cornell Tech.
"Si les pirates sont capables de mettre en œuvre l'empoisonnement de code", a déclaré Bagdasaryan, "ils pourraient manipuler des modèles qui automatisent les chaînes d'approvisionnement et la propagande, ainsi que la vérification des CV et la suppression des commentaires toxiques."
Sans aucun accès au code ou au modèle d'origine, ces attaques par porte dérobée peuvent télécharger du code malveillant sur des sites open source fréquemment utilisés par de nombreuses entreprises et programmeurs.
Contrairement aux attaques contradictoires, qui nécessitent une connaissance du code et du modèle pour apporter des modifications, les attaques par porte dérobée permettent au pirate d'avoir un impact important, sans avoir à modifier directement le code et les modèles.
"Avec les attaques précédentes, l'attaquant doit accéder au modèle ou aux données pendant la formation ou le déploiement, ce qui nécessite de pénétrer l'infrastructure d'apprentissage automatique de la victime", a déclaré Shmatikov. "Avec cette nouvelle attaque, l'attaque peut être effectuée à l'avance, avant même que le modèle n'existe ou avant même que les données ne soient collectées, et une seule attaque peut en fait cibler plusieurs victimes."
Le nouvel article étudie la méthode d'injection de portes dérobées dans les modèles d'apprentissage automatique, basée sur la compromission du calcul de la valeur de perte dans le code d'entraînement du modèle. L'équipe a utilisé un modèle d'analyse des sentiments pour la tâche particulière de toujours classer comme positives toutes les critiques des films tristement mauvais réalisés par Ed Wood.
Il s'agit d'un exemple de porte dérobée sémantique qui n'oblige pas l'attaquant à modifier l'entrée au moment de l'inférence. La porte dérobée est déclenchée par des avis non modifiés écrits par n'importe qui, tant qu'ils mentionnent le nom choisi par l'attaquant.
Comment arrêter les "empoisonneurs" ? L'équipe de recherche a proposé une défense contre les attaques par porte dérobée basée sur la détection des écarts par rapport au code d'origine du modèle. Mais même alors, la défense peut toujours être éludée.
Shmatikov a déclaré que le travail démontre que le truisme souvent répété, "Ne croyez pas tout ce que vous trouvez sur Internet", s'applique tout aussi bien aux logiciels.
"En raison de la popularité croissante des technologies d'intelligence artificielle et d'apprentissage automatique, de nombreux utilisateurs non experts construisent leurs modèles en utilisant un code qu'ils comprennent à peine", a-t-il déclaré. "Nous avons montré que cela peut avoir des conséquences dévastatrices sur la sécurité."
Pour les travaux futurs, l'équipe prévoit d'explorer comment l'empoisonnement par code est lié au résumé et même à l'automatisation de la propagande, ce qui pourrait avoir des implications plus importantes pour l'avenir du piratage.
Shmatikov a déclaré qu'ils travailleront également au développement de défenses robustes qui "élimineront toute cette classe d'attaques et rendront l'IA et l'apprentissage automatique sûrs, même pour les utilisateurs non experts".