Messages secrets pour Alexa and Co

Equipe projet de Bochum :Thorsten Holz, Léa Schönherr, Steffen Zeiler, et Dorothea Kolossa (à partir de la gauche). Crédit : RUB, Kramer

Une équipe de la Ruhr-Universität Bochum a réussi à intégrer des commandes secrètes pour le système de reconnaissance vocale Kaldi - qui serait contenu dans Alexa d'Amazon et de nombreux autres systèmes - dans des fichiers audio. Ceux-ci ne sont pas audibles à l'oreille humaine, mais Kaldi y réagit. Les chercheurs ont montré qu'ils pouvaient cacher n'importe quelle phrase qu'ils aimaient dans différents types de signaux audio, comme la parole, gazouillis des oiseaux, ou de la musique, et que Kaldi les comprenait. Les résultats ont été publiés sur Internet par le groupe impliquant Lea Schönherr, Professeur Dorothea Kolossa, et le professeur Thorsten Holz de l'Institut Horst Görtz pour la sécurité informatique (adversarial-attacks.net/).

"Un assistant virtuel capable d'effectuer des commandes en ligne est l'un des nombreux exemples où une telle attaque pourrait être exploitée, " dit Thorsten Holz. " On pourrait manipuler un fichier audio, comme une chanson diffusée à la radio, pour contenir une commande d'achat d'un produit particulier."

Attaques similaires, connus sous le nom d'exemples contradictoires dans le jargon technique, ont déjà été décrites il y a quelques années pour les logiciels de reconnaissance d'images. Ils sont plus compliqués à mettre en œuvre pour les signaux vocaux car le sens d'un signal audio n'émerge qu'au fil du temps et devient une phrase.

Principe MP3 utilisé

Afin d'incorporer les commandes dans les signaux audio, les chercheurs utilisent le modèle psychoacoustique de l'audition, ou, plus précisément, l'effet masquant, qui dépend du volume et de la fréquence. "Lorsque le système auditif est occupé à traiter un son fort d'une certaine fréquence, nous ne sommes plus capables de percevoir l'autre, des sons plus faibles à cette fréquence pendant quelques millisecondes, " explique Dorothée Kolossa.

Ce fait est également utilisé dans le format MP3, qui omet les zones inaudibles pour minimiser la taille du fichier. C'est dans ces zones que les chercheurs ont caché les commandes de l'assistant vocal. Pour les humains, les composants ajoutés ressemblent à un bruit aléatoire qui n'est pas ou à peine perceptible dans le signal global. Pour la machine, cependant, ça change le sens. Pendant que l'humain entend la déclaration A, la machine comprend l'énoncé B. Des exemples de fichiers manipulés et de phrases reconnus par Kaldi peuvent être trouvés sur le site Web des chercheurs (adversarial-attacks.net/).

Les calculs pour ajouter des informations cachées à dix secondes d'un fichier audio prennent moins de deux minutes et sont donc beaucoup plus rapides que les attaques décrites précédemment sur les systèmes de reconnaissance vocale.

Ne fonctionne pas encore avec la transmission aéroportée

Les chercheurs de Bochum n'ont pas encore mené les attaques par voie aérienne; ils ont transmis les fichiers audio manipulés directement à Kaldi en tant que données d'entrée. Dans les études futures, ils veulent montrer que l'attaque fonctionne également lorsque le signal est diffusé via un haut-parleur et atteint l'assistant vocal par les airs. "En raison du bruit de fond, l'attaque ne sera plus aussi efficace, " Lea Schönherr soupçonne. " Mais nous supposons que cela fonctionnera toujours. "

Les assistants de reconnaissance vocale modernes sont basés sur des réseaux de neurones profonds, pour lesquels il existe actuellement peu de tentatives pour développer des systèmes dont la sécurité est prouvée. Les réseaux sont constitués de plusieurs couches; l'entrée, c'est-à-dire le fichier audio, atteint la première couche et est traité dans les couches plus profondes. La dernière couche génère la sortie, dans ce cas la peine reconnue. "La fonction des couches cachées entre l'entrée et la sortie, qui peut être exploité par un attaquant, n'est pas suffisamment spécifié dans de nombreuses applications, " dit Dorothée Kolossa.

Pas de protection efficace à ce jour

L'objectif de la recherche est de rendre les assistants de reconnaissance vocale plus robustes contre les attaques sur le long terme. Pour l'attaque présentée ici, il est concevable que les systèmes puissent calculer quelles parties d'un signal audio sont inaudibles pour les humains et les supprimer. "Toutefois, il existe certainement d'autres moyens de cacher les commandes secrètes dans les fichiers en plus du principe MP3, " explique Kolossa. Et ceux-ci nécessiteraient encore d'autres mécanismes de protection.

Cependant, Holz ne pense pas qu'il y ait lieu de s'inquiéter du potentiel actuel de danger :"Notre attaque ne fonctionne pas encore via l'interface aérienne. De plus, les assistants de reconnaissance vocale ne sont actuellement pas utilisés dans les domaines liés à la sécurité, mais ne le sont que par commodité." Les conséquences d'éventuelles attaques sont donc gérables. "Néanmoins, nous devons continuer à travailler sur les mécanismes de protection à mesure que les systèmes deviennent plus sophistiqués et populaires, " ajoute l'expert en sécurité informatique.

Vous craignez que l'IA ne conquiert le monde ? Vous faites peut-être des hypothèses plutôt non scientifiques

Un appareil portable inspiré de Star Trek pour des diagnostics médicaux sophistiqués

Électronique