Crédit :CC0 Domaine public
Avec des appareils à l'écoute partout où vous allez, les problèmes de confidentialité sont endémiques à l'avancement de la technologie. Les différentes techniques alimentées par l'audio de vos smartphones et haut-parleurs sont particulièrement sensibles, placer les consommateurs dans une analyse coûts-avantages constante entre la confidentialité et l'utilité.
Prendre, par exemple, une application mobile ou un assistant virtuel qui peut apprendre à s'adapter à l'humeur des utilisateurs et à reconnaître les émotions en temps réel. Ce type d'adaptation peut créer des conversations plus fluides, et plus utile, compréhension humaine des assistants vocaux. Mais où l'utilisateur trace-t-il la ligne si l'audio alimentant ces informations était stocké plein d'identifiants sur son sexe et ses informations démographiques ?
Un nouvel article de CSE Ph.D. l'étudiante Mimansa Jaiswal et la professeure Emily Mower Provost proposent une méthode pour supprimer cette barrière et permettre des technologies plus sécurisées basées sur l'apprentissage automatique (ML). Grâce à l'utilisation du ML contradictoire, ils ont démontré leur capacité à "désapprendre" ces identifiants sensibles de l'audio avant qu'il ne soit stocké, et à la place, utilisez des représentations simplifiées du locuteur pour former des modèles de reconnaissance des émotions.
Reconnaissance des émotions, analyse des sentiments, et d'autres techniques pour identifier automatiquement différentes caractéristiques complexes de la parole sont alimentées par des modèles ML entraînés sur d'énormes magasins de données étiquetées. Afin de repérer de manière fiable des modèles dans le discours d'un utilisateur, le modèle doit avoir une expérience d'entraînement significative avec un discours similaire qui l'aide à identifier certaines caractéristiques communes.
Ces systèmes qui traitent de la vie quotidienne des utilisateurs typiques de smartphones devront ensuite être formés sur un large éventail de paroles humaines ordinaires - essentiellement, enregistrements de conversations.
"L'espoir de cet article est de montrer que ces algorithmes d'apprentissage automatique finissent par encoder beaucoup d'informations sur le sexe ou les informations démographiques d'une personne, " dit Jaiswal. Ces informations démographiques sont stockées sur les serveurs de l'entreprise qui alimentent une application mobile ou un assistant vocal particulier, laissant l'utilisateur ouvert à l'identification par l'entreprise ou, pire, tout espion malveillant.
« Les implications des fuites d'informations sensibles sont profondes, " écrivent les auteurs. " La recherche a montré que la discrimination se produit entre les variables d'âge, course, et le genre à l'embauche, police, et les cotes de crédit."
Ces données audio d'identification, stocké sous sa forme brute, pourrait même remplacer les options de désinscription sélectionnées par l'utilisateur ailleurs dans l'application. Pour gérer cela, services déplacés vers le stockage des représentations obtenues après prétraitement sur le cloud, pour éviter les fuites d'informations.
Des travaux antérieurs sur l'encodage de données audio dans un souci de confidentialité ont tenté d'ajouter du bruit aléatoire à l'ensemble de données. Alors que la technique fonctionnait si l'auditeur n'avait aucune connaissance du type de bruit utilisé, à l'instant où l'attaquant a pu accéder au réseau générant l'anonymat, la méthode s'est effondrée.
Au lieu, Jaiswal et Mower Provost utilisent des techniques de ML contradictoires pour réduire l'encodage des caractéristiques démographiques et privées de l'audio brut avant même qu'il ne soit stocké. Ce qui reste est une représentation des données abstraites de l'enregistrement original. Les auteurs utilisent ces représentations pour masquer partiellement le contenu réel de la conversation, éliminer les risques pour la confidentialité liés au stockage de données en gros.
Le défi était, alors, pour garantir que ce nouveau format de données protégées par la confidentialité puisse toujours être utilisé pour former efficacement les modèles de ML à leur tâche principale. Ce que les chercheurs ont découvert, c'est qu'à mesure que la force de la composante accusatoire augmente, la métrique de confidentialité augmente principalement et les performances de la tâche principale restent inchangées, ou n'est que légèrement affecté.
"Nous constatons que la performance est soit maintenue, ou il y a une légère diminution des performances pour certaines configurations, " écrivent les auteurs. Dans plusieurs cas, ils ont même identifié une augmentation significative des performances, ce qui implique que rendre le modèle aveugle au genre augmente sa robustesse en n'apprenant pas les associations entre les étiquettes de genre et d'émotion.
Jaiswal espère utiliser ces résultats pour rendre la recherche en apprentissage automatique plus sûre et plus sécurisée pour les utilisateurs dans le monde réel.
"Les modèles ML sont principalement des modèles de boîte noire, " elle dit, "ce qui signifie que vous ne savez généralement pas exactement ce qu'ils encodent, quelles informations ils ont, ou si ces informations peuvent être utilisées à bon escient ou de manière malveillante. La prochaine étape consiste à comprendre la différence d'informations encodées entre deux modèles où la seule différence est que l'un a été formé pour protéger la vie privée. »
"Nous voulons améliorer la façon dont les humains perçoivent et interagissent avec ces modèles."
Cette recherche a été publiée dans l'article "Privacy Enhanced Multimodal Neural Representations for Emotion Recognition, " publié lors de la conférence 2020 de l'Association for the Advancement of Artificial Intelligence (AAAI).