Détecter les vidéos deepfake en un clin d'œil

Il est en fait très difficile de trouver des photos de personnes les yeux fermés. Crédit :Bulin/Shutterstock.com

Une nouvelle forme de désinformation est sur le point de se répandre dans les communautés en ligne alors que les campagnes électorales de mi-mandat 2018 s'intensifient. Appelées "deepfakes" d'après le compte en ligne pseudonyme qui a popularisé la technique - qui a peut-être choisi son nom car le processus utilise une méthode technique appelée "deep learning" - ces fausses vidéos semblent très réalistes.

Jusque là, les gens ont utilisé des vidéos deepfake dans la pornographie et la satire pour donner l'impression que des personnes célèbres font des choses qu'elles ne feraient pas normalement. Mais il est presque certain que des deepfakes apparaîtront pendant la saison de campagne, prétendant représenter des candidats disant des choses ou allant dans des endroits que le vrai candidat ne ferait pas.

Parce que ces techniques sont si nouvelles, les gens ont du mal à faire la différence entre les vraies vidéos et les vidéos deepfake. Mon travail, avec mon collègue Ming-Ching Chang et notre doctorant. étudiant Yuezun Li, a trouvé un moyen de distinguer de manière fiable les vraies vidéos des vidéos deepfake. Ce n'est pas une solution permanente, parce que la technologie s'améliorera. Mais c'est un début, et offre l'espoir que les ordinateurs pourront aider les gens à distinguer la vérité de la fiction.

Qu'est-ce qu'un 'deepfake, ' De toute façon?

Faire une vidéo deepfake, c'est un peu comme traduire entre les langues. Des services tels que Google Translate utilisent l'apprentissage automatique - une analyse informatique de dizaines de milliers de textes dans plusieurs langues - pour détecter les modèles d'utilisation des mots qu'ils utilisent pour créer la traduction.

C'est Barack Obama - ou est-ce?

Les algorithmes Deepfake fonctionnent de la même manière :ils utilisent un type de système d'apprentissage automatique appelé réseau de neurones profonds pour examiner les mouvements du visage d'une personne. Ensuite, ils synthétisent des images du visage d'une autre personne en faisant des mouvements analogues. Cela crée efficacement une vidéo de la personne cible semblant faire ou dire les choses que la personne source a faites.

Avant de pouvoir fonctionner correctement, les réseaux de neurones profonds ont besoin de beaucoup d'informations sources, telles que des photos des personnes étant la source ou la cible de l'usurpation d'identité. Plus il y a d'images utilisées pour entraîner un algorithme de deepfake, plus l'emprunt d'identité numérique sera réaliste.

Détection de clignotement

Il y a encore des failles dans ce nouveau type d'algorithme. L'un d'eux concerne la façon dont les visages simulés clignotent – ou pas. Les humains adultes en bonne santé clignent entre 2 et 10 secondes, et un seul clignement prend entre un dixième et quatre dixièmes de seconde. C'est ce qui serait normal de voir dans une vidéo une personne qui parle. Mais ce n'est pas ce qui se passe dans de nombreuses vidéos deepfake.

Comment les vidéos deepfake sont faites.

Lorsqu'un algorithme deepfake est formé sur des images de visage d'une personne, cela dépend des photos disponibles sur Internet qui peuvent être utilisées comme données d'entraînement. Même pour les personnes qui sont souvent photographiées, peu d'images sont disponibles en ligne montrant leurs yeux fermés. Non seulement de telles photos sont rares - parce que les yeux des gens sont ouverts la plupart du temps - mais les photographes ne publient généralement pas d'images où les yeux des sujets principaux sont fermés.

Sans formation d'images de personnes qui clignent des yeux, les algorithmes deepfake sont moins susceptibles de créer des visages qui clignotent normalement. Lorsque nous calculons le taux global de clignotement, et compare cela avec l'aire de répartition naturelle, nous avons constaté que les personnages des vidéos deepfake clignent beaucoup moins souvent des yeux que de vraies personnes. Notre recherche utilise l'apprentissage automatique pour examiner l'ouverture et la fermeture des yeux dans les vidéos.

Cela nous donne une inspiration pour détecter les vidéos deepfake. Ensuite, nous développons une méthode pour détecter quand la personne dans la vidéo cligne des yeux. Pour être plus précis, il scanne chaque image d'une vidéo en question, détecte les visages qu'il contient puis localise les yeux automatiquement. Il utilise ensuite un autre réseau de neurones profonds pour déterminer si l'œil détecté est ouvert ou fermé, en utilisant l'apparence des yeux, caractéristiques géométriques et mouvement.

Nous savons que notre travail profite d'une faille dans le type de données disponibles pour former des algorithmes de deepfake. Pour éviter de tomber en proie à un défaut similaire, nous avons formé notre système sur une grande bibliothèque d'images d'yeux ouverts et fermés. Cette méthode semble bien fonctionner, et comme résultat, nous avons atteint un taux de détection de plus de 95 %.

Ce n'est pas le dernier mot sur la détection des deepfakes, bien sûr. La technologie s'améliore rapidement, et la compétition entre la génération et la détection de fausses vidéos est analogue à un jeu d'échecs. En particulier, le clignotement peut être ajouté aux vidéos deepfake en incluant des images de visage avec les yeux fermés ou en utilisant des séquences vidéo pour l'entraînement. Les personnes qui veulent semer la confusion dans le public sauront mieux faire de fausses vidéos - et nous et d'autres membres de la communauté technologique devrons continuer à trouver des moyens de les détecter.

Une vraie personne cligne des yeux en parlant.

Un visage simulé ne clignote pas comme le fait une personne réelle.

Cet article a été initialement publié sur The Conversation. Lire l'article original.