Les chercheurs utilisent des bizarreries faciales pour démasquer les deepfakes

À gauche, La star de Saturday Night Live, Kate McKinnon, se fait passer pour Elizabeth Warren lors d'un sketch, et à droite, La technologie face swap deepfake a été utilisée pour superposer le visage de Warren sur celui de McKinnon. Crédit :UC Berkeley photo par Stephen McNally

Après avoir regardé des heures de séquences vidéo de l'ancien président Barack Obama prononçant son discours hebdomadaire, Shruti Agarwal a commencé à remarquer quelques bizarreries dans la façon dont Obama parle.

"Chaque fois qu'il dit 'Salut, Tout le monde, ' il bouge la tête vers la gauche ou la droite, puis il pince les lèvres, " dit Agarwal, un étudiant diplômé en informatique à l'UC Berkeley.

Agarwal et son directeur de thèse Hany Farid, un nouveau professeur au Département de génie électrique et d'informatique et à la School of Information de l'UC Berkeley, se précipitent pour développer des outils d'investigation numérique capables de démasquer les "deepfakes, " des vidéos hyper-réalistes générées par l'IA de personnes faisant ou disant des choses qu'elles n'ont jamais faites ou dites.

Voir ces schémas dans le vrai discours d'Obama a donné une idée à Agarwal.

"J'ai réalisé qu'il y a une chose commune entre tous ces deepfakes, et c'est qu'ils ont tendance à changer la façon dont une personne parle, " a déclaré Agarwal.

La perspicacité d'Agarwal l'a amenée avec Farid à créer la dernière arme dans la guerre contre les deepfakes :une nouvelle approche médico-légale qui peut utiliser les caractéristiques subtiles de la façon dont une personne parle, tels que les hochements de tête distincts d'Obama et les bourses à lèvres, pour reconnaître si une nouvelle vidéo de cette personne est réelle ou fausse.

Leur technique, qu'Agarwal a présenté cette semaine à la conférence Computer Vision and Pattern Recognition à Long Beach, CALIFORNIE, pourrait être utilisé pour aider les journalistes, créateurs de politiques, et le public garde une longueur d'avance sur les fausses vidéos de dirigeants politiques ou économiques qui pourraient être utilisées pour faire basculer une élection, déstabiliser un marché financier, ou même inciter aux troubles civils et à la violence.

Les chercheurs de l'UC Berkeley et de l'USC s'efforcent de créer de nouvelles techniques pour détecter les deepfakes de dirigeants politiques. Cette vidéo montre deux exemples de deepfakes, « échange de visage » et « synchronisation des lèvres, " qui ont été produits par des informaticiens de l'USC à des fins de recherche, et une nouvelle technique que l'équipe a développée pour les repérer. Crédit :UC Berkeley vidéo par Roxanne Makasdjian et Stephen McNally

"Imaginez un monde maintenant, où non seulement les nouvelles que vous lisez peuvent être réelles ou non, c'est le monde dans lequel nous vivons depuis deux ans, depuis les élections de 2016, mais où les images et les vidéos que vous voyez peuvent être réelles ou non, " dit Farid, qui commence son mandat à l'UC Berkeley le 1er juillet. "Il ne s'agit pas seulement de ces dernières avancées dans la création de fausses images et vidéos. C'est l'injection de ces techniques dans un écosystème qui fait déjà la promotion de fausses nouvelles, nouvelles sensationnelles et théories du complot."

La nouvelle technique fonctionne parce que les trois techniques de deepfake les plus courantes, appelées « lip-sync, " " échange de visage, " et " marionnettiste, "—implique de combiner l'audio et la vidéo d'une source avec une image d'une autre source, créant une déconnexion qui peut être découverte par un spectateur passionné ou un modèle informatique sophistiqué.

En utilisant la technique du « échange de visage », par exemple, on pourrait créer un deepfake de Donald Trump en superposant le visage de Trump sur une vidéo d'Alec Baldwin faisant une usurpation d'identité de Trump, de sorte que c'est presque comme si Baldwin portait un masque Trump moulant. Mais les expressions faciales de Baldwin apparaîtront toujours à travers le masque, dit Agarwal.

"La nouvelle image qui est créée aura les expressions et le comportement facial d'Alec Baldwin, mais le visage de Trump, " a déclaré Agarwal.

De même, dans un deepfake "lip-sync", Les algorithmes d'IA prennent une vidéo existante d'une personne en train de parler, et modifiez les mouvements des lèvres dans la vidéo pour qu'ils correspondent à ceux d'un nouvel audio, où l'audio peut être un discours plus ancien sorti de son contexte, un imitateur parlant, ou parole synthétisée. L'année dernière, L'acteur et réalisateur Jordan Peele a utilisé cette technique pour créer une vidéo virale d'Obama disant des choses incendiaires à propos du président Trump.

Mais dans ces vidéos, seuls les mouvements des lèvres sont modifiés, ainsi les expressions sur le reste du visage peuvent ne plus correspondre aux mots prononcés.

Pour tester l'idée, Agarwal et Farid ont rassemblé des séquences vidéo de cinq grandes personnalités politiques :Hillary Clinton, Barack Obama, Bernie Sanders, Donald Trump et Elizabeth Warren - et les ont fait passer par la boîte à outils open source d'analyse du comportement facial OpenFace2, qui détectait les tics faciaux comme les sourcils levés, rides du nez, des gouttes de mâchoire et des lèvres pressées.

Le logiciel de suivi OpenFace analyse une vraie vidéo du président Obama à gauche, et un deepfake "lip-sync" sur la droite. Crédit :UC Berkeley photo par Stephen McNally

Ils ont ensuite utilisé les sorties pour créer ce que l'équipe appelle des modèles « biométriques souples », qui mettent en corrélation les expressions faciales et les mouvements de la tête pour chaque leader politique. Ils ont découvert que chaque leader avait une façon distincte de parler et, lorsqu'ils ont utilisé ces modèles pour analyser de vraies vidéos et des deepfakes créés par leurs collaborateurs de l'Université de Californie du Sud, ils ont découvert que les modèles pouvaient distinguer avec précision le vrai du faux entre 92 et 96% du temps, selon le leader et la durée de la vidéo.

"L'idée de base est que nous pouvons construire ces modèles biométriques souples de divers leaders mondiaux, comme les candidats à la présidentielle de 2020, et alors que les vidéos commencent à se casser, par exemple, nous pouvons les analyser et essayer de déterminer si nous pensons qu'ils sont réels ou non, " dit Farid.

Contrairement à certaines techniques de criminalistique numérique, qui identifient les contrefaçons en repérant les artefacts d'image laissés pendant le processus de fabrication, la nouvelle méthode peut toujours reconnaître les contrefaçons qui ont été modifiées par un simple traitement numérique comme le redimensionnement ou la compression.

Mais ce n'est pas infaillible. La technique fonctionne bien lorsqu'elle est appliquée à des personnalités politiques prononçant des discours et des allocutions formelles, car elles ont tendance à s'en tenir à des comportements bien répétés dans ces contextes. Mais cela peut ne pas fonctionner aussi bien pour les vidéos de ces personnes dans d'autres contextes :par exemple, Obama peut ne pas faire le même hochement de tête caractéristique lorsqu'il salue ses amis.

Les créateurs de Deepfake pourraient également devenir avertis de ces modèles de discours et apprendre à les intégrer dans leurs vidéos de dirigeants mondiaux, les chercheurs ont dit.

Agarwal dit qu'elle espère que la nouvelle approche aidera à gagner un peu de temps dans la course en constante évolution pour repérer les deepfakes.

"Nous essayons juste de prendre le dessus dans ce jeu du chat et de la souris pour détecter et créer de nouveaux deepfakes, " a déclaré Agarwal.

Un robot miniature qui pourrait vérifier les côlons pour les premiers signes de maladie

D'un scanner cérébral, plus d'informations pour l'intelligence artificielle médicale

Électronique