Le système permet aux monteurs de films de modifier l'expression et la position de la tête d'un acteur une fois le tournage terminé. Crédit :Université de Bath
Les chercheurs ont développé un système utilisant l'intelligence artificielle qui peut modifier les expressions faciales des acteurs pour correspondre avec précision aux voix doublées, gain de temps et réduction des coûts pour l'industrie cinématographique. Il peut également être utilisé pour corriger la pose du regard et de la tête en visioconférence, et permet de nouvelles possibilités pour la postproduction vidéo et les effets visuels.
La technique a été développée par une équipe internationale dirigée par un groupe du Max Planck Institute for Informatics et comprenant des chercheurs de l'Université de Bath, Technicolor, TU Munich et Université de Stanford. L'oeuvre, appelé Deep Video Portraits, a été présenté pour la première fois lors de la conférence SIGGRAPH 2018 à Vancouver le 16 août.
Contrairement aux méthodes précédentes qui se concentrent uniquement sur les mouvements de l'intérieur du visage, Les portraits vidéo profonds peuvent également animer l'ensemble du visage, y compris les yeux, les sourcils, et position de la tête dans les vidéos, en utilisant des commandes connues de l'animation de visage d'infographie. Il peut même synthétiser un arrière-plan vidéo statique plausible si la tête est déplacée.
Hyeongwoo Kim du Max Planck Institute for Informatics explique :« Cela fonctionne en utilisant une capture des performances du visage en 3D basée sur un modèle pour enregistrer les mouvements détaillés des sourcils, bouche, nez, et la position de la tête de l'acteur de doublage dans une vidéo. Il transpose ensuite ces mouvements sur l'acteur "cible" dans le film pour synchroniser avec précision les mouvements des lèvres et du visage avec le nouveau son."
La recherche est actuellement au stade de la preuve de concept et doit encore fonctionner en temps réel, Cependant, les chercheurs prévoient que l'approche pourrait faire une réelle différence pour l'industrie du divertissement visuel.
Professeur Christian Théobalt, de l'Institut Max Planck d'informatique, a déclaré : « Malgré de nombreuses manipulations de post-production, le doublage de films en langues étrangères présente toujours un décalage entre l'acteur à l'écran et la voix doublée.
"Notre nouvelle approche Deep Video Portrait nous permet de modifier l'apparence d'un acteur cible en transférant la pose de la tête, expressions faciales, et le mouvement des yeux avec un haut niveau de réalisme."
Co-auteur de l'article, Dr Christian Richardt, du centre de recherche sur la capture de mouvement de l'Université de Bath CAMERA, ajoute:"Cette technique pourrait également être utilisée pour la post-production dans l'industrie cinématographique où l'édition d'images par ordinateur des visages est déjà largement utilisée dans les longs métrages d'aujourd'hui."
Un bon exemple est « L'étrange histoire de Benjamin Button » où le visage de Brad Pitt a été remplacé par une version modifiée de l'infographie dans presque toutes les images du film. Ce travail reste un processus très chronophage, nécessitant souvent de nombreuses semaines de travail par des artistes qualifiés.
"Deep Video Portraits montre comment un tel effet visuel pourrait être créé avec moins d'effort à l'avenir. Avec notre approche, même le positionnement de la tête d'un acteur et son expression faciale pourraient être facilement modifiés pour changer les angles de caméra ou changer subtilement le cadrage d'une scène pour mieux raconter l'histoire."
En outre, cette nouvelle approche peut également être utilisée dans d'autres applications, que les auteurs montrent sur le site Web de leur projet, par exemple dans les téléconférences vidéo et VR, où il peut être utilisé pour corriger le regard et la pose de la tête de manière à obtenir un cadre de conversation plus naturel. Le logiciel permet de nombreuses nouvelles applications créatives dans la production de médias visuels, mais les auteurs sont également conscients du potentiel d'utilisation abusive de la technologie moderne de montage vidéo.
Dr Michael Zollhöfer, de l'Université de Stanford, explique :« L'industrie des médias retouche des photos avec des logiciels de retouche photo depuis de nombreuses années, ce qui signifie que la plupart d'entre nous ont appris à prendre ce que nous voyons sur les photos avec une pincée de sel. Avec une technologie de montage vidéo en constante amélioration, nous devons également commencer à être plus critiques vis-à-vis du contenu vidéo que nous consommons chaque jour, surtout s'il n'y a pas de preuve d'origine. Nous pensons que le domaine de la criminalistique numérique devrait et recevra beaucoup plus d'attention à l'avenir pour développer des approches capables de prouver automatiquement l'authenticité d'un clip vidéo. Cela conduira à des approches toujours meilleures qui peuvent détecter de telles modifications même si nous, les humains, ne pouvons peut-être pas les repérer de nos propres yeux. »
Pour remédier à ce, l'équipe de recherche utilise la même technologie pour développer en tandem des réseaux de neurones formés pour détecter des vidéos générées ou éditées synthétiquement avec une grande précision afin de faciliter la détection des contrefaçons. Les auteurs n'ont pas l'intention de rendre le logiciel accessible au public, mais déclarent que tout logiciel mettant en œuvre les nombreux cas d'utilisation créatifs devrait inclure des schémas de filigrane pour marquer clairement les modifications.