Le système de logiciel vidéo synchronise les lèvres avec d'autres langues

Alors que les systèmes de traduction actuels ne peuvent générer que des sorties vocales traduites ou des sous-titres textuels pour le contenu vidéo, le protocole de traduction automatique face à face peut synchroniser le visuel, Ainsi, le style de voix et le mouvement des lèvres correspondent à la langue cible. Prajwal Renukanand

Une équipe de chercheurs en Inde a mis au point un système pour traduire des mots dans une langue différente et faire apparaître que les lèvres d'un locuteur se déplacent en synchronisation avec cette langue.

Traduction automatique en face à face, comme décrit dans ce document d'octobre 2019, est une avancée par rapport à la traduction texte-à-texte ou parole-parole, car il ne traduit pas seulement la parole, mais fournit également une image faciale synchronisée avec les lèvres.

Pour comprendre comment cela fonctionne, regardez la vidéo de démonstration ci-dessous, créé par les chercheurs. À 6h38, vous verrez un clip vidéo de la défunte princesse Diana dans une interview de 1995 avec le journaliste Martin Bashir, expliquer, "Je voudrais être la reine du cœur des gens, dans le coeur des gens, mais je ne me vois pas être une reine de ce pays."

Un moment plus tard, vous la verrez prononcer la même citation en hindi - avec ses lèvres en mouvement, comme si elle parlait réellement cette langue.

« Communiquer efficacement au-delà des barrières linguistiques a toujours été une aspiration majeure pour les humains du monde entier, " Prajwal K.R., un étudiant diplômé en informatique à l'Institut international des technologies de l'information à Hyderabad, Inde, explique par e-mail. Il est l'auteur principal de l'article, avec son collègue Rudrabha Mukhopadhyay.

"Aujourd'hui, Internet regorge de vidéos de visages parlants :YouTube (300 heures uploadées par jour), conférences en ligne, vidéo conférence, films, émissions de télévision et ainsi de suite, " Prajwal, qui porte son prénom, écrit. « Les systèmes de traduction actuels ne peuvent générer qu'une sortie vocale traduite ou des sous-titres textuels pour un tel contenu vidéo. Ils ne gèrent pas la composante visuelle. En conséquence, le discours traduit lorsqu'il est superposé à la vidéo, les mouvements des lèvres seraient désynchronisés avec l'audio.

"Ainsi, nous nous appuyons sur les systèmes de traduction parole-parole et proposons un pipeline qui peut prendre une vidéo d'une personne parlant dans une langue source et produire une vidéo du même locuteur parlant dans une langue cible de telle sorte que le style de voix et les mouvements des lèvres correspondent le discours de la langue cible, " dit Prajwal. " Ce faisant, le système de traduction devient holistique, et comme le montrent nos évaluations humaines dans cet article, améliore considérablement l'expérience utilisateur dans la création et la consommation de contenu audiovisuel traduit."

La traduction en face à face nécessite un certain nombre d'exploits complexes. « Vu une vidéo d'une personne qui parle, nous avons deux grands flux d'informations à traduire :l'information visuelle et l'information vocale, " explique-t-il. Ils y parviennent en plusieurs étapes majeures. " Le système transcrit d'abord les phrases du discours à l'aide de la reconnaissance automatique de la parole (ASR). Il s'agit de la même technologie que celle utilisée dans les assistants vocaux (Google Assistant, par exemple) dans les appareils mobiles." Ensuite, les phrases transcrites sont traduites dans la langue souhaitée à l'aide de modèles de traduction automatique neuronale, puis la traduction est convertie en mots parlés avec un synthétiseur de synthèse vocale - la même technologie que celle utilisée par les assistants numériques.

Finalement, une technologie appelée LipGAN corrige les mouvements des lèvres dans la vidéo originale pour correspondre au discours traduit.