• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Des chercheurs d'Intel développent un système de correction du contact visuel pour les chats vidéo

    Correction du contact visuel :dans le cadre de saisie (à gauche), l'utilisateur regarde l'écran. Dans le cadre de sortie (à droite), son regard est corrigé pour regarder dans la caméra. Crédits :Isikdogan, Gerasimow &Michael.

    Lorsque vous participez à un appel vidéo ou à une conférence, il est souvent difficile de maintenir un contact visuel direct avec les autres participants, car cela nécessite de regarder dans la caméra plutôt que sur l'écran. Bien que la plupart des gens utilisent régulièrement les services d'appel vidéo, jusque là, il n'y a pas eu de solution généralisée à ce problème.

    Une équipe de chercheurs d'Intel a récemment développé un modèle de correction du contact visuel qui pourrait aider à surmonter cette nuisance en rétablissant le contact visuel dans les chats vidéo en direct, quel que soit l'emplacement de la caméra et de l'écran d'un appareil. Contrairement aux approches proposées précédemment, ce modèle centre automatiquement le regard d'une personne sans avoir besoin d'entrées spécifiant l'angle de redirection ou la géométrie caméra/écran/utilisateur.

    "L'objectif principal de notre projet est d'améliorer la qualité des expériences de visioconférence en facilitant le maintien du contact visuel, " Léo Isikdogan, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. « Il est difficile de maintenir le contact visuel lors d'un appel vidéo car il n'est pas naturel de regarder dans la caméra pendant un appel. Les gens regardent l'image de l'autre personne sur leur écran, ou parfois ils regardent même leur propre image d'aperçu, mais pas dans l'appareil photo. Avec cette nouvelle fonction de correction du contact visuel, les utilisateurs pourront avoir une conversation naturelle en face à face."

    L'objectif principal de l'étude menée par Isikdogan et ses collègues était de créer une expérience de chat vidéo naturelle. Pour y parvenir, ils voulaient uniquement que leur fonction de correction du contact visuel fonctionne lorsqu'un utilisateur est engagé dans la conversation, plutôt que lorsqu'ils quittent naturellement les yeux de l'écran (par exemple lorsqu'ils regardent des papiers ou manipulent des objets dans leur environnement).

    "Correction du contact visuel et redirection du regard en général, ne sont pas de nouvelles idées de recherche, " a déclaré Isikdogan. " De nombreux chercheurs ont proposé des modèles pour manipuler l'endroit où les gens regardent dans les images. Cependant, certains d'entre eux nécessitent des configurations matérielles spéciales, d'autres ont besoin d'informations supplémentaires de la part de l'utilisateur, tels que vers quelle direction et de combien la redirection doit être, et d'autres utilisent des processus coûteux en calculs qui ne sont réalisables que pour le traitement de vidéos préenregistrées."

    Le nouveau système développé par Isikdogan et ses collègues utilise un réseau de neurones à convolution profonde (CNN) pour rediriger le regard d'une personne en déformant et en ajustant les yeux dans ses images d'entrée. Essentiellement, le CNN traite une image monoculaire et produit un champ vectoriel et une carte de luminosité pour corriger le regard d'un utilisateur.

    Contrairement aux approches proposées précédemment, leur système peut fonctionner en temps réel, prêt à l'emploi et sans nécessiter aucune intervention des utilisateurs ou du matériel dédié. De plus, le correcteur fonctionne sur une variété d'appareils avec différentes tailles d'affichage et positions de caméra.

    "Notre correcteur de contact visuel utilise un ensemble de mécanismes de contrôle qui empêchent les changements brusques et garantissent que le correcteur de contact visuel évite d'effectuer toute correction non naturelle qui serait autrement effrayante, " dit Isikdogan. " Par exemple, la correction est désactivée en douceur lorsque l'utilisateur cligne des yeux ou regarde quelque part au loin."

    Les chercheurs ont entraîné leur modèle de manière bidirectionnelle sur un grand ensemble de données générées synthétiquement, images photoréalistes et étiquetées. Ils ont ensuite évalué son efficacité et comment les utilisateurs la percevaient dans une série de tests à l'aveugle.

    "Nos tests à l'aveugle ont montré que la plupart des gens ne savent pas quand nous activons ou désactivons notre algorithme, ils ne voient aucun artefact mais ont juste l'impression d'avoir un contact visuel avec la personne avec qui ils communiquent, " Gilad Michel, un autre chercheur impliqué dans l'étude, a déclaré TechXplore.

    De façon intéressante, les chercheurs ont observé que leur modèle avait également appris à prédire le regard d'entrée (c'est-à-dire, où il pensait qu'un utilisateur regardait avant que son regard ne soit corrigé), même s'il n'a jamais été formé pour le faire. Ils pensent que cette capacité pourrait être un sous-produit de la redirection continue du modèle du regard d'un utilisateur vers le centre, sans spécifier où un utilisateur cherchait en premier lieu.

    "Le modèle a simplement déduit le regard d'entrée pour qu'il puisse le déplacer vers le centre, " expliqua Isikdogan. " Par conséquent, nous pouvons sans doute considérer le problème de correction du contact visuel comme un super-ensemble partiel de prédiction du regard."

    Les résultats recueillis par les chercheurs soulignent également l'intérêt d'utiliser des données synthétiques photoréalistes pour former des algorithmes. En réalité, leur modèle a obtenu des résultats remarquables même si lors de la formation, il s'est appuyé presque entièrement sur des images générées par ordinateur. Les chercheurs sont loin d'être les premiers à expérimenter des données d'entraînement synthétiques, pourtant leur étude est une confirmation supplémentaire de son potentiel pour la création d'applications très performantes.

    « Nous avons également confirmé que c'est une bonne pratique de garder à l'esprit la réversibilité de la cartographie lors de la création de modèles qui manipulent leurs entrées, » ajouta Isikdogan. « Par exemple, si le modèle déplace quelques pixels du bas à gauche vers le centre, nous devrions pouvoir demander au modèle de les déplacer en bas à gauche et d'obtenir une image presque identique à l'image d'origine. Cette approche empêche le modèle de modifier les images de manière irréparable."

    À l'avenir, le système proposé par Isikdogan, Michael et leur collègue Timo Gerasimow pourraient contribuer à améliorer les expériences de visioconférence, les rapprochant encore plus des interactions en personne. Les chercheurs envisagent maintenant de finaliser leur système afin qu'il puisse être appliqué aux services de vidéoconférence existants.

    "Nous mettons beaucoup d'efforts pour nous assurer que notre solution est pratique et prête à être utilisée dans de vrais produits, ", a déclaré Michael. "Nous pourrions maintenant essayer d'améliorer certaines des conclusions de sous-produits de l'algorithme, telles que la détection du regard et l'évaluation de l'engagement pour permettre des cas d'utilisation adjacents."

    © 2019 Réseau Science X




    © Science https://fr.scienceaq.com