Dans un processus de reconstruction faciale en 3D développé à l'Université Carnegie Mellon, vidéo smartphone d'une personne, la gauche, est analysé pour produire un modèle imparfait du visage, milieu. L'apprentissage profond est ensuite combiné avec des techniques classiques de vision par ordinateur pour compléter la reconstruction, droit. Crédit :Université Carnegie Mellon
Normalement, il faut un équipement coûteux et une expertise pour créer une reconstruction 3D précise du visage de quelqu'un qui est réaliste et n'a pas l'air effrayant. Maintenant, Des chercheurs de l'Université Carnegie Mellon ont réussi l'exploit en utilisant une vidéo enregistrée sur un smartphone ordinaire.
L'utilisation d'un smartphone pour filmer en continu l'avant et les côtés du visage génère un nuage de données dense. Un processus en deux étapes développé par le Robotics Institute de la CMU utilise ces données, avec l'aide d'algorithmes d'apprentissage en profondeur, pour construire une reconstruction numérique du visage. Les expériences de l'équipe montrent que leur méthode peut atteindre une précision submillimétrique, surpassant les autres processus basés sur une caméra.
Un visage numérique peut être utilisé pour créer un avatar pour le jeu ou pour la réalité virtuelle ou augmentée, et pourrait également être utilisé dans l'animation, l'identification biométrique et même les procédures médicales. Un rendu 3D précis du visage pourrait également être utile dans la construction de masques chirurgicaux ou de respirateurs personnalisés.
"Construire une reconstruction 3D du visage a été un problème ouvert en vision par ordinateur et en graphisme car les gens sont très sensibles à l'apparence des traits du visage, " dit Simon Lucey, professeur agrégé de recherche à l'Institut de robotique. "Même de légères anomalies dans les reconstructions peuvent rendre le résultat final irréaliste."
Scanners laser, les configurations de studio à lumière structurée et multicaméras peuvent produire des scans très précis du visage, mais ces capteurs spécialisés sont d'un coût prohibitif pour la plupart des applications. La nouvelle méthode de CMU, cependant, ne nécessite qu'un smartphone.
La méthode, que Lucey a développé avec les étudiants à la maîtrise Shubham Agrawal et Anuj Pahuja, a été présenté début mars à l'IEEE Winter Conference on Applications of Computer Vision (WACV) à Snowmass, Colorado. Cela commence par le tournage de 15 à 20 secondes de vidéo. Dans ce cas, les chercheurs ont utilisé un iPhone X au ralenti.
« La fréquence d'images élevée du ralenti est l'un des éléments clés de notre méthode car elle génère un nuage de points dense, " dit Lucey.
Les chercheurs emploient ensuite une technique couramment utilisée appelée localisation et cartographie visuelles simultanées (SLAM). Visual SLAM triangule des points sur une surface pour calculer sa forme, tout en utilisant ces informations pour déterminer la position de la caméra. Cela crée une géométrie initiale du visage, mais les données manquantes laissent des lacunes dans le modèle.
Dans la deuxième étape de ce processus, les chercheurs s'efforcent de combler ces lacunes, d'abord en utilisant des algorithmes d'apprentissage en profondeur. Le deep learning est utilisé de manière limitée, cependant :il identifie le profil de la personne et des repères tels que les oreilles, yeux et nez. Des techniques classiques de vision par ordinateur sont ensuite utilisées pour combler les lacunes.
"Le deep learning est un outil puissant que nous utilisons au quotidien, " dit Lucey. " Mais le deep learning a tendance à mémoriser des solutions, " qui va à l'encontre des efforts visant à inclure des détails distinctifs du visage. " Si vous utilisez ces algorithmes uniquement pour trouver les points de repère, vous pouvez utiliser des méthodes classiques pour combler les lacunes beaucoup plus facilement."
La méthode n'est pas nécessairement rapide; il a fallu 30 à 40 minutes de temps de traitement. Mais l'ensemble du processus peut être effectué sur un smartphone.
En plus des reconstructions de visage, les méthodes de l'équipe CMU pourraient également être utilisées pour capturer la géométrie de presque n'importe quel objet, dit Lucey. Les reconstructions numériques de ces objets peuvent ensuite être incorporées dans des animations ou peut-être transmises sur Internet vers des sites où les objets pourraient être dupliqués avec des imprimantes 3D.