• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Des recherches approfondies éclairent le nouveau possible dans le domaine des images naturelles et synthétiques

    Crédit :Microsoft

    Une paire d'articles révolutionnaires sur la vision par ordinateur ouvrent de nouvelles perspectives sur les possibilités dans les domaines de la création d'images naturelles très réalistes et de la synthèse réaliste, images faciales préservant l'identité. Dans CVAE-GAN :génération d'images à grain fin par entraînement asymétrique, présenté en octobre dernier à ICCV 2017 à Venise, l'équipe de chercheurs de Microsoft et de l'Université des sciences et technologies de Chine a mis au point un modèle de génération d'images basé sur un réseau contradictoire génératif d'autoencodeur variationnel capable de synthétiser des images naturelles dans ce que l'on appelle des catégories à grain fin. Les catégories à grain fin incluraient les visages d'individus spécifiques, dire des célébrités, ou des objets du monde réel tels que des types spécifiques de fleurs ou d'oiseaux.

    Les chercheurs – Dong Chen, Fang Wen et Gang Hua de Microsoft, Jianmin Bao, stagiaire chez Microsoft Research, avec Houqiang Li de l'Université des sciences et technologies de Chine - en cherchant comment mieux construire des modèles génératifs efficaces d'images naturelles étaient aux prises avec un problème clé de la vision par ordinateur :comment générer des images très diverses et pourtant réalistes en faisant varier un nombre fini de paramètres latents liés à la distribution naturelle de toute image dans le monde. Le défi consistait à proposer un modèle génératif pour capturer ces données. Ils ont opté pour une approche utilisant des réseaux antagonistes génératifs combinés à un auto-encodeur variationnel pour élaborer leur cadre d'apprentissage. L'approche modélise n'importe quelle image comme une composition d'étiquettes et d'attributs latents dans un modèle probabiliste. En faisant varier l'étiquette de catégorie à grain fin (par exemple, "loiole" ou "étourneau" pour des types d'oiseaux spécifiques, ou les noms de célébrités spécifiques) qui seraient introduits dans le modèle génératif, l'équipe a pu synthétiser des images dans des catégories spécifiques en utilisant des valeurs tirées au hasard en ce qui concerne les attributs latents. Ce n'est que récemment que ce type d'apprentissage en profondeur rend possible la modélisation de la distribution d'images d'objets spécifiques dans le monde, nous permettant de tirer de ce modèle pour synthétiser essentiellement l'image, a expliqué Gang Hua, chercheur principal chez Microsoft Research à Redmond, Washington.

    « Notre approche a deux aspects nouveaux, " dit Hua. " D'abord, nous avons adopté une perte d'entropie croisée pour le réseau discriminant et classificateur, mais avons opté pour un objectif d'écart moyen pour le réseau génératif. la formation des GANs plus stable, ", a déclaré Hua. "Nous avons conçu une perte asymétrique pour résoudre le problème d'instabilité dans la formation des GAN vanille qui résout spécifiquement les difficultés numériques lors de la correspondance de deux distributions ne se chevauchant pas."

    L'autre innovation était l'adoption d'un réseau d'encodeurs capable d'apprendre la relation entre l'espace latent et d'utiliser l'appariement de caractéristiques par paires pour conserver la structure des images synthétisées.

    Expérimenter avec des images naturelles - de véritables photographies de choses réelles trouvées dans la nature telles que des visages, fleurs et oiseaux, les chercheurs ont pu montrer que leurs modèles d'apprentissage automatique pouvaient synthétiser des images reconnaissables avec une variété impressionnante au sein de catégories très spécifiques. Les applications potentielles couvrent tout, de la peinture d'image, à l'augmentation des données et à de meilleurs modèles de reconnaissance faciale.

    "Notre technologie a relevé un défi fondamental dans la génération d'images, celui de la contrôlabilité des facteurs d'identité. Cela nous permet de générer des images telles que nous voulons qu'elles ressemblent. dit Hua."

    Visages de synthèse

    Comment poussez-vous plus loin le pouvoir de synthétiser des images réalistes de fleurs ou d'oiseaux ? Vous regardez des visages humains. Visages humains, lorsqu'il est pris dans le contexte de l'identité, sont parmi les images les plus sophistiquées pouvant être capturées dans la nature. Dans Vers une synthèse de visage préservant l'identité à ensemble ouvert, présenté ce mois-ci au CVPR 2018 à Salt Lake City, les chercheurs ont développé un cadre basé sur le GAN qui peut démêler l'identité et les attributs des visages, avec des attributs comprenant des propriétés intrinsèques telles que la forme du nez et de la bouche ou même l'âge, ainsi que des facteurs environnementaux, comme l'éclairage ou si le maquillage a été appliqué sur le visage. Alors que les précédents processus de synthèse de visage préservant l'identité se limitaient en grande partie à la synthèse de visages avec des identités connues qui étaient déjà contenues dans l'ensemble de données d'entraînement, les chercheurs ont développé une méthode pour réaliser une synthèse faciale préservant l'identité dans des domaines ouverts, c'est-à-dire pour un visage qui ne correspondait à aucun ensemble de données d'entraînement. Pour faire ça, ils ont atterri sur une méthode unique d'utilisation d'une image d'entrée d'un sujet qui produirait un vecteur d'identité et l'a combiné avec n'importe quelle autre image de visage d'entrée (pas de la même personne) afin d'extraire un vecteur d'attribut, comme la pose, émotion ou éclairage. Le vecteur d'identité et le vecteur d'attribut sont ensuite recombinés pour synthétiser un nouveau visage pour le sujet présentant l'attribut extrait. Notamment, le cadre n'a pas besoin d'annoter et de catégoriser les attributs de l'un des visages de quelque manière que ce soit. Il est entraîné avec une fonction de perte asymétrique pour mieux préserver l'identité et stabiliser les aspects d'apprentissage automatique. Impressionnant, il peut également exploiter efficacement des quantités massives d'images de visage d'entraînement non étiquetées (pensez à des images faciales aléatoires) pour améliorer encore la fidélité ou la précision des visages synthétisés.

    Une application de consommation évidente est l'exemple classique du défi du photographe de prendre une photo de groupe qui comprend des dizaines de sujets; l'objectif commun est la prise de vue idéale insaisissable dans laquelle tous les sujets sont capturés les yeux ouverts et même souriants. "Avec notre technologie, ce qui est bien, c'est que je pouvais littéralement rendre un visage souriant à chacun des participants de la prise de vue !" s'exclame Hua. Ce qui rend cela complètement différent de la simple retouche d'images, dit Hua, est que l'identité réelle du visage est préservée. En d'autres termes, bien que l'image d'un participant souriant soit synthétisée – un « moment » qui ne s'est en fait pas produit dans la réalité, le visage est incontestablement celui de l'individu; son identité a été préservée dans le processus d'altération de l'image.

    Hua voit de nombreuses applications utiles qui profiteront à la société et voit des améliorations constantes dans la reconnaissance d'images, la compréhension de la vidéo et même les arts.


    © Science https://fr.scienceaq.com