Le système GANpaint développé au MIT peut facilement ajouter des fonctionnalités à une image existante. A gauche, la photo originale d'une cuisine; à droite, la même cuisine avec l'ajout d'une fenêtre. Le co-auteur Jun-Yan Zhu pense qu'une meilleure compréhension des GAN aidera les chercheurs à mieux éradiquer les contrefaçons :« Cette compréhension peut potentiellement nous aider à détecter plus facilement les fausses images. » Crédit :Massachusetts Institute of Technology
Les smartphones d'aujourd'hui utilisent souvent l'intelligence artificielle (IA) pour rendre les photos que nous prenons plus nettes et plus claires. Mais et si ces outils d'IA pouvaient être utilisés pour créer des scènes entières à partir de zéro ?
Une équipe du MIT et d'IBM a maintenant fait exactement cela avec "GANpaint Studio, " un système qui peut générer automatiquement des images photographiques réalistes et éditer des objets à l'intérieur. En plus d'aider les artistes et les concepteurs à faire des ajustements rapides aux visuels, les chercheurs disent que le travail peut aider les informaticiens à identifier les "fausses" images.
David Bau, un doctorat étudiant au Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL), décrit le projet comme l'une des premières fois où des informaticiens ont pu réellement « peindre avec les neurones » d'un réseau de neurones, en particulier, un type de réseau populaire appelé réseau accusatoire génératif (GAN).
Disponible en ligne sous forme de démo interactive, GANpaint Studio permet à un utilisateur de télécharger une image de son choix et de modifier plusieurs aspects de son apparence, de la modification de la taille des objets à l'ajout d'éléments complètement nouveaux comme des arbres et des bâtiments.
Aubaine pour les créateurs
Dirigé par le professeur du MIT Antonio Torralba dans le cadre du MIT-IBM Watson AI Lab qu'il dirige, le projet a de vastes applications potentielles. Les concepteurs et les artistes pourraient l'utiliser pour apporter des modifications plus rapides à leurs visuels. L'adaptation du système aux clips vidéo permettrait aux éditeurs d'infographie de composer rapidement des arrangements spécifiques d'objets nécessaires pour un plan particulier. (Imaginer, par exemple, si un réalisateur a filmé une scène complète avec des acteurs mais a oublié d'inclure un objet en arrière-plan qui est important pour l'intrigue.)
GANpaint Studio pourrait également être utilisé pour améliorer et déboguer d'autres GAN en cours de développement, en les analysant pour les unités "artefacts" qui doivent être supprimées. Dans un monde où les outils d'IA opaques ont rendu la manipulation d'images plus facile que jamais, cela pourrait aider les chercheurs à mieux comprendre les réseaux de neurones et leurs structures sous-jacentes.
"À l'heure actuelle, les systèmes d'apprentissage automatique sont ces boîtes noires qu'on ne sait pas toujours comment améliorer, un peu comme ces vieux téléviseurs qu'il faut réparer en les frappant sur le côté, " dit Bau, auteur principal sur un article connexe sur le système avec une équipe supervisée par Torralba. "Cette recherche suggère que, alors qu'il peut être effrayant d'ouvrir le téléviseur et de jeter un œil à tous les fils, il y aura beaucoup d'informations significatives là-dedans. "
Une découverte inattendue est que le système semble en fait avoir appris quelques règles simples sur les relations entre les objets. Il sait en quelque sorte ne pas mettre quelque chose quelque part où il n'appartient pas, comme une fenêtre dans le ciel, et il crée également différents visuels dans différents contextes. Par exemple, s'il y a deux bâtiments différents dans une image et que le système est invité à ajouter des portes aux deux, il ne s'agit pas simplement d'ajouter des portes identiques - elles peuvent finalement sembler très différentes les unes des autres.
"Toutes les applications de dessin suivront les instructions de l'utilisateur, mais le nôtre pourrait décider de ne rien dessiner si l'utilisateur commande de placer un objet dans un endroit impossible, " dit Torralba. " C'est un outil de dessin avec une forte personnalité, et cela ouvre une fenêtre qui nous permet de comprendre comment les GAN apprennent à représenter le monde visuel."
Les GAN sont des ensembles de réseaux de neurones développés pour se concurrencer. Dans ce cas, un réseau est un générateur axé sur la création d'images réalistes, et le second est un discriminateur dont le but est de ne pas se laisser berner par le générateur. Chaque fois que le discriminateur "attrape" le générateur, il doit exposer la motivation interne de la décision, ce qui permet au générateur de s'améliorer continuellement.
"C'est vraiment époustouflant de voir comment ce travail nous permet de voir directement que les GAN apprennent réellement quelque chose qui commence à ressembler un peu au bon sens, " dit Jaakko Lehtinen, professeur agrégé à l'université finlandaise d'Aalto qui n'était pas impliqué dans le projet. "Je vois cette capacité comme un tremplin crucial pour avoir des systèmes autonomes qui peuvent réellement fonctionner dans le monde humain, qui est infini, complexe et en constante évolution."
Supprimer les "fausses" images indésirables
L'objectif de l'équipe a été de donner aux gens plus de contrôle sur les réseaux GAN. Mais ils reconnaissent qu'avec un pouvoir accru vient le potentiel d'abus, comme utiliser de telles technologies pour soigner les photos. Le co-auteur Jun-Yan Zhu dit qu'il pense qu'une meilleure compréhension des GAN - et des types d'erreurs qu'ils commettent - aidera les chercheurs à mieux éradiquer les contrefaçons.
"Vous devez connaître votre adversaire avant de pouvoir vous défendre contre lui, " dit Zhu, un post-doctorat au CSAIL. "Cette compréhension peut potentiellement nous aider à détecter plus facilement les fausses images."
Pour développer le système, l'équipe a d'abord identifié des unités à l'intérieur du GAN qui sont en corrélation avec des types d'objets particuliers, comme des arbres. Il a ensuite testé ces unités individuellement pour voir si leur suppression entraînerait la disparition ou l'apparition de certains objets. Surtout, ils ont également identifié les unités qui causent des erreurs visuelles (artefacts) et ont travaillé pour les supprimer afin d'augmenter la qualité globale de l'image.
« Chaque fois que les GAN génèrent des images terriblement irréalistes, la cause de ces erreurs était auparavant un mystère, " dit le co-auteur Hendrik Strobelt, un chercheur scientifique chez IBM. "Nous avons découvert que ces erreurs sont déclenchées par des ensembles spécifiques de neurones que nous pouvons faire taire pour améliorer la qualité de l'image."
Bau, Strobel, Torralba et Zhu ont co-écrit l'article avec l'ancien docteur CSAIL. étudiant Bolei Zhou, associé postdoctoral Jonas Wulff, et étudiant de premier cycle William Peebles. Ils le présenteront le mois prochain à la conférence SIGGRAPH à Los Angeles. « Ce système ouvre une porte vers une meilleure compréhension des modèles GAN, et cela va nous aider à faire tout type de recherche que nous devons faire avec les GAN, " dit Lehtinen.
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.