Étant donné une nouvelle description, Craft compose séquentiellement une mise en page de scène et récupère les entités d'une base de données vidéo pour créer des vidéos de scène complexes. Crédit :arXiv:1804.03608 [cs.CV]
Et si on vous disait que vous pouvez créer des dessins animés en travaillant simplement sur des descriptions textuelles ?
Les rapports indiquent qu'un groupe de chercheurs a dévoilé une IA capable de créer des vidéos originales de "The Flintstones" à partir de descriptions textuelles.
Oui, ce sont des scènes créées par une intelligence artificielle. Considérez une description de scène :Fred porte un chapeau bleu et parle à Wilma dans le salon. Wilma s'assoit alors sur un canapé.
Composition, Réseau de récupération et de fusion, ou CRAFT, est le nom de leur modèle. Les auteurs ont noté qu'ils ont montré CRAFT sur Flintstones, un ensemble de données avec plus de 2, 500 vidéos et chacune 75 images de long.
Ils ont écrit un article, intitulé "Imagine This! Scripts to Compositions to Videos" et c'est sur arXiv. Les cinq chercheurs sont Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem et Aniruddha Kembhavi. Les affiliations des auteurs incluent l'Institut Allen pour l'intelligence artificielle (AI2), L'Université de l'Illinois Urbana-Champaign et l'Université de Washington.
Les auteurs ont dit qu'une fois qu'il est donné une nouvelle description, "Craft compose séquentiellement une mise en page de scène et récupère des entités à partir d'une base de données vidéo pour créer des vidéos de scène complexes."
Tristan Greene, Le prochain Web , a expliqué le fonctionnement de la technologie :« Craft utilise les annotations des vidéos pour déterminer comment les images originales correspondent aux mots utilisés pour les décrire. le dessin animé correspondent à leurs homologues en langage clair. Une fois qu'il comprend cette relation, il est capable de générer des clips vidéo basés sur de nouvelles entrées de texte qui ressemblent beaucoup au dessin animé sur lequel il a été formé."
Les auteurs ont également discuté de leur modèle basé sur le texte :
"Contrairement aux approches de génération de pixels, notre modèle d'apparence est basé sur la récupération de segment de texte en entité à partir d'une base de données vidéo. Des segments spatio-temporels sont extraits des vidéos récupérées et fusionnés pour générer la vidéo finale. La composition de la mise en page et la récupération d'entités fonctionnent de manière séquentielle qui est déterminée par la langue d'entrée."
Les auteurs ont déclaré que "CRAFT surpasse les approches de génération directe de pixels".
De façon intéressante, les téléspectateurs ont écrit des réponses allant de wow à tiède à confus.
Plusieurs pensaient que c'était génial; l'un a fait remarquer qu'il était "plus avancé que je ne l'aurais imaginé" et un autre a dit "il semble toujours que quelqu'un ait essayé d'animer pour la première fois sur un logiciel de démonstration. Il semble qu'il ait du potentiel, bien que."
Un autre observateur était plus confus que surpris. "Je suis confus. D'après ce que j'ai compris, l'IA a appris 25 000 dessins animés entièrement annotés. Et puis les chercheurs ont tapé un scénario de texte, et l'IA vient de trouver des images qui lui correspondent ? Ne s'agit-il pas simplement d'une simple récupération de l'extrait vidéo correspondant sur la base d'une recherche de texte dans la base de données annotée ? Qu'est-ce que je rate?"
Des écrivains sur des sites technologiques ont offert leur point de vue sur cette recherche. En se référant aux vidéos, Le prochain Web est intervenu. OK, c'est un "petit clip glitch, " comme l'a dit Tristan Greene. Tout de même, il ajouta, "Le petit clip glitch d'aujourd'hui, généré à partir de phrases de texte simples, pourrait conduire à ce que le divertissement de demain soit créé à partir de zéro par l'IA au lieu de studios pleins de monde. »
Andrew Liszewski dans Gizmodo de même constaté que la qualité des animations générées était "au mieux horrible" et "personne ne se laissera berner en pensant qu'il s'agit des originaux de Hanna-Barbera". Néanmoins, il ajouta, voir une IA générer un dessin animé, avec des personnages emblématiques, tout seul, était "un aperçu fascinant de la façon dont certains films et émissions de télévision pourraient être réalisés un jour".
Lucy Black a écrit dimanche, dans je programmeur que « Ceci est plus qu'une autre astuce intelligente avec les réseaux de neurones. C'est un signe que l'IA se dirige vers des systèmes plus grands où les réseaux de neurones profonds effectuent différentes tâches et travaillent ensemble pour créer la solution. Vous pourriez l'appeler la deuxième étape de neurones profonds. réseaux."
D'ACCORD, question sans réponse :les animateurs perdraient-ils leur emploi. Noir a dit, "Oui, je suppose qu'avec du temps et des efforts, quelque chose comme CRAFT pourrait être développé en un générateur de dessins animés et mettre des milliers d'animateurs au chômage, mais l'infographie est déjà en train de gruger ce marché du travail."
© 2018 Tech Xplore