Exemples d'images de bandes-annonces vidéo Moviescope montrant la diversité de l'ensemble de données proposé. Crédit :Sitaraman et al.
Une équipe de chercheurs de l'Université de Virginie a récemment effectué une analyse à grande échelle visant à identifier les caractéristiques des bandes-annonces de films qui prédisent le mieux le genre et le budget estimé d'un film. Dans leur étude, décrit dans un article prépublié sur arXiv, les chercheurs ont spécifiquement comparé l'efficacité du visuel, l'audio, texte, et des fonctionnalités basées sur les métadonnées.
"La compréhension de la vidéo est la prochaine frontière après la compréhension de l'image, " Vicente Ordonez, l'un des chercheurs qui a mené l'étude, Raconté TechXplore . "Toutefois, de nombreux travaux sur la compréhension de la vidéo se sont jusqu'à présent concentrés sur de courts clips avec un humain effectuant une seule action. Nous voulions quelque chose de plus long, mais il y a aussi la question de la puissance de calcul. Les bandes-annonces vidéo semblaient être un compromis intermédiaire, comme ils affichent une multitude de choses, d'effrayant à drôle."
Les bandes-annonces de films sont courtes et peuvent facilement être associées à des descriptions de films. Ordonez et ses collègues ont réalisé que ces caractéristiques les rendent idéales pour étudier les parallèles entre la vidéo et le langage.
En outre, des études récentes ont introduit plusieurs outils prometteurs pour analyser des images associées à des descriptions textuelles. Les chercheurs étaient curieux d'évaluer certaines de ces techniques sur des tâches de reconnaissance vidéo.
Initialement, lorsqu'ils ont essayé d'appliquer des méthodes bien établies d'analyse de courts clips vidéo à des bandes-annonces de films, les résultats ont été décevants. Ils ont donc décidé de mener une enquête approfondie pour identifier les fonctionnalités les plus efficaces pour analyser les bandes-annonces de films.
« Nous avons constaté que la combinaison de toutes les modalités (c'est-à-dire la vidéo, texte, audio et métadonnées), nous avons pu recueillir des informations précieuses sur les corrélations attendues entre des genres spécifiques et une modalité particulière, par exemple, que les caractéristiques visuelles sont plus précieuses lors de la prédiction d'un film animé ou non, " Paola Cascante-Bonilla, un autre chercheur impliqué dans l'étude, a déclaré TechXplore. "De plus, nous avons constaté que l'inclusion de l'audio dans nos expériences améliore considérablement les performances de prédiction de genre par rapport à l'utilisation uniquement de la vidéo, texte et métadonnées."
Les chercheurs ont observé qu'en analysant des affiches de films entraînaient des résultats insatisfaisants, en se concentrant sur toutes les fonctionnalités du film présentées dans une bande-annonce (c'est-à-dire une vidéo, texte, audio et métadonnées) a conduit à des améliorations significatives. Ces résultats sont particulièrement remarquables, car ils pourraient aider à développer des outils plus efficaces pour analyser les films et servir de base à de futures études de recherche.
De façon intéressante, lorsque vous vous concentrez sur la vidéo, données textuelles et audio extraites de bandes-annonces, Ordonez, Cascante-Bonilla et leurs collègues ont pu estimer le genre d'un film avec une précision comparable à celle obtenue en analysant les métadonnées du film (c'est-à-dire des informations sur ses acteurs, réalisateur, etc.). Les techniques utilisées par les chercheurs dans leur étude, qui combinent différentes fonctionnalités/modalités, pourrait donc être utilisé pour analyser un plus large éventail de films.
Dans leur étude, l'équipe a également introduit un nouvel ensemble de données pour la formation et l'évaluation des outils d'analyse des films. Cet ensemble de données, appelé Moviescope, comprend 5, 000 films, avec leurs remorques correspondantes, affiches de cinéma, intrigues de films et métadonnées associées.
"Nos résultats suggèrent qu'un simple résumé textuel d'un film n'est pas suffisant pour différencier un film d'animation d'un film d'un autre genre, " dit Siva Sivaraman, un autre chercheur impliqué dans l'étude qui travaille maintenant chez Microsoft. « Vous devez « voir » la bande-annonce pour pouvoir décider si un film donné est animé ou non. La technique d'attention modale que nous avons utilisée nous permet d'identifier et d'analyser les caractéristiques auxquelles le modèle accorde une plus grande attention lors de la prédiction d'un genre particulier. Comme nous l'avions prédit, le modèle apprend à peser la caractéristique visuelle par rapport aux autres caractéristiques tout en faisant des prédictions pour le genre d'animation."
Les résultats recueillis par cette équipe de chercheurs pourraient avoir des implications importantes à la fois pour l'analyse des films et pour la publicité cinématographique. À l'avenir, d'autres groupes de recherche pourraient utiliser ces observations pour développer des outils plus efficaces pour prédire des aspects spécifiques des films. En outre, les techniques utilisées par Ordonez et ses collègues pourraient informer l'industrie de la publicité sur la façon de créer des bandes-annonces plus percutantes.
« Nous prévoyons maintenant d'utiliser des intrigues de films et des affiches pour analyser la façon dont les films sont annoncés et faire des recommandations pour maximiser l'efficacité de la publicité cinématographique du point de vue des consommateurs et des distributeurs, " a dit Ordonez.
© 2019 Réseau Science X