Détection rapide d'objets dans les vidéos à l'aide de l'emballage de la région d'intérêt

Échantillon de trames consécutives traitées avec le mécanisme d'emballage ROI. Crédit :Athindran et al.

Chercheurs du Robert Bosch Center for Data Science and Artificial Intelligence et Center for Computational Brain Research, Institut indien de technologie de Madras, et Purdue University ont récemment développé une nouvelle méthode pour réduire les exigences de calcul pour la détection d'objets dans les vidéos à l'aide de réseaux de neurones. Leur technique, appelé Pack and Detect (PaD), a été décrit dans un article prépublié sur arXiv.

La détection d'objets est un aspect clé de nombreuses applications de vision par ordinateur, comme le suivi d'objets, résumé vidéo, et recherche de vidéos. Alors que les progrès récents de l'apprentissage automatique ont conduit au développement d'outils de plus en plus précis pour accomplir cette tâche, les méthodes existantes sont encore très gourmandes en calculs. Par exemple, traiter une vidéo en résolution 300 x 300 à l'aide du réseau de détection d'objets SSD300, avec VGG16 comme épine dorsale et à 30 ips nécessite 1,87 billion d'opérations en virgule flottante par seconde (FLOPS).

Les chercheurs ont observé que dans certains cas, cependant, la plupart des régions d'une image vidéo ne sont qu'un arrière-plan, avec des objets saillants occupant seulement une petite fraction de la zone dans le cadre. En outre, ils ont constaté qu'il existe une forte corrélation temporelle entre les trames consécutives. Ils ont tiré parti de ces observations et proposé une nouvelle technique de détection d'objets dans les vidéos qui pourrait réduire les exigences de calcul pour les tâches de détection d'objets.

"Nous nous sommes inspirés du mécanisme fovéal dans les systèmes de vision biologique et artificielle, " Athindran Ramesh Kumar, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. "Les efforts précédents concernant les mécanismes d'attention fovéale dans les systèmes de vision artificielle se concentrent sur une seule région de l'image ou sur un objet à la fois. Nous nous sommes demandé comment serait un système de vision s'il pouvait se concentrer sur toutes les régions saillantes de la scène à la fois ."

La méthode de détection d'objets mise au point par les chercheurs s'inspire ainsi des systèmes de vision biologique. Cependant, contrairement aux tentatives précédentes, leur système regroupe toutes les régions d'intérêt dans une seule trame, au lieu de les traiter séquentiellement.

"L'objectif de notre travail était d'accélérer la détection d'objets dans les vidéos en se concentrant uniquement sur les régions saillantes du cadre et en éliminant l'encombrement de l'arrière-plan, " Balaraman Ravindran, un autre chercheur qui a mené l'étude, a déclaré TechXplore. "Pour éliminer l'encombrement de l'arrière-plan, nous avons exploité la corrélation temporelle entre des images adjacentes dans une vidéo. Il s'agit d'une propriété que les techniques de compression vidéo utilisent pour réduire les besoins en stockage et en bande passante; nous l'utilisons pour accélérer le calcul."

Tampon, la méthode de détection d'objets proposée par Ravindran et ses collègues fonctionne en traitant des trames à intervalles réguliers en taille réelle. Ces cadres sont appelés "cadres d'ancrage". Dans tous les autres cadres, d'autre part, l'outil identifie les régions d'intérêt en fonction de l'emplacement dans lequel les objets étaient situés dans la trame précédente.

"Ces régions d'intérêt sont disposées ensemble comme dans un collage, qui sert d'entrée pour le détecteur d'objet, " Anand Raghunathan, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. « Les détections sont ensuite mappées aux emplacements de l'image d'origine. Cette méthode est plus rapide car les images de collage sont de taille plus petite que les images complètes. Nous tirons parti de la flexibilité des détecteurs d'objets populaires tels que SSD300 pour traiter les images à la fois en taille réelle et des tailles plus petites."

Les chercheurs ont évalué leur méthode sur l'ensemble de données ImageNet VID et ont constaté qu'elle accélérait les temps de 1,25 fois, avec une baisse de précision de moins de 1,6 %. En outre, ils ont observé que le temps de traitement des trames de plus petite taille était presque trois fois inférieur, avec le compte FLOP réduit de quatre fois.

En outre, leur étude a mis en évidence deux aspects importants qui pourraient éclairer le développement de méthodes de détection d'objets dans les vidéos plus rapides et moins gourmandes en calculs. D'abord, les objets d'intérêt n'occupent généralement qu'une petite fraction de pixels dans une trame; seconde, il existe une corrélation entre les images adjacentes dans une vidéo.

« Notre travail peut aider à rendre l'analyse vidéo possible sur des appareils aux ressources limitées à la périphérie de l'Internet des objets en réduisant les exigences de calcul, ou peut améliorer le nombre de flux vidéo pouvant être traités par un serveur dans le cloud, " dit Athindran.

L'étude menée par cette équipe de chercheurs est une première étape vers le développement d'outils de détection d'objets plus efficaces. Ils planifient maintenant d'autres investigations qui pourraient améliorer encore leur méthode.

Par exemple, actuellement, PaD sélectionne les cadres d'ancrage à intervalles réguliers, pourtant, les chercheurs pourraient développer un mécanisme qui identifie dynamiquement ces images clés. Ils prévoient également de tester leur technique sur du matériel plus limité en ressources, comme les smartphones, appareils portables et appareils ménagers intelligents.

"Nous avons fabriqué à la main un algorithme pour déduire les régions d'intérêt et former une image de collage, ", a déclaré Ravindran. "Mais un système entièrement neuronal aurait des réseaux de neurones qui génèrent l'image de collage sur la base de l'image précédente. Il s'agit d'une ligne de travail future plus ambitieuse."

La bataille de Fox-Comcast pour acheter Sky sera réglée par vente aux enchères au Royaume-Uni

Création de sculptures animées imprimées en 3D à partir de vidéos 2D

Électronique