La structure de la méthode 3D basée sur CNN décrite dans le document. Crédit :Li et al.
Chercheurs de l'Université chinoise du pétrole (CUP), À Pékin, ont récemment développé une nouvelle méthode de détection de violence multijoueur basée sur des réseaux de neurones convolutifs (CNN) 3-D profonds. Leur méthode a été présentée dans un article publié dans ICNCC 2018:Proceedings of the 2018 VII International Conference on Network, Communication et informatique.
Dans les années récentes, les progrès de la vision par ordinateur et de l'intelligence artificielle (IA) ont conduit au développement de systèmes de vidéosurveillance de plus en plus sophistiqués, qui peut aider les autorités locales à prévenir la criminalité et à surveiller plus efficacement les espaces publics. Malgré ces évolutions, les systèmes de surveillance en temps réel les plus actuels reposent sur le travail manuel d'agents humains, ce qui peut prendre du temps, et aboutit parfois à l'échec de la détection de toutes les activités illicites.
Les chercheurs ont ainsi tenté de développer des systèmes de surveillance intelligents et de haute précision qui permettraient aux autorités d'identifier plus rapidement et plus efficacement les comportements inhabituels. L'ajout de modules d'analyse vidéo intelligents à un système de surveillance lui permettrait à terme d'analyser de manière autonome les informations et de repérer les situations anormales.
L'une des priorités clés dans le domaine de la sécurité et de la surveillance est d'identifier les comportements violents dans les espaces publics afin d'intervenir rapidement et d'assurer la sécurité des autres membres de la communauté. Avec ça en tête, l'équipe de chercheurs du CUP a entrepris de développer une méthode d'apprentissage automatique capable de détecter rapidement les comportements violents, simplement en analysant les séquences de vidéosurveillance. La méthode proposée par les chercheurs utilise un CNN 3-D, qui est formé pour analyser des vidéos et détecter des actes violents commis par plusieurs personnes.
« Détection de la violence dans les scènes bondées (comme les centres commerciaux, banques et stades) est très important, mais peu de recherches ont été faites [dans ce domaine], " les chercheurs ont écrit dans leur article. " Sur la base de cette situation, cet article propose une méthode de détection de violence multijoueur basée sur un réseau de neurones convolutifs tridimensionnels (3-D CNN) qui extrait les informations de caractéristiques spatio-temporelles de la violence multijoueur."
Actuellement, il existe deux types de méthodes pour détecter la violence dans les vidéos. Le premier type implique l'utilisation de l'extraction de caractéristiques traditionnelle et d'un classificateur, tandis que la seconde utilise des techniques d'apprentissage en profondeur. La nouvelle méthode mise au point par les chercheurs appartient à cette dernière catégorie, car des études antérieures suggèrent que les modèles d'apprentissage en profondeur pour la détection de la violence sont plus pratiques et efficaces que les approches traditionnelles.
Former et évaluer leur méthode, les chercheurs ont utilisé 500 vidéos multijoueurs de violence et 500 vidéos multijoueurs non violentes, avec des résolutions jusqu'à 1920*1080. Leur modèle CNN pour la détection de violence est inspiré d'un réseau développé par Facebook AI Lab, en 2014.
Pour évaluer leur méthode, les chercheurs ont mené une série d'expériences sur la Nvidia Tesla K80. Leur méthode s'est avérée très précise, surpassant trois approches traditionnelles de détection de la violence qui fonctionnent en extrayant artificiellement des caractéristiques. À l'avenir, leur CNN 3-D pourrait être développé davantage, permettant aux utilisateurs de déterminer également l'emplacement des conflits violents qui se produisent dans les vidéos.
© 2019 Réseau Science X