• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Des chercheurs enseignent aux réseaux de neurones pour déterminer les émotions de la foule

    Crédit :CC0 Domaine public

    Des chercheurs de la Higher School of Economics ont développé un algorithme qui détecte les émotions d'un groupe de personnes sur une vidéo de mauvaise qualité. La solution permet une décision finale en un centième de seconde seulement, qui est plus rapide que tout autre algorithme existant avec une précision similaire. Les résultats ont été décrits dans l'article « Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings ».

    L'analyse du comportement social des personnes à l'aide d'images et de vidéos est l'une des tâches les plus populaires pour les développeurs d'interfaces homme-machine intelligentes. Les chercheurs ont atteint une qualité assez élevée dans la reconnaissance des émotions au niveau du groupe, mais il restait impossible de mettre en œuvre ce développement à grande échelle. Le problème était l'exigence de la plupart des systèmes vidéo pour les images contenant des gros plans de visage en bonne résolution. Mais les caméras ordinaires installées dans la rue ou dans un supermarché ont une faible résolution et sont montées assez haut, de sorte que les régions faciales typiques des vidéos rassemblées sont très petites.

    Alexandre Tarasov et Andrey Savchenko, chercheurs du HSE, ont développé un algorithme comparable aux techniques existantes de reconnaissance des émotions au niveau du groupe en termes de précision de reconnaissance (75,5%). À la fois, il ne nécessite que 5 Mo dans la mémoire système, traite une image ou une image vidéo en un centième de seconde seulement et peut être utilisé avec des données vidéo de faible qualité.

    L'algorithme fonctionne en plusieurs étapes. D'abord, l'image est traitée avec le réseau de neurones MTCNN, qui est traditionnellement utilisé pour la détection de petits visages. Puis, les traits sont extraits de chaque face avec un réseau entièrement convolutif, qui a été préalablement formé pour classer les émotions des visages avec une très faible résolution, pas plus gros qu'une photo de profil sur les réseaux sociaux. La décision finale sur l'émotion (négatif, positif ou neutre) de l'ensemble du groupe est constitué par un ensemble de classificateurs connus (forêt aléatoire et machines à vecteurs de support) appliqués à la somme pondérée des vecteurs de caractéristiques de tous les visages détectés.

    Le nouveau développement peut potentiellement être utilisé dans divers systèmes de vidéosurveillance. Il peut aider à détecter les changements dans les émotions du groupe lors d'un concert, match de football, ou un rassemblement de protestation, qui peut aider à prévenir les conflits en temps opportun. Intégré dans un système de surveillance de supermarché, il détectera la réaction émotionnelle des consommateurs à diverses promotions. Avec des caméras enregistrant un discours public, il peut évaluer la réponse du public.


    © Science https://fr.scienceaq.com