Le détecteur « YouTube » aide à rendre l'IA plus centrée sur l'humain. Crédit :iStock
Lorsqu'un policier commence à lever la main dans la circulation, les conducteurs humains se rendent compte que l'agent est sur le point de leur faire signe de s'arrêter. Mais les ordinateurs ont plus de mal à déterminer les prochaines actions probables des personnes en fonction de leur comportement actuel. Maintenant, une équipe de chercheurs et de collègues d'A*STAR a développé un détecteur qui peut détecter avec succès où les actions humaines se produiront dans les vidéos, en temps quasi réel.
La technologie d'analyse d'images devra mieux comprendre les intentions humaines si elle doit être utilisée dans un large éventail d'applications, dit Hongyuan Zhu, informaticien à l'Institute for Infocomm Research d'A*STAR, qui a dirigé l'étude. Les voitures sans conducteur doivent pouvoir détecter les policiers et interpréter leurs actions rapidement et avec précision, pour une conduite en toute sécurité, il explique. Des systèmes autonomes pourraient également être formés pour identifier les activités suspectes telles que les combats, vol, ou laisser tomber des objets dangereux, et alerter les agents de sécurité.
Les ordinateurs sont déjà extrêmement efficaces pour détecter des objets dans des images statiques, grâce à des techniques d'apprentissage en profondeur, qui utilisent des réseaux de neurones artificiels pour traiter des informations d'image complexes. Mais les vidéos avec des objets en mouvement sont plus difficiles. « Comprendre les actions humaines dans les vidéos est une étape nécessaire pour construire des machines plus intelligentes et plus conviviales, " dit Zhu.
Les méthodes précédentes pour localiser les actions humaines potentielles dans les vidéos n'utilisaient pas de frameworks d'apprentissage en profondeur et étaient lentes et sujettes aux erreurs, dit Zhu. Pour surmonter cela, le détecteur YoTube de l'équipe combine deux types de réseaux de neurones en parallèle :un réseau de neurones statique, qui a déjà fait ses preuves dans le traitement d'images fixes, et un réseau de neurones récurrent, généralement utilisé pour le traitement des données changeantes, pour la reconnaissance vocale. "Notre méthode est la première à réunir la détection et le suivi dans un pipeline d'apprentissage profond, " dit Zhu.
L'équipe a testé YoTube sur plus de 3, 000 vidéos couramment utilisées dans les expériences de vision par ordinateur. Ils rapportent qu'il a surpassé les détecteurs de pointe pour détecter correctement les actions humaines potentielles d'environ 20 % pour les vidéos montrant des activités quotidiennes générales et d'environ 6 % pour les vidéos de sport. Le détecteur fait parfois des erreurs si les personnes dans la vidéo sont petites, ou s'il y a beaucoup de monde en arrière-plan. Néanmoins, Zhu dit, "Nous avons démontré que nous pouvons détecter la plupart des régions d'action humaine potentielles de manière presque en temps réel."