Crédit :CC0 Domaine public
La miniaturisation des caméras vidéo a conduit à une explosion de leur utilisation, y compris leur incorporation dans une gamme d'appareils portables tels que les caméras frontales, utilisé dans des scénarios allant des événements sportifs au combat armé. Analyser les tâches réalisées au vu de ces appareils et guider en temps réel les personnes qui les utilisent, il serait utile de caractériser l'endroit où l'utilisateur se concentre réellement dans les images à chaque instant, mais les outils disponibles pour prédire cela sont encore limités.
Dans une nouvelle étude publiée lors de la 15e Conférence européenne sur la vision par ordinateur (ECCV 2018), des chercheurs de l'Université de Tokyo ont développé un outil informatique qui peut apprendre à partir d'images prises à l'aide d'une caméra frontale, dans ce cas des tâches diverses effectuées en cuisine, puis prédire avec précision où l'attention de l'utilisateur sera ensuite ciblée. Ce nouvel outil pourrait être utile pour permettre aux technologies liées à la vidéo de prédire quelles actions l'utilisateur est en train d'effectuer, et fournir des conseils appropriés concernant la prochaine étape.
Les programmes existants pour prédire où le regard humain est susceptible de se situer dans un cadre de séquences vidéo ont généralement été basés sur le concept de « saillance visuelle, " qui utilise des distinctions de caractéristiques telles que la couleur, intensité, et le contraste dans l'image pour prédire où une personne est susceptible de regarder. Cependant, dans des images de sujets humains effectuant des tâches complexes, cette approche de saillance visuelle est inadéquate, car l'individu est susceptible de déplacer son attention d'un objet à un autre de manière séquentielle, et souvent prévisible, manière.
Pour profiter de cette prévisibilité, dans cette étude, l'équipe a utilisé une nouvelle approche combinant la saillance visuelle avec « la prédiction du regard, " qui implique une intelligence artificielle apprenant de telles séquences d'actions à partir de séquences existantes, puis appliquant les connaissances obtenues pour prédire la direction du regard de l'utilisateur dans de nouvelles séquences.
"Notre nouvelle approche implique la construction d'une "carte de saillance" pour chaque image de séquence, puis une « carte d'attention » basée sur l'endroit où l'utilisateur regardait auparavant et sur le mouvement de la tête de l'utilisateur, et enfin la combinaison des deux en une « carte du regard », "", déclare Yoichi Sato. "Nos résultats ont montré que ce nouvel outil surpassait les alternatives précédentes en termes de prédiction de l'endroit où le regard de l'utilisateur de la caméra était réellement dirigé."
Bien que les résultats de l'équipe aient été obtenus pour des images de corvées dans une cuisine, comme faire bouillir de l'eau sur une cuisinière, elles pourraient être étendues à des situations telles que des tâches exécutées dans des bureaux ou des usines. En réalité, selon l'auteur principal Yifei Huang, "Des outils d'évaluation de ce type de vidéos dites égocentriques pourraient même être appliqués dans un contexte médical, comme évaluer où un chirurgien se concentre et offrir des conseils sur les étapes les plus appropriées à suivre dans une opération. »
L'article "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition" est publié dans les actes de la Conférence européenne sur la vision par ordinateur (ECCV 2018) et dans un article arXiv sur arxiv.org/abs/1803.09125.