Jia Bin Huang, professeur adjoint au département de génie électrique et informatique Bradley et membre du corps professoral du Discovery Analytics Center. Crédit :Virginia Tech
Jia Bin Huang, professeur adjoint au département de génie électrique et informatique Bradley et membre du corps professoral du Discovery Analytics Center, a reçu un Google Faculty Research Award pour soutenir son travail de détection des interactions homme-objet dans les images et les vidéos.
Le prix Google, qui est dans la catégorie Perception de la machine, permettra à Huang de relever les défis de la détection de deux aspects de l'interaction homme-objet :modéliser la relation entre une personne et des objets/scènes pertinents pour collecter des informations contextuelles et extraire automatiquement des exemples concrets à partir de vidéos non étiquetées mais riches en interactions.
Selon Huang, tandis que des progrès significatifs ont été accomplis dans la classification, détection, et segmenter les objets, représenter des images/vidéos comme une collection d'instances d'objets isolés n'a pas réussi à capturer les informations essentielles à la compréhension de l'activité.
"En améliorant le modèle et en intensifiant la formation, nous visons à faire un pas de plus vers la construction de machines socialement intelligentes, " dit Huang.
A partir d'une image ou d'une vidéo, le but est de localiser des personnes et des instances d'objets, ainsi que de reconnaître l'interaction, si seulement, entre chaque paire d'une personne et d'un objet. Cela fournit une représentation structurée d'un graphique visuellement fondé sur les humains et les instances d'objets avec lesquelles ils interagissent.
Par exemple :Deux hommes sont côte à côte en marge d'un court de tennis, l'un debout et tenant un parapluie et l'autre assis sur une chaise tenant une raquette de tennis et regardant un sac par terre à côté de lui. Au fur et à mesure que la vidéo avance, les deux se sourient, échanger le parapluie et la raquette de tennis, s'asseoir côte à côte, et boire dans des bouteilles d'eau. Finalement, ils se tournent pour se regarder, échanger à nouveau le parapluie et la raquette de tennis, et enfin, parler les uns aux autres.
« Comprendre l'activité humaine en images et/ou vidéos est une étape fondamentale vers la construction d'agents socialement conscients, la récupération sémantique d'images/vidéos, sous-titrage, et questions-réponses, " dit Huang.
Il a déclaré que la détection de l'interaction homme-machine permet de mieux comprendre l'activité centrée sur l'homme.
"Au lieu de répondre 'Qu'est-ce que c'est où ?' l'objectif de la détection d'interaction homme-objet est de répondre à la question « Que se passe-t-il ? » Les sorties de l'interaction homme-objet fournissent une description plus fine de l'état de la scène et nous permettent de mieux prédire l'avenir et de comprendre leur intention, " dit Huang.
doctorat l'étudiant Chen Gao travaillera sur le projet avec Huang. Ils s'attendent à ce que la recherche fasse considérablement progresser la détection homme-objet de pointe et permette de nombreuses applications à fort impact, tels que la surveillance de la santé à long terme et les robots socialement conscients.
Huang prévoit de partager les résultats de la recherche via des publications lors de conférences et de revues de premier plan et créera également le code source, ensembles de données collectés, et des modèles pré-entraînés produits à partir de ce projet accessibles au public.
« Notre projet s'aligne bien sur plusieurs des efforts en cours de Google pour créer une « intelligence visuelle sociale ». Nous sommes impatients de collaborer avec les chercheurs et les ingénieurs de Google pour échanger et partager des idées et favoriser de futures relations de collaboration, " dit Huang.