Comment reconnaît-on que deux personnes sont de la famille ou des étrangers à partir d'une image ? Les scènes, apparence des personnes, et les interactions entre les personnes et les objets contextuels sont des indices importants pour la reconnaissance. Crédit :Zhang et al.
Une équipe de chercheurs de l'Université de Pékin et de JD AI Research ont récemment développé un cadre de raisonnement multi-granularité pour la reconnaissance des relations sociales. leur cadre, décrit dans un article prépublié sur arXiv, a été formé pour analyser des images de personnes dans différentes scènes et prédire la relation sociale entre elles.
Déduire efficacement les relations sociales entre les personnes pourrait aider les agents intelligents à mieux comprendre les comportements et les émotions humains. La reconnaissance des relations sociales basée sur l'image implique la capacité de classer la relation entre des paires de personnes dans une image en types de relations prédéfinis, comme des amis, famille, des connaissances, étrangers, etc.
Les outils de reconnaissance des relations sociales basés sur l'image pourraient avoir une variété d'applications utiles, par exemple, dans l'exploration de collections d'images personnelles et la compréhension des événements sociaux. Les progrès récents de l'apprentissage profond ont ouvert de nouvelles possibilités pour la reconnaissance des relations sociales, conduisant à des améliorations significatives des performances.
Néanmoins, reconnaître automatiquement les relations sociales dans les images s'est avéré jusqu'à présent difficile, notamment en raison de l'écart important entre les domaines du contenu visuel et des relations sociales. La plupart des approches existantes fonctionnent en traitant séparément des caractéristiques telles que les expressions faciales, apparence corporelle et indices contextuels.
"Les méthodes existantes de reconnaissance des relations sociales utilisent généralement des caractéristiques visuelles de bas niveau telles que l'apparence des personnes, attributs de visage et objets contextuels, " écrivent les chercheurs dans leur article. " Bien que certaines approches explorent les relations entre les personnes et les objets, ils ne considèrent que la coexistence dans une image. Cependant, ne dépendre que de la représentation à granularité unique peut difficilement surmonter l'écart de domaine entre les caractéristiques visuelles et les relations sociales."
Un aperçu du cadre de raisonnement multi-granularité. Crédit :Zhang et al.
En analysant les caractéristiques individuellement, les méthodes existantes de reconnaissance des relations sociales ne parviennent généralement pas à capturer la sémantique multi-granularité, telles que des scènes d'ensemble ou où les gens sont situés dans une image, ainsi que les interactions entre les personnes et les objets. Pour pallier ces limitations, l'équipe de chercheurs de l'Université de Pékin et de JD AI Research a conçu un cadre de raisonnement multi-granularité pour la reconnaissance des relations sociales dans les images.
Leur cadre acquiert une connaissance globale de l'ensemble de la scène et des détails de niveau intermédiaire des régions dans lesquelles les personnes et les objets sont situés dans une image. Il explore également les points clés de la pose fine des personnes pour découvrir les interactions entre les personnes et les objets.
"Spécifiquement, le graphe Personne-Objet guidé par la pose et le Graphe Personne-Pose sont proposés pour modéliser les actions de personnes à objet et les interactions entre personnes appariées, respectivement, " les chercheurs ont expliqué dans leur article. " Sur la base de ces graphiques, le raisonnement des relations sociales est effectué par des réseaux convolutifs de graphes. Finalement, les caractéristiques globales et les connaissances raisonnées sont intégrées comme une représentation globale pour la reconnaissance des relations sociales.
Les chercheurs ont évalué leur modèle sur deux ensembles de données de relations sociales à grande échelle, à savoir les ensembles de données People in Social Context (PISC) et People in Photo Album (PIPA). L'ensemble de données PISC contient des images de relations sociales courantes dans la vie quotidienne, tandis que l'ensemble de données PIPA contient des images annotées sur la base de la théorie du domaine social, qui divise la vie sociale en cinq domaines et 16 relations différentes. Dans ces épreuves, leur modèle a obtenu des résultats remarquables, surpassant une variété de méthodes de pointe.
Malgré ces résultats encourageants, développer des outils pour reconnaître les relations sociales reste très difficile, surtout lorsqu'il s'agit de relations intimes, comme celles entre amis, familles ou couples, qui peut être difficile à discerner pour les téléspectateurs humains, trop. À l'avenir, les chercheurs prévoient d'explorer de nouvelles façons de découvrir des indices contextuels dans les images et de surmonter les défis associés au manque de données disponibles pour certains types de relations sociales.
© 2019 Réseau Science X