Crédit :CC0 Domaine public
Étant donné seulement quelques images d'une vidéo, les humains peuvent généralement deviner ce qui se passe et se passera à l'écran. Si nous voyons un premier cadre de canettes empilées, un cadre médian avec un doigt à la base de la pile, et un cadre tardif montrant les canettes renversées, on devine que le doigt a renversé les canettes. Des ordinateurs, cependant, lutter avec ce concept.
Dans un article présenté à la conférence européenne de cette semaine sur la vision par ordinateur, Les chercheurs du MIT décrivent un module complémentaire qui aide les systèmes d'intelligence artificielle appelés réseaux de neurones convolutifs, ou CNN, pour combler les lacunes entre les images vidéo afin d'améliorer considérablement la reconnaissance de l'activité du réseau.
Le module des chercheurs, appelé Réseau de Relation Temporelle (TRN), apprend comment les objets changent dans une vidéo à différents moments. Pour ce faire, il analyse quelques images clés illustrant une activité à différentes étapes de la vidéo, telles que des objets empilés qui sont ensuite renversés. En utilisant le même processus, il peut alors reconnaître le même type d'activité dans une nouvelle vidéo.
Dans les expériences, le module a largement surpassé les modèles existants en reconnaissant des centaines d'activités de base, comme piquer des objets pour les faire tomber, lancer quelque chose en l'air, et donner un coup de pouce. Il a également prédit avec plus de précision ce qui se passera ensuite dans une vidéo :par exemple, deux mains faisant une petite déchirure dans une feuille de papier, étant donné seulement un petit nombre de cadres anciens.
Un jour, le module pourrait être utilisé pour aider les robots à mieux comprendre ce qui se passe autour d'eux.
"Nous avons construit un système d'intelligence artificielle pour reconnaître la transformation des objets, plutôt que l'apparence des objets, " dit Bolei Zhou, un ancien Ph.D. étudiant au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) qui est maintenant professeur adjoint d'informatique à l'Université chinoise de Hong Kong. « Le système ne parcourt pas toutes les images, il récupère les images clés et, en utilisant la relation temporelle des trames, reconnaître ce qui se passe. Cela améliore l'efficacité du système et le fait fonctionner en temps réel avec précision."
Les co-auteurs de l'article sont le chercheur principal du CSAIL, Antonio Torralba, qui est également professeur au Département de génie électrique et d'informatique; Chercheur scientifique principal du CSAIL Aude Oliva; et l'assistant de recherche du CSAIL Alex Andonian.
Récupérer des images clés
Deux modules CNN couramment utilisés pour la reconnaissance d'activité souffrent aujourd'hui d'inconvénients en termes d'efficacité et de précision. Un modèle est précis mais doit analyser chaque image vidéo avant de faire une prédiction, ce qui est coûteux en calcul et lent. L'autre type, appelé réseau à deux flux, est moins précis mais plus efficace. Il utilise un flux pour extraire les caractéristiques d'une image vidéo, puis fusionne les résultats avec les "flux optiques, " un flux d'informations extraites sur le mouvement de chaque pixel. Les flux optiques sont également coûteux en temps de calcul à extraire, donc le modèle n'est toujours pas aussi efficace.
« Nous voulions quelque chose qui fonctionne entre ces deux modèles :obtenir efficacité et précision, " dit Zhou.
Les chercheurs ont formé et testé leur module sur trois ensembles de données crowdsourcing de courtes vidéos de diverses activités réalisées. Le premier jeu de données, appelé quelque chose-quelque chose, construit par la société TwentyBN, a plus de 200, 000 vidéos dans 174 catégories d'action, comme pousser un objet pour qu'il tombe ou soulever un objet. Le deuxième jeu de données, Fou du roi, contient près de 150, 000 vidéos avec 27 gestes de la main différents, comme donner un coup de pouce ou glisser vers la gauche. Le troisième, Charades, construit par des chercheurs de l'Université Carnegie Mellon, en a près de 10, 000 vidéos de 157 activités catégorisées, comme porter un vélo ou jouer au basket.
Lorsqu'on lui donne un fichier vidéo, le module des chercheurs traite simultanément des trames ordonnées - par groupes de deux, Trois, et quatre, espacés d'un certain temps. Ensuite, il attribue rapidement une probabilité que la transformation de l'objet à travers ces cadres corresponde à une classe d'activité spécifique. Par exemple, s'il traite deux trames, où le dernier cadre montre un objet en bas de l'écran et le premier montre l'objet en haut, il attribuera une forte probabilité à la classe d'activité, "objet en mouvement vers le bas." Si une troisième image montre l'objet au milieu de l'écran, que la probabilité augmente encore plus, etc. De là, il apprend les caractéristiques de transformation d'objets dans des cadres qui représentent pour la plupart une certaine classe d'activité.
Reconnaître et prévoir les activités
En test, un CNN équipé du nouveau module a reconnu avec précision de nombreuses activités à l'aide de deux trames, mais la précision a augmenté en échantillonnant plus de cadres. Pour le bouffon, le module a atteint une précision maximale de 95 % dans la reconnaissance d'activité, battant plusieurs modèles existants.
Il a même deviné juste sur des classifications ambiguës :quelque chose-quelque chose, par exemple, incluait des actions telles que "faire semblant d'ouvrir un livre" par opposition à "ouvrir un livre". Pour discerner entre les deux, le module vient d'échantillonner quelques images clés supplémentaires, qui a révélé, par exemple, une main près d'un livre dans un cadre ancien, puis sur le livre, puis s'est éloigné du livre dans un cadre ultérieur.
Certains autres modèles de reconnaissance d'activité traitent également les images clés mais ne prennent pas en compte les relations temporelles dans les images, ce qui réduit leur précision. Les chercheurs rapportent que leur module TRN double presque en précision par rapport à ces modèles d'images clés dans certains tests.
Le module a également surpassé les modèles sur la prévision d'une activité, étant donné des cadres limités. Après avoir traité les 25 premiers pour cent des images, le module a atteint une précision supérieure de plusieurs points de pourcentage à un modèle de référence. Avec 50 pour cent des cadres, il a atteint une précision supérieure de 10 à 40 pour cent. Les exemples incluent la détermination qu'un papier serait déchiré juste un peu, basé sur la façon dont les deux mains sont positionnées sur le papier dans les premières images, et prédisant qu'une main levée, montré vers l'avant, glisserait vers le bas.
"C'est important pour les applications robotiques, " dit Zhou. " Vous voulez qu'un robot anticipe et prévoie ce qui va se passer dès le début, lorsque vous effectuez une action spécifique."
Prochain, les chercheurs visent à améliorer la sophistication du module. La première étape consiste à mettre en œuvre la reconnaissance d'objets avec la reconnaissance d'activités. Puis, ils espèrent ajouter "la physique intuitive, " c'est-à-dire l'aider à comprendre les propriétés physiques des objets dans le monde réel. " Parce que nous connaissons beaucoup de la physique à l'intérieur de ces vidéos, nous pouvons former un module pour apprendre de telles lois physiques et les utiliser pour reconnaître de nouvelles vidéos, " dit Zhou. " Nous avons également open source tout le code et les modèles. La compréhension des activités est un domaine passionnant de l'intelligence artificielle en ce moment."