Vision stéréo utilisant une architecture informatique inspirée du cerveau

FIGURE 1 :Un système de vision stéréo entièrement basé sur les événements composé d'une paire de capteurs de vision dynamique (à gauche) qui envoie leur sortie à un groupe de processeurs TrueNorth (à droite). Crédit :IBM

Le groupe Brain-Inspired Computing d'IBM Research-Almaden présentera à la conférence IEEE 2018 sur Computer Vision and Pattern Recognition (CVPR 2018) notre article le plus récent intitulé "A Low Power, Haut débit, Système stéréo entièrement basé sur les événements." L'article décrit un système de vision stéréo de bout en bout qui utilise exclusivement le calcul de réseau neuronal à pics et peut fonctionner sur du matériel neuromorphique avec une entrée de pics de diffusion en direct. Inspiré du système de vision humain, il utilise un groupe de puces IBM TrueNorth et une paire de capteurs rétiniens numériques (également appelés capteurs de vision dynamiques, DVS) pour extraire la profondeur des objets se déplaçant rapidement dans une scène. Notre système capture des scènes en 3D avec une faible puissance, faible latence et haut débit, qui a le potentiel de faire progresser la conception de systèmes intelligents.

Qu'est-ce que la vision stéréo ?

La vision stéréo est la perception de la profondeur et de la structure 3D. Lorsque vous regardez un objet, par exemple, vos yeux en produisent deux images disparates car leurs positions sont légèrement différentes. Les disparités entre les deux images sont traitées dans le cerveau pour générer des informations sur l'emplacement et la distance de l'objet. Notre système reproduit cette capacité pour les ordinateurs. Les positions relatives d'un objet dans les images des deux capteurs sont comparées, et l'emplacement de l'objet dans l'espace 3-D est calculé via la triangulation de ces données.

Les systèmes de vision stéréo sont utilisés dans des systèmes intelligents pour l'automatisation industrielle (réaliser des tâches telles que le ramassage des bacs, localisation d'objets en 3D, mesure de volume et de pièces automobiles), conduite autonome, navigation robotique mobile, surveillance, réalité augmentée, et à d'autres fins.

Technologie neuromorphique

Notre système de vision stéréo est unique car il est entièrement implémenté sur du matériel numérique événementiel (processeurs neurosynaptiques TrueNorth), en utilisant un modèle de calcul non von-Neumann entièrement basé sur des graphes, sans cadres, tableaux, ou toute autre structure de données commune. C'est la première fois qu'un pipeline stéréo en temps réel de bout en bout est entièrement mis en œuvre sur du matériel événementiel connecté à un capteur de vision. Notre travail montre comment un ensemble diversifié de sous-routines communes nécessaires à la vision stéréo (rectification, correspondance stéréo spatio-temporelle multi-échelles, le gagnant remporte tout, et régularisation des disparités) peut être mis en œuvre efficacement sur un réseau de neurones à pics. Cette architecture consomme beaucoup moins d'énergie que les systèmes conventionnels, ce qui pourrait profiter à la conception de systèmes mobiles autonomes.

Par ailleurs, au lieu des caméras vidéo conventionnelles, qui capturent une scène comme une série d'images, nous utilisons une paire de caméras DVS, qui ne répondent qu'aux changements de scène. Cela se traduit par moins de données, consommation d'énergie réduite, grande vitesse, faible latence, et une bonne plage dynamique, tous ces éléments sont également essentiels à la conception de systèmes en temps réel.

Les processeurs et les capteurs imitent l'activité neuronale humaine en représentant les données sous forme d'événements asynchrones, un peu comme les pointes de neurones dans le cerveau. Notre système s'appuie sur les premiers travaux influents de Misha Mahowald dans la conception de systèmes neuromorphiques. Le groupe Brain-Inspired Computing a précédemment conçu un système de reconnaissance de gestes basé sur des événements utilisant une technologie similaire.

Notre système stéréo de bout en bout connecte une paire de caméras événementielles DVS (modèles iniLabs DAVIS240C) via USB à un ordinateur portable, qui distribue le calcul via Ethernet à un cluster de neuf processeurs TrueNorth. Chaque processeur TrueNorth est responsable des calculs de disparité stéréo sur un sous-ensemble de l'entrée. En d'autres termes, il s'agit d'une approche évolutive du calcul de la stéréo, puisque le système permet, en principe, l'ajout de beaucoup plus de processeurs TrueNorth afin de traiter des entrées plus importantes.

FIGURE 2 :Sortie d'une caméra conventionnelle basée sur des cadres (à gauche) par rapport aux capteurs de vision dynamique (à droite) pour un ventilateur rotatif. Les capteurs de vision dynamique produisent des bords plus nets pour les objets en mouvement rapide. Crédit :IBM Blog Research

Les caméras DAVIS disposent de deux prises audio 3,5 mm, permettant de synchroniser les événements produits par les deux capteurs. Ceci est essentiel à la conception du système. Les sorties de disparité des puces TrueNorth sont ensuite renvoyées vers l'ordinateur portable, qui convertit les valeurs de disparité en coordonnées 3D réelles. Un visualiseur basé sur openGL fonctionnant sur l'ordinateur portable permet à l'utilisateur de visualiser la scène reconstruite à partir de n'importe quel point de vue. La version en direct du système fonctionnant sur neuf puces TrueNorth calcule 400 cartes de disparité par seconde avec une latence allant jusqu'à 11 ms et une amélioration d'environ 200 fois en termes de puissance par pixel par carte de disparité par rapport à l'état le plus proche. -L'art. Par ailleurs, la possibilité de l'augmenter jusqu'à 2, 000 disparités par seconde (sous réserve de certains compromis) sont discutées dans le document.