« Voir » à travers les yeux du robot. Crédits :Shutterstock/TrifonenkoIvan
La vision est l'une des créations étonnantes de la nature qui nous accompagne depuis des centaines de millions d'années. C'est un sens clé pour les humains, mais une que nous tenons souvent pour acquise :c'est-à-dire jusqu'à ce que nous commencions à le perdre ou que nous essayions de le recréer pour un robot.
De nombreux laboratoires de recherche (y compris le nôtre) modélisent des aspects des systèmes de vision trouvés chez les animaux et les insectes depuis des décennies. Nous nous appuyons largement sur des études comme celles réalisées sur les fourmis, chez les abeilles et même chez les rongeurs.
Modéliser un système biologique et le rendre utile aux robots, vous devez généralement comprendre à la fois les comportemental et neural base de ce système de vision.
La composante comportementale est ce que vous observez l'animal faire et comment ce comportement change lorsque vous dérangez ce qu'il peut voir, par exemple en essayant différentes configurations de repères. Les composants neuronaux sont les circuits du cerveau de l'animal qui sous-tendent l'apprentissage visuel des tâches, comme la navigation.
Reconnaître les visages
La reconnaissance est un processus visuel fondamental pour tous les animaux et robots. C'est la capacité de reconnaître des personnes familières, animaux, objets et repères dans le monde.
En raison de son importance, la reconnaissance faciale est en partie « intégrée » aux systèmes naturels tels qu'un bébé. Nous sommes capables de reconnaître les visages assez tôt.
Le long de ces lignes, certains systèmes de reconnaissance faciale artificielle sont basés sur la façon dont les systèmes biologiques fonctionnent. Par exemple, les chercheurs ont créé des ensembles de réseaux de neurones qui imitent différents niveaux de la hiérarchie de traitement visuel chez les primates pour créer un système capable de reconnaître les visages.
Reconnaître visuellement un lieu est simple… jusqu'à ce que l'apparence de ce lieu change radicalement. Crédit :Michael Milford
Reconnaître des lieux
La reconnaissance visuelle des lieux est un processus important pour tout ce qui navigue dans le monde.
La reconnaissance d'un lieu est le processus par lequel un robot ou un animal regarde le monde qui l'entoure et est capable de concilier ce qu'il voit actuellement avec un souvenir passé d'un lieu, ou dans le cas des humains, une description ou une attente de cet endroit.
Avant l'avènement de la navigation GPS, nous avons peut-être reçu des instructions telles que "Conduisez jusqu'à ce que vous voyiez l'église sur la gauche et prenez le prochain virage à droite". Nous savons à quoi ressemble une église typique et pouvons donc en reconnaître une quand nous la voyons.
Cette reconnaissance de lieu peut sembler une tâche facile, jusqu'à ce que l'on rencontre des défis tels que le changement d'apparence - par exemple le changement d'apparence causé par les cycles jour-nuit ou par des conditions météorologiques défavorables.
Un autre défi dans la reconnaissance visuelle d'un lieu est changement de point de vue :modifie l'apparence d'un lieu si vous le visualisez sous un autre angle.
Vu de points de vue opposés, le même endroit apparaît très différent. Crédit :neyro2008 / Alexander Zelnitskiy / Maxim Popov / 123rf.com / 1 an, 1, 000km :le jeu de données Oxford RobotCar
Un exemple extrême de ceci est rencontré lors du retraçage d'un itinéraire le long d'une route pour la première fois - vous rencontrez tout dans l'environnement du point de vue opposé.
La création d'un système robotique capable de reconnaître cet endroit malgré ces défis nécessite que le système de vision comprenne mieux ce qui se trouve dans l'environnement qui l'entoure.
Capacité de détection
Le matériel de détection visuelle a progressé rapidement au cours de la dernière décennie, en partie à cause de la prolifération d'appareils photo très performants dans les smartphones. Les caméras modernes égalent ou surpassent même les systèmes de vision naturelle les plus performants, au moins dans certains aspects.
Par exemple, une caméra grand public peut désormais voir aussi bien qu'un œil humain ajusté dans l'obscurité.
Les nouvelles caméras de smartphone peuvent également enregistrer des vidéos à 1, 000 images par seconde, permettant le potentiel de systèmes de vision robotiques qui fonctionnent à une fréquence plus élevée qu'un système de vision humaine.
La détection de vision robotique spécialisée telle que le capteur de vision dynamique (DVS) est encore plus rapide mais ne signale que le monnaie dans la luminosité d'un pixel, plutôt que sa couleur absolue. Vous pouvez voir la différence ici lors d'une promenade autour de Hyde Park à Londres :
Toutes les caméras robotisées ne doivent pas non plus ressembler aux caméras conventionnelles :les roboticiens utilisent des caméras spécialisées basées sur la façon dont les animaux tels que les fourmis voient le monde.
Résolution requise ?
L'une des questions fondamentales de toute recherche basée sur la vision pour les robots et les animaux est de savoir quelle résolution visuelle (ou acuité visuelle) est nécessaire pour « faire le travail ».
Pour de nombreux insectes et animaux tels que les rongeurs, a relatively low visual resolution is all they have access to—equivalent to a camera with a few thousand pixels in many cases (compared with a modern smartphone which has camera resolutions ranging from 8 Megapixels to 40 Megapixels).
The required resolution varies greatly depending on the task—for some navigation tasks, only a few pixels are required for both animals such as ants and bees and robots.
But for more complex tasks—such as self-driving cars—much higher camera resolutions are likely to be required.
If cars are ever to reliably recognise and predict what a human pedestrian is doing, or intending to do, they will likely require high resolution visual sensing systems that can pick up subtle facial expressions and body movement.
A tension between bio-inspiration and pragmatism
For roboticists looking to nature for inspiration, there is a constant tension between mimicking biology and capitalising on the constant advances in camera technology.
While biological vision systems were clearly superior to cameras in the past, constant rapid advancement in technology has resulted in cameras with superior sensing capabilities to natural systems in many instances. It's only sensible that these practical capabilities should be exploited in the pursuit of creating high performance and safe robots and autonomous vehicles.
But biology will still play a key role in inspiring roboticists. The natural kingdom is superb at making highly capable vision systems that consume minimal space, computational and power resources, all key challenges for most robotic systems.
Bees navigate effectively using a relatively low resolution visual sensing capability. Credit:Bogdan Mircea Hoda / 123rf.com
Cet article a été initialement publié sur The Conversation. Lire l'article original.