Interprétation artistique du papier de S.M. Ali Eslami et al., intitulé "Représentation et rendu de scènes neuronales". Crédit :DeepMind
Une équipe de chercheurs travaillant avec la division DeepMind de Google à Londres a développé ce qu'ils décrivent comme un réseau de requête de génération (GQN) :il permet à un ordinateur de créer un modèle 3D d'une scène à partir de photographies 2D qui peuvent être visualisées sous différents angles. Dans leur article publié dans la revue Science , l'équipe décrit le nouveau type de système de réseau neuronal et ce qu'il représente. Ils offrent également une vision plus personnelle de leur projet dans un article sur leur site Web. Matthias Zwicker, avec l'Université du Maryland offre une perspective sur le travail effectué par l'équipe dans le même numéro de revue.
En informatique, les grands sauts dans l'ingénierie des systèmes peuvent sembler minimes en raison de la simplicité apparente des résultats - ce n'est que lorsque quelqu'un applique les résultats que le grand saut est vraiment reconnu. Ce fut le cas, par exemple, quand les premiers systèmes ont commencé à apparaître qui étaient capables d'écouter ce qu'une personne dit et d'en extraire un sens. Dans cette nouvelle entreprise, l'équipe de DeepMind aurait peut-être fait un bond similaire.
Dans les applications informatiques traditionnelles, y compris les réseaux d'apprentissage en profondeur, un ordinateur doit être nourri de données à la cuillère pour se comporter comme s'il avait appris quelque chose. Ce n'est pas le cas pour le GQN, qui n'apprend que par l'observation, comme les nourrissons humains. Le système peut observer une scène du monde réel, comme des blocs posés sur une table, puis en recréer un modèle capable de montrer la scène sous d'autres angles. A première vue, comme le note Zwicker, cela peut ne pas sembler si révolutionnaire. Ce n'est qu'en considérant ce que le système doit faire pour trouver ces nouveaux angles que la puissance réelle du système devient claire. Il doit regarder la scène et déduire les caractéristiques des objets occlus qui ne peuvent pas être observés en utilisant uniquement les informations 2D fournies par les caméras. Il n'y a pas de radar ou de sondeur, ou des images de ce à quoi les blocs sont censés ressembler stockées dans ses banques de données. Tout ce qu'il doit travailler, ce sont les quelques photographies qu'il prend.
Accomplir cela, l'équipe explique, implique l'utilisation de deux réseaux de neurones, un pour analyser la scène, l'autre d'utiliser les données obtenues pour en créer un modèle 3D pouvant être visualisé sous des angles non représentés sur les photographies. Il y a encore beaucoup de travail à faire, bien sûr, le plus évident, déterminer s'il peut être élargi à des objets plus complexes, mais dans sa forme primitive, il représente clairement une nouvelle façon de permettre aux ordinateurs d'apprendre.