Récupérer les dimensions perdues des images et de la vidéo

Un nouveau modèle développé au MIT récupère des données précieuses perdues à partir d'images et de vidéos qui ont été « effondrées » dans des dimensions inférieures. Ça peut, par exemple, recréez des vidéos à partir d'images floues ou de caméras qui capturent les mouvements des personnes dans les coins sous forme de vagues lignes unidimensionnelles. Crédit :Massachusetts Institute of Technology

Les chercheurs du MIT ont développé un modèle qui récupère les données précieuses perdues à partir d'images et de vidéos qui ont été « effondrées » dans des dimensions inférieures.

Le modèle pourrait être utilisé pour recréer une vidéo à partir d'images floues, ou à partir de nouveaux types de caméras qui capturent le mouvement d'une personne dans les coins mais uniquement sous forme de vagues lignes unidimensionnelles. Bien que d'autres tests soient nécessaires, les chercheurs pensent que cette approche pourrait un jour être utilisée pour convertir des images médicales 2D en scans corporels 3D plus informatifs, mais plus coûteux, qui pourrait bénéficier à l'imagerie médicale dans les pays les plus pauvres.

« Dans tous ces cas, les données visuelles ont une dimension - dans le temps ou dans l'espace - qui est complètement perdue, " dit Guha Balakrishnan, un post-doctorant au Laboratoire d'Informatique et d'Intelligence Artificielle (CSAIL) et premier auteur sur un article décrivant le modèle, qui est présenté à la conférence internationale de la semaine prochaine sur la vision par ordinateur. "Si nous récupérons cette dimension perdue, il peut avoir beaucoup d'applications importantes."

Les données visuelles capturées regroupent souvent les données de plusieurs dimensions de temps et d'espace en une ou deux dimensions, appelé « projections ». rayons X, par exemple, réduire les données tridimensionnelles sur les structures anatomiques dans une image plate. Ou, considérez un plan à longue exposition d'étoiles se déplaçant dans le ciel :les étoiles, dont la position évolue dans le temps, apparaissent sous forme de stries floues sur la photo.

De même, "caméras d'angle, " récemment inventé au MIT, détecter les personnes en mouvement dans les coins. Ceux-ci pourraient être utiles pour, dire, les pompiers trouvent des personnes dans des bâtiments en feu. Mais les caméras ne sont pas vraiment conviviales. Actuellement, ils ne produisent que des projections qui ressemblent à des flous, lignes ondulées, correspondant à la trajectoire et à la vitesse d'une personne.

Les chercheurs ont inventé un modèle de « déprojection visuelle » qui utilise un réseau de neurones pour « apprendre » des modèles qui font correspondre les projections de faible dimension à leurs images et vidéos originales de grande dimension. Compte tenu de nouvelles projections, le modèle utilise ce qu'il a appris pour recréer toutes les données d'origine d'une projection.

Dans les expériences, le modèle a synthétisé des images vidéo précises montrant des personnes marchant, en extrayant des informations d'un seul, des lignes unidimensionnelles similaires à celles produites par les caméras d'angle. Le modèle a également récupéré des images vidéo de single, projections floues de mouvements de chiffres se déplaçant autour d'un écran, du populaire jeu de données Moving MNIST.

Rejoindre Balakrishnan sur le papier sont :Amy Zhao, un étudiant diplômé du Département de génie électrique et informatique (EECS) et CSAIL; professeurs EECS John Guttag, Fredo Durand, et William T. Freeman; et Adrien Dalca, membre du corps professoral en radiologie à la Harvard Medical School.

Indices en pixels

Le travail a commencé comme un "problème d'inversion cool" pour recréer un mouvement qui provoque un flou de mouvement dans la photographie à longue exposition, dit Balakrishnan. Dans les pixels d'une projection, il existe des indices sur la source de grande dimension.

Appareils photo numériques capturant des clichés à longue exposition, par exemple, va essentiellement agréger des photons sur une période de temps sur chaque pixel. En capturant le mouvement d'un objet au fil du temps, la caméra prendra la valeur moyenne des pixels de capture de mouvement. Puis, il applique ces valeurs moyennes aux hauteurs et largeurs correspondantes d'une image fixe, qui crée les stries floues caractéristiques de la trajectoire de l'objet. En calculant certaines variations d'intensité des pixels, le mouvement peut théoriquement être recréé.

Comme les chercheurs l'ont compris, ce problème est pertinent dans de nombreux domaines :rayons X, par exemple, hauteur de capture, largeur, et les informations de profondeur des structures anatomiques, mais ils utilisent une technique de moyenne de pixels similaire pour réduire la profondeur dans une image 2D. Caméras d'angle — inventées en 2017 par Freeman, Durand, et d'autres chercheurs - capturent des signaux lumineux réfléchis autour d'une scène cachée qui contiennent des informations bidimensionnelles sur la distance d'une personne aux murs et aux objets. La technique de moyennage des pixels réduit ensuite ces données en une vidéo unidimensionnelle, en gros, mesures de différentes longueurs dans le temps sur une seule ligne.

Les chercheurs ont construit un modèle général, basé sur un réseau de neurones convolutifs (CNN) - un modèle d'apprentissage automatique qui est devenu une centrale électrique pour les tâches de traitement d'images - qui capture des indices sur toute dimension perdue en pixels moyennés.

Signaux de synthèse

Dans la formation, les chercheurs ont alimenté le CNN de milliers de paires de projections et de leurs sources de grande dimension, appelés « signaux ». Le CNN apprend des modèles de pixels dans les projections qui correspondent à ceux des signaux. L'alimentation du CNN est un cadre appelé « auto-encodeur variationnel, " qui évalue dans quelle mesure les sorties CNN correspondent à ses entrées selon une certaine probabilité statistique. À partir de là, le modèle apprend un "espace" de tous les signaux possibles qui auraient pu produire une projection donnée. Cela crée, en substance, un type de plan pour savoir comment passer d'une projection à tous les signaux correspondants possibles.

Lorsqu'il est affiché des projections inédites, le modèle note les motifs de pixels et suit les plans de tous les signaux possibles qui auraient pu produire cette projection. Puis, il synthétise de nouvelles images qui combinent toutes les données de la projection et toutes les données du signal. Cela recrée le signal de grande dimension.

Pour une expérience, les chercheurs ont collecté un ensemble de données de 35 vidéos de 30 personnes marchant dans une zone spécifiée. Ils ont réduit toutes les images en projections qu'ils ont utilisées pour entraîner et tester le modèle. À partir d'un ensemble de six projections invisibles, le modèle a recréé avec précision 24 images de la démarche de la personne, jusqu'à la position de leurs jambes et à la taille de la personne lorsqu'elle s'approche ou s'éloigne de la caméra. Le modèle semble apprendre, par exemple, que les pixels qui deviennent plus sombres et plus larges avec le temps correspondent probablement à une personne se rapprochant de la caméra.

"C'est presque comme par magie qu'on est capable de récupérer ce détail, " dit Balakrishnan.

Les chercheurs n'ont pas testé leur modèle sur des images médicales. Mais ils collaborent maintenant avec des collègues de l'Université Cornell pour récupérer des informations anatomiques en 3D à partir d'images médicales en 2D, comme les rayons X, sans frais supplémentaires, ce qui peut permettre une imagerie médicale plus détaillée dans les pays les plus pauvres. Les médecins préfèrent la plupart du temps les scans 3D, tels que ceux capturés avec des tomodensitogrammes, car ils contiennent des informations médicales bien plus utiles. Mais les tomodensitogrammes sont généralement difficiles et coûteux à acquérir.

"Si nous pouvons convertir les rayons X en tomodensitogrammes, cela changerait quelque peu la donne, " Balakrishnan dit. " Vous pouvez simplement prendre une radiographie et la pousser à travers notre algorithme et voir toutes les informations perdues. "

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.

Le Liban va taxer les appels sur les applications de messagerie

Les robots assembleurs fabriquent de grandes structures à partir de petits morceaux

Électronique