Exemples de prédictions de ColorUNet sur l'ensemble de validation, pour les images d'entrée fades. Les images de sortie de ColorUNet sont plus colorées que les images de vérité terrain (originales). L'exemple du bas est une vieille photographie aux tons usés. Crédit :Billaut, De Rochemonteix et Thibault.
Une équipe de chercheurs de l'Université de Stanford a récemment développé une méthode de classification CNN pour coloriser les images en niveaux de gris. L'outil qu'ils ont conçu, appelé ColorUNet, s'inspire de U-Net, un réseau entièrement convolutif pour la segmentation d'images.
"Dans le cadre du cours Computer Vision de Stanford, nous avons travaillé sur ce projet pendant plusieurs mois, " Vincent Billaut, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. "Notre objectif était de reproduire des résultats de pointe à l'aide d'un modèle léger, plutôt que d'améliorer les modèles existants en augmentant la taille de l'ensemble d'apprentissage ou leur complexité de calcul, une approche très courante dans les problèmes de CV. Nous voulions que nos résultats soient faciles à évaluer et visuellement attrayants, car en plus des applications utiles et impactantes, Le CV, c'est aussi des trucs sympas."
Billaut et ses collègues ont décidé d'aborder la tâche de coloriser automatiquement les images en niveaux de gris sous l'angle de la classification, travailler avec un ensemble fini de possibilités de couleurs. Leur modèle suivait une fonction de perte et de prédiction, privilégier les images colorées aux images réalistes.
"Au lieu d'essayer de prédire les couleurs directement via une tâche de régression, nous séparons toutes les couleurs dans des bacs, avec une tâche de classement, " Marc Thibault, un autre chercheur impliqué dans l'étude, a déclaré TechXplore. "Formuler le problème en tant que tâche de classification nous permet d'avoir un meilleur contrôle sur la façon dont nous voulons que notre sortie soit colorée, en affinant la façon dont nous prédisons une couleur à partir de la sortie du réseau."
L'architecture de ColorUNet. Structure du ColorUNet. Les chercheurs utilisent 3 types de cellules :les Cellules DownConv qui utilisent 2 couches convolutives empilées pour avoir un grand champ perceptif et un maxpooling pour sous-échantillonner l'image, Cellules UpConv qui utilisent 1 couche ConvTranspose pour suréchantillonner l'image, puis 2 couches convolutives, et une cellule de sortie qui est une version simplifiée de la cellule UpConv. Crédit :Billaut, De Rochemonteix et Thibault.
Les chercheurs ont formé leur modèle sur des sous-ensembles des ensembles de données SUN et ImageNet, qui contiennent des images de paysages. L'architecture de réseau neuronal qu'ils ont développée a permis à leur algorithme d'apprentissage en profondeur d'extraire des informations locales et globales de chaque image en niveaux de gris.
"L'algorithme peut alors décider de la couleur d'une région en fonction de son propre aspect, ainsi que sur le contexte qui l'entoure, " dit Thibault. " En général, il est crucial que les techniques d'IA pour la prise de décision dans la vie réelle tirent parti à la fois d'une identification précise du sujet localement et d'une compréhension du contexte plus large. »
L'un des principaux objectifs de l'étude était de développer une architecture légère et évolutive, mais également exécuté ainsi que des modèles de pointe dans les tâches de colorisation. Pour y parvenir, les chercheurs ont limité la tâche aux images de paysages naturels.
Image IRM open source qui pourrait être traitée par ColorUNet à l'avenir. Crédit :Billaut, De Rochemonteix et Thibault.
"Le plus important, nous avons utilisé une architecture U-Net pour améliorer les performances et réduire la complexité du modèle, " Matthieu de Rochemonteix, l'un des chercheurs qui a mené l'étude, a déclaré TechXplore. "ColorUnet approche des performances de pointe sur la sous-tâche sélectionnée. Son architecture permet une formation plus rapide et plus stable, sans renoncer à la profondeur et à la représentativité du modèle."
Lorsqu'il est évalué sur des images de paysages, ColorUNet a obtenu des résultats très prometteurs, avec une augmentation des données améliorant considérablement les performances et la robustesse du modèle. Les chercheurs ont également appliqué le modèle à la colorisation vidéo, proposer un moyen de lisser les prédictions de couleurs à travers les images sans avoir à former un réseau récurrent pour les entrées séquentielles.
"Le principal apport de cette technique est la capacité d'un algorithme à comprendre ce qui se passe dans une image à l'échelle locale, en lui alimentant tout le contexte de l'image, " a déclaré Thibault. "Alors que nous avons montré son efficacité dans la coloration d'images, nous travaillons également sur d'autres applications, notamment dans le domaine médical. Au sein du Gevaert Lab à Stanford, nous avons appliqué cette méthode à la détection de tumeurs chez les patients atteints de gliome (cancer du cerveau) sur la base d'une IRM. La recherche est florissante dans ce domaine, avec de plus en plus de techniques CV appliquées à l'imagerie médicale."
© 2018 Réseau Science X