N'y a-t-il rien de sacré ? Qui oserait même essayer de parler d'une expérience d'apprentissage automatique qui aboutirait à la pizza parfaite (halètement) ? Il est difficile d'envisager, mais un quintette de recherche n'a pas hésité à essayer, et ils ont travaillé pour apprendre à une machine à faire une bonne tarte.
Dites bonjour à PizzaGAN, un modèle génératif composé de couches qui visait à refléter la procédure étape par étape de la fabrication de pizzas.
Leur objectif était d'enseigner la machine en construisant un modèle génératif qui reflète un ensemble ordonné d'instructions. Comment ils ont procédé :« Chaque opérateur est conçu comme un Réseau Adversarial Génératif (GAN). Compte tenu d'une supervision faible au niveau de l'image, les opérateurs sont formés pour générer une couche visuelle qui doit être ajoutée ou supprimée de l'image existante. Le modèle proposé est capable de décomposer une image en une séquence ordonnée de couches en appliquant séquentiellement dans le bon ordre les modules de suppression correspondants."
(Les réseaux accusatoires génératifs peuvent faire beaucoup de choses, Victoria Song a fait remarquer dans Gizmodo . Elle a dit que c'était "essentiellement le type d'apprentissage automatique utilisé pour générer des visages d'IA réalistes et des deepfakes.")
Résultats? Autant dire qu'ils ont déclaré avoir fait un modèle à leur satisfaction. « Les résultats expérimentaux sur des images de pizza synthétiques et réelles démontrent que notre modèle proposé est capable de :(1) segmenter les garnitures de pizza de manière faiblement supervisée, (2) les supprimer en révélant ce qui est occlus en dessous (c'est-à-dire, peinture), et (3) déduire la commande des garnitures sans aucune supervision de la commande en profondeur. "
L'équipe a parlé de leurs ensembles de données de pizza synthétiques et réelles.
"La pizza est la nourriture la plus photographiée sur Instagram avec plus de 38 millions de publications utilisant le hashtag #pizza, ", ont-ils déclaré. Ils ont téléchargé un demi-million d'images d'Instagram à l'aide de plusieurs hashtags populaires liés à la pizza. Ils ont filtré les images indésirables à l'aide d'un classificateur basé sur CNN formé sur un ensemble d'images de pizza/non-pizza étiquetées manuellement.
Ils ont recherché des étiquettes au niveau de l'image pour les garnitures de pizza sur Amazon Mechanical Turk (AMT) pour 9, 213 images de pizza.
Pour leur ensemble de données de pizza synthétique, ils ont utilisé des images de pizza de style clip-art. "Il y a deux avantages principaux à créer un jeu de données avec des pizzas synthétiques. Premièrement, cela nous permet de générer un ensemble arbitrairement grand d'exemples de pizza avec un coût d'annotation humain nul. Deuxièmement et plus important encore, nous avons accès à des informations de commande précises et à une segmentation de pixels multicouche des garnitures. »
Donc, dans l'image plus grande, quelle contribution ont-ils apporté, si seulement, à l'humanité ? Victoria Song a fait un point, quand elle a écrit, "À long terme, on pourrait imaginer un réseau de neurones capable de scanner une photo et de recracher une recette assez précise à base d'ingrédients, à quel point il est cuit, et même des épices à peine visibles."
Après tout est dit (et fait), "la recherche démontre principalement la capacité d'une IA à faire la différence entre un tas d'ingrédients déroutants." Ils le savaient quand ils ont décidé de se concentrer sur la pizza. Pensez à « exemple archétypal » de quelque chose qui nécessite l'ajout séquentiel d'ingrédients dans un ordre spécifique.
Dans l'image plus grande, la pizza n'est pas le seul élément qui pourrait utiliser leur approche. "Bien que nous ayons évalué notre modèle uniquement dans le contexte de la pizza, nous pensons qu'une approche similaire est prometteuse pour d'autres types d'aliments qui sont naturellement stratifiés tels que les hamburgers, sandwichs, et salades."
Pour plus d'informations sur leurs recherches, leur article s'intitule, "Comment faire une pizza :apprendre un modèle GAN basé sur des couches compositionnelles, " par Dim Papadopoulos, Youssef Tamaazousti, Ferda Ofli, Ingmar Weber et Antonio Torralba. Le papier est sur arXiv. Le document a été soumis plus tôt ce mois-ci.
© 2019 Réseau Science X