Un nouveau cadre améliore les performances des réseaux de neurones profonds

Crédit :CC0 Domaine Public

Des chercheurs de la North Carolina State University ont développé un nouveau cadre pour la construction de réseaux de neurones profonds via des générateurs de réseaux guidés par la grammaire. Dans les tests expérimentaux, les nouveaux réseaux, appelés AOGNets, ont surpassé les cadres de pointe existants, y compris les systèmes ResNet et DenseNet largement utilisés, dans les tâches de reconnaissance visuelle.

"AOGNets a une meilleure précision de prédiction que tous les réseaux auxquels nous l'avons comparé, " dit Tianfu Wu, un professeur assistant de génie électrique et informatique à NC State et auteur correspondant d'un article sur le travail. "Les AOGnets sont aussi plus interprétables, ce qui signifie que les utilisateurs peuvent voir comment le système parvient à ses conclusions."

Le nouveau cadre utilise une approche de grammaire compositionnelle pour l'architecture du système qui s'appuie sur les meilleures pratiques des systèmes de réseau précédents pour extraire plus efficacement des informations utiles à partir de données brutes.

« Nous avons découvert que la grammaire hiérarchique et compositionnelle nous donnait une manière élégante d'unifier les approches adoptées par les architectures système précédentes, et à notre meilleure connaissance, c'est le premier ouvrage qui utilise la grammaire pour la génération de réseau, " dit Wu.

Pour tester leur nouveau framework, les chercheurs ont développé AOGNets et les ont testés par rapport à trois références de classification d'images :CIFAR-10, CIFAR-100 et ImageNet-1K.

"AOGNets a obtenu des performances nettement meilleures que tous les réseaux de pointe dans des comparaisons équitables, y compris ResNets, Réseaux denses, ResNeXts et DualPathNets, " dit Wu. " AOGNets a également obtenu le meilleur score d'interprétabilité de modèle en utilisant la métrique de dissection de réseau dans ImageNet. Les AOGNets montrent en outre un grand potentiel en matière de défense contradictoire et de déploiement indépendant de la plate-forme (mobile vs cloud)."

Les chercheurs ont également testé les performances d'AOGNets en matière de détection d'objets et de segmentation sémantique d'instances, sur le benchmark Microsoft COCO, en utilisant le système vanille Mask R-CNN.

"AOGNets a obtenu de meilleurs résultats que les backbones ResNet et ResNeXt avec des tailles de modèle plus petites et un temps d'inférence similaire ou légèrement meilleur, " dit Wu. " Les résultats montrent l'efficacité des AOGNets à apprendre de meilleures fonctionnalités dans les tâches de détection et de segmentation d'objets.

Ces tests sont pertinents car la classification des images est l'une des tâches fondamentales de la reconnaissance visuelle, et ImageNet est la référence de classification standard à grande échelle. De la même manière, la détection et la segmentation d'objets sont deux tâches essentielles de vision de haut niveau, et MS-COCO est l'un des benchmarks les plus utilisés.

« Évaluer de nouvelles architectures de réseau pour un apprentissage profond en reconnaissance visuelle, ce sont les bancs d'essai dorés, " dit Wu. " Les AOGNets sont développés sous un cadre grammatical basé sur des principes et obtiennent une amélioration significative à la fois dans ImageNet et MS-COCO, montrant ainsi des impacts potentiellement larges et profonds pour l'apprentissage de la représentation dans de nombreuses applications pratiques.

« Nous sommes enthousiasmés par le cadre AOGNet guidé par la grammaire, et explorent ses performances dans d'autres applications d'apprentissage en profondeur, telles que la compréhension profonde du langage naturel, apprentissage génératif profond et apprentissage profond par renforcement, " dit Wu.

Le papier, "AOGNets :architectures grammaticales compositionnelles pour l'apprentissage en profondeur, " sera présenté à la conférence IEEE Computer Vision and Pattern Recognition, qui se tiendra du 16 au 20 juin à Long Beach, Californie Le premier auteur de l'article est Xilai Li, un doctorat étudiant à NC State. L'article a été co-écrit par Xi Song, un chercheur indépendant.

CycleMatch :une nouvelle approche pour faire correspondre des images et du texte

LG améliorera les appareils électroménagers avec les yeux et les oreilles

Électronique