Crédit :Patrick Dockens/Creative Commons
Des chercheurs de la North Carolina State University ont développé une technique qui réduit le temps de formation pour les réseaux d'apprentissage en profondeur de plus de 60 pour cent sans sacrifier la précision, accélérer le développement de nouvelles applications d'intelligence artificielle (IA).
"Les réseaux d'apprentissage en profondeur sont au cœur des applications d'IA utilisées dans tout, des voitures autonomes aux technologies de vision par ordinateur, " dit Xipeng Shen, professeur d'informatique à NC State et co-auteur d'un article sur le travail.
« L'un des plus grands défis auxquels est confronté le développement de nouveaux outils d'IA est le temps et la puissance de calcul nécessaires pour former des réseaux d'apprentissage en profondeur afin d'identifier et de répondre aux modèles de données pertinents pour leurs applications. Nous avons mis au point un moyen d'accélérer ce processus, que nous appelons Adaptive Deep Reuse. Nous avons démontré qu'il peut réduire les temps d'entraînement jusqu'à 69 % sans perte de précision."
La formation d'un réseau d'apprentissage profond consiste à diviser un échantillon de données en morceaux de points de données consécutifs. Pensez à un réseau conçu pour déterminer s'il y a un piéton dans une image donnée. Le processus commence par diviser une image numérique en blocs de pixels adjacents les uns aux autres. Chaque bloc de données passe par un ensemble de filtres de calcul. Les résultats sont ensuite passés à travers un deuxième ensemble de filtres. Cela continue de manière itérative jusqu'à ce que toutes les données aient été passées à travers tous les filtres, permettant au réseau de parvenir à une conclusion sur l'échantillon de données.
Lorsque ce processus a été effectué pour chaque échantillon de données dans un ensemble de données, cela s'appelle une époque. Afin d'affiner un réseau d'apprentissage en profondeur, le réseau passera probablement par le même ensemble de données pendant des centaines d'époques. Et de nombreux ensembles de données se composent de dizaines de milliers et de millions d'échantillons de données. De nombreuses itérations, de nombreux filtres appliqués à de nombreuses données signifient que la formation d'un réseau d'apprentissage en profondeur nécessite beaucoup de puissance de calcul.
Le moment décisif pour l'équipe de recherche de Shen est venu lorsqu'elle s'est rendu compte que de nombreux morceaux de données dans un ensemble de données sont similaires les uns aux autres. Par exemple, une tache de ciel bleu dans une image peut être similaire à une tache de ciel bleu ailleurs dans la même image ou à une tache de ciel dans une autre image dans le même ensemble de données.
En reconnaissant ces morceaux de données similaires, un réseau d'apprentissage en profondeur pourrait appliquer des filtres à un bloc de données et appliquer les résultats à tous les blocs de données similaires dans le même ensemble, économiser beaucoup de puissance de calcul.
"Nous n'avons pas seulement pu démontrer que ces similitudes existent, mais que nous pouvons trouver ces similitudes pour les résultats intermédiaires à chaque étape du processus, " dit Lin Ning, un doctorat étudiant à NC State et auteur principal de l'article. "Et nous avons pu maximiser cette efficacité en appliquant une méthode appelée hachage sensible à la localité."
Mais cela soulève deux questions supplémentaires. Quelle doit être la taille de chaque bloc de données ? Et quel seuil les blocs de données doivent-ils atteindre pour être considérés comme « similaires » ?
Les chercheurs ont découvert que l'approche la plus efficace consistait à commencer par examiner des morceaux de données relativement volumineux en utilisant un seuil relativement bas pour déterminer la similitude. Aux époques suivantes, les morceaux de données deviennent plus petits et le seuil de similarité plus strict, améliorer la précision du réseau d'apprentissage en profondeur. Les chercheurs ont conçu un algorithme adaptatif qui implémente automatiquement ces changements incrémentiels au cours du processus de formation.
Pour évaluer leur nouvelle technique, les chercheurs l'ont testé à l'aide de trois réseaux d'apprentissage en profondeur et d'ensembles de données largement utilisés comme bancs d'essai par les chercheurs en apprentissage en profondeur :CifarNet utilisant Cifar10; AlexNet utilisant ImageNet ; et VGG-19 en utilisant ImageNet.
Adaptive Deep Reuse a réduit le temps de formation pour AlexNet de 69 % ; pour VGG-19 de 68 % ; et pour CifarNet de 63 %, le tout sans perte de précision.
"Cela démontre que la technique réduit drastiquement les temps d'entraînement, " dit Hui Guan, un doctorat étudiant à NC State et co-auteur de l'article. "Cela indique également que plus le réseau est grand, plus la réutilisation en profondeur adaptative est en mesure de réduire les temps de formation, car AlexNet et VGG-19 sont tous deux considérablement plus gros que CifarNet."
« Nous pensons que la réutilisation en profondeur adaptative est un outil précieux, et nous sommes impatients de travailler avec des partenaires de l'industrie et de la recherche pour démontrer comment il peut être utilisé pour faire progresser l'IA, " dit Shen.
Le papier, « Réutilisation en profondeur adaptative : accélération de la formation CNN à la volée, " sera présenté à la 35e conférence internationale IEEE sur l'ingénierie des données, qui se tiendra du 8 au 11 avril dans la RAS de Macao, Chine.