Crédit :CC0 Domaine Public
Une équipe de recherche dirigée par le professeur LI Huiyun des Instituts de technologie avancée de Shenzhen (SIAT) de l'Académie chinoise des sciences a introduit un algorithme simple d'apprentissage par renforcement en profondeur (DRL) avec une technique d'amorçage m-sur-n et plusieurs déterministes profonds agrégés. structures d'algorithme de gradient de politique (DDPG).
Nommé « multi-DDPG agrégé bootstrappé » (BAMDDPG), le nouvel algorithme a accéléré le processus de formation et augmenté les performances dans le domaine de la recherche artificielle intelligente.
Les chercheurs ont testé leur algorithme sur un robot 2D et un simulateur de voiture de course ouvert (TORCS). Les résultats de l'expérience sur le jeu de bras robotisé en 2D ont montré que la récompense obtenue par la politique agrégée était de 10 à 50 % supérieure à celle obtenue par les sous-politiques, et les résultats de l'expérience sur le TORCS ont démontré que le nouvel algorithme pouvait apprendre des politiques de contrôle réussies avec moins de temps de formation de 56,7%.
L'algorithme DDPG fonctionnant sur un espace continu d'actions a attiré une grande attention pour l'apprentissage par renforcement. Cependant, la stratégie d'exploration par programmation dynamique au sein de l'espace d'état de croyance bayésienne est plutôt inefficace même pour des systèmes simples. Cela entraîne généralement l'échec du bootstrap standard lors de l'apprentissage d'une stratégie optimale.
L'algorithme proposé utilise le tampon de relecture d'expérience centralisé pour améliorer l'efficacité de l'exploration. Le bootstrap M-sur-n avec initialisation aléatoire produit des estimations d'incertitude raisonnables à faible coût de calcul, aider à la convergence de la formation. Le DDPG bootstrap et agrégé proposé peut réduire le temps d'apprentissage.
BAMDDPG permet à chaque agent d'utiliser les expériences rencontrées par d'autres agents. Cela rend la formation des sous-politiques de BAMDDPG plus efficace puisque chaque agent possède une vision plus large et plus d'informations sur l'environnement.
Cette méthode est efficace pour les données d'apprentissage séquentielles et itératives, où les données présentent une distribution à longue queue, plutôt que la distribution de la norme impliquée par l'hypothèse de données indépendantes distribuées à l'identique. Il peut apprendre les politiques optimales avec beaucoup moins de temps de formation pour les tâches avec un espace continu d'actions et d'états.
L'étude, intitulé "Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm, " a été publié dans Hindawi .