• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  • Concentrez-vous sur un algorithme d'apprentissage par renforcement qui peut apprendre de l'échec

    Crédit :OpenAI

    Les nouvelles récentes des gens d'OpenAI concernent un trio bonus. Ils lancent de nouveaux environnements Gym - un ensemble d'environnements robotiques simulés basés sur de vraies plates-formes robotiques - y compris une main Shadow et un robot de recherche Fetch, mentionné Spectre IEEE .

    En plus de cette boîte à outils, ils publient une version open source de Hindsight Experience Replay (HER). Comme son nom l'indique, cela aide les robots à apprendre avec le recul, pour les tâches robotiques basées sur des objectifs.

    Enfin et surtout, ils ont publié un ensemble de demandes de recherche en robotique. "Si vous êtes du genre ambitieux, " a déclaré Evan Ackerman dans Spectre IEEE , "OpenAI a également publié un ensemble de demandes de recherche liée à l'HER."

    "Bien que HER soit un moyen prometteur d'apprendre des tâches complexes basées sur des objectifs avec des récompenses rares comme les environnements robotiques que nous proposons ici, il y a encore beaucoup de place pour l'amélioration, " ils ont blogué. " Semblable à nos demandes de recherche 2.0 récemment publiées, nous avons quelques idées sur les moyens d'améliorer spécifiquement HER, et l'apprentissage par renforcement en général."

    OpenAI est une société de recherche en IA. Ils publient lors de conférences sur l'apprentissage automatique et leurs articles de blog communiquent leurs recherches.

    Elon Musk est co-fondateur. Il est parrainé par des particuliers et des entreprises, et ils visent à découvrir et à adopter "la voie vers une intelligence générale artificielle sûre".

    Une vidéo OpenAI montrant ce qu'ils ont accompli dans la partie environnements Gym a été publiée le 26 février.

    Ils montrent les différentes tâches accomplies. Un robot ShadowHand manipule un objet (montre une main manipulant, y compris la flexion des doigts, un bloc d'alphabet pour enfant, un objet en forme d'oeuf, et passer les doigts dans un petit bâton). Ils introduisent également un mécanisme de robot "nudge" qui peut faire glisser une rondelle ainsi que saisir une petite balle et la soulever.

    Spécifiquement, ce sont les exploits variés présentés :ShadowHand doit atteindre avec son pouce et un doigt sélectionné jusqu'à ce qu'ils se rencontrent à la position souhaitée au-dessus de la paume. ShadowHand doit manipuler un bloc jusqu'à ce qu'il atteigne la position et la rotation souhaitées. ShadowHand doit manipuler un œuf jusqu'à ce qu'il atteigne la position et la rotation souhaitées. ShadowHand doit manipuler un stylo jusqu'à ce qu'il atteigne la position et la rotation souhaitées.

    En tout, « les derniers environnements simulent un bras robotique Fetch pour pousser des choses, et une ShadowHand pour saisir et manipuler des objets avec des doigts robotiques, " a déclaré Katyanna Quach dans Le registre .

    L'offre OpenAI HER est particulièrement intéressante; la formation et le renforcement sont repensés. HER permet à un agent d'apprendre des échecs. Comme Ackerman l'a écrit, HER "recadre les échecs en réussites afin d'aider les robots à apprendre davantage comme les humains".

    Jackie Snow dans Examen de la technologie du MIT a observé que « Il le fait en examinant comment chaque tentative d'une tâche pourrait être appliquée à d'autres. »

    Neige ajoutée, "HER ne donne pas de récompenses aux robots pour avoir réussi une étape d'une tâche - elle ne les distribue que si tout est fait correctement."

    Recadrer les échecs en réussites ? Ackerman a proposé cette explication :« Pour comprendre comment fonctionne HER, imaginez que vous êtes à la batte dans un match de baseball. Votre objectif est de frapper un home run. Sur le premier terrain, vous frappez une balle qui fait fausse route. ...vous avez également appris exactement comment frapper une fausse balle...Avec le recul de l'expérience, vous décidez d'apprendre de ce que vous venez de faire de toute façon, essentiellement en disant, 'Tu sais, si j'avais voulu frapper une fausse balle, ça aurait été parfait !'"

    Quelle est la qualité de la mise en œuvre de HER ? "Nos résultats montrent que HER peut apprendre des politiques efficaces sur la plupart des nouveaux problèmes de robotique à partir de récompenses éparses."

    Les enfants qui jouent à des jeux avec les yeux bandés disent souvent au joueur :"Tu t'échauffes, plus chaud. » Les mots clés pour apprécier leurs recherches sont des récompenses rares et denses.

    « La plupart des algorithmes d'apprentissage par renforcement utilisent des « récompenses denses », ' a expliqué Ackerman, « où le robot obtient des cookies de différentes tailles en fonction de la distance à laquelle il se rapproche de l'achèvement d'une tâche... Des récompenses rares signifient que le robot n'obtient qu'un seul cookie s'il réussit, et c'est tout :plus facile à mesurer, plus facile à programmer, et plus facile à mettre en œuvre."

    © 2018 Tech Xplore




    © Science https://fr.scienceaq.com