• Home
  • Chimie
  • Astronomie
  • Énergie
  • La nature
  • Biologie
  • Physique
  • Électronique
  •  science >> Science >  >> Autres
    Les simulations basées sur l'apprentissage par renforcement montrent que le désir humain d'en vouloir toujours plus peut accélérer l'apprentissage

    Conception d'environnement. (a) L'environnement gridworld bidimensionnel utilisé dans l'expérience 1. (b) Pour étudier les propriétés de la récompense optimale, nous avons apporté plusieurs modifications à l'environnement gridworld. Rangée du haut :dans l'environnement d'apprentissage ponctuel, l'agent peut choisir de rester constamment dans le lieu de restauration après l'avoir atteint. Dans l'environnement d'apprentissage à vie, l'agent a été téléporté à un endroit aléatoire dans le gridworld dès qu'il a atteint l'état alimentaire. Rangée du milieu :dans l'environnement stationnaire, la nourriture est restée au même endroit pendant toute la durée de vie de l'agent. Dans l'environnement non stationnaire, la nourriture a changé d'emplacement au cours de la vie de l'agent. Rangée du bas :nous avons utilisé un gridworld de taille 7 × 7 pour simuler un paramètre de récompense dense. Pour simuler un paramètre de récompense clairsemé, nous avons augmenté la taille du gridworld à 13 × 13. Crédit :PLOS Computational Biology (2022). DOI :10.1371/journal.pcbi.1010316

    Un trio de chercheurs, deux de l'Université de Princeton, l'autre de l'Institut Max Planck de cybernétique biologique, a développé une simulation basée sur l'apprentissage par renforcement qui montre que le désir humain de vouloir toujours plus peut avoir évolué comme un moyen d'accélérer l'apprentissage. Dans leur article publié dans le PLOS Computational Biology en libre accès , Rachit Dubey, Thomas Griffiths et Peter Dayan décrivent les facteurs qui sont entrés dans leurs simulations.

    Les chercheurs qui étudient le comportement humain ont souvent été intrigués par les désirs apparemment contradictoires des gens. Beaucoup de gens ont un désir incessant pour plus de certaines choses, même s'ils savent que la satisfaction de ces désirs peut ne pas aboutir au résultat souhaité. Beaucoup de gens veulent de plus en plus d'argent, par exemple, avec l'idée que plus d'argent rendrait la vie plus facile, ce qui devrait les rendre plus heureux. Mais une foule d'études ont montré que gagner plus d'argent rend rarement les gens plus heureux (à l'exception de ceux qui partent d'un niveau de revenu très faible). Dans ce nouvel effort, les chercheurs ont cherché à mieux comprendre pourquoi les gens auraient évolué de cette façon. À cette fin, ils ont construit une simulation pour imiter la façon dont les humains réagissent émotionnellement aux stimuli, tels que la réalisation d'objectifs. Et pour mieux comprendre pourquoi les gens pourraient se sentir comme ils le font, ils ont ajouté des points de contrôle qui pourraient être utilisés comme baromètre du bonheur.

    La simulation était basée sur l'apprentissage par renforcement, dans lequel les personnes (ou une machine) continuent à faire des choses qui offrent une récompense positive et cessent de faire des choses qui n'offrent aucune récompense ou une récompense négative. Les chercheurs ont également ajouté des réactions émotionnelles simulées aux impacts négatifs connus de l'accoutumance et de la comparaison, par lesquels les gens deviennent moins heureux au fil du temps à mesure qu'ils s'habituent à quelque chose de nouveau et deviennent moins heureux lorsqu'ils voient que quelqu'un d'autre a plus de quelque chose qu'ils veulent.

    En exécutant la simulation, les chercheurs ont constaté qu'elle atteignait ses objectifs plus rapidement lorsque l'accoutumance et la comparaison entraient en jeu, ce qui suggère que de telles réactions émotionnelles pourraient également jouer un rôle dans l'apprentissage plus rapide chez les humains. Ils ont également constaté que la simulation se terminait moins "heureuse" lorsqu'elle était confrontée à plus de choix concernant les options réalisables possibles que lorsqu'il n'y en avait que quelques-unes parmi lesquelles choisir.

    Les chercheurs suggèrent que la raison pour laquelle les gens sont enclins à être piégés dans un cycle sans fin de vouloir toujours plus est parce que, dans l'ensemble, cela aide les humains à apprendre plus rapidement. + Explorer plus loin

    Bonheur :pourquoi l'apprentissage, et non les récompenses, peut être la clé

    © 2022 Réseau Science X




    © Science https://fr.scienceaq.com