L'un des trois environnements d'apprentissage considérés, à savoir la locomotion. En locomotion, les agents apprennent à naviguer dans l'environnement en évitant les obstacles (rectangles sombres) et les autres agents. Crédit :Amine Boumaza.
Recombinaison, le réarrangement du matériel génétique résultant de l'accouplement ou de la combinaison de segments d'ADN provenant d'organismes différents, présente de nombreux avantages évolutifs. Par exemple, il permet aux organismes d'éliminer les mutations délétères de leur génome et d'accepter des mutations plus utiles.
Amine Boumaza, chercheur à l'Université de Lorraine, a récemment essayé d'appliquer ce processus à la robotique évolutive incarnée en ligne, un domaine de la robotique qui se concentre sur la réplication des théories de l'évolution chez les robots. Dans son papier, publié dans la revue GECCO '19 Proceedings of the Genetic and Evolutionary Computation Conference, il a développé un opérateur de recombinaison inspiré de l'évolution et l'a entraîné sur trois tâches qui nécessitent une collaboration entre plusieurs robots.
"Ma recherche s'inscrit dans le sujet plus large de l'IA, et plus précisément, comprendre comment nous pouvons concevoir des agents capables d'apprendre à accomplir des tâches intéressantes, " a déclaré Boumaza. " Ce sujet de recherche n'est pas nouveau, mais plutôt vieux, et il a reçu beaucoup d'attention ces derniers temps en raison des résultats impressionnants de l'apprentissage en profondeur. Dans mon cas, Je suis plus intéressé par la robotique en essaim, où le but est de faire coopérer un grand nombre de petits robots pour résoudre une tâche et s'adapter aux changements de leur environnement."
Fasciné par les stratégies évolutives, en particulier la recombinaison, qui équipent mieux les organismes vivants pour faire face aux défis de la vie, Boumaza a cherché à déterminer si des mécanismes similaires pouvaient être appliqués aux approches robotiques. Son hypothèse était que si elle était répliquée avec succès dans des robots, la recombinaison augmenterait leurs performances et leur efficacité.
"Quand on parle d'agents robotiques, on suppose généralement une entité physique incarnée dans un environnement (un robot aspirateur dans une pièce par exemple), " dit Boumaza. " Cet agent perçoit son environnement à l'aide d'un ensemble de capteurs (capteurs d'obstacles, caméra, etc.), ce qui peut lui donner une sorte de représentation de son environnement. L'agent peut également agir dans l'environnement à l'aide d'effecteurs (moteurs, les bras, Brosse de nettoyage, etc.). Ces actions sont le résultat d'un calcul qui est la sortie de ce que nous appelons communément un contrôleur (c'est-à-dire une sorte de programme de décision)."
L'un des trois environnements d'apprentissage considérés, à savoir la collection d'articles. Dans la collection d'articles, les agents doivent collecter autant d'articles (points rouges) que possible. Crédit :Amine Boumaza.
Un contrôleur est essentiellement un programme qui traite les perceptions acquises par un robot via ses capteurs et envoie des commandes à ses effecteurs. Dans le cas d'un aspirateur robot, par exemple, un contrôleur traiterait des informations sur son environnement, détecter s'il y a de la poussière devant, puis produire des sorties qui feront que le robot activera l'aspirateur et avancera pour aspirer la poussière.
"Fais un pas de plus, on peut aussi considérer plusieurs agents qui peuvent évoluer dans le même environnement, " a déclaré Boumaza. " Concevoir des contrôleurs pour chaque agent dans de tels contextes est un problème très difficile pour lequel il n'existe pas encore de technique efficace. Dans ce cas, nous pouvons en avoir peu (par exemple, 10 à 100) robots complexes, ou de nombreux robots très simples (par exemple, des centaines) qui interagissent de manière généralement inspirée du comportement des insectes ; c'est ce que nous appelons la robotique en essaim."
Lors du développement d'un robot capable d'accomplir efficacement une tâche particulière, les chercheurs doivent concevoir un contrôleur adapté à cette tâche spécifique. Si l'environnement dans lequel le robot est censé fonctionner est simple, la conception de ce contrôleur peut être assez facile, pourtant la plupart du temps, ce n'est pas le cas.
Cela devient encore plus difficile, sinon impossible, lorsque l'on considère plusieurs robots interagissant dans un environnement donné. La principale raison à cela est qu'un développeur humain ne peut pas prédire toutes les situations que chaque robot rencontrera, ainsi que les actions les plus efficaces pour faire face à chacune de ces situations. Heureusement, dans les années récentes, les progrès de l'apprentissage automatique ont ouvert de nouvelles possibilités intéressantes pour la recherche en robotique, permettre aux développeurs d'intégrer des outils qui permettent un apprentissage continu, essentiellement former le contrôleur à faire face à de nombreuses situations au fil du temps.
"Une façon de concevoir un contrôleur de cette manière est d'utiliser des algorithmes évolutifs, lequel, en gros, essayer d'imiter l'évolution naturelle des espèces pour faire évoluer les contrôleurs d'agents robotiques, " a déclaré Boumaza. " C'est un processus itératif où, à mesure que les animaux s'adaptent mieux à leur environnement, le contrôleur s'améliore dans la résolution d'une tâche. Le but n'est pas de simuler l'évolution naturelle, mais plutôt s'en inspirer."
L'un des trois environnements d'apprentissage considérés, à savoir la recherche de nourriture. En quête de nourriture, les agents doivent ramasser les objets et les rapporter au nid (l'un des deux cercles noirs). Le sol de couleur verte est une piste de phéromone qui ajoute un sens de l'orientation, il est très concentré aux emplacements des nids et moins concentré plus loin. Crédit :Amine Boumaza.
La robotique évolutive n'est qu'une des nombreuses techniques que les chercheurs peuvent utiliser pour concevoir des contrôleurs de robots. Dans les années récentes, cependant, les approches évolutives ont gagné en popularité, avec un nombre croissant d'études visant à répliquer les stratégies évolutives observées chez l'animal et l'homme.
"La robotique évolutive a certains avantages, comme le fait que nous n'avons pas besoin de spécifier comment résoudre la tâche (elle est découverte/appris par l'algorithme), mais simplement besoin de spécifier un moyen de mesurer à quel point la tâche est exécutée, " a déclaré Boumaza. Cela a aussi quelques inconvénients, car il s'agit d'un processus très lent et intensif en calcul, cela peut être très difficile à réaliser sur de vrais robots. En outre, ces approches sont généralement très sensibles aux mesures de performance, car ils conditionnent le comportement appris par les agents.
Boumaza, comme d'autres chercheurs dans le domaine, a essayé de développer de nouvelles approches pour surmonter les lacunes des techniques de robotique évolutive existantes. Dans sa récente étude, il a notamment proposé l'utilisation d'un nouvel "opérateur d'accouplement" inspiré de la recombinaison, ce qui peut améliorer la vitesse de convergence dans les simulations de robots. C'est une réalisation remarquable, car cela pourrait à terme réduire le temps nécessaire pour transférer une approche des simulations aux vrais robots.
Il a appliqué son opérateur de recombinaison à trois tâches de robotique collective :locomotion, collection d'objets et recherche d'objets. Il a ensuite comparé les performances obtenues en utilisant une version purement mutative de son algorithme avec celles de différents opérateurs de recombinaison. Les résultats recueillis dans ses expériences suggèrent que, lorsqu'il est correctement conçu, les stratégies de recombinaison peuvent en effet améliorer l'adaptation d'un essaim de robots dans toutes les tâches envisagées.
À l'avenir, la nouvelle approche robotique évolutive qu'il a proposée pourrait être utilisée pour améliorer les performances et l'adaptabilité des robots dans des tâches qui nécessitent une collaboration entre plusieurs agents. En attendant, cependant, Boumaza envisage de tester son algorithme sur de nouvelles tâches, pour déterminer si l'amélioration qu'il a observée dans les trois tâches sur lesquelles il s'est concentré tient toujours.
« Il serait également intéressant de vérifier si mon approche peut être implémentée sur de vrais robots, " dit Boumaza. " Théoriquement rien ne l'empêche, sauf d'avoir un grand nombre de robots physiques et d'accepter de faire face au "décalage de la réalité" (c'est-à-dire que ce que nous voyons dans la simulation n'est généralement pas ce qui se passerait dans la réalité, en raison des simplifications de la simulation. La robotique en essaim est une question de chiffres et les défaillances d'un seul robot ne devraient pas entraver l'essaim. Finalement, donc, pour vérifier la validité de cette approche, il faut la tester dans la réalité, sur des robots physiques."
© 2019 Réseau Science X