Montrer aux robots un amour dur les aide à réussir, trouve une nouvelle étude

Le doctorant de l'USC Jiali Duan (à gauche) et Stefanos Nikolaidis, professeur assistant en informatique, utiliser l'apprentissage par renforcement, une technique dans laquelle les programmes d'intelligence artificielle « apprennent » à partir d'expérimentations répétées. Crédit :Haotian Mai.

Selon une nouvelle étude réalisée par des informaticiens de l'USC, aider un robot à réussir, vous devrez peut-être lui montrer un amour dur.

Dans une tâche de manipulation simulée par ordinateur, les chercheurs ont découvert que l'entraînement d'un robot avec un adversaire humain améliorait considérablement sa compréhension des objets.

"Il s'agit du premier effort d'apprentissage de robot utilisant des utilisateurs humains antagonistes, " a déclaré Stefanos Nikolaidis, co-auteur de l'étude, professeur assistant en informatique.

" Imaginez-le comme si vous faisiez un sport :si vous jouez au tennis avec quelqu'un qui vous laisse toujours gagner, tu n'iras pas mieux. Idem avec les robots. Si nous voulons qu'ils apprennent une tâche de manipulation, comme saisir, pour qu'ils puissent aider les gens, nous devons les défier."

L'étude, « Apprentissage de robots via des jeux accusatoires humains, " a été présenté le 4 novembre à la Conférence internationale sur les robots et systèmes intelligents. Les étudiants en doctorat de l'USC Jiali Duan et Qian Wang sont les auteurs principaux, conseillé par le professeur C.C. Jay Kuo, avec le co-auteur supplémentaire Lerrel Pinto de l'Université Carnegie Mellon.

Apprendre de la pratique

Nikolaïdis, qui a rejoint l'USC Viterbi School of Engineering en 2018, et son équipe utilisent l'apprentissage par renforcement, une technique dans laquelle les programmes d'intelligence artificielle « apprennent » à partir d'expérimentations répétées.

Au lieu de se limiter à accomplir un petit nombre de tâches répétitives, tels que les robots industriels, le système robotique « apprend » sur la base des exemples précédents, en théorie augmentant l'éventail des tâches qu'il peut effectuer.

Mais la création de robots polyvalents est notoirement difficile, dû en partie à la quantité de formation requise. Les systèmes robotiques ont besoin de voir un grand nombre d'exemples pour apprendre à manipuler un objet à la manière d'un humain.

Par exemple, L'impressionnant système robotique d'OpenAI a appris à résoudre un Rubik's cube avec une main humanoïde, mais nécessitait l'équivalent de 10, 000 ans d'entraînement simulé pour apprendre à manipuler le cube.

Plus important, la dextérité du robot est très spécifique. Sans formation approfondie, il ne peut pas ramasser un objet, le manipuler avec une autre poignée, ou saisir et manipuler un objet différent.

"En tant qu'humain, même si je connais l'emplacement de l'objet, Je ne sais pas exactement combien il pèse ou comment il bougera ou se comportera quand je le ramasserai, pourtant nous le faisons avec succès presque tout le temps, ", a déclaré Nikolaïdis.