Apprendre des erreurs et des compétences transférables

Apprendre des erreurs et des compétences transférables - les attributs d'un robot ouvrier

Crédit :CC0 Domaine Public

La pratique rend parfait - c'est un adage qui a aidé les humains à devenir très adroits et c'est maintenant une approche qui est appliquée aux robots.

Les informaticiens de l'Université de Leeds utilisent les techniques d'intelligence artificielle (IA) de planification automatisée et d'apprentissage par renforcement pour « entraîner » un robot à trouver un objet dans un espace encombré, comme une étagère d'entrepôt ou dans un réfrigérateur et déplacez-le.

L'objectif est de développer l'autonomie de la robotique, ainsi la machine peut évaluer les circonstances uniques présentées dans une tâche et trouver une solution, semblable à un robot transférant des compétences et des connaissances à un nouveau problème.

Les chercheurs de Leeds présentent leurs résultats aujourd'hui (lundi, 4 novembre à la Conférence internationale sur la robotique et les systèmes intelligents à Macao, Chine.

Le grand défi est que dans une zone confinée, un bras robotique peut ne pas être capable de saisir un objet par le dessus. Au lieu de cela, il doit planifier une séquence de mouvements pour atteindre l'objet cible, peut-être en manipulant d'autres éléments à l'écart. La puissance informatique nécessaire pour planifier une telle tâche est si grande, le robot fera souvent une pause de plusieurs minutes. Et quand il exécute le mouvement, il échouera souvent.

Développer l'idée de la pratique rend parfait, les informaticiens de Leeds rassemblent deux idées de l'IA.

L'un est la planification automatisée. Le robot est capable de "voir" le problème à travers un système de vision, en fait une image. Le logiciel du système d'exploitation du robot simule la séquence possible de mouvements qu'il pourrait effectuer pour atteindre l'objet cible.

Mais les simulations qui ont été "répétées" par le robot ne parviennent pas à capturer la complexité du monde réel et lorsqu'elles sont mises en œuvre, le robot ne parvient pas à exécuter la tâche. Par exemple, il peut faire tomber des objets de l'étagère.

L'équipe de Leeds a donc combiné la planification avec une autre technique d'IA appelée apprentissage par renforcement.

L'apprentissage par renforcement implique l'ordinateur dans une séquence d'essais et d'erreurs - environ 10, 000 au total—pour atteindre et déplacer des objets. Grâce à ces tentatives d'essais et d'erreurs, le robot « apprend » quelles actions il a planifiées sont les plus susceptibles de se terminer par un succès.

L'ordinateur entreprend l'apprentissage lui-même, en commençant par sélectionner au hasard un mouvement planifié qui pourrait fonctionner. Mais comme le robot apprend par essais et erreurs, il devient plus apte à sélectionner les mouvements planifiés qui ont plus de chances de réussir.

Dr Matteo Leonetti, de l'École d'informatique, a déclaré :« L'intelligence artificielle est bonne pour permettre aux robots de raisonner, par exemple, nous avons vu des robots impliqués dans des parties d'échecs avec des grands maîtres.

"Mais les robots ne sont pas très bons dans ce que les humains font très bien :être très mobiles et adroits. Ces compétences physiques ont été câblées dans le cerveau humain, le résultat de l'évolution et la façon dont nous pratiquons et pratiquons et pratiquons.

"Et c'est une idée que nous appliquons à la prochaine génération de robots."

Selon Wissam Bejjani, un doctorat étudiant qui a rédigé le mémoire de recherche, le robot développe une capacité de généralisation, d'appliquer ce qu'il a prévu à un ensemble unique de circonstances.

Il a déclaré :« Notre travail est important car il combine la planification avec l'apprentissage par renforcement. De nombreuses recherches pour essayer de développer cette technologie se concentrent sur une seule de ces approches.

« Notre approche a été validée par les résultats que nous avons vus dans le laboratoire de robotique de l'Université.

"Avec un problème, où le robot devait déplacer une grosse pomme, il est d'abord allé sur le côté gauche de la pomme pour éloigner le fouillis, avant de manipuler la pomme.

"Il l'a fait sans que le fouillis ne tombe en dehors des limites de l'étagère."

Dr Mehmet Dogar, Professeur agrégé à l'École d'informatique, a également participé à l'étude. Il a déclaré que l'approche avait accéléré le temps de "réflexion" du robot d'un facteur dix - les décisions qui prenaient 50 secondes prennent maintenant 5 secondes.

La méthode de navigation peut accélérer la livraison autonome du dernier kilomètre

Pris en flagrant délit :des caméras automatiques repéreront les automobilistes utilisant des appareils mobiles, mais à quel prix ?

Électronique