Brendan Englot du Stevens Institute of Technology exploitera une nouvelle variante d'un outil classique d'intelligence artificielle pour créer des robots capables de prédire et de gérer les risques liés à l'accomplissement de la tâche souhaitée. Crédit :Institut de technologie Stevens
Tout comme les humains, Lorsque les robots ont une décision à prendre, il existe souvent de nombreuses options et des centaines de résultats potentiels. Les robots ont été capables de simuler une poignée de ces résultats pour déterminer quelle ligne de conduite sera la plus susceptible de mener au succès. Mais que se passerait-il si l'une des autres options était tout aussi susceptible de réussir et plus sûre ?
L'Office of Naval Research a décerné à Brendan Englot, un ingénieur en mécanique formé au MIT au Stevens Institute of Technology, un prix jeune chercheur 2020 de 508 $, 693 pour tirer parti d'une nouvelle variante d'un outil d'intelligence artificielle classique pour permettre aux robots de prédire les nombreux résultats possibles de leurs actions, et quelle est leur probabilité de se produire. Le cadre permettra aux robots de déterminer quelle option est la meilleure façon d'atteindre un objectif, en comprenant quelles options sont les plus sûres, le plus efficace et le moins susceptible d'échouer.
"Si le moyen le plus rapide pour un robot d'accomplir une tâche est de marcher au bord d'une falaise, c'est sacrifier la sécurité à la vitesse, " dit Englot, qui sera parmi les premiers à utiliser l'outil, apprentissage par renforcement distributionnel, pour former des robots. "Nous ne voulons pas que le robot tombe du bord de cette falaise, nous leur donnons donc les outils pour prévoir et gérer les risques impliqués dans l'accomplissement de la tâche souhaitée."
Pendant des années, l'apprentissage par renforcement a été utilisé pour entraîner des robots à naviguer de manière autonome dans l'eau, terre et air. Mais cet outil d'IA a des limites, car il prend des décisions en fonction d'un seul résultat attendu pour chaque action disponible, alors qu'en fait il y a souvent beaucoup d'autres résultats possibles qui peuvent se produire. Englot utilise l'apprentissage par renforcement distributionnel, un algorithme d'IA qu'un robot peut utiliser pour évaluer tous les résultats possibles, prédire la probabilité de réussite de chaque action et choisir l'option la plus opportune susceptible de réussir tout en assurant la sécurité d'un robot.
Avant d'utiliser son algorithme dans un robot réel, La première mission d'Englot est de perfectionner l'algorithme. Englot et son équipe créent un certain nombre de situations de prise de décision pour tester leur algorithme. Et ils se tournent souvent vers l'un des terrains de jeu préférés du terrain :les jeux Atari.
Par exemple, quand tu joues à Pacman, vous êtes l'algorithme qui décide du comportement de Pacman. Votre objectif est d'obtenir tous les points du labyrinthe et si vous le pouvez, obtenir des fruits. Mais il y a des fantômes qui flottent et qui peuvent vous tuer. Chaque seconde, vous êtes obligé de prendre une décision. Vas-tu tout droit, gauche ou droite? Quel chemin vous permet d'obtenir le plus de points et de points tout en vous éloignant des fantômes ?
Algorithme d'IA d'Englot, en utilisant l'apprentissage par renforcement distributionnel, prendra la place d'un joueur humain, simulant tous les mouvements possibles pour naviguer en toute sécurité dans son paysage.
Alors comment récompenser un robot ? Englot et son équipe attribueront des points à différents résultats, c'est à dire., s'il tombe d'une falaise, le robot obtient -100 points. Si cela prend plus de temps, mais option plus sûre, il peut recevoir -1 point pour chaque pas le long du détour. Mais s'il atteint avec succès le but, il peut atteindre +50.
"L'un de nos objectifs secondaires est de voir comment les signaux de récompense peuvent être conçus pour avoir un impact positif sur la façon dont un robot prend des décisions et peut être entraîné, " a déclaré Englot. " Nous espérons que les techniques développées dans ce projet pourront finalement être utilisées pour une IA encore plus complexe, tels que la formation de robots sous-marins pour naviguer en toute sécurité au milieu des marées variables, courants, et d'autres facteurs environnementaux complexes.