Des informaticiens de l'Université du Texas à Austin ont appris à un agent d'intelligence artificielle comment faire quelque chose que seuls les humains peuvent faire en général :jeter un coup d'œil rapide et en déduire l'ensemble de son environnement. Crédit :Jenna Luecke/Université du Texas à Austin.
Des informaticiens de l'Université du Texas à Austin ont appris à un agent d'intelligence artificielle comment faire quelque chose que seuls les humains peuvent faire en général :jeter un coup d'œil rapide et en déduire tout son environnement, une compétence nécessaire au développement de robots de recherche et de sauvetage efficaces qui pourront un jour améliorer l'efficacité des missions dangereuses. L'équipe, dirigé par le professeur Kristen Grauman, doctorat candidat Santhosh Ramakrishnan et ancien Ph.D. candidat Dinesh Jayaraman (maintenant à l'Université de Californie, Berkeley) ont publié leurs résultats aujourd'hui dans la revue Robotique scientifique .
La plupart des agents d'IA - des systèmes informatiques qui pourraient doter des robots ou d'autres machines d'intelligence - sont formés pour des tâches très spécifiques - comme reconnaître un objet ou estimer son volume - dans un environnement qu'ils ont déjà expérimenté, comme une usine. Mais l'agent développé par Grauman et Ramakrishnan est d'usage général, recueillir des informations visuelles qui peuvent ensuite être utilisées pour un large éventail de tâches.
« Nous voulons un agent généralement équipé pour entrer dans les environnements et être prêt pour de nouvelles tâches de perception au fur et à mesure qu'elles surviennent, " a déclaré Grauman. " Il se comporte d'une manière polyvalente et capable de réussir différentes tâches, car il a appris des modèles utiles sur le monde visuel. "
Les scientifiques ont utilisé l'apprentissage en profondeur, un type d'apprentissage automatique inspiré des réseaux de neurones du cerveau, pour former leur agent sur des milliers d'images à 360 degrés d'environnements différents.
Maintenant, lorsqu'on lui présente une scène qu'il n'a jamais vue auparavant, l'agent utilise son expérience pour choisir quelques aperçus - comme un touriste debout au milieu d'une cathédrale prenant quelques instantanés dans différentes directions - qui, ensemble, représentent moins de 20 % de la scène complète. Ce qui rend ce système si efficace, c'est qu'il ne prend pas seulement des photos dans des directions aléatoires, mais, après chaque coup d'oeil, choisir le prochain plan qu'il prédit ajoutera le plus d'informations sur l'ensemble de la scène. C'est un peu comme si vous étiez dans une épicerie que vous n'aviez jamais visitée auparavant, et tu as vu des pommes, vous vous attendriez à trouver des oranges à proximité, mais pour localiser le lait, vous pourriez regarder dans l'autre sens. Basé sur des aperçus, l'agent en déduit ce qu'il aurait vu s'il avait regardé dans toutes les autres directions, reconstruire une image complète à 360 degrés de son environnement.
Un nouvel agent d'IA développé par des chercheurs de l'Université du Texas à Austin jette quelques « aperçus » de son environnement, représentant moins de 20 % de la vue complète à 360 degrés, et en déduit le reste de l'environnement dans son ensemble. Ce qui rend ce système si efficace, c'est qu'il ne prend pas seulement des photos dans des directions aléatoires, mais, après chaque coup d'oeil, choisir le prochain plan qu'il prédit ajoutera le plus d'informations sur l'ensemble de la scène. Crédit :David Steadman/Santhosh Ramakrishnan/Université du Texas à Austin
"Tout comme vous apportez des informations préalables sur les régularités qui existent dans des environnements précédemment expérimentés - comme toutes les épiceries que vous avez déjà visitées - cet agent recherche de manière non exhaustive, " Grauman a déclaré. "Il apprend à faire des suppositions intelligentes sur l'endroit où recueillir des informations visuelles pour réussir les tâches de perception."
L'un des principaux défis que les scientifiques se sont fixés était de concevoir un agent capable de fonctionner dans des délais serrés. Cela serait essentiel dans une application de recherche et de sauvetage. Par exemple, dans un immeuble en feu, un robot serait appelé à localiser rapidement des personnes, les flammes et les matières dangereuses et transmettre cette information aux pompiers.