Partant d'un jeu aléatoire et n'ayant aucune connaissance du domaine à l'exception des règles du jeu, AlphaZero a battu de manière convaincante un programme de champion du monde aux jeux d'échecs et de shogi (échecs japonais) ainsi qu'au Go. Crédit :DeepMind Technologies Ltd
Une équipe de chercheurs avec le groupe DeepMind et University College, tous deux au Royaume-Uni, a développé un système d'IA capable d'apprendre par lui-même à jouer et à maîtriser trois jeux de société difficiles. Dans leur article publié dans la revue Science , le groupe décrit son nouveau système et explique pourquoi il pense qu'il représente un autre grand pas en avant dans le développement des systèmes d'IA. Murray Campbell du T.J Watson Research Center aux États-Unis propose un article Perspective sur le travail effectué par l'équipe dans le même numéro de revue.
Cela fait plus de 20 ans qu'un superordinateur connu sous le nom de Deep Blue a battu le champion du monde d'échecs Gary Kasparov, montrant au monde à quel point l'IA est arrivée. Dans les années qui ont suivi, les ordinateurs sont devenus de plus en plus intelligents et battent maintenant les humains à des jeux tels que les échecs, shogi et allez. Mais de tels systèmes ont tous été modifiés pour les rendre vraiment bons dans un seul jeu. Dans ce nouvel effort, les chercheurs ont créé un système d'IA qui est non seulement bon à plus d'un jeu, mais acquiert une telle expertise par lui-même.
Le nouveau système, appelé AlphaZero, est un système d'apprentissage par renforcement, lequel, comme son nom l'indique, signifie qu'il apprend en jouant à plusieurs reprises à un jeu et en apprenant de ses expériences. C'est, bien sûr, très semblable à la façon dont les humains apprennent. Un ensemble de règles de base est défini, puis l'ordinateur joue le jeu — avec lui-même. Il n'a même pas besoin de jouer avec d'autres partenaires. Il se joue à plusieurs reprises, noter quels jeux constituent de bons coups et donc gagner, et qui constituent de mauvais coups et perdants. Heures supplémentaires, Cela s'améliore. Finalement, il devient si bon qu'il peut battre non seulement les humains, mais d'autres systèmes d'IA dédiés aux jeux de société. Le système utilisait également une méthode de recherche connue sous le nom de recherche arborescente Monte Carlo. La combinaison des deux technologies permet au système d'apprendre par lui-même à s'améliorer dans le jeu. Les chercheurs ont donné beaucoup de puissance à leur système de test, également, en employant 5000 unités de traitement tensoriel, ce qui le met sur un pied d'égalité avec les gros supercalculateurs.
Évaluation du tournoi d'AlphaZero aux échecs, shogi, et aller, au fur et à mesure des matchs gagnés, dessiné ou perdu du point de vue d'AlphaZero, dans les matchs contre Stockfish, Elmo, et AlphaGo Zero (AG0) qui a été formé pendant trois jours. Crédit :DeepMind Technologies Ltd
Jusqu'ici, AlphaZero maîtrise les échecs, shogi et Go, des jeux particulièrement bien adaptés aux applications d'IA. Campbell suggère que la prochaine étape pour de tels systèmes pourrait être de se lancer dans des jeux tels que le poker, ou même des jeux vidéo populaires.