Noam Brown est un chercheur scientifique sur Facebook AI tout en finissant son doctorat. à Carnegie Mellon. Crédit :Noam Brown
Un programme d'intelligence artificielle développé par l'Université Carnegie Mellon en collaboration avec Facebook AI a battu les meilleurs professionnels du poker Texas hold'em no-limit à six joueurs, la forme de poker la plus populaire au monde.
L'IA, appelé Pluribus, a battu le professionnel du poker Darren Elias, qui détient le record du plus grand nombre de titres du World Poker Tour, et Chris "Jesus" Ferguson, vainqueur de six tournois des World Series of Poker. Chaque pro a joué séparément 5, 000 mains de poker contre cinq exemplaires de Pluribus.
Dans une autre expérience impliquant 13 pros, qui ont tous gagné plus d'un million de dollars en jouant au poker, Pluribus a joué cinq pros à la fois pour un total de 10, 000 mains et sort à nouveau victorieux.
"Pluribus a réalisé des performances surhumaines au poker multi-joueurs, qui est une étape reconnue de l'intelligence artificielle et de la théorie des jeux ouverte depuis des décennies, " a déclaré Tuomas Sandholm, Angel Jordan Professeur d'informatique, qui a développé Pluribus avec Noam Brown, qui termine son doctorat. au département d'informatique de Carnegie Mellon en tant que chercheur à Facebook AI. "Jusqu'à présent, les jalons surhumains de l'IA dans le raisonnement stratégique ont été limités à une compétition à deux. La possibilité de battre cinq autres joueurs dans un jeu aussi compliqué ouvre de nouvelles opportunités d'utiliser l'IA pour résoudre une grande variété de problèmes du monde réel."
Un article de recherche décrivant cette réalisation en IA sera publié en ligne par la revue Science jeudi, 11 juillet 2019.
"Jouer à un jeu à six joueurs plutôt qu'en tête-à-tête nécessite des changements fondamentaux dans la façon dont l'IA développe sa stratégie de jeu, " dit Brown, qui a rejoint Facebook AI l'année dernière. "Nous sommes ravis de ses performances et pensons que certaines des stratégies de jeu de Pluribus pourraient même changer la façon dont les pros jouent au jeu."
Les algorithmes de Pluribus ont créé des fonctionnalités surprenantes dans sa stratégie. Par exemple, la plupart des joueurs humains évitent le "donk bet", c'est-à-dire terminer un tour avec un appel mais commencer le tour suivant avec un pari. C'est considéré comme un mouvement faible qui n'a généralement pas de sens stratégique. Mais Pluribus a placé des paris donk beaucoup plus souvent que les professionnels qu'il a vaincus.
« Sa force majeure est sa capacité à utiliser des stratégies mixtes, " Elias a déclaré la semaine dernière alors qu'il se préparait pour l'événement principal des World Series of Poker 2019. " C'est la même chose que les humains essaient de faire. C'est une question d'exécution pour les humains - de le faire de manière parfaitement aléatoire et de le faire de manière cohérente. La plupart des gens ne peuvent tout simplement pas."
Pluribus a enregistré une solide victoire avec une signification statistique, ce qui est particulièrement impressionnant compte tenu de son opposition, dit Elias. "Le bot ne jouait pas seulement contre des pros du milieu de la route. Il jouait contre certains des meilleurs joueurs du monde."
Michael "Gags" Gagliano, qui a gagné près de 2 millions de dollars en gains de carrière, a également concouru contre Pluribus.
"C'était incroyablement fascinant de jouer contre le bot de poker et de voir certaines des stratégies qu'il a choisies", a déclaré Gagliano. "Il y avait plusieurs pièces que les humains ne font tout simplement pas du tout, en particulier en ce qui concerne sa taille de pari. Les bots/IA jouent un rôle important dans l'évolution du poker, et c'était incroyable d'avoir une expérience de première main dans cette grande étape vers l'avenir."
Sandholm a dirigé une équipe de recherche étudiant le poker informatique pendant plus de 16 ans. Lui et Brown ont développé plus tôt Libratus, qui il y a deux ans a battu de manière décisive quatre pros du poker en jouant un total de 120, 000 mains de heads-up no-limit Texas hold'em, une version à deux joueurs du jeu.
Des jeux tels que les échecs et le go ont longtemps servi de jalons pour la recherche sur l'IA. Dans ces jeux, tous les joueurs connaissent l'état du plateau de jeu et toutes les pièces. Mais le poker est un plus grand défi car c'est un jeu d'information incomplète; les joueurs ne peuvent pas être certains des cartes en jeu et les adversaires peuvent et vont bluffer. Cela en fait à la fois un défi d'IA plus difficile et plus pertinent pour de nombreux problèmes du monde réel impliquant plusieurs parties et des informations manquantes.
Toutes les IA qui ont fait preuve de compétences surhumaines lors de parties à deux joueurs l'ont fait en se rapprochant de ce qu'on appelle un équilibre de Nash. Nommé en l'honneur du regretté ancien élève de Carnegie Mellon et lauréat du prix Nobel John Forbes Nash Jr., un équilibre de Nash est une paire de stratégies (une par joueur) où aucun joueur ne peut bénéficier d'un changement de stratégie tant que la stratégie de l'autre joueur reste la même. Bien que la stratégie de l'IA ne garantisse qu'un résultat pas pire qu'une égalité, l'IA sort victorieuse si son adversaire fait des erreurs de calcul et ne parvient pas à maintenir l'équilibre.
Dans une partie à plus de deux joueurs, jouer un équilibre de Nash peut être une stratégie perdante. Pluribus se passe ainsi des garanties théoriques de succès et développe des stratégies qui lui permettent néanmoins de dominer systématiquement ses adversaires.
Pluribus calcule d'abord une stratégie de « plan directeur » en jouant six copies de lui-même, ce qui est suffisant pour le premier tour d'enchères. A partir de ce moment-là, Pluribus effectue une recherche plus détaillée des mouvements possibles dans une abstraction plus fine du jeu. Il anticipe plusieurs mouvements pendant qu'il le fait, mais ne nécessitant pas d'anticiper jusqu'à la fin du jeu, ce qui serait prohibitif en termes de calcul. La recherche à anticipation limitée est une approche standard dans les jeux à information parfaite, mais est extrêmement difficile dans les jeux à informations imparfaites. Un nouvel algorithme de recherche à anticipation limitée est la principale avancée qui a permis à Pluribus de réaliser un poker multijoueur surhumain.
Spécifiquement, la recherche est une résolution de jeu d'informations imparfaites d'un sous-jeu à prévision limitée. Aux feuilles de ce sous-jeu, l'IA considère cinq stratégies de continuation possibles que chaque adversaire et lui-même pourraient adopter pour le reste de la partie. Le nombre de stratégies de continuation possibles est bien plus important, mais les chercheurs ont découvert que leur algorithme n'a besoin de considérer que cinq stratégies de continuation par joueur à chaque feuille pour calculer un fort, stratégie globale équilibrée.
Pluribus se veut aussi imprévisible. Par exemple, les paris auraient du sens si l'IA détenait la meilleure main possible, mais si l'IA ne mise que lorsqu'elle a la meilleure main, les adversaires s'y retrouveront rapidement. Pluribus calcule donc comment il agirait avec toutes les mains possibles qu'il pourrait détenir, puis calcule une stratégie équilibrée entre toutes ces possibilités.
Bien que le poker soit un jeu incroyablement compliqué, Pluribus a fait un usage efficace du calcul. Les IA qui ont atteint des jalons récents dans les jeux ont utilisé un grand nombre de serveurs et/ou de fermes de GPU ; Libratus a utilisé environ 15 millions d'heures de base pour développer ses stratégies et, pendant le jeu en direct, utilisé 1, 400 cœurs de processeur. Pluribus a calculé sa stratégie de plan en huit jours en utilisant seulement 12, 400 heures de base et utilisé seulement 28 cœurs pendant le jeu en direct.