DeepRole, un bot de jeu inventé par le MIT équipé d'un "raisonnement déductif, ” peut battre des joueurs humains dans des jeux multijoueurs en ligne difficiles où les rôles et les motivations des joueurs sont gardés secrets. Crédit :Massachusetts Institute of Technology
Des chercheurs du MIT ont développé un bot équipé d'une intelligence artificielle qui peut battre les joueurs humains dans des jeux multijoueurs en ligne difficiles où les rôles et les motivations des joueurs sont gardés secrets.
De nombreux robots de jeu ont été conçus pour suivre le rythme des joueurs humains. Plus tôt cette année, une équipe de l'Université Carnegie Mellon a développé le premier bot au monde capable de battre les professionnels du poker multijoueur. AlphaGo de DeepMind a fait la une des journaux en 2016 pour avoir battu un joueur de Go professionnel. Plusieurs bots ont également été construits pour battre les joueurs d'échecs professionnels ou unir leurs forces dans des jeux coopératifs tels que la capture de drapeau en ligne. Dans ces jeux, cependant, le bot connaît ses adversaires et ses coéquipiers dès le départ.
Lors de la conférence sur les systèmes de traitement de l'information neuronale le mois prochain, les chercheurs présenteront DeepRole, le premier bot de jeu qui peut gagner des jeux multijoueurs en ligne dans lesquels les allégeances des équipes des participants ne sont pas claires au départ. Le bot est conçu avec un nouveau « raisonnement déductif » ajouté à un algorithme d'IA couramment utilisé pour jouer au poker. Cela l'aide à raisonner sur des actions partiellement observables, pour déterminer la probabilité qu'un joueur donné soit un coéquipier ou un adversaire. Ce faisant, il apprend rapidement avec qui s'allier et quelles actions mener pour assurer la victoire de son équipe.
Les chercheurs ont opposé DeepRole à des joueurs humains dans plus de 4, 000 tours du jeu en ligne "The Resistance:Avalon". Dans ce jeu, les joueurs essaient de déduire les rôles secrets de leurs pairs au fur et à mesure que le jeu avance, tout en cachant leurs propres rôles. En tant que coéquipier et adversaire, DeepRole a constamment surpassé les joueurs humains.
"Si vous remplacez un coéquipier humain par un bot, vous pouvez vous attendre à un taux de victoire plus élevé pour votre équipe. Les bots sont de meilleurs partenaires, " dit le premier auteur Jack Serrino '18, qui s'est spécialisé en génie électrique et en informatique au MIT et est un fervent joueur "Avalon" en ligne.
Le travail fait partie d'un projet plus large visant à mieux modéliser la façon dont les humains prennent des décisions socialement éclairées. Cela pourrait aider à construire des robots qui comprennent mieux, apprendre, et travailler avec les humains.
"Les humains apprennent des autres et coopèrent avec eux, et qui nous permet de réaliser ensemble des choses qu'aucun de nous ne peut réaliser seul, " dit le co-auteur Max Kleiman-Weiner, un post-doctorat au Center for Brains, Minds and Machines et le Département des sciences du cerveau et des sciences cognitives du MIT, et à l'Université Harvard. « Des jeux comme « Avalon » imitent mieux les environnements sociaux dynamiques que les humains connaissent dans la vie de tous les jours. Vous devez déterminer qui fait partie de votre équipe et travaillera avec vous, que ce soit ton premier jour à la maternelle ou un autre jour dans ton bureau."
Rejoindre Serrino et Kleiman-Weiner sur le papier sont David C. Parkes de Harvard et Joshua B. Tenenbaum, professeur de sciences cognitives computationnelles et membre du laboratoire d'informatique et d'intelligence artificielle du MIT et du Center for Brains, Esprits et machines.
Robot déductif
Dans "Avalon, " trois joueurs sont assignés au hasard et secrètement à une équipe "résistance" et deux joueurs à une équipe "espion". Les deux joueurs espions connaissent tous les rôles des joueurs. A chaque tour, un joueur propose un sous-ensemble de deux ou trois joueurs pour exécuter une mission. Tous les joueurs votent simultanément et publiquement pour approuver ou désapprouver le sous-ensemble. Si une majorité approuve, le sous-ensemble détermine secrètement si la mission réussira ou échouera. Si deux « réussir » sont choisis, la mission réussit; si un "échec" est sélectionné, la mission échoue. Les joueurs de résistance doivent toujours choisir de réussir, mais les joueurs espions peuvent choisir l'un ou l'autre résultat. L'équipe de résistance gagne après trois missions réussies; l'équipe d'espionnage gagne après trois missions ratées.
Gagner le jeu revient essentiellement à déduire qui est la résistance ou l'espion, et voter pour vos collaborateurs. Mais c'est en fait plus complexe en termes de calcul que de jouer aux échecs et au poker. "C'est un jeu d'informations imparfaites, " dit Kleiman-Weiner. " Vous n'êtes même pas sûr contre qui vous êtes quand vous commencez, il y a donc une phase de découverte supplémentaire pour trouver avec qui coopérer. »
DeepRole utilise un algorithme de planification de jeu appelé « minimisation des regrets contrefactuels » (CFR) - qui apprend à jouer à un jeu en jouant à plusieurs reprises contre lui-même - augmenté d'un raisonnement déductif. A chaque étape d'un jeu, Le CFR envisage de créer un « arbre de jeu » décisionnel de lignes et de nœuds décrivant les futures actions potentielles de chaque joueur. Les arbres de jeu représentent toutes les actions possibles (lignes) que chaque joueur peut entreprendre à chaque futur point de décision. En jouant potentiellement des milliards de simulations de jeu, Le CFR note quelles actions ont augmenté ou diminué ses chances de gagner, et révise de manière itérative sa stratégie pour inclure plus de bonnes décisions. Finalement, il planifie une stratégie optimale qui, au pire, égalité contre n'importe quel adversaire.
CFR fonctionne bien pour des jeux comme le poker, avec des actions publiques, comme parier de l'argent et coucher une main, mais elle a du mal lorsque les actions sont secrètes. Le CFR des chercheurs combine actions publiques et conséquences d'actions privées pour déterminer si les joueurs sont des résistants ou des espions.
Le bot est entraîné en jouant contre lui-même en tant que résistance et espion. Lorsque vous jouez à un jeu en ligne, il utilise son arbre de jeu pour estimer ce que chaque joueur va faire. L'arbre du jeu représente une stratégie qui donne à chaque joueur la plus grande probabilité de gagner en tant que rôle assigné. Les nœuds de l'arbre contiennent des « valeurs contrefactuelles, " qui sont essentiellement des estimations pour un gain que ce joueur reçoit s'il joue cette stratégie donnée.
A chaque mission, le bot regarde comment chaque personne a joué par rapport à l'arbre de jeu. Si, tout au long du jeu, un joueur prend suffisamment de décisions qui ne correspondent pas aux attentes du bot, alors le joueur joue probablement l'autre rôle. Finalement, le bot attribue une forte probabilité pour le rôle de chaque joueur. Ces probabilités sont utilisées pour mettre à jour la stratégie du bot afin d'augmenter ses chances de victoire.
Simultanément, il utilise cette même technique pour estimer comment un observateur à la troisième personne pourrait interpréter ses propres actions. Cela l'aide à estimer comment les autres joueurs peuvent réagir, l'aidant à prendre des décisions plus intelligentes. "Si c'est une mission à deux joueurs qui échoue, les autres joueurs savent qu'un joueur est un espion. Le bot ne proposera probablement pas la même équipe sur les futures missions, puisqu'il sait que les autres joueurs pensent que c'est mauvais, " dit Serrino.
Langue :la prochaine frontière
De façon intéressante, le bot n'avait pas besoin de communiquer avec les autres joueurs, qui est généralement un élément clé du jeu. "Avalon" permet aux joueurs de discuter sur un module de texte pendant le jeu. "Mais il s'avère que notre bot était capable de bien travailler avec une équipe d'autres humains tout en observant uniquement les actions des joueurs, " dit Kleiman-Weiner. " C'est intéressant, car on pourrait penser que des jeux comme celui-ci nécessitent des stratégies de communication compliquées."
Prochain, les chercheurs peuvent permettre au bot de communiquer pendant les jeux avec du texte simple, comme dire qu'un joueur est bon ou mauvais. Cela impliquerait d'attribuer du texte à la probabilité corrélée qu'un joueur soit une résistance ou un espion, que le bot utilise déjà pour prendre ses décisions. Au-delà de ça, un futur bot pourrait être équipé de capacités de communication plus complexes, lui permettant de jouer à des jeux de déduction sociale lourds en langage - comme un jeu populaire "Loup-garou" - qui impliquent plusieurs minutes pour discuter et persuader les autres joueurs de savoir qui fait partie des bonnes et des mauvaises équipes.
"La langue est définitivement la prochaine frontière, " dit Serrino. " Mais il y a beaucoup de défis à attaquer dans ces jeux, où la communication est si clé."
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche du MIT, innovation et enseignement.