De nouvelles recherches suggèrent que la formation d'un modèle d'intelligence artificielle avec des coéquipiers mathématiquement "divers" améliore sa capacité à collaborer avec d'autres IA avec lesquelles il n'a jamais travaillé auparavant. Crédit :Bryan Mastergeorge
Alors que l'intelligence artificielle s'améliore pour effectuer des tâches autrefois uniquement entre les mains des humains, comme conduire des voitures, beaucoup voient l'intelligence d'équipe comme une prochaine frontière. Dans cet avenir, les humains et l'IA sont de véritables partenaires dans des tâches à enjeux élevés, telles que la réalisation d'opérations chirurgicales complexes ou la défense contre les missiles. Mais avant que l'intelligence d'équipe puisse décoller, les chercheurs doivent surmonter un problème qui corrode la coopération :les humains n'aiment souvent pas ou ne font pas confiance à leurs partenaires d'IA.
Désormais, de nouvelles recherches indiquent que la diversité est un paramètre clé pour faire de l'IA un meilleur joueur d'équipe.
Les chercheurs du MIT Lincoln Laboratory ont découvert que la formation d'un modèle d'IA avec des coéquipiers mathématiquement "divers" améliore sa capacité à collaborer avec d'autres IA avec lesquelles il n'a jamais travaillé auparavant, dans le jeu de cartes Hanabi. De plus, Facebook et DeepMind de Google ont publié simultanément des travaux indépendants qui ont également insufflé de la diversité dans la formation pour améliorer les résultats dans les jeux collaboratifs homme-IA.
Dans l'ensemble, les résultats peuvent orienter les chercheurs vers une voie prometteuse pour créer une IA qui peut à la fois bien fonctionner et être considérée comme de bons collaborateurs par des coéquipiers humains.
"Le fait que nous ayons tous convergé sur la même idée - que si vous voulez coopérer, vous devez vous entraîner dans un cadre diversifié - est passionnant, et je pense que cela ouvre vraiment la voie aux travaux futurs sur l'IA coopérative", déclare Ross Allen, chercheur au sein du groupe de technologie d'intelligence artificielle du Lincoln Laboratory et co-auteur d'un article détaillant ce travail, qui a récemment été présenté à la Conférence internationale sur les agents autonomes et les systèmes multi-agents.
S'adapter à différents comportements
Pour développer l'IA coopérative, de nombreux chercheurs utilisent Hanabi comme terrain d'essai. Hanabi met les joueurs au défi de travailler ensemble pour empiler les cartes dans l'ordre, mais les joueurs ne peuvent voir que les cartes de leurs coéquipiers et ne peuvent que se donner des indices clairsemés sur les cartes qu'ils détiennent.
Dans une expérience précédente, les chercheurs du Lincoln Laboratory ont testé l'un des modèles d'IA Hanabi les plus performants au monde avec des humains. Ils ont été surpris de constater que les humains n'aimaient pas du tout jouer avec ce modèle d'IA, le qualifiant de coéquipier déroutant et imprévisible. "La conclusion était qu'il nous manquait quelque chose sur la préférence humaine, et nous ne sommes pas encore bons pour créer des modèles qui pourraient fonctionner dans le monde réel", dit Allen.
L'équipe s'est demandé si l'IA coopérative devait être entraînée différemment. Le type d'IA utilisé, appelé apprentissage par renforcement, apprend traditionnellement à réussir des tâches complexes en découvrant quelles actions rapportent la plus grande récompense. Il est souvent formé et évalué par rapport à des modèles similaires à lui-même. Ce processus a créé des joueurs IA inégalés dans des jeux compétitifs comme Go et StarCraft.
Mais pour que l'IA soit un collaborateur efficace, elle doit peut-être non seulement se soucier de maximiser la récompense lors de la collaboration avec d'autres agents de l'IA, mais aussi de quelque chose de plus intrinsèque :comprendre et s'adapter aux forces et aux préférences des autres. En d'autres termes, il doit apprendre de la diversité et s'y adapter.
Comment formez-vous une IA aussi soucieuse de la diversité ? Les chercheurs ont proposé "Any-Play". Any-Play augmente le processus de formation d'un agent IA Hanabi en ajoutant un autre objectif, en plus de maximiser le score du jeu :l'IA doit identifier correctement le style de jeu de son partenaire d'entraînement.
Ce style de jeu est encodé dans le partenaire d'entraînement sous la forme d'une variable latente ou cachée que l'agent doit estimer. Il le fait en observant les différences dans le comportement de son partenaire. Cet objectif exige également que son partenaire apprenne des comportements distincts et reconnaissables afin de transmettre ces différences à l'agent d'IA récepteur.
Bien que cette méthode d'induction de la diversité ne soit pas nouvelle dans le domaine de l'IA, l'équipe a étendu le concept aux jeux collaboratifs en tirant parti de ces comportements distincts en tant que styles de jeu variés.
"L'agent IA doit observer le comportement de ses partenaires afin d'identifier l'entrée secrète qu'ils ont reçue et doit s'adapter à ces différentes façons de jouer pour bien performer dans le jeu. L'idée est que cela se traduirait par un agent IA qui est bon à jouer avec différents styles de jeu », explique le premier auteur et titulaire d'un doctorat de l'Université Carnegie Mellon. candidat Keane Lucas, qui a dirigé les expériences en tant qu'ancien stagiaire au laboratoire.
Jouer avec d'autres qui ne lui ressemblent pas
L'équipe a augmenté ce modèle Hanabi antérieur (celui qu'ils avaient testé avec des humains dans leur expérience précédente) avec le processus de formation Any-Play. Pour évaluer si l'approche améliorait la collaboration, les chercheurs ont associé le modèle à des "étrangers" - plus de 100 autres modèles Hanabi qu'ils n'avaient jamais rencontrés auparavant et qui ont été entraînés par des algorithmes distincts - dans des millions de matchs à deux joueurs.
Les paires Any-Play ont surpassé toutes les autres équipes, lorsque ces équipes étaient également composées de partenaires algorithmiquement différents les uns des autres. Il a également obtenu de meilleurs résultats lorsqu'il s'est associé à la version originale d'elle-même non entraînée avec Any-Play.
Les chercheurs considèrent ce type d'évaluation, appelé jeu croisé inter-algorithmes, comme le meilleur prédicteur de la performance de l'IA coopérative dans le monde réel avec les humains. Le jeu croisé inter-algorithmes contraste avec les évaluations plus couramment utilisées qui testent un modèle par rapport à des copies de lui-même ou à des modèles entraînés par le même algorithme.
"Nous soutenons que ces autres mesures peuvent être trompeuses et augmenter artificiellement les performances apparentes de certains algorithmes. Au lieu de cela, nous voulons savoir, 'si vous faites tomber un partenaire à l'improviste, sans aucune connaissance préalable de la façon dont il jouera , comment pouvez-vous collaborer?' Nous pensons que ce type d'évaluation est plus réaliste lors de l'évaluation de l'IA coopérative avec d'autres IA, lorsque vous ne pouvez pas tester avec des humains », explique Allen.
En effet, ce travail n'a pas testé Any-Play avec des humains. Cependant, une recherche publiée par DeepMind, parallèlement aux travaux du laboratoire, a utilisé une approche similaire de formation à la diversité pour développer un agent d'IA pour jouer au jeu collaboratif Overcooked avec des humains. "L'agent de l'IA et les humains ont montré une coopération remarquablement bonne, et ce résultat nous amène à croire que notre approche, que nous trouvons encore plus généralisée, fonctionnerait également bien avec les humains", a déclaré Allen. Facebook a également utilisé la diversité dans la formation pour améliorer la collaboration entre les agents Hanabi AI, mais a utilisé un algorithme plus compliqué qui nécessitait des modifications des règles du jeu Hanabi pour être gérable.
Que les scores de jeu croisé inter-algorithmes soient réellement de bons indicateurs de la préférence humaine est encore une hypothèse. Pour ramener la perspective humaine dans le processus, les chercheurs veulent essayer de corréler les sentiments d'une personne à l'égard d'une IA, tels que la méfiance ou la confusion, aux objectifs spécifiques utilisés pour former l'IA. La découverte de ces connexions pourrait aider à accélérer les progrès dans le domaine.
"Le défi avec le développement de l'IA pour mieux travailler avec les humains est que nous ne pouvons pas avoir des humains dans la boucle pendant la formation en disant à l'IA ce qu'ils aiment et n'aiment pas. Cela prendrait des millions d'heures et de personnalités. Mais si nous pouvions trouver une sorte de un indicateur quantifiable de la préférence humaine - et peut-être que la diversité de la formation est l'un de ces indicateurs - alors nous avons peut-être trouvé un moyen de relever ce défi », déclare Allen.