カテゴリー
研究

正体隠匿型ゲームにおける相手プレイヤの推定に向けて

2024年3月8日~9日に開催された「第51回ゲーム情報学研究発表会」において、修士1年の木島花蓮が、「複数種類の戦略を持つプレイヤが混在する不完全情報ゲームにおける相手プレイヤの推定にむけて」の研究発表を行いました。

  • 木島 花蓮, 横山 大作, 複数種類の戦略を持つプレイヤが混在する不完全情報ゲームにおける相手プレイヤの推定に向けて, 第51回ゲーム情報学研究会, 2024.3.8~2023.3.9, (PDF)

研究目的、背景

ゲームに関する研究として、「AlphaZero」など、「完全情報ゲーム」と呼ばれる、ゲーム中の全ての段階であらゆる情報が分かるゲームにおいては、人間に勝るコンピュータプレイヤが数多く存在します。しかし、相手の手札など一部の情報が隠されている「不完全情報ゲーム」はまだ研究途中にあります。この不完全情報ゲームの中でも、正体隠匿型ゲームと呼ばれる、隠された陣営や役職があり、その推定をしながら進めていくゲームがあります。代表例としては人狼のようなゲームが挙げられますが、このようなゲームの多くは他のプレイヤの陣営や役職、戦略等を推定することがゲームの勝敗に大きくかかわります。そのため、このようなゲームでは他プレイヤの陣営を推定しながら行動するコンピュータプレイヤの作成を目的とした研究が存在します。

このようなゲームの研究として、人狼についての研究は多く進められていますが、人狼ゲームでは会話をもとに推定を行うことから、発言情報の分類や会話での他プレイヤの説得など、推定にも複雑な要素が必要となります。また、人狼ゲームでは話し合いの結果から投票する形となるため、推定が正しく行われても、直接的に攻撃することができません。そのため推定精度の勝率への影響が少ないことから、推定手法の評価がやや困難であると考えられます。そこで、今回私は、発言を推定に加味せず、推定部分がより勝敗に直結するゲームである「ShadowRaiders」を用いることで、陣営や戦略の推定を重視した行動選択を行うコンピュータプレイヤの構築を行うことを目的としました。

ShadowRaiders

提案手法

コンピュータプレイヤ5人でShadowRaidersをプレイし、敵味方、第3陣営を正しく判別できるかを判断する陣営推定と、それぞれの勝利条件を正しく推定できるかの戦略推定の2つの手法の提案と評価を行いました。どちらも深層強化学習を用いて、他プレイヤの攻撃等の行動や、推理カードといった環境から得られる情報を入力として推定を行いました。アルゴリズムには「Deep Deterministic Policy Gradient」を使用しています。

陣営推定の実験結果

結果として、陣営推定は学習に成功し、70%程度の精度で推定を行えました。また、勝率も60%程度となり、どちらも作成したランダムやヒューリスティックなプレイヤより高い精度となりました。しかし、戦略推定については学習が成功しませんでした。今後の展望として、入力情報や報酬の与え方を変更することで、陣営推定の精度向上や、戦略推定の学習成功につなげられるのではないかと考えています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です