Suphx: Mastering Mahjong with Deep Reinforcement Learning
メタ情報
著者
- Junjie Li (Microsoft Research Asia)
- Sotetsu Koyamada (Kyoto University)
- Qiwei Ye (Microsoft Research Asia)
- Guoqing Liu (University of Science and Technology of China)
- Chao Wang (Tsinghua University)
- Ruihan Yang (Nankai University)
- Li Zhao (Microsoft Research Asia)
- Tao Qin (Microsoft Research Asia) -Tie-Yan Liu (Microsoft Research Asia)
- Hsiao-Wuen Hon (Microsoft Research Asia)
発表
- arXiv, Mar, 2020,
リンク
スライド
Zennメモ
論文読む時に書いた汚いメモです。 精読するときに役に立つかもです。
Suphx: Mastering Mahjong with Deep Reinforcement Learning
説明
- Microsoftが開発した麻雀AI
- 強化学習で麻雀は非常に難しい
- マルチプレイヤーマルチラウンド不完全情報ゲーム
- プレイヤーが知れる情報が少ない
- 天鳳(オンライン麻雀)のtop0.001%に位置
- 麻雀AIのSOTA
感想
人間を超えた麻雀AIの論文。ゲームAIらしく44GPUとかいう一般人には無理な学習方法を取っている。
個人的にはなぜ教師あり学習を事前学習として選んだのかが理解できていない。 オフライン強化学習とかBCの手法は沢山あるのに、なぜそれらを使わなかったのだろうか。
あと学習が天鳳のトップplayerなのに対して、評価も天鳳のトップplayerだったので、もしかして天鳳のトップplayerメタなAIができているのではないか少し気になった。(まあ天鳳のトップメタだとしても殆どの麻雀playerには勝てるだろうが)