クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

Suphx: Mastering Mahjong with Deep Reinforcement Learning

DLゼミ論文紹介強化学習機械学習

メタ情報
- 著者
- 発表
- リンク
スライド
Zennメモ
説明
感想

メタ情報

著者

Junjie Li (Microsoft Research Asia)
Sotetsu Koyamada (Kyoto University)
Qiwei Ye (Microsoft Research Asia)
Guoqing Liu (University of Science and Technology of China)
Chao Wang (Tsinghua University)
Ruihan Yang (Nankai University)
Li Zhao (Microsoft Research Asia)
Tao Qin (Microsoft Research Asia) -Tie-Yan Liu (Microsoft Research Asia)
Hsiao-Wuen Hon (Microsoft Research Asia)

発表

arXiv, Mar, 2020,

リンク

Paper: https://arxiv.org/pdf/2003.13590.pdf

スライド

Suphx: Mastering Mahjong with Deep Reinforcement Learning from harmonylab

Zennメモ

論文読む時に書いた汚いメモです。精読するときに役に立つかもです。

Suphx: Mastering Mahjong with Deep Reinforcement Learning

説明

Microsoftが開発した麻雀AI
強化学習で麻雀は非常に難しい
- マルチプレイヤーマルチラウンド不完全情報ゲーム
- プレイヤーが知れる情報が少ない
天鳳(オンライン麻雀)のtop0.001%に位置
麻雀AIのSOTA

感想

人間を超えた麻雀AIの論文。ゲームAIらしく44GPUとかいう一般人には無理な学習方法を取っている。

個人的にはなぜ教師あり学習を事前学習として選んだのかが理解できていない。オフライン強化学習とかBCの手法は沢山あるのに、なぜそれらを使わなかったのだろうか。

あと学習が天鳳のトップplayerなのに対して、評価も天鳳のトップplayerだったので、もしかして天鳳のトップplayerメタなAIができているのではないか少し気になった。（まあ天鳳のトップメタだとしても殆どの麻雀playerには勝てるだろうが）