2020-04-23 MuZero DLゼミ 強化学習 機械学習 論文紹介 スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明 囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回ったと主張しています。 つまり、モデルベースな手法ながら、人間はモデルの定義をする必要がないのです。環境と戦略を同時に学習します。 さらに囲碁・将棋のようなドメインだけでのみ強かったモデルベースな手法ですが、環境のモデルを自動的に獲得できるので、Atariでも従来手法を凌駕する成績を収めました。