クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

MuZero

DLゼミ強化学習機械学習論文紹介

スライド

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab

説明

囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回ったと主張しています。つまり、モデルベースな手法ながら、人間はモデルの定義をする必要がないのです。環境と戦略を同時に学習します。
さらに囲碁・将棋のようなドメインだけでのみ強かったモデルベースな手法ですが、環境のモデルを自動的に獲得できるので、Atariでも従来手法を凌駕する成績を収めました。