クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

MuZero

スライド

説明

囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回ったと主張しています。 つまり、モデルベースな手法ながら、人間はモデルの定義をする必要がないのです。環境と戦略を同時に学習します。
さらに囲碁・将棋のようなドメインだけでのみ強かったモデルベースな手法ですが、環境のモデルを自動的に獲得できるので、Atariでも従来手法を凌駕する成績を収めました。