MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) 解説
メタ情報
著者
- Danijar Hafner (Google Research)
- Timothy Lillicrap(DeepMind)
- Mohammad Norouzi (Google Research)
- Jimmy Ba(University of Toronto)
発表
- ICLR 2021
リンク
- Paper: https://arxiv.org/pdf/2010.02193.pdf
- Google blog: Google AI Blog: Mastering Atari with Discrete World Models
スライド
Zennメモ
論文読む時に書いた汚いメモです。 精読するときに役に立つかもです。
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
説明
- World Modelの派⽣系のDreamerの2代⽬
- 画像⼊⼒から学習した世界モデルの潜在空間内のみで学習
- 同じ計算資源・サンプル数でIQN, Rainbow(モデルフリー)を凌駕
感想
Worldモデルは、生成モデルとモデルベース強化学習の両方の知識がないとわからないので難しいです。 dynamics backpropの部分はよくわかっていないので誰か教えて下さい。
あと、生成モデルと強化学習の部分の説明は、松尾研スプリングセミナー2021からいろいろ抜粋させて頂きました。 非営利なので多めに見ていただけるとたかをくくっていますが、もし問題がございましたら、お手数ですがご連絡ください。