情報系院生のノート

情報技術系全般,自分用メモを公開してます。

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) 解説

メタ情報

著者

  • Danijar Hafner (Google Research)
  • Timothy Lillicrap(DeepMind)
  • Mohammad Norouzi (Google Research)
  • Jimmy Ba(University of Toronto)

発表

  • ICLR 2021

リンク

スライド

Zennメモ

論文読む時に書いた汚いメモです。 精読するときに役に立つかもです。

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)

説明

  • World Modelの派⽣系のDreamerの2代⽬
  • 画像⼊⼒から学習した世界モデルの潜在空間内のみで学習
  • 同じ計算資源・サンプル数でIQN, Rainbow(モデルフリー)を凌駕

感想

Worldモデルは、生成モデルとモデルベース強化学習の両方の知識がないとわからないので難しいです。 dynamics backpropの部分はよくわかっていないので誰か教えて下さい。

あと、生成モデルと強化学習の部分の説明は、松尾研スプリングセミナー2021からいろいろ抜粋させて頂きました。 非営利なので多めに見ていただけるとたかをくくっていますが、もし問題がございましたら、お手数ですがご連絡ください。