2020-04-23 DQNからA3C, PPOまで DLゼミ 論文紹介 機械学習 強化学習 スライド 強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。 強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけがわかりませんでした。 また、近年では全く新しいアプローチの強化学習が成功を収めています。(MuZero) そちらの解説記事もあるので、よかったら見てってください。