クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

DQNからA3C, PPOまで

スライド

説明

DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。 強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけがわかりませんでした。
また、近年では全く新しいアプローチの強化学習が成功を収めています。(MuZero)

そちらの解説記事もあるので、よかったら見てってください。