クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

2020-04-23

DQNからA3C, PPOまで

スライド

強化学習 DQNからPPOまで from harmonylab

説明

DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけがわかりませんでした。
また、近年では全く新しいアプローチの強化学習が成功を収めています。(MuZero)

そちらの解説記事もあるので、よかったら見てってください。