クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

A3C

強化学習機械学習論文紹介

スライド

北大調和系 DLゼミ A3C from Tomoya Oda

説明

エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。しかし、現在ではA2C（同期）の方が性能が良いとされている。

追記

現在（2020/04)ではAtari ドメインでMuZeroやAtari57がSOTAなので、そちらのほうが良い手法と言えるだろう。近々そのあたりの論文を読んでみたい。