クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

A3C

スライド

説明

エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。 しかし、現在ではA2C(同期)の方が性能が良いとされている。

追記

現在(2020/04)ではAtariドメインでMuZeroやAtari57がSOTAなので、そちらのほうが良い手法と言えるだろう。近々そのあたりの論文を読んでみたい。