2020-04-23 A3C 強化学習 機械学習 論文紹介 スライド 北大調和系 DLゼミ A3C from Tomoya Oda 説明 エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。 しかし、現在ではA2C(同期)の方が性能が良いとされている。 追記 現在(2020/04)ではAtariドメインでMuZeroやAtari57がSOTAなので、そちらのほうが良い手法と言えるだろう。近々そのあたりの論文を読んでみたい。