クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

2020-04-23から1日間の記事一覧

MuZero

スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明 囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回…

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA(OpenAIかくれんぼ)

スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明 調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。 内容は、チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究です。 各チームごとにシンプルな…

DQNからA3C, PPOまで

スライド 強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。 強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけ…

A3C

スライド 北大調和系 DLゼミ A3C from Tomoya Oda 説明 エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。 しかし…