クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

2020-04-23から1日間の記事一覧

MuZero

DLゼミ強化学習機械学習論文紹介

スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回…

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA（OpenAIかくれんぼ）

DLゼミ強化学習機械学習論文紹介

スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。内容は、チーム戦のかくれんぼを通じて，相互の戦略を獲得できたとする研究です。各チームごとにシンプルな…

DQNからA3C, PPOまで

DLゼミ論文紹介機械学習強化学習

スライド強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけ…

A3C

強化学習機械学習論文紹介

スライド北大調和系 DLゼミ A3C from Tomoya Oda 説明エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。しかし…