情報系院生のノート

情報技術系全般,自分用メモを公開してます。

論文紹介

Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning (2017)

動画 1Pが人間のエキスパート 2Pが強化学習エージェント 論文紹介 https://arxiv.org/abs/1702.06230 スマブラDXを強化学習して、エキスパートに勝利した論文です。 DX大好きなので読んでみました。 しかしQ学習が非定常性な相手であるself-playに向かないっ…

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

論文紹介 https://arxiv.org/abs/1710.03748 競争的な環境におけるSelf playに関する論文を読んだメモです。 zennのスクラップという機能を使ってみました。 zennのメモ Emergent Complexity via Multi-Agent Competition (ICLR 2018) しばらくスクラップをO…

Top-K Off-Policy Correction for a REINFORCE Recommender System

スライド Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab 説明 Top-K Off-Policy Correction for a REINFORCE Recommender System – Google Research YouTubeで実際に運用された(今も運用されてるかは不明)強化学習を用…

Learning agile and dynamic motor skills for legged robots 解説スライド

スライド 説明 感想 スライド [DLゼミ] Learning agile and dynamic motor skills for legged robots from harmonylab 説明 複雑なモータ制御が必要なロボットの制御方法を提案 シミュレーションのみで学習した方策をロボットに転送し、実 環境のロボット制…

MuZero

スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明 囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回…

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA(OpenAIかくれんぼ)

スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明 調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。 内容は、チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究です。 各チームごとにシンプルな…

DQNからA3C, PPOまで

スライド 強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。 強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけ…

A3C

スライド 北大調和系 DLゼミ A3C from Tomoya Oda 説明 エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。 しかし…