Suphx: Mastering Mahjong with Deep Reinforcement Learning

DLゼミ論文紹介強化学習機械学習

メタ情報著者発表リンクスライド Zennメモ説明感想メタ情報著者 Junjie Li (Microsoft Research Asia) Sotetsu Koyamada (Kyoto University) Qiwei Ye (Microsoft Research Asia) Guoqing Liu (University of Science and Technology of China) Chao…

#麻雀 #suphx #強化学習 #スライド

2021-08-25

Decision Transformer: Reinforcement Learning via Sequence Modeling

強化学習機械学習論文紹介 DLゼミ

メタ情報著者発表リンクスライド Zennメモ説明感想メタ情報著者 Lili Chen (UC Berkeley) Kevin Lu (UC Berkeley) Aravind Rajeswaran (Facebook AI Research) Kimin Lee (UC Berkeley) Aditya Grover (Facebook AI Research) Michael Laskin (UC Be…

#Transformer #GPT #reinforcement learning

2021-05-27

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) 解説

DLゼミ論文紹介強化学習

メタ情報著者発表リンクスライド Zennメモ説明感想メタ情報著者 Danijar Hafner (Google Research) Timothy Lillicrap(DeepMind) Mohammad Norouzi (Google Research) Jimmy Ba(University of Toronto) 発表 ICLR 2021 リンク Paper: https://arxiv.…

#DreamerV2 #reinforcement learning

2021-02-19

Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning (2017)

論文紹介機械学習強化学習 DLゼミ

動画 1Pが人間のエキスパート 2Pが強化学習エージェント論文紹介 https://arxiv.org/abs/1702.06230 スマブラDXを強化学習して、エキスパートに勝利した論文です。 DX大好きなので読んでみました。しかしQ学習が非定常性な相手であるself-playに向かないっ…

#スマブラ #強化学習

2021-02-19

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

論文紹介強化学習機械学習 DLゼミ

論文紹介 https://arxiv.org/abs/1710.03748 競争的な環境におけるSelf playに関する論文を読んだメモです。 zennのスクラップという機能を使ってみました。 zennのメモ Emergent Complexity via Multi-Agent Competition (ICLR 2018) しばらくスクラップをO…

#RL #self-play #強化学習 #論文紹介

2020-07-22

Top-K Off-Policy Correction for a REINFORCE Recommender System

DLゼミ論文紹介強化学習

スライド Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab 説明 Top-K Off-Policy Correction for a REINFORCE Recommender System – Google Research YouTubeで実際に運用された（今も運用されてるかは不明）強化学習を用…

2020-05-13

Learning agile and dynamic motor skills for legged robots 解説スライド

強化学習機械学習論文紹介 DLゼミ

スライド説明感想スライド [DLゼミ] Learning agile and dynamic motor skills for legged robots from harmonylab 説明複雑なモータ制御が必要なロボットの制御方法を提案シミュレーションのみで学習した方策をロボットに転送し、実環境のロボット制…

2020-04-23

MuZero

DLゼミ強化学習機械学習論文紹介

スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回…

2020-04-23

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA（OpenAIかくれんぼ）

DLゼミ強化学習機械学習論文紹介

スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。内容は、チーム戦のかくれんぼを通じて，相互の戦略を獲得できたとする研究です。各チームごとにシンプルな…

2020-04-23

DQNからA3C, PPOまで

DLゼミ論文紹介機械学習強化学習

スライド強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけ…

クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

DLゼミ

Suphx: Mastering Mahjong with Deep Reinforcement Learning

Decision Transformer: Reinforcement Learning via Sequence Modeling

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) 解説

Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning (2017)

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

Top-K Off-Policy Correction for a REINFORCE Recommender System

Learning agile and dynamic motor skills for legged robots 解説スライド

MuZero

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA（OpenAIかくれんぼ）

DQNからA3C, PPOまで