クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

強化学習

Suphx: Mastering Mahjong with Deep Reinforcement Learning

メタ情報 著者 発表 リンク スライド Zennメモ 説明 感想 メタ情報 著者 Junjie Li (Microsoft Research Asia) Sotetsu Koyamada (Kyoto University) Qiwei Ye (Microsoft Research Asia) Guoqing Liu (University of Science and Technology of China) Chao…

Decision Transformer: Reinforcement Learning via Sequence Modeling

メタ情報 著者 発表 リンク スライド Zennメモ 説明 感想 メタ情報 著者 Lili Chen (UC Berkeley) Kevin Lu (UC Berkeley) Aravind Rajeswaran (Facebook AI Research) Kimin Lee (UC Berkeley) Aditya Grover (Facebook AI Research) Michael Laskin (UC Be…

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) 解説

メタ情報 著者 発表 リンク スライド Zennメモ 説明 感想 メタ情報 著者 Danijar Hafner (Google Research) Timothy Lillicrap(DeepMind) Mohammad Norouzi (Google Research) Jimmy Ba(University of Toronto) 発表 ICLR 2021 リンク Paper: https://arxiv.…

強化学習の報酬のグラフを良い感じに書く

完成図 想定するデータ コード 説明 定数 例 完成図 報酬のグラフ こんな感じで2つのアルゴリズムを比較できるように作りました。もちろん、1つでも使えます。 (報酬が離散的すぎてやや例としては悪いですが…) 想定するデータ なんでも良いのですが、今回…

Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning (2017)

動画 1Pが人間のエキスパート 2Pが強化学習エージェント 論文紹介 https://arxiv.org/abs/1702.06230 スマブラDXを強化学習して、エキスパートに勝利した論文です。 DX大好きなので読んでみました。 しかしQ学習が非定常性な相手であるself-playに向かないっ…

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

論文紹介 https://arxiv.org/abs/1710.03748 競争的な環境におけるSelf playに関する論文を読んだメモです。 zennのスクラップという機能を使ってみました。 zennのメモ Emergent Complexity via Multi-Agent Competition (ICLR 2018) しばらくスクラップをO…

SingularityコンテナでOpenCV+Boostを使ったC++コードをコンパイル

はじめに コンテナ作成 作成したビルド&強化学習に必要な環境 実行方法は2つあります Singularity Libraryからpull .defファイル 注意点 はじめに 研究でC++コードをpybind11を使ってPythonから呼んで強化学習をしています. 強化学習をGPU上で回したくなっ…

Singularity + headless VNC + Pipenvを使ってサーバ上で強化学習環境を整える(gym, pybullet)

はじめに headless VNCとは headless VNCを触ってみる docker Singularity 導入 docker singularity (rootless) singularity libraryからpull (おすすめ!) ローカルPCでbuild サーバ上での作業 xfce4 パネル初期化コマンド はじめに 強化学習をしてると何か…

Top-K Off-Policy Correction for a REINFORCE Recommender System

スライド Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab 説明 Top-K Off-Policy Correction for a REINFORCE Recommender System – Google Research YouTubeで実際に運用された(今も運用されてるかは不明)強化学習を用…

Learning agile and dynamic motor skills for legged robots 解説スライド

スライド 説明 感想 スライド [DLゼミ] Learning agile and dynamic motor skills for legged robots from harmonylab 説明 複雑なモータ制御が必要なロボットの制御方法を提案 シミュレーションのみで学習した方策をロボットに転送し、実 環境のロボット制…

MuZero

スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明 囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回…

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA(OpenAIかくれんぼ)

スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明 調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。 内容は、チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究です。 各チームごとにシンプルな…

DQNからA3C, PPOまで

スライド 強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。 強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけ…

A3C

スライド 北大調和系 DLゼミ A3C from Tomoya Oda 説明 エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。 しかし…