Suphx: Mastering Mahjong with Deep Reinforcement Learning

DLゼミ論文紹介強化学習機械学習

メタ情報著者発表リンクスライド Zennメモ説明感想メタ情報著者 Junjie Li (Microsoft Research Asia) Sotetsu Koyamada (Kyoto University) Qiwei Ye (Microsoft Research Asia) Guoqing Liu (University of Science and Technology of China) Chao…

#麻雀 #suphx #強化学習 #スライド

2021-08-25

Decision Transformer: Reinforcement Learning via Sequence Modeling

強化学習機械学習論文紹介 DLゼミ

メタ情報著者発表リンクスライド Zennメモ説明感想メタ情報著者 Lili Chen (UC Berkeley) Kevin Lu (UC Berkeley) Aravind Rajeswaran (Facebook AI Research) Kimin Lee (UC Berkeley) Aditya Grover (Facebook AI Research) Michael Laskin (UC Be…

#Transformer #GPT #reinforcement learning

2021-08-19

Kaggle SETI 59th solution

Kaggle Python 機械学習

はじめに SETIコンペについて Pipeline Augmentation Test Time Augmentation (TTA) Resizing Network 学習モデルその他試したこと感想はじめにコンペ途中リークが発覚し、データセットリセットがあるなど波乱のコンペでした。また、今回も@kambe さん…

2021-04-22

MLFlowの使い方

Kaggle 機械学習 OSS Python

はじめに MLFlowの3本の柱 MLFlow Tracking 最小サンプル複数の実験を管理したい Experiments Runs Tags log_param argparseをまるごと記録したい log_metric x軸をtimeじゃなくてstepで記録したい log_metricの履歴のcsvが欲しい log_artifact フォルダま…

#mlflow #kaggle #DevOps

2021-03-31

強化学習の報酬のグラフを良い感じに書く

Python 強化学習機械学習

完成図想定するデータコード説明定数例完成図報酬のグラフこんな感じで2つのアルゴリズムを比較できるように作りました。もちろん、1つでも使えます。（報酬が離散的すぎてやや例としては悪いですが…）想定するデータなんでも良いのですが、今回…

#Python #強化学習 #報酬 #matplotlib

2021-03-14

Pytorch Distributed Data Parallel(DDP) 実装例 (pytorch ddp vs huggingface accelerate)

Python 機械学習

はじめに新しくhuggingface accelerateを用いたDDPの実装を加えました (2021/11/1) 学習コード DataParallel nn.DataParallelのソース DDP DDPのソース実行コマンド DDPソース説明 DDP (accelerate) DDPのソース (accelerate) 実行コマンド DDP(accelerate…

#Pytorch #DDP #VGG16 #Kaggle #accelerate

2021-03-02

セグメンテーションするpytorch機械学習モデルをAWSへデプロイ（API Gateway, Lambda, ECR)

Github Python Web サーバ機械学習

はじめに独り言構成コンテナイメージの作成フォルダ構成 Dockerfile POST, Responseスキーム app.py ローカルでテスト Lmabdaのロギング ECRにプッシュ Lambda関数作成 API Gatewayの作成 POSTテスト感想参考はじめに pythonを使った機械学習モデルは…

#AWS #Lambda #機械学習モデル #デプロイ

2021-02-19

Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning (2017)

論文紹介機械学習強化学習 DLゼミ

動画 1Pが人間のエキスパート 2Pが強化学習エージェント論文紹介 https://arxiv.org/abs/1702.06230 スマブラDXを強化学習して、エキスパートに勝利した論文です。 DX大好きなので読んでみました。しかしQ学習が非定常性な相手であるself-playに向かないっ…

#スマブラ #強化学習

2021-02-19

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

論文紹介強化学習機械学習 DLゼミ

論文紹介 https://arxiv.org/abs/1710.03748 競争的な環境におけるSelf playに関する論文を読んだメモです。 zennのスクラップという機能を使ってみました。 zennのメモ Emergent Complexity via Multi-Agent Competition (ICLR 2018) しばらくスクラップをO…

#RL #self-play #強化学習 #論文紹介

2021-02-11

EfficientDetのsingle-machine model parallelを実装して、D8(D7x)を学習させる

Python Github OSS 機械学習

はじめに実装したリポジトリ実装解説バックボーン NMS まとめはじめに魚群コンペ記事の第二弾です。 tmyoda.hatenablog.com EfficientDetの良さそうなリポジトリを見つけ、このリポジトリをコンペに使おうと思いました。 github.com しかし、EfficientD…

#efficientnet #efficientdet #物体検出 #signate #コンペ

2021-02-10

mAP(mean Average Precision)を手っ取り早く上げるには

機械学習

はじめに結論理由 mAPの算出方法 APの算出方法例 mAPを上げるにははじめに signateの物体認識コンペ（魚群検知）に参加したので、そのときに得た知見をいくつか共有したいと思います。（複数記事に分ける予定） signate.jp 新記事公開しました。(21.02.1…

#物体検出 #signate #mAP #コンペ

2020-10-07

pysparkの使い方に慣れるためにirisデータセットをいじってみる

Python 機械学習

はじめに環境構築サンプル集読み込みカラム確認統計量スライシングランダムサンプリング列の追加ユーザ定義関数グルーピング groupBy→aggで集計 groupBy→pivotで縦横変換一意の識別子を付ける DFのJOIN 列を取り出す参考文献はじめに pysparkを…

2020-09-29

SingularityコンテナでOpenCV+Boostを使ったC++コードをコンパイル

C++ OSS Python サーバ強化学習機械学習

はじめにコンテナ作成作成したビルド&強化学習に必要な環境実行方法は2つあります Singularity Libraryからpull .defファイル注意点はじめに研究でC++コードをpybind11を使ってPythonから呼んで強化学習をしています．強化学習をGPU上で回したくなっ…

2020-08-19

Singularity + headless VNC + Pipenvを使ってサーバ上で強化学習環境を整える(gym, pybullet)

サーバ Python OSS 強化学習機械学習

はじめに headless VNCとは headless VNCを触ってみる docker Singularity 導入 docker singularity (rootless) singularity libraryからpull (おすすめ！) ローカルPCでbuild サーバ上での作業 xfce4 パネル初期化コマンドはじめに強化学習をしてると何か…

2020-08-17

singularityの使い方

機械学習サーバ Python

はじめにメリット Dockerとの違いコンテナ作成方法コンテナ作成例 pytorch/conda-cudaをDocker Hubから.sif作成 sandboxでコンテナを作成するオプションマシン上のdockerにあるhello-world imageから conda-torch.defからコンテナ実行方法 conda-cuda-t…

2020-05-13

Learning agile and dynamic motor skills for legged robots 解説スライド

強化学習機械学習論文紹介 DLゼミ

スライド説明感想スライド [DLゼミ] Learning agile and dynamic motor skills for legged robots from harmonylab 説明複雑なモータ制御が必要なロボットの制御方法を提案シミュレーションのみで学習した方策をロボットに転送し、実環境のロボット制…

2020-04-23

MuZero

DLゼミ強化学習機械学習論文紹介

スライド Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) from harmonylab 説明囲碁・将棋などのドメインはモデルベースな強化学習手法が成功を収めてきたが、そのモデルを自動で獲得し、AlphaZeroなどの従来手法を上回…

2020-04-23

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA（OpenAIかくれんぼ）

DLゼミ強化学習機械学習論文紹介

スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。内容は、チーム戦のかくれんぼを通じて，相互の戦略を獲得できたとする研究です。各チームごとにシンプルな…

2020-04-23

DQNからA3C, PPOまで

DLゼミ論文紹介機械学習強化学習

スライド強化学習 DQNからPPOまで from harmonylab 説明 DQNからA3C, PPOまでの変遷を順に説明したスライドです。札幌AI勉強会で発表させて頂いた資料になります。強化学習は基本的にDQNからの派生がほとんどなので、いきなり新しい手法の論文を見てもわけ…

2020-04-23

A3C

強化学習機械学習論文紹介

スライド北大調和系 DLゼミ A3C from Tomoya Oda 説明エピソードのサンプリング・学習が非同期 + Actor-Criticな手法の提案。更にGPUではなくCPUのみでDQNより学習時間を削ることに成功。また、DQNが苦手な行動空間が連続な場合の可能性も示した。しかし…

2020-03-13

pandasで行検索するときの速度比較

Python 機械学習

pandasで行検索忙しい人向け dfを定義検索条件が1つのとき検索条件が2つのとき検索条件が3つのとき結論 pandasで行検索忙しい人向け結論から言うと，apply, map, queryを使うよりも ==, <=等の等号不等号を使った検索の方が早いです． dfを定義 impor…

クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

機械学習

Suphx: Mastering Mahjong with Deep Reinforcement Learning

Decision Transformer: Reinforcement Learning via Sequence Modeling

Kaggle SETI 59th solution

MLFlowの使い方

強化学習の報酬のグラフを良い感じに書く

Pytorch Distributed Data Parallel(DDP) 実装例 (pytorch ddp vs huggingface accelerate)

セグメンテーションするpytorch機械学習モデルをAWSへデプロイ（API Gateway, Lambda, ECR)

Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning (2017)

Emergent Complexity via Multi-Agent Competition (ICLR 2018)

EfficientDetのsingle-machine model parallelを実装して、D8(D7x)を学習させる

mAP(mean Average Precision)を手っ取り早く上げるには

pysparkの使い方に慣れるためにirisデータセットをいじってみる

SingularityコンテナでOpenCV+Boostを使ったC++コードをコンパイル

Singularity + headless VNC + Pipenvを使ってサーバ上で強化学習環境を整える(gym, pybullet)

singularityの使い方

Learning agile and dynamic motor skills for legged robots 解説スライド

MuZero

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA（OpenAIかくれんぼ）

DQNからA3C, PPOまで

A3C

pandasで行検索するときの速度比較