2020-04-23 EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA(OpenAIかくれんぼ) DLゼミ 強化学習 機械学習 論文紹介 スライド EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab 説明 調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。 内容は、チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究です。 各チームごとにシンプルな報酬のみにもかかわらず,人間に関連するスキルを中心とする行動を獲得できたと主張しています。 強化学習手法にはPPO + LSTMが用いられているみたいですね。また、方策を蒸留させようとする工夫が数多く見られました。 やはり強化学習はそのまま適用しただけじゃ上手く行かないことの方が多く、まだまだドメインによって様々な工夫が必要なんでしょうか‥。