クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA(OpenAIかくれんぼ)

スライド

説明

調和系DLゼミ、札幌AI勉強会で発表させて頂いたスライドです。

内容は、チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究です。
各チームごとにシンプルな報酬のみにもかかわらず,人間に関連するスキルを中心とする行動を獲得できたと主張しています。
強化学習手法にはPPO + LSTMが用いられているみたいですね。また、方策を蒸留させようとする工夫が数多く見られました。

やはり強化学習はそのまま適用しただけじゃ上手く行かないことの方が多く、まだまだドメインによって様々な工夫が必要なんでしょうか‥。