クラウドエンジニアのノート

情報技術系全般，自分用メモを公開してます。

Learning agile and dynamic motor skills for legged robots 解説スライド

強化学習機械学習論文紹介 DLゼミ

スライド
説明
- 感想

スライド

[DLゼミ] Learning agile and dynamic motor skills for legged robots from harmonylab

説明

複雑なモータ制御が必要なロボットの制御方法を提案
シミュレーションのみで学習した方策をロボットに転送し、実環境のロボット制御に成功
ロボットのシミュレーションとの違いをNNによって吸収
これによりシミュレータでのモデリングが改善
方策はシミュレーション上のみで学習
既存のSOTAのモデルベース手法より優れた性能
より、少ないエネルギー、計算量ながら、より高速で高い精度
本論文は多脚ロボットの汎用的なコントローラの獲得への一歩

感想

actuator netの精度を向上させたら、ゴリゴリのコスト関数設計はもう少し楽になるのでしょうか‥

恐らくノイズを載せまくってるのがコスト関数を複雑化させている原因になっているので、もう少しシミュレーションが現実に近いと楽なんですかね
また、TRPOじゃなくてPPOとかSACとかだと学習に違いが出るか気になります