スライド

Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab

説明

YouTubeで実際に運用された（今も運用されてるかは不明）強化学習を用いた推薦システムの論文です．

内容として，RENFORCEをoff-policyかつ複数の行動を出力するように変更したみたいです．しかし，この推薦システムが性能良いのか悪いのかについて議論されていないので，そこが気になりますね．

でも，この数百万オーダの空間へスケールアップと，バイアス・バリアンスへの対処は，強化学習の非常によい勉強になりました．

スライド中でも軽く方策勾配法について解説しているので，良かったら見てください．