クラウドエンジニアのノート

情報技術系全般,自分用メモを公開してます。

Top-K Off-Policy Correction for a REINFORCE Recommender System

スライド

説明

Top-K Off-Policy Correction for a REINFORCE Recommender System – Google Research

YouTubeで実際に運用された(今も運用されてるかは不明)強化学習を用いた推薦システムの論文です.

内容として,RENFORCEをoff-policyかつ複数の行動を出力するように変更したみたいです.しかし,この推薦システムが性能良いのか悪いのかについて議論されていないので,そこが気になりますね.

でも,この数百万オーダの空間へスケールアップと,バイアス・バリアンスへの対処は,強化学習の非常によい勉強になりました.

スライド中でも軽く方策勾配法について解説しているので,良かったら見てください.

参考にしたサイト

medium.com

qiita.com

有志実装

実装主のブログ
https://towardsdatascience.com/top-k-off-policy-correction-for-a-reinforce-recommender-system-e34381dceef8

Github github.com