2020-07-22から1日間の記事一覧
スライド Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab 説明 Top-K Off-Policy Correction for a REINFORCE Recommender System – Google Research YouTubeで実際に運用された(今も運用されてるかは不明)強化学習を用…
スライド Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab 説明 Top-K Off-Policy Correction for a REINFORCE Recommender System – Google Research YouTubeで実際に運用された(今も運用されてるかは不明)強化学習を用…