RecSys 2018のペーパーを読んでいく(4) ... 強化学習で探索しながら推薦するシステムにも説明をつける話

2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

とルールをかかげてたけど、できませんでした！さすが3日坊主！でも再開。

Abstract:

ざっくり：

探索と説明のギャップを埋めるbartという手法を提案する
オフラインでもいい結果でたし、オンラインでも機能したよ
Bart は Contextual Bandit
Context & Reward Model のPersonalized を表現するためにFactorization Machine を採用
そして、学習の工夫が書かれているが、むずかしくてわからない
オフライン・オンラインの実験をしたが、どちらでも説明があった方が効果あった
オンラインでは 1. あんまり exploration 的な推薦を増やしてユーザを混乱させないように 2. latency 大事 3. batch でも realtime でも推薦できるように、気をつけてA/B テストした

感想