RecSys 2018のペーパーを読んでいく(4) ... 強化学習で探索しながら推薦するシステムにも説明をつける話

2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

  • 1日ひとつ
  • 読み終わらなくてもOK
  • 理解と疑問点を毎日まとめる

とルールをかかげてたけど、できませんでした!さすが3日坊主!でも再開。

今日は、Explore, Exploit, and Explain: Personalizing Explainable Recommendations with Bandits.

Abstract:

  • 推薦システムではそれっぽいものを推薦するだけでなく、新たな嗜好を発見する探索的推薦も重要
  • 推薦理由をつけた方が受け入れられやすいこともわかっている
  • 探索的推薦の理由づけは前例ないのでやってみた

 

ざっくり:

  • 探索と説明のギャップを埋めるbartという手法を提案する
  • オフラインでもいい結果でたし、オンラインでも機能したよ
  • Bart は Contextual Bandit
  • Context & Reward Model のPersonalized を表現するためにFactorization Machine を採用
  • そして、学習の工夫が書かれているが、むずかしくてわからない
  • オフライン・オンラインの実験をしたが、どちらでも説明があった方が効果あった
  • オンラインでは 1. あんまり exploration 的な推薦を増やしてユーザを混乱させないように 2. latency 大事 3. batch でも realtime でも推薦できるように、気をつけてA/B テストした

 

感想

  • だめだ、強化学習難しい
  • また推薦対象が音楽。Explanation がつくりやすいんだろうか
  • とおもったら、ガチでSpotify の人が書いた論文だった
  • どうりで、オンラインテストの数が多い