RecSys 2018のペーパーを読んでいく(15)...ほんの少しの行動履歴からでも学習可能な強化学習の推薦システムの話

2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

  • 1日ひとつ
  • 読み終わらなくてもOK
  • 理解と疑問点を毎日まとめる

全然1日ひとつ読めていませんが、まずは全部読んでから考える。今回はビデオついているInteractive Recommendation via Deep Neural Memory Augmented Contextual Bandits

Abstract:

  • ユーザの行動から逐次的に学習するレコメンドシステムは一般的になりつつある
  • 強化学習の探索と報酬を繰り返すと学習に多くのユーザ行動が必要となる
  • そこで、 Deep Neural Memory Augmented Contextual Bandits を提案
  • 少量のユーザ行動情報で推薦できるようになる優れもの

ざっくり:

  • コンテンツが日々変わるようなニュースサイトでは、教師あり学習のようなモデルが通用しない
  • そこで強化学習をしているのだが、いっぱい行動がないと良い感じでパーソナライズできないという問題がある
  • 強化学習をしつつ、ユーザの直近の行動を保持(=Memory Augmented) することにより、少ないインタラクションからユーザの嗜好を学習しコンテンツを推薦できるようになった
  • DMCB は2つのパートからなる
  • まず、全部のデータをつかってオフライン学習し、ベースのモデルをつくる
  • その上に、ユーザの行動によって素早く改善できるような仕組みをつくる

    f:id:ayakobaba:20190428112922p:plain

  • History State は Neural Turing Machine からヒントを得た

感想