RecSys 2018のペーパーを読んでいく(12) ... 強化学習でユーザ行動を即座に反映しアイテムのいい感じにページに配置する話

2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

  • 1日ひとつ
  • 読み終わらなくてもOK
  • 理解と疑問点を毎日まとめる

読んでいこうと思っていたのですが、ビデオがつくようになったのでそれを見ます。GWにはいったので、まとめてみるよ。次はDeep Reinforcement Learning for Page-wise Recommendations

Abstract:

  • 推薦システムでは、ユーザに推薦するものを見せる→ユーザーは何か選んだり、無視したりの行動をする→その行動をもとにさらに推薦するものを変える... の繰り返し
  • 課題は1. 直前の行動をすぐモデルに反映させたい 2. 限られた場所にどんな感じでアイテムをみせるのがいいのか
  • この2つの課題を強化学習で同時に解決するものをみつけたよ

ざっくり:

  • Abstract がすべて
  • Matrix Factorization みたいなモデルだと、ユーザの行動を推薦システムのアルゴリズムに反映させることはできないよね
  • そこで強化学習
  • さらにDeep なやつをつかうことによって、「ユーザの好きなアイテムを2次元のページにどう配置したらいいか」という課題も解決する
  • いままでのレコメンドシステムはランキングにしたがって、左上→右下に配置していくだけ
  • でもほとんどの推薦ページは2次元で、左右上下の商品との位置関係とかが結構効くという先行研究が
  • なので、この構造を学習するのだ
  • あとは Encoder / Decoder とかいつものそういう話だった(割愛)
  • オンライン・オフラインテストで良い結果

感想:

  • このあたりの知識が必要になってくるのはいつですか