なんとかエンジニアのきろく ... ばばあやこのtech blog

RecSys 2018のペーパーを読んでいく(12) ... 強化学習でユーザ行動を即座に反映しアイテムのいい感じにページに配置する話

2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

1日ひとつ
読み終わらなくてもOK
理解と疑問点を毎日まとめる

読んでいこうと思っていたのですが、ビデオがつくようになったのでそれを見ます。GWにはいったので、まとめてみるよ。次はDeep Reinforcement Learning for Page-wise Recommendations

Abstract:

推薦システムでは、ユーザに推薦するものを見せる→ユーザーは何か選んだり、無視したりの行動をする→その行動をもとにさらに推薦するものを変える... の繰り返し
課題は1. 直前の行動をすぐモデルに反映させたい 2. 限られた場所にどんな感じでアイテムをみせるのがいいのか
この2つの課題を強化学習で同時に解決するものをみつけたよ

ざっくり：

Abstract がすべて
Matrix Factorization みたいなモデルだと、ユーザの行動を推薦システムのアルゴリズムに反映させることはできないよね
そこで強化学習だ
さらにDeep なやつをつかうことによって、「ユーザの好きなアイテムを2次元のページにどう配置したらいいか」という課題も解決する
いままでのレコメンドシステムはランキングにしたがって、左上→右下に配置していくだけ
でもほとんどの推薦ページは2次元で、左右上下の商品との位置関係とかが結構効くという先行研究が
なので、この構造を学習するのだ
あとは Encoder / Decoder とかいつものそういう話だった（割愛）
オンライン・オフラインテストで良い結果

感想：

このあたりの知識が必要になってくるのはいつですか