なんとかエンジニアのきろく ... ばばあやこのtech blog

RecSys 2018のペーパーを読んでいく(6) ... 推薦システムの評価が消費によってどう変わるか実験した話

2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

1日ひとつ
読み終わらなくてもOK
理解と疑問点を毎日まとめる

今日は、Impact of Item Consumption on Assessment of Recommendations in User Studies

Abstract:

一般的には、推薦システムの評価をする場合は、推薦されたもの（曲や映画）を消費する前に実行する
実際に聞いたり、見たりすると、推薦されたものの評価がかわることがあるため、適切に推薦システムの評価ができていないんじゃないか？
2つの領域（音楽と映画）で消費前後の推薦システムの評価を比較、対象の消費前の推薦システム評価はどれくらい信じられるのか、検証してみた

ざっくり：

推薦システム自体の評価方法って、だいたい「推薦されたものは気に入りそうか？」みたいなアンケートとってする
でも、それは実際に推薦されたものを体験（ホテルにとまったり、映画をみたり）する前にアンケートに回答することがほとんど
「推薦システムは本当に好きなものを推薦してくれているのか？」音楽と映画でためしてみたよ
方法：音楽を聞く前のアンケート、聞いたあとのアンケートを作成、前後にアンケートする群とあとのみにアンケートする群にわけ、推薦システムの評価が変わるのか調査した
前後にアンケート回答した人の後の評価と、後のみに回答した人の評価の分布が結構かわった
消費前の評価って眉唾かもしれない

感想：

Best ショートペーパー
評価の方法ってどのかしこい人も悩んでいるんだなー
とはいうものの、アカデミアの関心がそこにあるのもわからないではないが、ビジネス的に「買う！」ってクリックさせられたらいったんは「良い推薦システム」ってくくっちゃってもいいんじゃないかな。LTVとか考えるとだめなのかな