RecSys 2018のペーパーを読んでいく(9) ... ユーザが自分の行動履歴データを変えた場合に推薦システムの精度がどれくらい変わるのか検証した話

 2019/04 、RecSys 2018の論文をひたすら読みます。ルール。

  • 1日ひとつ
  • 読み終わらなくてもOK
  • 理解と疑問点を毎日まとめる

読んでいこうと思っていたのですが、ビデオがつくようになったのでそれを見ます。今日は、Exploring Recommendations Under User-Controlled Data Filtering

Abstract:

  • 昔は、レコメンドシステムはすべてのユーザプロファイルデータ、履歴データを参照することができた
  • 現在では、ユーザ自身が自分のプロファイルデータや行動履歴データの編集ができるようになってきている
  • この論文では、このようなユーザ自身による履歴データの改変が推薦のパフォーマンスにどれほどの影響があるか検証する
  • 検証の結果、ユーザによるデータ変更や削除がかならずしも推薦システムのパフォーマンスを下げないことがわかった
  • これは「データが多ければ多い」という信仰に反するものであり、ユーザとサービス提供者のより良い関係を示唆するものである

ざっくり:

  • オフラインテストを行った
  • 履歴データを削除する人の割合、削除期間を変えて、SOTA な協調フィルタリングアルゴリズムで推薦システムを学習
  • 一切削除しないデータから学習した推薦システムをベースラインとしてパフォーマンスを比較
  • 指標は HR@10 / NDCG@10
  • 結果1: データを60日分使うことができれば、データを編集する人が増えてもそんなにベースラインと結果が変わらない
  • 結果2: 学習データの収集期間が2年 - 5年となってもパフォーマンスは変わらない
  • 結果3:  データをフィルタリングした人は推薦の精度が下がるが、フィルタリングしていない人は変わらない。新規ユーザへのフィルタリングユーザの影響はアルゴリズムによる
  • ソースコードgithub に公開しているよ

 

感想:

  • タスクがはっきりしている場合、データ収集期間が年単位で必要ないかもしれない、とわかるのでいいですね。
  • 英語がききとりづらくてしょんぼりしてしまった。もうちょっとなれないと。
  • HR@10 / NDCG@10 がわからないので調べたい