RecSys 2020(3) Day1 , Evaluating and Explaining Recommendations
1日目、最後のセッション。評価と説明のセッション。評価、難しい。
Ensuring Fairness in Group Recommendations by Rank-Sensitive Balancing of Relevance
Abstract
個人ではなく、グループにアイテムを推薦するとき、特定の個人に偏らずフェアにいい感じのバランスでアイテムを推薦するにはどうしたらいいか。グループへ推薦するものを、メンバーの平均とか最低の点でランキングすることはできるが、例えばある1人の意見がかき消されてしまうなど、フェアじゃないことがおこりうる。そのため、fair To Nというアイディアと、フェアの程度を測定するための指標=GFARを提案する。
感想
マッチングアルゴリズムに似ている。個人の中に明確なランキングがあることが前提なんですよね。
Keeping Dataset Biases out of the Simulation: A Debiased Simulator for Reinforcement Learning based Recommender Systems
Abstract
強化学習の探索をリアルでやるとユーザーが不満に思う可能性がある。そのため、オフラインテストで学習することも多いと思うが、オフラインテストだと「行動したがゆえの結果」がモデルに反映されない。このバイアスがどれくらいあるのか測定する方法と、このバイアスを除去する手法を提案する。
感想
実験や検証がむずかしそうだった。オフラインテストのバイアスの話なので、オフラインテストでどう評価するのか、と。 ただ、オフラインテストの手法はいろいろ知っておきたい。
On Target Item Sampling in Offline Recommender System Evaluation
Abstract
つくったモデルを検証するための検証データセットによってOutcome が変わるのか?変わるならどのように変わるのか?テストデータと学習データと関係ないアイテムの混ぜ具合を変えて、Outcome の違いをみてみる。
感想
テストデータか。
Recommendations as Graph Explorations
Abstract
推薦システムが複雑になるにつれ、評価も難しくなっている。ただ、すべての推薦システムはグラフ構造に抽象化できる。そのため、グラフでの表現により推薦の構造に理解に注力できるようにする。
感想
Google London の人のグラフの話。グラフ勢きた、つよい。
Making Neural Networks Interpretable with Attribution: Application to Implicit Signals Prediction
聞けていない...
What does BERT Know about Books, Movies and Music? Probing BERT for Conversational Recommendation
Abstract
Conversational Recommendation : 会話からユーザーの意図を推測し、アイテムを推薦するもの。検索でキーワードではなく質問文が与えられる。このような推薦に、BERT などの Pretrained Language Model が使えないか?そもそもBERT は推薦に必要な知識をもっているのか? ここでは、genre , search , recommendation の調査をBERT で実施した。例えば、以下のようにgenre の調査をBERT で実施した。
この文での関心ごとはBERT の推薦システムへの貢献。Research Questionを以下の2つに定義し、検証した。
感想
BERT の使い方のヒントが得られた。なるほど。
1日終えて
Abstract よめてなかったので厳しかった。自分の関心もどこにあるのか。 とはいうものの、やはり Industrial Talks が面白い。