1日目、最後のセッション。評価と説明のセッション。評価、難しい。

Ensuring Fairness in Group Recommendations by Rank-Sensitive Balancing of Relevance

Abstract

個人ではなく、グループにアイテムを推薦するとき、特定の個人に偏らずフェアにいい感じのバランスでアイテムを推薦するにはどうしたらいいか。グループへ推薦するものを、メンバーの平均とか最低の点でランキングすることはできるが、例えばある1人の意見がかき消されてしまうなど、フェアじゃないことがおこりうる。そのため、fair To Nというアイディアと、フェアの程度を測定するための指標=GFARを提案する。

f:id:ayakobaba:20200923144113p:plain

感想

マッチングアルゴリズムに似ている。個人の中に明確なランキングがあることが前提なんですよね。

Keeping Dataset Biases out of the Simulation: A Debiased Simulator for Reinforcement Learning based Recommender Systems

Abstract

強化学習の探索をリアルでやるとユーザーが不満に思う可能性がある。そのため、オフラインテストで学習することも多いと思うが、オフラインテストだと「行動したがゆえの結果」がモデルに反映されない。このバイアスがどれくらいあるのか測定する方法と、このバイアスを除去する手法を提案する。

f:id:ayakobaba:20200923145545p:plain f:id:ayakobaba:20200923150033p:plain

感想

実験や検証がむずかしそうだった。オフラインテストのバイアスの話なので、オフラインテストでどう評価するのか、と。ただ、オフラインテストの手法はいろいろ知っておきたい。

On Target Item Sampling in Offline Recommender System Evaluation

Abstract

つくったモデルを検証するための検証データセットによってOutcome が変わるのか？変わるならどのように変わるのか？テストデータと学習データと関係ないアイテムの混ぜ具合を変えて、Outcome の違いをみてみる。

f:id:ayakobaba:20200923150639p:plain f:id:ayakobaba:20200923151449p:plain

感想

テストデータか。

Recommendations as Graph Explorations

Abstract

推薦システムが複雑になるにつれ、評価も難しくなっている。ただ、すべての推薦システムはグラフ構造に抽象化できる。そのため、グラフでの表現により推薦の構造に理解に注力できるようにする。

f:id:ayakobaba:20200923152211p:plain f:id:ayakobaba:20200923152307p:plain f:id:ayakobaba:20200923152634p:plain

感想

Google London の人のグラフの話。グラフ勢きた、つよい。

Making Neural Networks Interpretable with Attribution: Application to Implicit Signals Prediction

聞けていない...

What does BERT Know about Books, Movies and Music? Probing BERT for Conversational Recommendation

Abstract

Conversational Recommendation : 会話からユーザーの意図を推測し、アイテムを推薦するもの。検索でキーワードではなく質問文が与えられる。このような推薦に、BERT などの Pretrained Language Model が使えないか？そもそもBERT は推薦に必要な知識をもっているのか？ここでは、genre , search , recommendation の調査をBERT で実施した。例えば、以下のようにgenre の調査をBERT で実施した。 f:id:ayakobaba:20200923155126p:plain