RecSys 2020(5) Day 2 , Unbiased Recommendation and Evaluation

キーノートに続き、バイアスを取り除く話を聞きました。

A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets

Abstract

推薦システム構築にデータセットが必要。公開するために社外秘情報などをマスクしつつ、モデル開発に有用なデータセットを作る方法を紹介。 データはユーザの行動データ。特徴量としては、記事のclick , user attribute , article categoryを持つ。

f:id:ayakobaba:20200924090343p:plain

公平性を維持しながら、popularity bias を減らし、匿名化する、というこのタスクは、言い換えると「ユーザのsampling weightを探す」問題に帰着する。 式はこれ。

f:id:ayakobaba:20200924090733p:plain

実験したが、データセットの作り方により学習されたモデルやそのパフォーマンスが変わったので、いろんな匿名手法をしたデータセットを公開し、目的に応じて選択する必要があることがわかった。

fairness は gender のみ 意識して、同じ数だけsampling した / privacy は、データセットから除くことによって実現したので future work

感想

Gunosy の発表。データみてみよう。

Unbiased Learning for the Causal Effect of Recommendation

Abstract

counterfactual recommend とは、推薦されなかったら別のものが購入されたかもしれない、という問題。 これを解決するために、causal effect = レコメンドされたときとされなかったときの差をみて判断する。 ただ、causal effect の測定には課題が2つある。 * 問題 1 : 本当は2つの状態を知りたいがひとつしか実験できない * 問題2 : bias by confounding

そこで、ranking metrics を定義したい。 一般的な Ranking Metrics もあるが、IPS based かつIPS の問題を解決し、unbiased learningしたmetrics を提案する。

感想

Causal Effect、一瞬すごいはやったけどなかなか実用化されないイメージがあります。 推薦の目的が、ある一点のClick行動の最適化ではなく、 一連のコミュニケーションを通してユーザ体験をよくし 、LTV あげるにシフトしているんじゃないかな、と。 メモ:confound = 交互作用

Doubly Robust Estimator for Ranking Metrics with Post-Click Conversions

Abstract

クリック して購買するような場合、そもそもクリックされていないというデータを学習に利用しないことがある。これは 1. missing ,sparse conversions と 2. selection bias 2つの問題を引き起こしている。クリックしていないデータを使う場合、IPS が定番の手法。しかしIPS はhigh varianceなので、Doubly Robust Estimator を提案する。検証でも良い結果が得られた。 f:id:ayakobaba:20200924093800p:plain

感想

どのあたりがDoubly Robust だったかわからなかったのは私のせい。

Unbiased Ad Click Prediction for Position-aware Advertising Systems

Abstract

広告ではどこに表示されるかでクリックする・しないが大きく変わる(position bias )。真に推薦するべきアイテムが何か識別するには、positionによらないranking が必要。過去の研究ではposition をなんとか分離しようとしたが、どうしてもbiasがかかってしまう。ランダムに表示してデータを収集すれば よいが、実験期間中の売り上げが下がる。そのため、position bias の推定に「表示していないアイテム」の情報を利用することを試みた。

f:id:ayakobaba:20200924095245p:plain

感想

途中から、この地球上のどれだけの人がpositionまで気にした推薦システムを必要なのか考えてしまった。

Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison

Abstract

我々は推薦システムを厳密に評価できているのだろうか。各論文、データセットドメインも、加工も全然違う中、再現性のある評価と公平な比較ができているのか、検証してみた。この論文では、評価指標はtop-N に絞り、Top カンファレンスに発表されたPaper を収集した。65 データセット / 85 papers あったが、検証のため、6データセットを選出した。前処理は平均5 - 10加工しており、ベースラインは様々。サンプリングはおおよそ3種類(uniform/ low-popularity / high popularity)。data splitting method / hyper parameter tuning : validation / search もさまざま。

検証の結果、以下が得られた。 f:id:ayakobaba:20200924101131p:plain f:id:ayakobaba:20200924101144p:plain

感想

実世界では SOTA よりよい必要はなく、開発・運用コストと改善度合いのバランスかと。改善 = revenue なので、pricingとmetricsの作り方、さらにバイアスになりそうなところを厳密に、あとは適当に、みたいなことをしていくのだろうか。

Counterfactual Learning for Recommender System

Abstract

the book of why で、causal inference の3段階が紹介されている ( associtaion , intervention , counterfactual )。この論文では、counterfactual = ないデータから学習することを考える。例えば、position bias やselection biasがあるが、このバイアスを知るためのデータの収集は非常に難しい。このあたりのデータの生成をする手法を提案。 f:id:ayakobaba:20200924102124p:plain

Doubly Robust でてきた。なるほど。 f:id:ayakobaba:20200924102455p:plain

感想

このセッションでみんな使っているYahoo! R3 データとは。