RecSys 2020 (6) Day2, Fairness, Filter Bubbles, and Ethical Concerns
Keynote 、前のセッションに続き、bias の日みたいになっている。
Theoretical Modeling of the Iterative Properties of User Discovery in a Collaborative Filtering Recommender System
Abstract
Closed Feedback Loops bias により、 Filter bubbleなどの現象がおきる。これをシミュレーションできるか、件書うしてみた。 Filter bubble 状態に収束している様子がわかる。genre が20以下、と小さなデータセットで実験しても全部を探索しない。すぐに「知らない世界」が出来上がってしまう。
感想
CF をつかって実験しているから簡単にひとつのジャンルに収束してしまっているが、他の手法だったら違うかもしれない。 とはいうものの、コンピュータもすぐに過去の成功体験にしばられてunlearn できなくなる感じが面白い。
Deconstructing the Filter Bubble: User Decision-Making and Recommender Systems
Abstract
推薦システムでは個人の嗜好によらず「Popular なものがより消費されやす」くなる。Filter Bubbles / Homogenization と言われる現象。で...
- 膨大な選択肢の中からちょっとずつ消費
- ユーザは実際のところ消費するまで価値があるかわからない
- ユーザは同じようなものが好きだろうな、って思う
- common value
感想
ごめんなさいわからなかった
Global and Local Differential Privacy for Collaborative Bandits
Collaborative Bandits = cold start 問題をbandit で解消する方法。Differential Privacy では、Private Linear Bandit の先行研究があるが、計算量の多さをsocial graph をつかってcalibrate するところが工夫した
という話であっているのかどうかわからない。Abstract をよもう。
Towards Safety and Sustainability: Designing Local Recommendations for Post-pandemic World
Abstract
レストランとか地域のなにかを推薦するようなシステム。
- レストランがつぶれないように推薦する
- あまり混雑しないようにする
- それぞれの人の好みに合わせた推薦をする
露出がすくないと店がつぶれてしまうが、露出を多くし人がきすぎると密になる。Poorest-k だと1/2 を満たすが顧客のメリットがない。そのため、1/2/3 を
3つ関数つくって最適化する。3つの要素がいい感じに保たれる結果になる。 reciprocal recommendation との違いはなんですか?という質問あり。
感想
テーマ選択の勝利
Revisiting Adversarially Learned Injection Attacks Against Recommender Systems
Abstract
Google。攻撃してくるやつを検知するために、 Gradient Descent をつかいたいが、どうやって計算するの?な問題にTensorflow でがんばったよ
Attackが結構きいてしまうこともわかっている。
感想
Tensorflow Recommendations!
Debiasing Item-to-Item Recommendations with Small Annotated Datasets
Abstract
人気の映画は共起しやすいから推薦されやすい問題を解決する話。IPSが よくでてきます。
Estimate propensities。ちょっとでも Labeled Data があれば、それを利用してよくする。
propensity = 傾向スコア
感想
あとでよむ。
RecSys 2020(5) Day 2 , Unbiased Recommendation and Evaluation
キーノートに続き、バイアスを取り除く話を聞きました。
A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets
Abstract
推薦システム構築にデータセットが必要。公開するために社外秘情報などをマスクしつつ、モデル開発に有用なデータセットを作る方法を紹介。 データはユーザの行動データ。特徴量としては、記事のclick , user attribute , article categoryを持つ。
公平性を維持しながら、popularity bias を減らし、匿名化する、というこのタスクは、言い換えると「ユーザのsampling weightを探す」問題に帰着する。 式はこれ。
実験したが、データセットの作り方により学習されたモデルやそのパフォーマンスが変わったので、いろんな匿名手法をしたデータセットを公開し、目的に応じて選択する必要があることがわかった。
fairness は gender のみ 意識して、同じ数だけsampling した / privacy は、データセットから除くことによって実現したので future work
感想
Gunosy の発表。データみてみよう。
Unbiased Learning for the Causal Effect of Recommendation
Abstract
counterfactual recommend とは、推薦されなかったら別のものが購入されたかもしれない、という問題。 これを解決するために、causal effect = レコメンドされたときとされなかったときの差をみて判断する。 ただ、causal effect の測定には課題が2つある。 * 問題 1 : 本当は2つの状態を知りたいがひとつしか実験できない * 問題2 : bias by confounding
そこで、ranking metrics を定義したい。 一般的な Ranking Metrics もあるが、IPS based かつIPS の問題を解決し、unbiased learningしたmetrics を提案する。
感想
Causal Effect、一瞬すごいはやったけどなかなか実用化されないイメージがあります。 推薦の目的が、ある一点のClick行動の最適化ではなく、 一連のコミュニケーションを通してユーザ体験をよくし 、LTV あげるにシフトしているんじゃないかな、と。 メモ:confound = 交互作用
Doubly Robust Estimator for Ranking Metrics with Post-Click Conversions
Abstract
クリック して購買するような場合、そもそもクリックされていないというデータを学習に利用しないことがある。これは 1. missing ,sparse conversions と 2. selection bias 2つの問題を引き起こしている。クリックしていないデータを使う場合、IPS が定番の手法。しかしIPS はhigh varianceなので、Doubly Robust Estimator を提案する。検証でも良い結果が得られた。
感想
どのあたりがDoubly Robust だったかわからなかったのは私のせい。
Unbiased Ad Click Prediction for Position-aware Advertising Systems
Abstract
広告ではどこに表示されるかでクリックする・しないが大きく変わる(position bias )。真に推薦するべきアイテムが何か識別するには、positionによらないranking が必要。過去の研究ではposition をなんとか分離しようとしたが、どうしてもbiasがかかってしまう。ランダムに表示してデータを収集すれば よいが、実験期間中の売り上げが下がる。そのため、position bias の推定に「表示していないアイテム」の情報を利用することを試みた。
感想
途中から、この地球上のどれだけの人がpositionまで気にした推薦システムを必要なのか考えてしまった。
Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison
Abstract
我々は推薦システムを厳密に評価できているのだろうか。各論文、データセットもドメインも、加工も全然違う中、再現性のある評価と公平な比較ができているのか、検証してみた。この論文では、評価指標はtop-N に絞り、Top カンファレンスに発表されたPaper を収集した。65 データセット / 85 papers あったが、検証のため、6データセットを選出した。前処理は平均5 - 10加工しており、ベースラインは様々。サンプリングはおおよそ3種類(uniform/ low-popularity / high popularity)。data splitting method / hyper parameter tuning : validation / search もさまざま。
検証の結果、以下が得られた。
感想
実世界では SOTA よりよい必要はなく、開発・運用コストと改善度合いのバランスかと。改善 = revenue なので、pricingとmetricsの作り方、さらにバイアスになりそうなところを厳密に、あとは適当に、みたいなことをしていくのだろうか。
Counterfactual Learning for Recommender System
Abstract
the book of why で、causal inference の3段階が紹介されている ( associtaion , intervention , counterfactual )。この論文では、counterfactual = ないデータから学習することを考える。例えば、position bias やselection biasがあるが、このバイアスを知るためのデータの収集は非常に難しい。このあたりのデータの生成をする手法を提案。
Doubly Robust でてきた。なるほど。
感想
このセッションでみんな使っているYahoo! R3 データとは。
RecSys 2020 (4) Day2 , Keynote (2)
2つめの Keynote.
Bias in Search and Recommender Systems
推薦システムはその構成上さまざまなバイアスがあり、それらはデータやアルゴリズムなどに起因する。このKeynote ではいろいろなバイアスを紹介していました。Long Paper でさまざまなバイアスとそれを測定したり、克服したりするものが多かったので、その事前知識として面白かったです。
紹介されていた、バイアス。
- Data Bias / Web Spam
- Economic bias in links
- Cultral bias in content
- Linguistic bias : 英語と中国語で半分
- geographical bias
- gender bias
- Engagement / Activity Bias
- Popularity bias in recommender system
- self fullfilling prophecy
- IR evaluation methodology
- Get rid of popularity bias
- Activity bias also affects content
- Social bias : Amazon のフェイクレビュー問題
- Quality of the content??
- Attention Bias : The Digital Dessert
- Sampling Size bias
- Algorithm bias
- interaction bias
- exposure or presentation bias / position bias , ranking bias/ social bias(星とか)
- ranking bias in web search
- second order bias
- feedback loop bias / filter bubble とか / eco chamber of the recommender system
さて、Fairness と Ethicsを保つために、我々に何ができるのか、という問に対して、いろいろ提言がありました。他にもありますが、まずは科学者としての倫理観を保つところですかね。
RecSys 2020(3) Day1 , Evaluating and Explaining Recommendations
1日目、最後のセッション。評価と説明のセッション。評価、難しい。
Ensuring Fairness in Group Recommendations by Rank-Sensitive Balancing of Relevance
Abstract
個人ではなく、グループにアイテムを推薦するとき、特定の個人に偏らずフェアにいい感じのバランスでアイテムを推薦するにはどうしたらいいか。グループへ推薦するものを、メンバーの平均とか最低の点でランキングすることはできるが、例えばある1人の意見がかき消されてしまうなど、フェアじゃないことがおこりうる。そのため、fair To Nというアイディアと、フェアの程度を測定するための指標=GFARを提案する。
感想
マッチングアルゴリズムに似ている。個人の中に明確なランキングがあることが前提なんですよね。
Keeping Dataset Biases out of the Simulation: A Debiased Simulator for Reinforcement Learning based Recommender Systems
Abstract
強化学習の探索をリアルでやるとユーザーが不満に思う可能性がある。そのため、オフラインテストで学習することも多いと思うが、オフラインテストだと「行動したがゆえの結果」がモデルに反映されない。このバイアスがどれくらいあるのか測定する方法と、このバイアスを除去する手法を提案する。
感想
実験や検証がむずかしそうだった。オフラインテストのバイアスの話なので、オフラインテストでどう評価するのか、と。 ただ、オフラインテストの手法はいろいろ知っておきたい。
On Target Item Sampling in Offline Recommender System Evaluation
Abstract
つくったモデルを検証するための検証データセットによってOutcome が変わるのか?変わるならどのように変わるのか?テストデータと学習データと関係ないアイテムの混ぜ具合を変えて、Outcome の違いをみてみる。
感想
テストデータか。
Recommendations as Graph Explorations
Abstract
推薦システムが複雑になるにつれ、評価も難しくなっている。ただ、すべての推薦システムはグラフ構造に抽象化できる。そのため、グラフでの表現により推薦の構造に理解に注力できるようにする。
感想
Google London の人のグラフの話。グラフ勢きた、つよい。
Making Neural Networks Interpretable with Attribution: Application to Implicit Signals Prediction
聞けていない...
What does BERT Know about Books, Movies and Music? Probing BERT for Conversational Recommendation
Abstract
Conversational Recommendation : 会話からユーザーの意図を推測し、アイテムを推薦するもの。検索でキーワードではなく質問文が与えられる。このような推薦に、BERT などの Pretrained Language Model が使えないか?そもそもBERT は推薦に必要な知識をもっているのか? ここでは、genre , search , recommendation の調査をBERT で実施した。例えば、以下のようにgenre の調査をBERT で実施した。
この文での関心ごとはBERT の推薦システムへの貢献。Research Questionを以下の2つに定義し、検証した。
感想
BERT の使い方のヒントが得られた。なるほど。
1日終えて
Abstract よめてなかったので厳しかった。自分の関心もどこにあるのか。 とはいうものの、やはり Industrial Talks が面白い。
RecSys 2020 (2) Day1 , Real-World Applications I
ここからは全体では2回目のセッション。
Goal-driven Command Recommendations for Analysts
Abstract
データ分析のための推薦システムの話。データ分析をするための操作は、ユーザのゴールを示唆する情報が含まれるが、従来の推薦システムで操作のみからユーザの分析のゴールを識別するのは難しい。ただ、分析をスムーズに進めるためのコマンドの推薦をしたい。コマンドをソフトウェアコマンドとデータコマンドに分類し、データコマンドのsequence に既存のSequence モデルの技術を適用してみたりしたが、今回は Goal ドリブンなコマンド推薦を提案する。また、評価のための指標の提案も行う。
感想
Adobe India の人。テクニカルサポートのサジェストを自動で学習する話か。 質疑応答面白い。 Q. 実用化されているの? A. プロトタイプ段階。サジェストされること自体はポジティブなフィードバックをもらっているが、実用化には「何を」サジェストするかだけでなく「いつ」サジェストするかも重要。あとで読む。
SSE-PT: Sequential Recommendation via Personalized Transformer
Abstract
NLP のTransformer の手法は SASRec など 推薦システムへの応用例もでてきたが、SASRec はパーソナライズされていない。そこで Personalized されたTransformer を用いた手法を提案する。
感想
でた。Transformer。Architecture はこんな感じ。Stochastic Shared Embeddings がポイントみたいだが、この図ではわからない。
[Industrial Session]Developing Recommendation System to Provide a Personalized Learning Experience at Chegg
Abstract
Chegg (オンライン教育)のセッション。生徒それぞれの興味とレベルにあったコンテンツを推薦したいが、教育の分野も教育コンテンツのパターンもいろいろあるのが特徴。そこで、Knowledge グラフを活用する。
コンテンツとKnowledge グラフと関連付け、さらにユーザとKnowledge グラフも結びつけることにより、推薦する。Knowledge グラフ作成のために、コンテンツの分類を行うが、これには Character Based CNN を利用した。
感想
去年も実直な感じが面白かったChegg。このあたりの機械学習に本気で取り組んでいる人たちはルールベースも惜しげもなく活用しているのがいつもここ逃げてはいけないなあ、と感じます。
[Industrial Talk] Behavior-based Popularity Ranking on Amazon Video
Abstract
Amazon Video でユーザが動画を探す方法は二つ。Discovery と Search。ただ、Discovery が70% と多いのでここで発見しやすくすることが必要。ただ、Discovery では検索と違い、ユーザがキーワードを明示することがないので、ユーザの嗜好をImplicit な証拠から推論しなければならない。 推薦ではscale と freshnessが重要。ここでは「動画のPopularity」を予測することを検討する。動画の数がすくなければヒューリスティックなものもワークするが、今はコンテンツの数が多いので、Customer Streaming Behavior をモデリングすることにより、実現する。
特徴量は customer streaming and purchase signals , video metadata , date feature (newness)など。
感想
Motivation はわかったのだが、肝心のCustomer Streaming Behavior あたりでおいてかれてしまった。
[Industrial Talks] A Human Perspective on Algorithmic Similarity
Abstract
Netflix のセッション。 推薦システムで「Similarity」の概念が肝になるが、さて「Similarity」ってなんだろう。検証した結果、複雑すぎて一概には言えないが、3つのポイントがある。
Where / Who / What. Where、例えば映画をみ終わったあとにでてくる「次、これみたら」は、はっきりととてもよく似ていることを期待するし、「もしかしてこれも好き?」でいっぱいでてくるときは、すこしはずれたものもあった方がうれしい。 また、似ているかどうか判断する軸は人によって違う。ある人は「同じ俳優がでてるから」、ある人は「ハッピーエンドだから」とかで選ぶ。 そして、「何を」。つまり「コンテキスト」。リアリティショーのあとにつづけてリアリティショーをみたい人は 18%しかいない。コンテキストが類似性を凌駕する。
感想
RecSys 2020 (1) Day1 , Keynote / Novel Machine Learning Approaches I
去年に引き続き、RecSys に参加しています。 最近はいろんなことでサボっていたので、今日初日はリハビリにみたいになっていますが、夜のKeynote 前に聞いたことをまとめます。
RecSys 2020 開催フォーマット
去年はデンマークに行ってそれはそれは楽しかったですが、今年はオンライン開催です。ブラジル開催と聞いて参加を諦めていたので、今年も参加できてうれしい。 ツールはWhova を使っています。アジェンダなどがすべてまとめられて、とてもよくできています。
また、プログラムも工夫されており、ほぼすべてのセッションが12時間おきに2回開催されます。これにより、世界のどのタイムゾーンにいても起きている時間にセッションをみれるし質疑応答もできる、という。つまり、発表者は二回発表してくださるわけで、本当に運営の皆さん含め、感謝しかありません。
Keynote : 4 Reasons Why Social Media Make Us Vulnerable to Manipulation
我々がソーシャルメディアによる操作に流されやすい4つの理由。 SNSを情報源として利用する人が増えているが、意図せずに偏った情報にしか触れられずフェイクニュースなどにだまされやすくなることがシミュレーションなどでもあきらかになった。情報を取捨選択し、適切な判断をするためには、SNS のこのような特徴を理解した上で、「常に一次情報を確認する」など情報との付き合い方を変更する必要がある。
半分寝ながら聞いていましたすみません。ただ情報提供者が強者となる昨今、一貫してRecSys は科学の倫理について説いているように感じます。
P3A: Novel Machine Learning Approaches I
PURS: Personalized Unexpected Recommender System for Improving User Satisfaction
Abstract
古典的な推薦システムの手法ではしばしフィルターバブル問題に直面する。ユーザは似たようなアイテムしか推薦されなくなり、退屈を感じ不満を抱くようになる。フィルターバブル問題を解決するために、思いもよらない推薦、ユーザの期待から逸脱したアイテムを推薦し、まだみぬアイテムとの出会いで新鮮な驚きを与えることが重要。この論文では、新しい 「パーソナライズされた裏切り推薦システムモデル」を提案する。これは、ユーザの関心と思いもよらない度の潜在空間マルチクラスタモデルを提供することにより(良い意味での)期待外れさを推薦システムのプロセスにおりこむ手法である。これは Self-Attention のメカニズムと適切な「期待外れ」アクティベート関数の選択により実現する。オフラインテストでは STOA より良い結果がでた。あわせて、オンラインのA/B テストでも良い結果がでたので、今実サービスに適用しようとしている。
感想
完全に聴き間違えていました。Abstract 読んでから臨まないとだめだ。 Unexpectiness を クラスタで表現したのが肝。
Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations
Abstract
MTL では、「一方のタスクを改善すると、もう一方のタスクが悪化する」といった「シーソー現象」が起きることがある。このシーソー現象を解消するために以下の2つのことを実施。 - 共有コンポーネント( Experts ) と タスク固有のコンポーネント(Experts) を明示的に分離 - progressive routing mechanism を適用 効率的なMTL Model を提案する。
感想
去年もTower が二つの図はみた。Tencent Video の推薦、タスクとして「みてみる」「最後までみる」の二つを設定したところが興味深い。
KRED: Knowledge-aware Document Representation for News Recommendations
Abstract
ニュースに関するさまざまなタスク(推薦、分類... ) で固有名詞の理解が重要であるが、BERT やDKN はさまざまなニュースのタスクに適用するには汎化と精度に課題がある。 そこで Knowledge Graph を活用したKRED を提案する。
感想
固有名詞がニュースのテーマによって重要度や意味あいがことなるから、って話だったとおもったが。 Multi Task や 蒸留などのキーワードがでてきたのはわかったが、モデルの構造は理解できず。
FISSA: Fusing Item Similarity Models with Self-Attention Networks for Sequential Recommendation
Abstract
DL ベースのSequential Recommendation のissue は2つ。ユーザのsequence 全体での嗜好をうまくモデリングできていない点と候補のアイテムがもたらすユーザのインテンションが不確かな点。これを local representation と global representation 、この2つの表現をgating module でバランスとる。
感想
順番に推薦していくタイプのRecSys において、Self-Attention を活用したモデルの提案。 local representation は SASRec を用いていた。 Attention つかうんだなあ、とおもいました。
[Industrial Talks] Investigating Multimodal Features for Video Recommendations at Globoplay
Abstract
Brazil のVideo 会社、Globoplay のセッション。種類が多いため、推薦のための類似コンテンツを見つけ出すのが大変なところを工夫している。(伝統の)Content Based の推薦システムを動画のいろいろな特徴量で作成している。
感想
奇をてらわない、コンテンツベースの推薦システムに好感。モデルがわかりやすかったからかもしれない。 カラーパレットや音楽などを特徴量につかっているのが面白かった。おもしろかったとおもったらIndustrial Talks だった。企業の発表が好き。
[Industrial Talks] The Embeddings that Came in From the Cold: Improving Vectors for New and Rare Products with Content-Based Inference
Abstract
coveo のセッション。シンプルにCold Start 問題への対応。いろいろなモデルのために、Word2Vecのような商品の埋め込み表現Product2Vec を使うが、新商品・めずらしい商品は購買の記録がないため埋め込み表現を得ることができない。そこで、人気のある商品の埋め込み表現を用いて、genre などの商品属性・特徴から埋め込み表現を得る関数を学習し、新商品に適用することによりその埋め込み表現を得る。
感想
発想は自然。どうやって学習したんだろうか。
初日、まだまだつづく。
2019年を振り返る
今年も振り返りますよ。
仕事
今年は本当に迷い多くなにをしたらいいかわからない日々。
input の多い年。9月にRecSys、10月にデータサイエンティストシンポジウム、11月にAgile PoP と pmconf に参加しました。 とくにRecSys は「仕事」としてますが、本当に本当に楽しく、世界の広さと自分の実力のなさを実感する機会になったけど、うちのめされに行ったので気にしない。
あとは、自分の挑戦してみたいことを声にだして言ってみたこと、人と話す機会を(いやがりながらも)なんとか作ったこと。去年、今年で周りの人に影響され、仕事のやり方を変えました。特に2割くらいの考えを相手に見せてぼこぼこにされながら、考えを固めていく進めていけるようになったのはよかった。これをするには、雑でも文か図にしなければいけないので、もっとどんどん頭の中のものを出していかないといけない。
頑張っていいところ、ベストプラクティスをあげたが、実績としてはアウトプットが成果に繋がらない一年で、とても歯がゆいです。リリースしたものは 年初に開発した機能のみ。それ以外は座学か日の目をみない企画だけなので、そのあたりは実装屋としてはいけてない、達成感がない。「わからないことがわからない」とかいっていることが多かったです。何がたりないんだろうな。あらゆるビジネススキルが足りないのはわかったので、最初からうまくいくとは思わずに、数をこなす・時間とエネルギーをかけることによって、足りないところを見極めて、克服していきたい。
来年したいことが毎年変わらない。来年は本当に必要になるかもしれない。
- 記録する
- アウトプットする
- 美しく可視化する
ただ、技術的なことは統計・AI・ML (の小難しいこと)と英語に的をしぼろうと思う
家
家族が明るくて穏やかで本当にありがたい。失敗しても本気でフォローしてくれる。とてもやさしい。 とはいうものの、そこに甘え気味。料理だけしかしてないのでごはんだけはあたたかいものを用意して一緒に食べる。
遊び
青森行った。とても楽しかった。 あと、仕事でいかせてもらったものの、RecSys は本気の遊びみたいなものだと思った。結局技術的なインプットと(一人)旅が私の心から楽しいことだと再確認したので、来年は日帰り一人旅を増やして行こうかな。行きたいのは豊田美術館と松山、佐賀。