RecSys 2019 にいってきた 2019/09/17 Day 2

Women in Breakfast

朝ごはん食べながらネットワーキングするイベントに出席。コミュ障的にはもう1日終わった感じ。

  • 自己紹介は用意しておく
  • 先に質問してしまう(聞き役ならできる、はなせないけど)

というプラクティスを得た。日本の開発コミュニティとかでも使えるかもしれない。

Keynote : Whose Data Traces, Whose Voices? Inequality in Online Participation and Why it Matters for Recommendation Systems Research

スピーカーはSociologist./データはよくわからない
Social mobility vs Social reproduction?
Is bigger( Data)  always better?
Digital divide mere connectivity  not equals effective, efficient uses 

Internet skills : 
   Awareness of what is possible / The ability to create and share content 
   survey  measures of actual skill → survey instruments
   若者の調査をした →偏りがある。利用するアプリとか、「URL」がわからないとか
   年寄りの方がスキル低い?→ そんなことなかった !no correlation
   Socioeconomic status とは相関あり、年を経るごとに格差拡大
   SNS High edu はLinkedIn/ Twitter を使いがち,Skill でみたらHigh / Low でもっと差がある
   Amazon Mechanical Turkers vs AmeriTalk Speakers → 全然ちがう

→ SNS 使っている人はスキルがある人。スキルがない人のデータがとれていない

スキルがあるひとが、積極的に参加している
   Who edits Wikipedia ?   :gender gap がある
    The pipeline of online participation : 知ってる→ 見たことある→書き込めることを知っている→書き込んだことある  でどんどんへってく
    gender x skill で上を調査:見たことある人だけ女性が多い、書き込めることを知って、書き込んだことある人は男性が多く、スキルが高い方がActive


インターネットサービスの利用度とスキル・gender・status などは強い相関があるので、データバイアスに気をつけような!
(というのを、Survey とグラフでいっぱいみせてくれた。面白かった)

スピーカーが超早口、チューリッヒ大学の人。

二つのキーノートから。 昨日のキーノートのGDPR の中でも「その人を知るのにデータ使おう」がいつしか「データでわかることがその人のすべて」になっちゃってるのがいや、っていう話もあって、根底にあるのはそういう気持ちなんだと思った。この人も社会学者だし、昨日の人は法律家だし。 ただヨーロッパの人が自分を強くもっていて、私のことを決めつけないで、って思うのに対して、日本ってわりと「正直自分のこと、よくわからないから決めてほしい」って思っている人、多いんじゃないかな、とも感じた。「あなたはこういう行動してるから潜在的にこういうの好きだよ!」とかいわれると、そうそうってなりそうな気がする。説明の仕方かと思いました。

Paper Session 3 : Deep Learning

◆Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches

オーストリアの大学の人
DL の検証と再現性をみてみる
RecSys, WWW,KDD,SIGIR / Long Paper 2015- 2018 
Source code available and runnable / Public dataset → ask author
再現できたか : RecSys は1/7 = 14% 低い
  公開してない理由 Source code  Lost/NDA/Not working ... 
評価
  Hyper parameter DL は論文のまま、Baseline はベイズでさがした
  Baseline にかてなかった : Baseline が弱すぎ、tuning してない 
どうしたらいい?
  Simple baselines / Improve reproducibility  / Improve motivation of experimental design

論文ちゃんと読んだ人の日本語のメモ
https://qiita.com/smochi/items/98dbd9429c15898c5dc7

◆A Deep Learning System for Predicting Size and Fit in Fashion E-Commerce

zalando の人
タスク:ファッションで、size があってfit するものをpersonalize しておすすめしたい
課題:
商品がおおい/サイズの表記方法が多様
/ブランドもサイズそのものを変えていったりする(昔のM と今のMだと大きさが違う) 
/ sparsity/ ユーザがきにするところもいっぱい / コールドスタート
→ 通常のrecsys とサイズのrecsys は全然違う
モデリング : size と商品記事のペアをpredict 
検証:よかった 
( 前の論文が論文だから Baseline の説明が丁寧w
( コールドスタート問題をなんか克服したらしいけどわからなかった

◆Relaxed Softmax for learning from Positive and Unlabeled data

f:id:ayakobaba:20191208184128p:plain

Criteo の人
Problem : NLP 文しかみえない, Recommendation クリックとかしか観察できない
PU Learning :
  w2v architecture
  MLE / contextual sampling , dynamical sampling , discriminative loss
  提案手法:Boltzmann Negative Sampling, Relaxed Softmax loss
  Boltzmann Sampling では温度が大事
検証:Movielens , Netflix and Text8 でやった

ボルツマン、わからない。 ぶつりー

◆Style Conditioned Recommendations

f:id:ayakobaba:20191208184132j:plain

overstock の人
Filter Bubble 問題、diversification :みたことないものに出会いたい
家具で、クリックしたものに対して、違うスタイルのものを勧めたい
どうやって好きそうなものをみつけるか? アンケート?履歴?
多様性をPersonalized する
CVA つかった Conditional Variational AutoEncoder
Style Injection 
learning user style profiles 
( いきなりおわった

Deep Language-based Critiquing for Recommender Systems

f:id:ayakobaba:20191208184136p:plain

トロント大学の人
記事推薦の話 : Well known scenario of critiquing
空想のシナリオ:声で操作するもの
  me : なんかホットニュースない?
  computer: サッカーの結果、あるよ
  m : 他の地域の話題は?
  c : 別のチームの試合結果もある
  m : もうちょっと視野広く世界のニュースない?
  c : アメリカの経済制裁みたいな固い記事がおすすめ
  m : もうちょっと軽い笑えるやつを...
  c : トランプがグリーンランドは俺のもの、って行った話 (笑い
こんな感じで推薦されたものに対する批判(=critique ) を取り入れながら軌道修正していきたい
critique meets embedding-based recommendation
 latent interpretation of critiques / personalized recommendation
Deep Critiquing Architecture
   批評のfeedback loop  をつくる
Latent Critiquing の新しいMetric = Falling (M)AP ,Befor critiquing - After critiquing  Average Precision つくって評価した
(話なれてる

◆Predictability Limits in Session-based Next Item Recommendation

学生っぽい
ユーザがログインしてない場合、いまのsession だけの振る舞いしかわからない
 →だれかわからなくてrandom にした場合どれくらい推定がぶれるのか?
検証したアルゴリズム:マルコフchain , association rules , sequential rules, Item-based KNN, Session-based KNN 
いろんなデータセットで検証してみた
( KNN ってなんだ →  K近傍法
( ゆっくりで助かる
( DL 関係ない
SKNN はそんなにパフォーマンス落ちなかった / 他はだめだった
Shannon entropy でpredictability を評価 した

Industry Session 2:Novel Approaches

Groupon : Groupon Finally Explains Why We Showed Those Offers

f:id:ayakobaba:20191208184631p:plain

緑のアディダスきたマリオみたいな人でてきた
超頑張って技術つかってがんばってつくったけどまったくユーザに評価されなかった! Nothing!
トップページがごちゃごちゃしてみにくかったから (スーパーのチラシ感)→ 整理してかっこよくした
ユーザ調査でadditional contents が効くことがわかった 
さらに、なぜそれをみせたか=説明を示す(Insipired by ... )ことにチャレンジ
どうやって説明文=Qualifier をつくるのか、の流れが↑の写真
説明文に必要なFeatures  : Diversification, relevant, No inundation , no valid qualifier type
課題:Normalization : 違う種類の特徴の近さを統合するときにどう比較したらいいか → 式
説明つけたら、結果がよくなった

Spotify : Homepage Personalization at Spotify

ホームページ超重要
1. More on Spotify Homepage
2. Ranking Alogorithm
3. Sanity checks 
Homepage はカードが並ぶ構成
自動でキュレーション/ 人がキュレーションしている場所がある
ランキングアルゴリズム :  FB→ ホーム変更
FBをRandomized しないとどんどん偏る→  Bandit でexploration を意識していれる
epsilon-greedy policy 
改善するために、integration tests をどうするか?→ Sanity Checks for policy debiasing
ホームページにいろんなステークホルダーが違う期待をしている → いろんなmetrics をつくったよ
例:Favorite Shelf Position Sanity Check, Daily & Hourly Patterns Sanity Check

◆Home Depot : Recommendation in Home Improvement Industry, Challenges and Opportunities

f:id:ayakobaba:20191208184145p:plain

世界一のホームセンター
お客さんが、何買ったらいいかわからないDIY/まとまった量がほしいPro → EC が難しい
Interconnected Experience : まず店からはじめてオンラインで完結するのも、オンラインからはじめて店で完結するのもあり!
オンラインは物を見つけやすい、でもオフラインで試してみてから買いたい
そのためのひとつ:Collection Recommendations 
   automatically discover relevant products 
   付属品(水道の蛇口とそれに規格があったものとか、関係するもの、とか) の組み合わせを自動で作ってセットで推薦
   Category Adjacency Matrix をつくった
   組み合わせをどうつくるか? : text features <写真> , visual features (color histogramなど) 
     →  combining with weights ( weight はカテゴリーごとに異なる。インテリアならvisualが重要、電化製品なら互換性だからtext だよね、みたいな)
   Expert Validation でもよいけっか
ふたつめ:Project-based Recs
  Project Graph をつくった
  ホームセンターに来る人は「壁を塗り替えたい」みたいなプロジェクトを完遂したい
  その目的を達成するために必要なTool や Materialsはなに?
  Project Intend Prediction
  買っているツールから「このプロジェクトだろ?」ってPredict する

オフライン店舗の業務とお客さんが求めているものを分析して、オンラインの得意なタスクにしたてあげて、技術駆使して解いていって。まじめにこつこつ、でもすごいことやっている感じがすごかった

BBC : Recommendation Systems Compliant with Legal and Editorial Policies: The BBC+ App Journey

Science と Editorial がチームにいる
BBC+ アプリケーション  : Recommendation →プロダクトにするために
アプリが記事をだすにしても、editorial guidlines を遵守する必要がある
   Legal Policies  : ラベルやだめな言葉を決めて除く。人海戦術だがもっと洗練させたい
   Editorial Policies : R18 コンテンツみえせない、とか
自動curationと一緒に編集者によるcuration もつかっている
GDPR : Explainability / Agency
Evaluation : BBC は編集方針として「教育」をあげていて、ここを自動で実現すること・評価することがむずかしい quantitative offline evaluation : diversity や surprisalなど注意深くみてる
Up next: Hybrid recommendations & other products

Salesforce : Incorporating Intent Propensities in Personalized Next Best Action Recommendation

f:id:ayakobaba:20191208185226p:plain

いーーっぱいデータもってるよ
Automation Next Best Action 
touch points 
taking action リアルタイムで顧客を理解し、次なにするか推薦する
どうやって次のベストなtouch point をみつけるか?
 人がPDCA 回すんじゃ遅い
   Incomplete Data / Sampling Bias 
  exploit - learn - explore - context : bandit だ!
  User + current context → Action | Rewards Maximized 
Next Best Action - Contextual MAB  ( MAB ってなんだ = Multi-armed Bandit Model
Challenge 1: 目的が複数 : One mixed Goal? How ???
Challenge 2 : how to minimize counterfactual  regret? 
Advanced Approach :Propensity Scorer   + Hybrid MAB
QA : こんなの本当に動くの? → 確かにリリースしてないけど、やる価値はあると思う 

paper がなかったんだけどこのあたりの話を著者名で検索していたら、youtube 動画がでてきた。 https://www.youtube.com/watch?v=4uq6v69E9ck

◆Chegg : Driving Content Recommendations by Building a Knowledge Base Using Weak Supervision and Transfer Learning

A Smarter Way to Student.
   improve education : question answering , tutoring , ...
NLP Goal : Create a Knowledge Base  これは Graph
グラフはContent Recommendation につかう
Building a Machine Learning Pipeline for NLP 
  ML ではいっぱいデータが必要
    →  Weak supervision generation training data/Snorkel つかった データつくるツール
    →  転移学習をした あと、ELMo / BERT / GPT-2 とか
Open Source vs In house Embeddings
  Open Source はプロジェクトの「バリア」になる、はじめるのは簡単 / In house なら自分のビジネスに最適化できる

Paper Session 4:Advertising, Promotions,Intent & Search

最後のPaper Session は人少ない。

A Comparison of Calibrated and Intent-Aware Recommendations

2018にNetflix が Calibrated recommendations を紹介(推薦される音楽のジャンルのバランスを整える)
Intent-Aware Diversification
  式はにているけど、divergense を確保するためre-rank するから割合が保たれるわけではない
User Interests : subprofiles と定義、ユーザがにてるか?ratingなどではかる。 item feature は使わない
( 超British English. " It is quite surprising." ってよく言ってて、風刺っぽいギャグがいっぱい... イギリスの人だったけ
Paper に precision vs diversity のグラフなどいろいろある

LORE: A Large-Scale Offer Recommendation Engine with Eligibility and Capacity Constraint

Facebook と Amazon の共著
Offer allocation Problem : クーポンとか割引を誰にどうだしたら一番いいか?予算もあるし。
既存手法:Greedy Approaches / Bandits for constrained online resource allocation 
提案手法:線形計画法みたいな式 っていうか LP problem
Min Cost Flow (グラフみたいなやつ)でとく
XGBoost で確率をクリックする確率を推定 して Optimizationを実施
Optimization outperformed the greedy approaches.

◆FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction

こなかった

◆Domain Adaptation in Display Advertising: An Application for Partner Cold-Start

Criteo の人
リタゲはProspecting campaignsにいいけど、cold start 問題をどうするよ
Background ちょっとずつ問題が
 Domain Adaption: 1) Re-training 2) Joint training  
 DANN : Domain Adversarial Neural Network  : joint training をつかった Unsupervised domain adaption technique
 CCSA:Classification and Contrasitive Semantic Alignmet
Proposed : Supervised DANN 
 SDA-Ranking :Ranking Loss based domain transfer  ( やっぱ転移学習?
検証:Cold start での検証 / metrics = Mean AUC, Median AUC, Mean Precision @K
(広告クリックさせることにすがすがしいほど集中してていい

◆Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction

Twitter のひと
Continuous Training してる。なぜなら New campaign Ids + non-stationary features 
Challenge : Delayed feed back →みてからクリックするまで遅延がある
    待つべきか?またざるべきか?  (学習を)
Solution accept "fake negative"
モデル つくった
 Importance sampling 
 LR / Wide & Deep Model
 Delayed feedback loss : assume exponential distribution for time delay
 Fake negative weighted & calibration : 学習ではweightしないが、最後でcalibrate 
検証:
 オフライン:Criteo data でやってみた / metrics = RCE normalized version of cross-entropy (higher is better)
 Online : Pooled RCE とか Revenue per thousand requests でいい結果
(オンラインテストでRevenue までみるのはさすがに斬新
Conclusions : FN weighted / FN calibration は新規性あるよ

◆Ghosting: Contextualized Inline Query Completion in Large Scale Retail Search

Amazon のひと ( 今年Industryの人多い、あとインド
Query Auto-Completion  : harr でharry potter books を推薦するAmazon Search
   売り上げの結構がここからくる / Strict latency requirements
Goal of QAC : purchase
Challenges : relevant, misspelled,単語の組み合わせを推薦
Ghosting : サーチボックスの中にベストをいれるけど、下に候補もだす
Identifying best recommendation : ベストを特定して、精度をたかめる
  Behavior-based relevance : Optimize for query behavior
  Base Model : Historic model, Predictive machine learned model (GBT)
  improving : use session-based context 直前にどんなものを探してたか?は重要なヒントになる。
デモ:bluetooth speaker  検索、さがしてそのあとbose 検索すると、bose b あたりで bose bluetooth speaker までゴースティングしてくれる
検証
   A/B テスト 140万の検索セッション、3週間 、UX あがるはず
   nik  frequency based : nike socks men / session-context : nikon dslr camera
   結果: improved acceptance , average prefix length ↓ ,misspelled もなおせたよ
Future Work : どこでくぎったらいいかわからない言語とかのGhosting
QA : 3文字くらいタイプしてない途中ですごい細かい商品名までGhosting しようとしたmotivation は? 
  それがうれしいひともいるから。どれくらい文字を入力してどれくらいの情報をGhosting するか、はわりと難しい問題だけど
 ( latency の質問でたじたじになったのはなぜだろう

終わった。また明日。バンケットには行かない(予約してないのでいけない)

おされ会場の高級ホテル f:id:ayakobaba:20191208184157p:plain