RecSys 2019 にいってきた　2019/09/17 Day 2 - なんとかエンジニアのきろく ... ばばあやこのtech blog

Women in Breakfast

朝ごはん食べながらネットワーキングするイベントに出席。コミュ障的にはもう1日終わった感じ。

自己紹介は用意しておく
- シナジーマーケティングという日本の会社でエンジニアしてる
- Salesforce みたいなCRM システムつくってる
- 今は推薦システムもってないけど今後つくりたいからきた
先に質問してしまう（聞き役ならできる、はなせないけど）

というプラクティスを得た。日本の開発コミュニティとかでも使えるかもしれない。

Keynote : Whose Data Traces, Whose Voices? Inequality in Online Participation and Why it Matters for Recommendation Systems Research

スピーカーはSociologist./データはよくわからない
Social mobility vs Social reproduction?
Is bigger( Data)  always better?
Digital divide mere connectivity  not equals effective, efficient uses 

Internet skills : 
   Awareness of what is possible / The ability to create and share content 
   survey  measures of actual skill → survey instruments
   若者の調査をした →偏りがある。利用するアプリとか、「URL」がわからないとか
   年寄りの方がスキル低い？→ そんなことなかった ！no correlation
   Socioeconomic status とは相関あり、年を経るごとに格差拡大
   SNS High edu はLinkedIn/ Twitter を使いがち,Skill でみたらHigh / Low でもっと差がある
   Amazon Mechanical Turkers vs AmeriTalk Speakers → 全然ちがう

→ SNS 使っている人はスキルがある人。スキルがない人のデータがとれていない

スキルがあるひとが、積極的に参加している
   Who edits Wikipedia ?   ：gender gap がある
    The pipeline of online participation : 知ってる→ 見たことある→書き込めることを知っている→書き込んだことある  でどんどんへってく
    gender x skill で上を調査：見たことある人だけ女性が多い、書き込めることを知って、書き込んだことある人は男性が多く、スキルが高い方がActive


インターネットサービスの利用度とスキル・gender・status などは強い相関があるので、データバイアスに気をつけような！
（というのを、Survey とグラフでいっぱいみせてくれた。面白かった）

スピーカーが超早口、チューリッヒ大学の人。

二つのキーノートから。昨日のキーノートのGDPR の中でも「その人を知るのにデータ使おう」がいつしか「データでわかることがその人のすべて」になっちゃってるのがいや、っていう話もあって、根底にあるのはそういう気持ちなんだと思った。この人も社会学者だし、昨日の人は法律家だし。ただヨーロッパの人が自分を強くもっていて、私のことを決めつけないで、って思うのに対して、日本ってわりと「正直自分のこと、よくわからないから決めてほしい」って思っている人、多いんじゃないかな、とも感じた。「あなたはこういう行動してるから潜在的にこういうの好きだよ！」とかいわれると、そうそうってなりそうな気がする。説明の仕方かと思いました。

Paper Session 3 : Deep Learning

◆Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches

オーストリアの大学の人
DL の検証と再現性をみてみる
RecSys, WWW,KDD,SIGIR / Long Paper 2015- 2018 
Source code available and runnable / Public dataset → ask author
再現できたか : RecSys は1/7 = 14% 低い
  公開してない理由 Source code  Lost/NDA/Not working ... 
評価
  Hyper parameter DL は論文のまま、Baseline はベイズでさがした
  Baseline にかてなかった : Baseline が弱すぎ、tuning してない 
どうしたらいい？
  Simple baselines / Improve reproducibility  / Improve motivation of experimental design

論文ちゃんと読んだ人の日本語のメモ
https://qiita.com/smochi/items/98dbd9429c15898c5dc7

◆A Deep Learning System for Predicting Size and Fit in Fashion E-Commerce

zalando の人
タスク：ファッションで、size があってfit するものをpersonalize しておすすめしたい
課題：
商品がおおい/サイズの表記方法が多様
/ブランドもサイズそのものを変えていったりする（昔のM と今のMだと大きさが違う） 
/ sparsity/ ユーザがきにするところもいっぱい / コールドスタート
→ 通常のrecsys とサイズのrecsys は全然違う
モデリング : size と商品記事のペアをpredict 
検証：よかった 
( 前の論文が論文だから Baseline の説明が丁寧w
( コールドスタート問題をなんか克服したらしいけどわからなかった

◆Relaxed Softmax for learning from Positive and Unlabeled data

f:id:ayakobaba:20191208184128p:plain

Criteo の人
Problem : NLP 文しかみえない, Recommendation クリックとかしか観察できない
PU Learning :
  w2v architecture
  MLE / contextual sampling , dynamical sampling , discriminative loss
  提案手法：Boltzmann Negative Sampling, Relaxed Softmax loss
  Boltzmann Sampling では温度が大事
検証：Movielens , Netflix and Text8 でやった

ボルツマン、わからない。ぶつりー

◆Style Conditioned Recommendations

f:id:ayakobaba:20191208184132j:plain

overstock の人
Filter Bubble 問題、diversification ：みたことないものに出会いたい
家具で、クリックしたものに対して、違うスタイルのものを勧めたい
どうやって好きそうなものをみつけるか？　アンケート？履歴？
多様性をPersonalized する
CVA つかった　Conditional Variational AutoEncoder
Style Injection 
learning user style profiles 
( いきなりおわった

Deep Language-based Critiquing for Recommender Systems

f:id:ayakobaba:20191208184136p:plain

トロント大学の人
記事推薦の話 : Well known scenario of critiquing
空想のシナリオ：声で操作するもの
  me : なんかホットニュースない？
  computer: サッカーの結果、あるよ
  m : 他の地域の話題は？
  c : 別のチームの試合結果もある
  m : もうちょっと視野広く世界のニュースない？
  c : アメリカの経済制裁みたいな固い記事がおすすめ
  m : もうちょっと軽い笑えるやつを...
  c : トランプがグリーンランドは俺のもの、って行った話 (笑い
こんな感じで推薦されたものに対する批判(=critique ) を取り入れながら軌道修正していきたい
critique meets embedding-based recommendation
 latent interpretation of critiques / personalized recommendation
Deep Critiquing Architecture
   批評のfeedback loop  をつくる
Latent Critiquing の新しいMetric = Falling (M)AP ,Befor critiquing - After critiquing  Average Precision つくって評価した
（話なれてる

◆Predictability Limits in Session-based Next Item Recommendation

学生っぽい
ユーザがログインしてない場合、いまのsession だけの振る舞いしかわからない
 →だれかわからなくてrandom にした場合どれくらい推定がぶれるのか？
検証したアルゴリズム：マルコフchain , association rules , sequential rules, Item-based KNN, Session-based KNN 
いろんなデータセットで検証してみた
( KNN ってなんだ →  K近傍法
( ゆっくりで助かる
( DL 関係ない
SKNN はそんなにパフォーマンス落ちなかった / 他はだめだった
Shannon entropy でpredictability を評価 した

Industry Session 2:Novel Approaches

◆Groupon : Groupon Finally Explains Why We Showed Those Offers

f:id:ayakobaba:20191208184631p:plain

緑のアディダスきたマリオみたいな人でてきた
超頑張って技術つかってがんばってつくったけどまったくユーザに評価されなかった! Nothing!
トップページがごちゃごちゃしてみにくかったから （スーパーのチラシ感）→ 整理してかっこよくした
ユーザ調査でadditional contents が効くことがわかった 
さらに、なぜそれをみせたか=説明を示す（Insipired by ... )ことにチャレンジ
どうやって説明文=Qualifier をつくるのか、の流れが↑の写真
説明文に必要なFeatures  : Diversification, relevant, No inundation , no valid qualifier type
課題：Normalization : 違う種類の特徴の近さを統合するときにどう比較したらいいか　→ 式
説明つけたら、結果がよくなった

◆Spotify : Homepage Personalization at Spotify

ホームページ超重要
1. More on Spotify Homepage
2. Ranking Alogorithm
3. Sanity checks 
Homepage はカードが並ぶ構成
自動でキュレーション/ 人がキュレーションしている場所がある
ランキングアルゴリズム :  FB→ ホーム変更
FBをRandomized しないとどんどん偏る→  Bandit でexploration を意識していれる
epsilon-greedy policy 
改善するために、integration tests をどうするか？→ Sanity Checks for policy debiasing
ホームページにいろんなステークホルダーが違う期待をしている → いろんなmetrics をつくったよ
例：Favorite Shelf Position Sanity Check, Daily & Hourly Patterns Sanity Check

◆Home Depot : Recommendation in Home Improvement Industry, Challenges and Opportunities

f:id:ayakobaba:20191208184145p:plain

世界一のホームセンター
お客さんが、何買ったらいいかわからないDIY/まとまった量がほしいPro → EC が難しい
Interconnected Experience : まず店からはじめてオンラインで完結するのも、オンラインからはじめて店で完結するのもあり！
オンラインは物を見つけやすい、でもオフラインで試してみてから買いたい
そのためのひとつ：Collection Recommendations 
   automatically discover relevant products 
   付属品（水道の蛇口とそれに規格があったものとか、関係するもの、とか) の組み合わせを自動で作ってセットで推薦
   Category Adjacency Matrix をつくった
   組み合わせをどうつくるか？ : text features <写真> , visual features (color histogramなど) 
     →  combining with weights ( weight はカテゴリーごとに異なる。インテリアならvisualが重要、電化製品なら互換性だからtext だよね、みたいな)
   Expert Validation でもよいけっか
ふたつめ：Project-based Recs
  Project Graph をつくった
  ホームセンターに来る人は「壁を塗り替えたい」みたいなプロジェクトを完遂したい
  その目的を達成するために必要なTool や Materialsはなに？
  Project Intend Prediction
  買っているツールから「このプロジェクトだろ？」ってPredict する

オフライン店舗の業務とお客さんが求めているものを分析して、オンラインの得意なタスクにしたてあげて、技術駆使して解いていって。まじめにこつこつ、でもすごいことやっている感じがすごかった

◆BBC : Recommendation Systems Compliant with Legal and Editorial Policies: The BBC+ App Journey

Science と Editorial がチームにいる
BBC+ アプリケーション  : Recommendation →プロダクトにするために
アプリが記事をだすにしても、editorial guidlines を遵守する必要がある
   Legal Policies  : ラベルやだめな言葉を決めて除く。人海戦術だがもっと洗練させたい
   Editorial Policies : R18 コンテンツみえせない、とか
自動curationと一緒に編集者によるcuration もつかっている
GDPR : Explainability / Agency
Evaluation : BBC は編集方針として「教育」をあげていて、ここを自動で実現すること・評価することがむずかしい quantitative offline evaluation : diversity や surprisalなど注意深くみてる
Up next: Hybrid recommendations & other products

Salesforce : Incorporating Intent Propensities in Personalized Next Best Action Recommendation

f:id:ayakobaba:20191208185226p:plain

いーーっぱいデータもってるよ
Automation Next Best Action 
touch points 
taking action リアルタイムで顧客を理解し、次なにするか推薦する
どうやって次のベストなtouch point をみつけるか？
　人がPDCA 回すんじゃ遅い
   Incomplete Data / Sampling Bias 
  exploit - learn - explore - context : bandit だ！
  User + current context → Action | Rewards Maximized 
Next Best Action - Contextual MAB  ( MAB ってなんだ = Multi-armed Bandit Model
Challenge 1: 目的が複数 : One mixed Goal? How ???
Challenge 2 : how to minimize counterfactual  regret? 
Advanced Approach :Propensity Scorer   + Hybrid MAB
QA : こんなの本当に動くの？ →　確かにリリースしてないけど、やる価値はあると思う

paper がなかったんだけどこのあたりの話を著者名で検索していたら、youtube 動画がでてきた。 https://www.youtube.com/watch?v=4uq6v69E9ck

◆Chegg : Driving Content Recommendations by Building a Knowledge Base Using Weak Supervision and Transfer Learning

A Smarter Way to Student.
   improve education : question answering , tutoring , ...
NLP Goal : Create a Knowledge Base  これは Graph
グラフはContent Recommendation につかう
Building a Machine Learning Pipeline for NLP 
  ML ではいっぱいデータが必要
    →  Weak supervision generation training data/Snorkel つかった　データつくるツール
    →  転移学習をした　あと、ELMo / BERT / GPT-2 とか
Open Source vs In house Embeddings
  Open Source はプロジェクトの「バリア」になる、はじめるのは簡単 / In house なら自分のビジネスに最適化できる

Paper Session 4:Advertising, Promotions,Intent & Search

最後のPaper Session は人少ない。

A Comparison of Calibrated and Intent-Aware Recommendations

2018にNetflix が Calibrated recommendations を紹介（推薦される音楽のジャンルのバランスを整える)
Intent-Aware Diversification
  式はにているけど、divergense を確保するためre-rank するから割合が保たれるわけではない
User Interests : subprofiles と定義、ユーザがにてるか？ratingなどではかる。 item feature は使わない
( 超British English. " It is quite surprising." ってよく言ってて、風刺っぽいギャグがいっぱい... イギリスの人だったけ
Paper に precision vs diversity のグラフなどいろいろある

LORE: A Large-Scale Offer Recommendation Engine with Eligibility and Capacity Constraint

Facebook と Amazon の共著
Offer allocation Problem : クーポンとか割引を誰にどうだしたら一番いいか？予算もあるし。
既存手法：Greedy Approaches / Bandits for constrained online resource allocation 
提案手法：線形計画法みたいな式 っていうか LP problem
Min Cost Flow （グラフみたいなやつ）でとく
XGBoost で確率をクリックする確率を推定 して Optimizationを実施
Optimization outperformed the greedy approaches.

◆FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction

こなかった

◆Domain Adaptation in Display Advertising: An Application for Partner Cold-Start

Criteo の人
リタゲはProspecting campaignsにいいけど、cold start 問題をどうするよ
Background ちょっとずつ問題が
 Domain Adaption: 1) Re-training 2) Joint training  
 DANN : Domain Adversarial Neural Network  : joint training をつかった Unsupervised domain adaption technique
 CCSA:Classification and Contrasitive Semantic Alignmet
Proposed : Supervised DANN 
 SDA-Ranking ：Ranking Loss based domain transfer  ( やっぱ転移学習？
検証：Cold start での検証 / metrics = Mean AUC, Median AUC, Mean Precision @K
(広告クリックさせることにすがすがしいほど集中してていい

◆Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction

Twitter のひと
Continuous Training してる。なぜなら New campaign Ids + non-stationary features 
Challenge : Delayed feed back →みてからクリックするまで遅延がある
    待つべきか？またざるべきか？  (学習を）
Solution accept "fake negative"
モデル つくった
 Importance sampling 
 LR / Wide & Deep Model
 Delayed feedback loss : assume exponential distribution for time delay
 Fake negative weighted & calibration : 学習ではweightしないが、最後でcalibrate 
検証：
 オフライン：Criteo data でやってみた / metrics = RCE normalized version of cross-entropy (higher is better)
 Online : Pooled RCE とか Revenue per thousand requests でいい結果
(オンラインテストでRevenue までみるのはさすがに斬新
Conclusions : FN weighted / FN calibration は新規性あるよ

◆Ghosting: Contextualized Inline Query Completion in Large Scale Retail Search

Amazon のひと ( 今年Industryの人多い、あとインド
Query Auto-Completion  : harr でharry potter books を推薦するAmazon Search
   売り上げの結構がここからくる / Strict latency requirements
Goal of QAC : purchase
Challenges : relevant, misspelled,単語の組み合わせを推薦
Ghosting : サーチボックスの中にベストをいれるけど、下に候補もだす
Identifying best recommendation : ベストを特定して、精度をたかめる
  Behavior-based relevance : Optimize for query behavior
  Base Model : Historic model, Predictive machine learned model (GBT)
  improving : use session-based context 直前にどんなものを探してたか？は重要なヒントになる。
デモ：bluetooth speaker  検索、さがしてそのあとbose 検索すると、bose b あたりで bose bluetooth speaker までゴースティングしてくれる
検証
   A/B テスト　140万の検索セッション、3週間 、UX あがるはず
   nik  frequency based : nike socks men / session-context : nikon dslr camera
   結果： improved acceptance , average prefix length ↓ ,misspelled もなおせたよ
Future Work : どこでくぎったらいいかわからない言語とかのGhosting
QA : 3文字くらいタイプしてない途中ですごい細かい商品名までGhosting しようとしたmotivation は？ 
　　それがうれしいひともいるから。どれくらい文字を入力してどれくらいの情報をGhosting するか、はわりと難しい問題だけど
 ( latency の質問でたじたじになったのはなぜだろう

終わった。また明日。バンケットには行かない（予約してないのでいけない）

おされ会場の高級ホテル f:id:ayakobaba:20191208184157p:plain