RecSys 2019 にいってきた 2019/09/17 Day 2
Women in Breakfast
朝ごはん食べながらネットワーキングするイベントに出席。コミュ障的にはもう1日終わった感じ。
- 自己紹介は用意しておく
- シナジーマーケティングという日本の会社でエンジニアしてる
- Salesforce みたいなCRM システムつくってる
- 今は推薦システムもってないけど今後つくりたいからきた
- 先に質問してしまう(聞き役ならできる、はなせないけど)
というプラクティスを得た。日本の開発コミュニティとかでも使えるかもしれない。
Keynote : Whose Data Traces, Whose Voices? Inequality in Online Participation and Why it Matters for Recommendation Systems Research
スピーカーはSociologist./データはよくわからない Social mobility vs Social reproduction? Is bigger( Data) always better? Digital divide mere connectivity not equals effective, efficient uses Internet skills : Awareness of what is possible / The ability to create and share content survey measures of actual skill → survey instruments 若者の調査をした →偏りがある。利用するアプリとか、「URL」がわからないとか 年寄りの方がスキル低い?→ そんなことなかった !no correlation Socioeconomic status とは相関あり、年を経るごとに格差拡大 SNS High edu はLinkedIn/ Twitter を使いがち,Skill でみたらHigh / Low でもっと差がある Amazon Mechanical Turkers vs AmeriTalk Speakers → 全然ちがう → SNS 使っている人はスキルがある人。スキルがない人のデータがとれていない スキルがあるひとが、積極的に参加している Who edits Wikipedia ? :gender gap がある The pipeline of online participation : 知ってる→ 見たことある→書き込めることを知っている→書き込んだことある でどんどんへってく gender x skill で上を調査:見たことある人だけ女性が多い、書き込めることを知って、書き込んだことある人は男性が多く、スキルが高い方がActive インターネットサービスの利用度とスキル・gender・status などは強い相関があるので、データバイアスに気をつけような! (というのを、Survey とグラフでいっぱいみせてくれた。面白かった)
スピーカーが超早口、チューリッヒ大学の人。
二つのキーノートから。 昨日のキーノートのGDPR の中でも「その人を知るのにデータ使おう」がいつしか「データでわかることがその人のすべて」になっちゃってるのがいや、っていう話もあって、根底にあるのはそういう気持ちなんだと思った。この人も社会学者だし、昨日の人は法律家だし。 ただヨーロッパの人が自分を強くもっていて、私のことを決めつけないで、って思うのに対して、日本ってわりと「正直自分のこと、よくわからないから決めてほしい」って思っている人、多いんじゃないかな、とも感じた。「あなたはこういう行動してるから潜在的にこういうの好きだよ!」とかいわれると、そうそうってなりそうな気がする。説明の仕方かと思いました。
Paper Session 3 : Deep Learning
◆Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches
オーストリアの大学の人 DL の検証と再現性をみてみる RecSys, WWW,KDD,SIGIR / Long Paper 2015- 2018 Source code available and runnable / Public dataset → ask author 再現できたか : RecSys は1/7 = 14% 低い 公開してない理由 Source code Lost/NDA/Not working ... 評価 Hyper parameter DL は論文のまま、Baseline はベイズでさがした Baseline にかてなかった : Baseline が弱すぎ、tuning してない どうしたらいい? Simple baselines / Improve reproducibility / Improve motivation of experimental design 論文ちゃんと読んだ人の日本語のメモ https://qiita.com/smochi/items/98dbd9429c15898c5dc7
◆A Deep Learning System for Predicting Size and Fit in Fashion E-Commerce
zalando の人 タスク:ファッションで、size があってfit するものをpersonalize しておすすめしたい 課題: 商品がおおい/サイズの表記方法が多様 /ブランドもサイズそのものを変えていったりする(昔のM と今のMだと大きさが違う) / sparsity/ ユーザがきにするところもいっぱい / コールドスタート → 通常のrecsys とサイズのrecsys は全然違う モデリング : size と商品記事のペアをpredict 検証:よかった ( 前の論文が論文だから Baseline の説明が丁寧w ( コールドスタート問題をなんか克服したらしいけどわからなかった
◆Relaxed Softmax for learning from Positive and Unlabeled data
Criteo の人 Problem : NLP 文しかみえない, Recommendation クリックとかしか観察できない PU Learning : w2v architecture MLE / contextual sampling , dynamical sampling , discriminative loss 提案手法:Boltzmann Negative Sampling, Relaxed Softmax loss Boltzmann Sampling では温度が大事 検証:Movielens , Netflix and Text8 でやった
ボルツマン、わからない。 ぶつりー
◆Style Conditioned Recommendations
overstock の人 Filter Bubble 問題、diversification :みたことないものに出会いたい 家具で、クリックしたものに対して、違うスタイルのものを勧めたい どうやって好きそうなものをみつけるか? アンケート?履歴? 多様性をPersonalized する CVA つかった Conditional Variational AutoEncoder Style Injection learning user style profiles ( いきなりおわった
Deep Language-based Critiquing for Recommender Systems
トロント大学の人 記事推薦の話 : Well known scenario of critiquing 空想のシナリオ:声で操作するもの me : なんかホットニュースない? computer: サッカーの結果、あるよ m : 他の地域の話題は? c : 別のチームの試合結果もある m : もうちょっと視野広く世界のニュースない? c : アメリカの経済制裁みたいな固い記事がおすすめ m : もうちょっと軽い笑えるやつを... c : トランプがグリーンランドは俺のもの、って行った話 (笑い こんな感じで推薦されたものに対する批判(=critique ) を取り入れながら軌道修正していきたい critique meets embedding-based recommendation latent interpretation of critiques / personalized recommendation Deep Critiquing Architecture 批評のfeedback loop をつくる Latent Critiquing の新しいMetric = Falling (M)AP ,Befor critiquing - After critiquing Average Precision つくって評価した (話なれてる
◆Predictability Limits in Session-based Next Item Recommendation
学生っぽい ユーザがログインしてない場合、いまのsession だけの振る舞いしかわからない →だれかわからなくてrandom にした場合どれくらい推定がぶれるのか? 検証したアルゴリズム:マルコフchain , association rules , sequential rules, Item-based KNN, Session-based KNN いろんなデータセットで検証してみた ( KNN ってなんだ → K近傍法 ( ゆっくりで助かる ( DL 関係ない SKNN はそんなにパフォーマンス落ちなかった / 他はだめだった Shannon entropy でpredictability を評価 した
Industry Session 2:Novel Approaches
◆Groupon : Groupon Finally Explains Why We Showed Those Offers
緑のアディダスきたマリオみたいな人でてきた 超頑張って技術つかってがんばってつくったけどまったくユーザに評価されなかった! Nothing! トップページがごちゃごちゃしてみにくかったから (スーパーのチラシ感)→ 整理してかっこよくした ユーザ調査でadditional contents が効くことがわかった さらに、なぜそれをみせたか=説明を示す(Insipired by ... )ことにチャレンジ どうやって説明文=Qualifier をつくるのか、の流れが↑の写真 説明文に必要なFeatures : Diversification, relevant, No inundation , no valid qualifier type 課題:Normalization : 違う種類の特徴の近さを統合するときにどう比較したらいいか → 式 説明つけたら、結果がよくなった
◆Spotify : Homepage Personalization at Spotify
ホームページ超重要 1. More on Spotify Homepage 2. Ranking Alogorithm 3. Sanity checks Homepage はカードが並ぶ構成 自動でキュレーション/ 人がキュレーションしている場所がある ランキングアルゴリズム : FB→ ホーム変更 FBをRandomized しないとどんどん偏る→ Bandit でexploration を意識していれる epsilon-greedy policy 改善するために、integration tests をどうするか?→ Sanity Checks for policy debiasing ホームページにいろんなステークホルダーが違う期待をしている → いろんなmetrics をつくったよ 例:Favorite Shelf Position Sanity Check, Daily & Hourly Patterns Sanity Check
◆Home Depot : Recommendation in Home Improvement Industry, Challenges and Opportunities
世界一のホームセンター お客さんが、何買ったらいいかわからないDIY/まとまった量がほしいPro → EC が難しい Interconnected Experience : まず店からはじめてオンラインで完結するのも、オンラインからはじめて店で完結するのもあり! オンラインは物を見つけやすい、でもオフラインで試してみてから買いたい そのためのひとつ:Collection Recommendations automatically discover relevant products 付属品(水道の蛇口とそれに規格があったものとか、関係するもの、とか) の組み合わせを自動で作ってセットで推薦 Category Adjacency Matrix をつくった 組み合わせをどうつくるか? : text features <写真> , visual features (color histogramなど) → combining with weights ( weight はカテゴリーごとに異なる。インテリアならvisualが重要、電化製品なら互換性だからtext だよね、みたいな) Expert Validation でもよいけっか ふたつめ:Project-based Recs Project Graph をつくった ホームセンターに来る人は「壁を塗り替えたい」みたいなプロジェクトを完遂したい その目的を達成するために必要なTool や Materialsはなに? Project Intend Prediction 買っているツールから「このプロジェクトだろ?」ってPredict する
オフライン店舗の業務とお客さんが求めているものを分析して、オンラインの得意なタスクにしたてあげて、技術駆使して解いていって。まじめにこつこつ、でもすごいことやっている感じがすごかった
◆BBC : Recommendation Systems Compliant with Legal and Editorial Policies: The BBC+ App Journey
Science と Editorial がチームにいる BBC+ アプリケーション : Recommendation →プロダクトにするために アプリが記事をだすにしても、editorial guidlines を遵守する必要がある Legal Policies : ラベルやだめな言葉を決めて除く。人海戦術だがもっと洗練させたい Editorial Policies : R18 コンテンツみえせない、とか 自動curationと一緒に編集者によるcuration もつかっている GDPR : Explainability / Agency Evaluation : BBC は編集方針として「教育」をあげていて、ここを自動で実現すること・評価することがむずかしい quantitative offline evaluation : diversity や surprisalなど注意深くみてる Up next: Hybrid recommendations & other products
Salesforce : Incorporating Intent Propensities in Personalized Next Best Action Recommendation
いーーっぱいデータもってるよ Automation Next Best Action touch points taking action リアルタイムで顧客を理解し、次なにするか推薦する どうやって次のベストなtouch point をみつけるか? 人がPDCA 回すんじゃ遅い Incomplete Data / Sampling Bias exploit - learn - explore - context : bandit だ! User + current context → Action | Rewards Maximized Next Best Action - Contextual MAB ( MAB ってなんだ = Multi-armed Bandit Model Challenge 1: 目的が複数 : One mixed Goal? How ??? Challenge 2 : how to minimize counterfactual regret? Advanced Approach :Propensity Scorer + Hybrid MAB QA : こんなの本当に動くの? → 確かにリリースしてないけど、やる価値はあると思う
paper がなかったんだけどこのあたりの話を著者名で検索していたら、youtube 動画がでてきた。 https://www.youtube.com/watch?v=4uq6v69E9ck
◆Chegg : Driving Content Recommendations by Building a Knowledge Base Using Weak Supervision and Transfer Learning
A Smarter Way to Student. improve education : question answering , tutoring , ... NLP Goal : Create a Knowledge Base これは Graph グラフはContent Recommendation につかう Building a Machine Learning Pipeline for NLP ML ではいっぱいデータが必要 → Weak supervision generation training data/Snorkel つかった データつくるツール → 転移学習をした あと、ELMo / BERT / GPT-2 とか Open Source vs In house Embeddings Open Source はプロジェクトの「バリア」になる、はじめるのは簡単 / In house なら自分のビジネスに最適化できる
Paper Session 4:Advertising, Promotions,Intent & Search
最後のPaper Session は人少ない。
A Comparison of Calibrated and Intent-Aware Recommendations
2018にNetflix が Calibrated recommendations を紹介(推薦される音楽のジャンルのバランスを整える) Intent-Aware Diversification 式はにているけど、divergense を確保するためre-rank するから割合が保たれるわけではない User Interests : subprofiles と定義、ユーザがにてるか?ratingなどではかる。 item feature は使わない ( 超British English. " It is quite surprising." ってよく言ってて、風刺っぽいギャグがいっぱい... イギリスの人だったけ Paper に precision vs diversity のグラフなどいろいろある
LORE: A Large-Scale Offer Recommendation Engine with Eligibility and Capacity Constraint
Facebook と Amazon の共著 Offer allocation Problem : クーポンとか割引を誰にどうだしたら一番いいか?予算もあるし。 既存手法:Greedy Approaches / Bandits for constrained online resource allocation 提案手法:線形計画法みたいな式 っていうか LP problem Min Cost Flow (グラフみたいなやつ)でとく XGBoost で確率をクリックする確率を推定 して Optimizationを実施 Optimization outperformed the greedy approaches.
◆FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction
こなかった
◆Domain Adaptation in Display Advertising: An Application for Partner Cold-Start
Criteo の人 リタゲはProspecting campaignsにいいけど、cold start 問題をどうするよ Background ちょっとずつ問題が Domain Adaption: 1) Re-training 2) Joint training DANN : Domain Adversarial Neural Network : joint training をつかった Unsupervised domain adaption technique CCSA:Classification and Contrasitive Semantic Alignmet Proposed : Supervised DANN SDA-Ranking :Ranking Loss based domain transfer ( やっぱ転移学習? 検証:Cold start での検証 / metrics = Mean AUC, Median AUC, Mean Precision @K (広告クリックさせることにすがすがしいほど集中してていい
◆Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction
Twitter のひと Continuous Training してる。なぜなら New campaign Ids + non-stationary features Challenge : Delayed feed back →みてからクリックするまで遅延がある 待つべきか?またざるべきか? (学習を) Solution accept "fake negative" モデル つくった Importance sampling LR / Wide & Deep Model Delayed feedback loss : assume exponential distribution for time delay Fake negative weighted & calibration : 学習ではweightしないが、最後でcalibrate 検証: オフライン:Criteo data でやってみた / metrics = RCE normalized version of cross-entropy (higher is better) Online : Pooled RCE とか Revenue per thousand requests でいい結果 (オンラインテストでRevenue までみるのはさすがに斬新 Conclusions : FN weighted / FN calibration は新規性あるよ
◆Ghosting: Contextualized Inline Query Completion in Large Scale Retail Search
Amazon のひと ( 今年Industryの人多い、あとインド Query Auto-Completion : harr でharry potter books を推薦するAmazon Search 売り上げの結構がここからくる / Strict latency requirements Goal of QAC : purchase Challenges : relevant, misspelled,単語の組み合わせを推薦 Ghosting : サーチボックスの中にベストをいれるけど、下に候補もだす Identifying best recommendation : ベストを特定して、精度をたかめる Behavior-based relevance : Optimize for query behavior Base Model : Historic model, Predictive machine learned model (GBT) improving : use session-based context 直前にどんなものを探してたか?は重要なヒントになる。 デモ:bluetooth speaker 検索、さがしてそのあとbose 検索すると、bose b あたりで bose bluetooth speaker までゴースティングしてくれる 検証 A/B テスト 140万の検索セッション、3週間 、UX あがるはず nik frequency based : nike socks men / session-context : nikon dslr camera 結果: improved acceptance , average prefix length ↓ ,misspelled もなおせたよ Future Work : どこでくぎったらいいかわからない言語とかのGhosting QA : 3文字くらいタイプしてない途中ですごい細かい商品名までGhosting しようとしたmotivation は? それがうれしいひともいるから。どれくらい文字を入力してどれくらいの情報をGhosting するか、はわりと難しい問題だけど ( latency の質問でたじたじになったのはなぜだろう
終わった。また明日。バンケットには行かない(予約してないのでいけない)
おされ会場の高級ホテル