📕 チームとその相乗効果を読む

いつの時代も、人と人、チームとチームが協調して相乗効果を生むのは難しい、と感じます。とはいうものの、2022年のソフトウェアエンジニアリングには不可欠な能力。いろいろな本でも、その理論が説明されています。いくつか紹介したいと思います。

THE TEAM 5つの法則

モチベーションクラウドを提供しているリンクアンドモチベーションの元取締役が書いたチーム理論。チームのマネジメントとインタラクションの法則を、それぞれのパターンに合わせて平易に説明しています。 「チームはこうあるべき」という紋切り型の正解はなく、自分たちが達成したいこととメンバーをよく見極めながら、目標やコミュニケーション、決断の方法を選んでいけなければいけないとしていました。

チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計

「THE TEAM」が一つのチーム、チーム内の協調だとしたら、こちらの本はチームの分割やチーム間連携の法則について説明しています。組織形態がデリバリーのパフォーマンスに与える影響は大きいです。過去の組織に関する考察(マトリクス組織、Spotify モデル、 ティール組織)を経て、新たな「チームのトポロジー」を提案しています。

特徴的なことのひとつはチーム間のインタラクションに注目したこと。Static な組織図を書いただけでは実体を表現していない、と断言した上で、チーム間の連携(コミュニケーション・インタラクション)をパターン化、実際の有効なチーム間連携を設計し適用すること、さらにチームと連携の状況をモニタリングしながら絶え間なく調整していくことが必要と説明しています。

例えば、コミュニケーションを「通信量」にたとえ、「チームのそれぞれの役割に応じて、太い回線を用意したり、無駄な通信が起きないようにチームを分割する」といっています。日々のシステム運用では自然と実施していることで例えられていて、おもしろかったです。(でもたとえがシステムと数学に寄っていて、ちょっと読みにくいのが難点...)

LeanとDevOpsの科学 - テクノロジーの戦略的活用が組織変革を加速する -

最後は「ん?これ、チームの話?」という本です。

プロセスから顧客価値につながらない「無駄」を削ぎ落とすLean と 開発と運用を分離させないことを説くDevOps。この二つの開発手法を活用することにより、開発組織にとどまらず組織全体のパフォーマンスが向上する、ということを説明しています。 歴史的に Lean は顧客と製造、DevOpsは開発と運用に「共創」というパラダイムシフトをもたらしました。この本では、Lean と DevOpsのさまざまなプラクティスの関連や、それらが組織の文化やパフォーマンスにどう影響するかが俯瞰できます。全体のつながりを意識しながらパーツを整備をしていくのが吉だと感じました。

人が創造的に能力を発揮するために

開発以外の人は、「システム開発」というと無機質なものを想像するかもしれません。ただ、現在のサービス開発が一人ではできません。なので、結果、個人や人と人が協調してチームがパフォーマンスをあげるためにはどうしたらよいのか、という理論がいっぱいあります。

私からみると、当社のエンジニアリング組織は、個々の高いHospitalityやCommunicationのマインドに助けられて事業が成立している印象です。チームの境界やインタラクションに関して、「設計する」「定義する」ということをあまりしておらず、それゆえに伸び代があるよう感じます。マネジメントの問題ですね😝。難しいんですけどね。

せっかくよい文化があるチームなので、当社の、それぞれのチーム(プロダクト運用、新規事業開発... )にあった形を模索したいと思います。

2021年を振り返る

年末にかきたかったけど、1月1日に書いています。

CTO

CTO、2年目でした。会社のエンジニアがやったことはTECHSCORE ブログでしたので個人的なことをここに書きます。

組織としては、アウトプットは出せたと思っています。リリースも変化も大きかった。 ただ、年末の HIGH OUTPUT MANAGEMENT や いくつかの記事を読んで、以下のマネジメントの課題があるなあ、と感じました。

  • ロジカルに施策を実行せず場当たり的になっていること
  • 目標を達成するためのチーム編成になっていない / チームに対してゴールを示せていない

結局、ここなのか。

こまごまといろいろなことに取り組んだものの、大きく仕組みを整えるようなことができなかった。自信がないのと、軸がないのと、両方ですね。

チームのアウトプットがでたことによって、どれくらいの熟練度があるか、ファクトベースで語れるようになりました。 それにしても、インプット大事。脳に酸素を行き渡っている感覚もあるので、今年は(も)しっかり壁うって、叩きのめされようと思っています。

また、今年は強制的にアウトプットを増やしました。月次のLT会と、週次のNews の発行。 正直、本当にしんどかったのですが、認知を高めたり、自分の理解を深めることができました。

技術

どんどんつくれなくなっていて、危機感を感じています。 AtCoder もいまだ茶色でめちゃくちゃ笑える。が、挑戦したのはよいこと。ひとまず、「課題を見つける」「作るものを決める」ことは仕事でやらざるをえないので、趣味のプログラミングを「与えられたお題をひたすら解く」能力を高められるよう、楽しんで実装しようと思う

去年に比べて落ち着いているけど、私の仕事が忙し過ぎて、家族とあまり会話していないように思う。 もう一緒に住むのもあと2-3年、かもしれないし、目の前の人との時間を大事にしたい。

遊び

結局技術的なインプットと(一人)旅が私の心から楽しいことだと再確認したので、

おととしと変わらない

なので、今年したいこと

  • アウトカム 、それを実現するフロー状態な組織
    • そのために毎日、本を読む
  • AtCoder、緑になる
  • 1個、アプリつくる
    • そのために毎日、コードを書く
  • 日帰り一人旅
    • 行きたいのは豊田美術館と松山、佐賀

RecSys 2021 Abstract を眺める .... Wed Sept 30

なんか、、去年よりPaper が多くないかしら....

Session 10: Applications-Driven Advances

Learning to Represent Human Motives for Goal-directed Web Browsing

モチベーションやゴールは、行動の源泉であることはしられているが、ほぼ観測できないため、ブラウジングにおいてゴール達成のためにどれくらい貢献できているかはあまり知られていない。この問題を解決する新しい neural frameworkである Goal-directed Web Browsing (GoWeB)を提案する。我々は心理学用語である「 higher-ordered goals」を適用し、この表現を構造を保持する手法で学習した。さらに、これを人々のWeb行動に適用した。Edge ブラウザ上の検証により、 GoWeB は Webページの推薦や再訪問のクラシフィケーション、さらにゴールベースのウェブページのグルーピングにおいても他の競合より優れていた。また、おっての検証では、人のモチベーションがどれだけ行動を多様化させるかも示した。

Debiased Off-Policy Evaluation for Recommendation Systems

高コストで時間もかかる A/B テストに代わり、バイアスのない Off-Policy Evaluation を提案する。

Boosting Local Recommendations With Partially Trained Global Model

Salesforce のIndustrial Session.Einstein の話だろうか。 BtoB の推薦システムはBtoC とは違うチャレンジがある。違う組織に適用した場合、質量両面でこっちで活用できたデータがそっちでは効かないということがある。それは運用だったり、マーケティング戦略だったり、ターゲットが違うからである。クラウドであるSalesforce では、さまざまな組織のデータをプールし、違うブランドのモデルを構築するために活用している。しかし、プールしているデータでつくったモデル、顧客の特徴の妥当性や、これらのデータの信頼性や倫理性をどのように評価したらよいか、というのはひとつの課題である。ここでは、そのためのフレームワークを提案する。さらに鍵となるプライバシーの考慮事項について言及する。

Recommendations at Videoland

RTLのIndustrial Talk.

Follow the guides: disentangling human and algorithmic curation in online music consumption

Centre Marc Blochの人。コンテンツのdiversityは議論の余地があるissue だが、量的なSTOA はたびたび個人の態度に過剰に反応し、異なるカテゴリーを考慮してしまうことがある。音楽ストリーミングのケースにフォーカスし、9000ユーザの1年間にわたる聴取履歴を分析した結果、すべてをカバーするような回答を得ることはできなかった。つまり「ユーザによる」。まず、それぞれのユーザの相対的な重要度を計算し、ユーザのカテゴリを特定した。次に二つのスケール(どのコンテンツを繰り返し聴いているか?ユーザが消費するコンテンツはどれくらい人気があるか)にフォーカスし、ふたつのタイプの推薦(アルゴリズムによるものと編集によるもの)はコンテンツの多様性を加速させるが、これもユーザのタイプによる。最後に、ユーザのストリーミング履歴とフランスの人気のラジオの選曲を比較した。ラジオプログラムは、より人気のないアーティストの曲を流す傾向にあった。全体的に、推薦システムが影響を与える自明出ない効果に光を当てる結果となった。これは"filter bubble" というより"filter ニッチ"と呼べる。

Recommendation on Live-Streaming Platforms: Dynamic Availability and Repeat Consumption

ライブストリーミングプラットフォームはユーザが作ったビデオをリアルタイムで配信する。このようなプラットフォームでの推薦は伝統的な方法で類似度を共有している。けれども、いくつかのチャレンジで推薦システムを改善した。ひとつはコンテンツが動的なため、ユーザが選べるアイテムが限られているということ。学習と推論の間、我々は事実を注意深く扱わなければならない、なぜなら「なにも操作をしない」ということは「きにいっている」ということを意味するので。ストリーマーはまた、根本的に「アイテム」とは異なる。チャンネルが繰り返し消費されることは重要なロールではあるが、コンテンツそのものは揮発するという性質があるから。 この論文では、われわれは動的にアイテムが有効になるような条件での推薦を研究した。LiveRec、インタラクションの履歴と現在有効なコンテンツからイテムのランキングをパーソナライズする self-attentive model を提案する。また、繰り返し見られているという事実を注意深くモデリングすることにより、パフォーマンスが上がることを示す。このアプローチを評価し、またこのような状況に関するより深い調査をするため、Twitch の 475M のユーザインタラクションデータセットをリリースする。検証し、良い結果が得られた。

Session 11: Practical Issues

Drug Discovery as a Recommendation Problem: Challenges and Complexities in Biological Decisions

アステラぜネカのIndustrial Session。

Denoising User-aware Memory Network for Recommendation

Alibaba.ユーザ満足とビジネスのこうちるのために、sequence-based の推薦システムが注目を集めている。ユーザの嗜好の発展はユーザのフィードバックより捕捉することができる。けれども、既存の推薦システムはimplicit feedback のバイアスを考慮していない。同様に、既存のシステムはユーザの嗜好を捉えるのにアイテムのsequenceを利用している。この手法のパフォーマンスはsequence の長さに依存するため、長期の興味関心を効率的にモデリングできない。そこでわれわれはあたらしいCTR(Click to Rate) モデルである。denoising user-aware memory network (DUMN)を提案する。特にこのフレームワークは(i) implicit feedbackを純粋化し、ノイズを効率的に除去するための直行マッピングベースの特徴量純化モジュールをもち、(ii) メモリネットワークを改善することにより、長期間の興味関心をモデリングすることが可能になる ユーザメモリネットワークを設計、 (iii) 長期と短期のユーザの興味関心を融合させる インタラクティブ表現のコンポーネントを開発した。実データで検証したところ、良い結果を得た。

Learning an Adaptive Meta Model-Generator for Incrementally Updating Recommender Systems

実世界の推薦システムは、多くの人に利用されている。最近の傾向を掴むために、モデルを新着データのみでインクリメンタルに学習することがほとんど。ただ、この手法では長期の情報をモデルに反映させることは難しい。そこで、Adaptive Sequential Model Generation (ASMG) frameworkを提案する。これは、メタジェネレータを利用するものである。メタジェネレターの設計では、Gated Recurrent Units (GRUs) を活用する。また、GRU meta generatorとともにさまざまな戦略を適用し、計算効率だけでなく精度の向上も実現んした。検証したら良い結果。

You Do Not Need a Bigger Boat: Recommendations at Reasonable Scale in a (Mostly) Serverless and Open Stack

Coveo のIndustrial Session. データパイプラインが未熟だと、推薦システムに最新の研究結果を反映することができない。われわれは ML のための 「妥当なスケールの」データスタックテンプレートを提案し、サーバーレスのパラダイムを取り入れたことにより多くのチャレンジができたことを紹介する。オープンソースツールを活用し、最低限のインフラ整備でテラバイトのデータを処理するパイプラインを構築した事例を紹介する。

Shared Neural Item Representations for Completely Cold Start Problem

Rakuten USA. Neural networks の推薦システムは一般的になってきた。ほとんどはユーザとアイテムの表現を得るのに利用する。コールドスタート問題に対応するためにはこの方法は効率がわるいため、ふたつの表現を統一しアイテムネットワークから生成されたもののみ使用する手法を提案する。また、アテンションの仕組みが埋め込み表現の質を高めることを示す。検証では、この手法の方が早く収束し、少ないイテレーションで高いリコールを獲得、学習サンプル数の変化にもより堅牢であることがわかった。

A Payload Optimization Method for Federated Recommender Systems

Pakistan の人や Huawai の人。

この研究では、FRS のためのpayload 最適手法を提案する。FLにおいて、サーバとユーザ間を移動するグローバルモデルpayload は推薦するアイテムの数に依存する。アイテムの数が増えるとpayload の数も増える。そのため、グローバルモデルを選択し、全てのユーザにtransmitするためのMAB ソリューションを計算する。選択プロセスはFLシステムに最適な新しいReward 関数より導かれる。また、これはアイテムに依存するpayload を探索する最初の最適関数である。この手法を検証し、良い結果を得たし、パフォーマンスも下がらなかった。

Session 12: Real-World Concerns

Cold Start Similar Artists Ranking with Gravity-Inspired Graph Autoencoders

Deezerの発表。 音楽ストリーミングサービスのアーティストプロファイルページでは似たアーティストが推薦される。けれども新しいアーティストでは利用データがないためチャレンジングである。この問題を 有向グラフ内のlink prediction タスクとして捉え、アーティストをtop-k most similar neighborsと接続し付属する音楽情報と協調する手法で解決する。その後、 graph autoencoder 構造を活用し、ノードの埋め込み表現をグラフから学習、自動的に 新しいアーティストのtop-k most similar neighbors を gravityに着想を得た機構で得ることを目指す。グローバルストリーミングサービスに適用し、柔軟性と効用を確認した。

Tops, Bottoms, and Shoes: Building Capsule Wardrobes via Cross-Attention Tensor Network

Visa Research の発表 ファッションはパリのランウェイだけにあるわけではない。ファッションは自己表現であり、アイデンティティであり、ムードで、文化である。いろいろなカテゴリの候補があるとき、どのように組み合わせるとおしゃれになるのか?自動的にワードローブを推薦したい。 Capsule ワードローブ生成 は複数のアイテムの相互作用を把握する必要がある複雑な組み合わせの問題。生成プロセスでは、ファッションのエキスパートに手作業で組み合わせてもらう必要があるがスケールしない。 そこで、 TensorNet, トップス、ボトムス、靴の互換性を示すものを提案する。TensorNet は全身コーデに対して実行可能なアドバイスを提供する。 TensorNet は2つのコアモジュールからなる。 Cross-Attention Message Passing module と Wide&Deep Tensor Interaction module.である。この構造により、TensorNet はローカルの範囲ベースのパターンをグローバルの互換性とおなじくらい。検証したら良い結果。TensorNet によりファッションデザイナの選択肢を狭めることができる。

Semi-Supervised Visual Representation Learning for Fashion Compatibility

Walmart,India の共著。 ファッションの推薦システムにおいてラベル付がすごく大変なとこおr、半教師あり学習により効率的にコーディネートのための画像のラベル付をする手法を提案。

Large-Scale Modeling of Mobile User Click Behaviors Using Deep Learning

Google Research の発表。

一連のタップやクリック操作データをDL でモデリングし、UIの最適化に役立てたい。そのために、次の操作を予測するDL モデルを構築した。モデルは良い精度だったので、このモデルをどのようにモバイルのインタラクション実装に適用し、ユーザ体験を向上させるのか議論する。

EX3: Explainable Attribute-aware Item-set Recommendations

Amazon と共著 ほとんどの推薦システムは、推薦するための鍵となるアイテム属性がなんなのか、ユーザに示すことはない。ただ、それによる購買の判断がしやすくなる。ここで我々は attribute-aware item-set recommendation problemを一般化し、アイテムと重要な属性を生成する新しい手法を提案する。特に、ユーザの行動履歴から重要な属性を学習するシステムにより、ユーザは「説明」をより自然に受け入れやすくなる。またスケールを目指し人によるアノテーションを排除した。最後に multi-step learning-based framework であるExtract-Expect-Explain (EX3)を提案する。検証したら良い結果。

Page-level Optimization of e-Commerce Item Recommendations

eBay. 商品詳細ページには、他の関連商品が推薦されていることが多い。これはカルーセルで表示されている場合がある。商品の選択と並べ替えはユーザ体験の向上に寄与する。っここでは、DNN を利用し、商品詳細ページ上にリアルタイムにパーソナライズされたアイテムを推薦するスケーラブルなend-to-endの商品システムを提案する。オフライン、A/B テストともによい結果を得た。

RecSys 2021 Abstract を眺める .... Wed Sept 29

3日目です。多い。

Session 7: Scalable Performance

Local Factor Models for Large-Scale Inductive Recommendation

多くのドメインでは、ユーザの嗜好は似た性格のユーザのサブグループで類似、性格が違うサブグループと大きく嗜好が異なる場合が多い。局所的な推薦モデルは、上記のような状況ではよいパフォーマンスを得られる。ただし、ローカルモデルはスケールしないし、新規のユーザに対しては脆弱。これはサブグループの検知がモデルとは別に実装されていることに起因する。ここでは、 End-to-end Local Factor Model (Elfm) を提案する。これは、両ステップを組み合わせ、ローカル構造を inductive bias で協調させることにより実現する。われわれのモデルはサブグループ→ 推薦のend-to-end で最適化され、インクリメンタルに推論が可能で、計算コストが小さい。検証の結果、大量データの場合の推薦パフォーマンスが上昇した。また、ユーザのサブグループに対応するアイテムのサブグループの検出にも成功した。これは推薦の説明に活用できる。

cDLRM: Look Ahead Caching for Scalable Training of Recommendation Models

DL の推薦モデルには、2種類のパラメータがある。スパースなカテゴリカルデータの埋め込み表現を得るためのパラメータと密なデータを処理するNN のパラメータ。これは、embedding table のサイズが大きくなると、GPU メモリを非常に多く利用するという課題があった。ここで、cDLRM を提案する。これは、すべてのembedding tables をCPU メモリ内に格納することにより、GPU 1つのみで学習することを可能にする。(推薦モデルの民主化)。CPU ベースの プリプロセッサはembedding テーブルの一部をprefetch し、GPU メモリにjust-in-time でキャッシュする。GPU のキャッシングプロトコルは、embedding table parameters を効率的に更新する。cDLRM により、embedding table のサイズによってGPU 数を増やさなければいけない、ということはなくなる。ここでは、GPU 1こで学習できること、また、cDLRMにより並行学習が可能であることを示す。

Reverse Maximum Inner Product Search: How to efficiently find users who would like to buy my item?

MIPS ( ユーザに対してもっとも内積が高いアイテムをみつける問題)は推薦の問題の一つ。これを解くためにはふたつの課題がある。誰がアイテムに興味をもっているか?と、どうやってそのアイテムを探すか?この論文では reverse MIPS を解決する。クエリーベクターと2つのベクターの集合があたえられたとき、reverse MIPS は user とitem の内積で、クエリとitemのうち最高のものを探す。これは計算の負荷が高いため、Simpfer アルゴリズムを提案する。Simfer のオフラインフェーズでは、内積の下限を保持するシンプルなインデックスを構築する。Simpfer はクエリーベクターが最高の内積をを保持するかを判定する。さらに、このインデックスにより、ユーザをフィルタリング可能。Simpfer の論理を説明後、従来のMIPS より性能がよく、計3時間も500 - 8000倍速いことを示す。

Session 8: Algorithmic Advances

Next-item Recommendations in Short Sessions

世のセッションベースの推薦システムのほとんどは長期セッションを扱っているが、現実には短期セッションの場合が多い。短期セッションは推薦に利用できる情報が少ない、という課題がある。この論文では、FSL を取り入れ、次のアイテムの推薦を FSL 問題として定義する。メタラーニングなどFSLの手法をとりいれた INter-SEssion collaborativeRecommender neTwork (INSERT) を提案する。INSERT により少ない情報から今のユーザ表現を学習することが可能。特に、グローバルモジュールにおいて、SSRN が過去のデータや他のユーザより対象ユーザセッションに近いものを探す手助けをしている。グローバルモジュールから得た「似たセッション」はローカルモジュールにより最適な嗜好表現になり、これをもとに次のアイテムを推薦する。検証では、良い結果が得られた。

Burst-induced Multi-Armed Bandit for Learning Recommendation

non-stationaryでコンテキストフリーなMulti-Armed Bandit の問題とそれを解くアルゴリズム(BMAB)を紹介する。context-free とは、ユーザやアイテムに関するside information が必要ないことを指す。アルゴリズムの新規性は、Reward の分布を Activityのintensity のバリエーションの結果としてモデリングしたことで、そのため exploration/exploitation のジレンマをオーディエンスの一時的なダイナミクスを探索することによりassistする。これを達成するために、推薦の手続きは2つのStates (loyal とcurious)に分けられると仮定する。現在のState は2つの混合ポワソンプロセスとしてイベントをモデリングすることにより特定する。さらに、loyalな観客はひとつのstationary なreward の分布が付随するが、それそれのbursty 期間はそれぞれのreward 分布に従ってくる。アルゴリズムを検証、比較した結果、BMABはSOTA だった。

Hierarchical Latent Relation Modeling for Collaborative Metric Learning

Collaborative Metric Learning (CML) は強力なパラダイムだが、標準的なCML は固定のユーザ、アイテム表現より学習するため、ユーザの複雑な関心を捉えることができない。この論文では階層的なCMML モデルを示す。このモデルは、潜在的な user-item または item-item の関係をimplicit なデータから同時に捉える。我々のアプローチはknowledge graph 埋め込みの translation の機構から着想を得たものであり、メモリベースのattention network を活用した。検証の結果、他のCML モデルよりも良い結果がでた。また、従来のCMLはスパースなデータセットが苦手だったが、提案手法は問題ない。

Case Study on Sampling Strategies for Evaluating Neural Sequential Item Recommendation Models

(検証系の論文)。現状、sequential item recommendation モデルは、少ないアイテムで比較されることが多い。ターゲット群は、関連するアイテムと全く異なるアイテムを完全なアイテム群からピックアップしてつくる。ネガティブなアイテムをサンプリングするストラテジーとして、uniform random sampling と 人気順でのsampling が考えられる。昨今のほとんどの論文は 人気によるサンプリングを採用している。しかし、uniform random sampling はフルランキングと同等ではない、つまり全てのアイテムを利用した場合に得られるものと一致しないことが、先行研究よりわかり、そのため人気によるランキングが全てのアイテム... と一致するのか?という疑問があがった。ここでは、いくつかのSTOA な sequential recommender モデルにおいて、サンプリング戦略が最終的なモデルのランキングにどのくらいインパクトがあるか検証する。完全なアイテム群とサンプル群で検証した結果、サンプルでは完全なアイテム群とは違うランキングを示すことがわかった。また、サンプルサイズを変えた場合も状況が変わる。

Top-K Contextual Bandits with Equity of Exposure

contextual bandit paradigm は 不確実な中の意思決定の一般的なフレームワークを提供する。単純にクリックなどの行動を増やすことだけを追う時代は終わり、現状はequity of exposure に配慮する推薦システムの方が好ましいと言われている。 この研究では、top-K contextual bandit problem と disparate exposureというissue との関係、およびどのようにしたらこの disparity を最小化できるかということを議論する。top-K アイテムを愚直に表示する代わりに、パーソナライズされた 露出を意識したarm selection algorithmを提案する。これはユーザレベルで 関連度合いと公平さのトレードオフを扱うものである。これは、global populace によりランダムを許容するかどうかが大きく変わるという最近の研究にしたがった。カルーセルの音楽推薦で確かめて結果、露出によるdisparity(不均衡)は顕著に現象した。

Learning to Match Job Candidates Using Multilingual Bi-Encoder BERT

サイトにAbstact がなかった。BERT。

Session 9: Privacy, Fairness, Bias

Challenges Experienced in Public Service Media Recommendation Systems

ドイツの公共サービスメディアであるZDF に推薦アルゴリズムを数年適用し、システムや推薦結果の最適化においていくつかのチャレンジをした。設計や最適化はいろいろな競合する目的、多様な要素から影響をうける。オンデマンドサービスのCMにおいても、ZDF はパーソナライズされた推薦を提供している。けれども、公共サービスの提供者として、我々は編集ガイドラインや厳密なプライバシー規定にのっとった多様で、ユニバーサルで、バイアスがなく、透明性の高い推薦にコミットする必要がある。さらに、環境にやさしい推薦を提供する必要もある。オープンに議論をスタートするために、公共メディアの推薦システムについて紹介する。

Debiased Explainable Pairwise Ranking from Implicit Feedback

昨今の推薦システムでは、推論の精度だけでなく、公平性、バイアス、透明性も重要性である。ここでは BPR モデルにフォーカスする。特にわれわれはBPR のふたつの制約について言及する。(1) BPR はブラックボックスモデルであり、ユーザの信頼に上限がある (2) BPR はバイアスに対して脆弱。特にMNAR なデータにおいて。これによりあまり人気でないアイテムが露出されないという不公平性が生まれる可能性がある。このワークでは、最初にわれわれは新しい説明可能なloss function と対応するMFベースのモデル EBPR を提案する。EBPR はアイテムベースの推薦を同時に生成する。露出バイアスを説明可能性から定量化し、調整する。これによりバイアスなく説明可能なユーザの嗜好モデルを得ることができる。検証もしたけど良い結果。

Privacy Preserving Collaborative Filtering by Distributed Mediation

推薦システムにおいて、データを共有すればより複雑なユーザの嗜好をモデリングすることが可能だが、プライバシーの懸念がある。ここでは、セキュア multi-party protocols を紹介する。これによりCollaborative Filtering (CF)の精度を高めることができる。. 先行研究であるprivacy-preserving CF protocols は仲介者を利用するものだったが、我々は複数の独立した仲介者を利用することによりこれを次のレベルまでおしあげる。さらに、我々はより現実に近い条件のデータを生成し、先行研究より優れていることを検証で確かめた。

Fairness in Reviewer Recommendations at Elsevier

ElsevierのIndustrial Talk

Stronger Privacy for Federated Collaborative Filtering With Implicit Feedback

Brave Software(Privatcy を重視したブラウザの会社) の発表。推薦システムは中央集権で集めたインタラクションデータをもとに学習するのが一般的。でもこれはプライバシー的に課題がある。いくつかのプライバシーに配慮した推薦システムが提案されているが、システムがimplicit な行動やプライバシーを中抜きすることはあまり注目されていない。われわれは 実運用可能なfederated な推薦システムを提案する。これはユーザレベルの local differential privacy (LDP)のためのものである。 privacy-utility trade-off はパラメータ ϵ と kでコントロールし、privacy予算と ϵ-LDPの更新により制御される。また、推薦システムに情報を送る前にユーザを匿名化/shuffleする。MovieLens データセットで検証した結果、プライバシーに配慮しても精度がそれほど落ちないことを確認した。

Mitigating Confounding Bias in Recommendation via Information Bottleneck

推薦システムでどのようにフィードバックのバイアスを除去するかは、重要なresearch topicである。この論文では、バイアスがある / ないフィードバックがどのように生成されるか、2つの因果ダイアグラムで示す。このふたつのダイアグラムの違いはバイアスのソースである。さらに、この差をconfounding bias と定義する。この状況で、バイアスがあるフィードバックからないものを因果ダイアグラムから取得するための debiased information bottleneck (DIB)を提案する。これにより学習次にバイアスがないコンポーネントのみ利用することが可能で、検証して良い結果が得られた。

RecSys 2021 Day2 - 09.28

二日目。とにかく頭の外に出す。

Regulating Recommenders

推薦システムと世の規約の話。AI や ML などは我々をエンパワメントする存在だが、同時にFake News や エコーチェンバーなどにより社会に悪影響を及ぼすことがある。そのため、現在特にEUでつよく推薦システムに対する規制が検討されている。ただし、規制 = Innovation の阻害ではない。倫理的でSocial Goodなシステムをつくるために、規制の意図を十分理解しよう

Session 4: Users in Focus

“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface

推薦システムは表示して選んでもらうインタラクティブなインタフェース。リストが複数あった場合はどういうふうに表示したらいい?それはリストが一つの場合とどう違う?という課題に取り組んだ発表。分野は「食べ物の推薦」。PC と スマホでもちがいそう。

Building Public Service Recommenders: Logbook of a Journey

BBC で 記事推薦システムを構築する話。Industrial SessionがRecSysの醍醐味だと思います。

BBC はみなさんよく知るイギリスのラジオ・テレビ局。このコンテンツのデジタライゼーションを支えるのが推薦システム。どのようにパーソナライゼーションを実現するのか?

チャレンジは3つ。文化 、組織、基盤。

組織

  • データドリブンなソリューションがBBC の編集基準を満たすよう保守するにはどうしたら?
  • 公共サービスとしての価値を定量的なメトリクスにどう落とし込む?
  • 大規模リコメンドにどのように品質管理ツールを適用するのか?

そのために、編集ガイドラインを最適化

データサイエンスと編集の協調ループをつくる

編集が推薦システムにフィードバックする。専門のツールを用意した。 これが本気ですごかった。

学んだこと。Fast Iteration が大事。よい。

チームの可能性と自信をつくることにフォーカス

人が一番のアセット。

ひとりの突出人ではなくチーム力を信じる

データ + 編集

編集をできるだけ早い段階で巻き込む

どろくさくてよい。

User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms

推薦システムにはいろいろなバイアスがあるが、ここではユーザの年齢と好奇心の強さでグループわけし、それが推薦システムにどれほど影響するか検証した。

Session 5: Language and Knowledge

Transformers4Rec: Bridging the Gap between NLP and Sequential / Session-Based Recommendation

NVIDIA。このアイテムの次はこのアイテム、とうような、連続して推薦するセッションベースのシステムにTransformer を利用するものを開発したよ。という話。NVIDIA(2回目)。スライドはTransformer 感あるものを。

Sparse Feature Factorization for Recommender Systems with Knowledge Graphs

Sparse Feature Factorization をナレッジグラフを用いて実施するKGFlex という手法の提案。グラフだぞー

ProtoCF: Prototypical Collaborative Filtering for Few-shot Recommendation

ドメインのデータで「プロトタイプ的な」協調フィルタリングモデルをつくることにより、Few-shot な場合の推薦を実現する話。メタナレッジトランスファー。Few-shot という単語が今年やたら聞かれるようになった。Sparse ではなく Few-shot。

Towards Source-Aligned Variational Models for Cross-Domain Recommendation

クロスドメインの推薦(映画の嗜好から書籍を推薦する)のための、ふたつの手法、Rigidly Aligned VAE と Softly Aligned VAE の紹介。VAE もマスターしなくてはいけない。雰囲気だけでも。

Together is Better: Hybrid Recommendations Combining Graph Embeddings and Contextualized Word Representations

グラフ埋め込みとBERTのようなコンテキストを考慮した単語表現を組み合わせてリッチな推薦システムをつくった話。

Information Interactions in Outcome Prediction: Quantification and Interpretation using Stochastic Block Models

予測したいのは「retweet するか」など。ただ、一般的に tweet1 → リツイートした、tweet2 →リツイートしたとしても tweet1 + tweet2 →リツイートするとは限らない。この複数の条件を、学習データとして tweet のペア → 結果の形でつくってモデルにし、評価した。 このようなインタラクションを利用することにより推薦を最適化することはできたが、インタラクションのアウトカムへの影響は小さいことがわかった。

Session 6: Interactive Recommendation

Fast Multi-Step Critiquing for VAE-based Recommender Systems

Learning a Voice-based Conversational Recommender using Offline Policy Optimization

Alexaの話。今聞きたい音楽はなに?を対話で探す。ルールベースではなく、Offline Plicy Optimization で「次の質問」を最適化する強化学習モデルをつくる話。ユーザに「朝はNirvana の気分じゃない」と拒否られるAlexa。かわいい。

なかなかの結果

Large-scale Interactive Conversational Recommendation System using Actor-Critic Framework

インタラクティブな推薦システム。会話のポリシーと推薦モデルを同時に学習し、question のvalue を評価 、 大量データでも対応できるような手法を提案する。モデルにはRL をつかうが、State は質問と会話。 Action は 質問するか、アイテムを推薦するかのどちらか。 このAction Space が広大だったが、Actor Critic frameworkを利用した。

Reward の構造はこんな感じ

States 間のTrasitionを定義し、Amazon product dataset を利用して検証。

Generation-based vs. Retrieval-based Conversational Recommendation: A User-Centric Comparison

chatbotsが商品を推薦する話。

生成モデルをつかう場合、会話がおかしかったり、抽象的すぎだったりする場合がある。

先行研究はユーザの評価を無視している。対して、retrieval-based (人があらかじめ作成した文を返す)な手法は生成モデルより自然な会話をできる可能性がある。 AlliMe, Xiaoice

なので、Generative Model と Retrieval Model を評価してみた。評価システムをつくって、3つの手法で生成した質問を表示。被験者にchatbotの応答を評価してもらった。

応答の自然さではRule Based の評価は高かったが、推薦したものの評価はNN の方が高かった(=精度が良いと言われている)

推薦のユーザ体験大事。

The role of preference consistency, defaults and musical expertise in users’ exploration behavior in a genre exploration recommender

音楽の推薦の話。新しい音楽のジャンルの探索。

音楽のエキスパート具合と嗜好との関係を分析。

嗜好の継続性、エキスパートの方が好みが変わらない

ジャンル選択行動はほとんど変わらないので、探索の推薦で行動を変えることができる?

Slider インタフェースをつかって実験。

結論:エキスパートほど保守的。

質疑応答で、音楽のエキスパートの標準的な指標があるとのこと。

Partially Observable Reinforcement Learning for Dialog-based Interactive Recommendation

対話中のユーザの反応から、ユーザの嗜好を学習するRL 、EGE モデルを提案する。

検証にはユーザシミュレーターをつかっていた。

感想

1sesion、まるまるインタラクティブな推薦だなんて。chatbot とVoiceUI がめちゃくちゃ進化したことを感じました。 そして、もはや強化学習しかない。

RecSys 2021 Day1 - 09.27

勉強不足を痛感する時期がやってまいりました。まずはメモです。

Keynote 1 :Graph Neural Networks for Knowledge Representation and Recommendation

Graph Neural Net の実応用と RecSys との関係。 f:id:ayakobaba:20210929223421p:plain f:id:ayakobaba:20210929223436p:plainf:id:ayakobaba:20210929223539p:plain

Symmetries と Equivariance という考え方にそって、GNNのいろいろなアルゴリズムや応用事例を紹介していました。 「CNNもTransfomerもGNN だ」と主張していました。グラフ構造は柔軟なので世界をモデリングするのに腹落ちしやすい構造にできるんじゃないか、と感じましたが、学習は大変そうだなあ。

Session 1: Echo Chambers and Filter Bubbles

An Audit of Misinformation Filter Bubbles on YouTube: Bubble Bursting and Recent Behavior Changes

Filter Bubble をつくった(できてしまった)場合に意図的に壊すことができるのか、エージェントを利用して検証した話。

f:id:ayakobaba:20210929223553p:plainf:id:ayakobaba:20210929223605p:plain f:id:ayakobaba:20210929223614p:plain

The Dual Echo Chamber: Modeling Social Media Polarization for Interventional Recommending

Echo Chamber には2つのタイプがあるという話。ふたつのタイプごとに情報の接し方が異なるので特徴を見極めよう

  • イデオロギータイプは対立する情報をあえて収集し攻撃する
  • 認知タイプは好む情報のみ収集するため対立する情報が目に入らなくなる

f:id:ayakobaba:20210929223623p:plain

I Want to Break Free! Recommending Friends from Outside the Echo Chamber

エコーチェンバー現象によって「知っている人」しか推薦されなくなったSNSにおいて「知らない人」を推薦する推薦システムを構築した話。 diversity と novelty が評価の指標に。

f:id:ayakobaba:20211009142120p:plain

Session 2: Theory and Practice

理論と実装

Negative Interactions for Improved Collaborative Filtering: Don’t go Deeper, go Higher

ネガティブなインタラクション情報を協調フィルタリングの改善に適用する。Deep に適用せず、線形モデルで、高次元のデータを扱うことにチャレンジした話。Netflix

f:id:ayakobaba:20211009142815p:plain

Exploration in Recommender Systems

Google の話。推薦システムでは、LTVをあげるためにdiversity もあげることが課題だが、そのためには「探索」をしなくてはならない。ただ、ちょっと外れたものを推薦する「探索」のプロセスは、そこでユーザ体験を阻害する危険があり、慎重に行う必要がある。その反面、探索の手法についてはあまり言及されてきていない。 Google では探索を3つのタイプ(System/ User/ Online ) に分類している。それぞれの役割について説明する。

f:id:ayakobaba:20211009143608p:plain

ためになる

Black-Box Attacks on Sequential Recommenders via Data-Free Model Extraction

シーケンシャルな推薦システム、対象の推薦システムの「正しい」挙動を学習データやモデルそのものを知らない状態で、特定のアイテムのみ高頻度で表示させることができるのか?ブラックボックスなモデルを推論することにより検証してみた。 機械学習システムへの攻撃検知はどうしたら。

f:id:ayakobaba:20211009144410p:plain

Matrix Factorization for Collaborative Filtering Is Just Solving an Adjoint Latent Dirichlet Allocation Model After All

MFって結局なんだったんだろう。というところから、MF = LDA4Rec でした、という話。トピックモデル!

f:id:ayakobaba:20211009144730p:plainf:id:ayakobaba:20211009144735p:plain

Jointly Optimize Capacity, Latency and Engagement in Large-scale Recommendation Systems

巨大な推薦システムで、キャッシュを有効に使い、計算資源を有効に使い、Latency を短縮、推薦の質も担保した、という話。Facebook

f:id:ayakobaba:20211009144853p:plain

Pessimistic Reward Models for Off-Policy Learning in Recommendation

強化学習のオフライン学習では、過去のデータを活用するため、オンラインと一致しない。オフポリシー学習では「悲観的」に実施するのがよい。

f:id:ayakobaba:20211009145306p:plain

Session 3: Metrics and Evaluation

Towards Unified Metrics for Accuracy and Diversity for Recommender Systems

推薦システムは長らく精度のみで評価していたが、昨今は serendipity 、novelty、diversity も エンゲージメントを高めるために重要。これらを総合的に評価できる metrics を提案する。ピンクのおさるさんかわいい。

f:id:ayakobaba:20211009151635p:plain

Values of User Exploration in Recommender Systems

Google の論文。前のセッションで3つのExplorationについて話したが、ここでは User Exploration = 未知のユーザの嗜好やユーザの未知の嗜好を探索する手法を説明する。さまざまな検証の結果、効率的にユーザ探索を行うことにより、長期のUXが改善することがわかった。モチベーションと結論はクリア。「効率的な探索」のところがまだ消化できていないのでもう一回読む。

f:id:ayakobaba:20211009152334p:plainf:id:ayakobaba:20211009152342p:plain f:id:ayakobaba:20211009152357p:plain

Online Evaluation Methods for the Causal Effect of Recommendations

毎年因果関係系で発表されている佐藤さんの今年の発表。今年は評価に関するものでした。 f:id:ayakobaba:20211009152854p:plain

Reenvisioning the comparison between Neural Collaborative Filtering and Matrix Factorization

Neural Collaborative Filtering と Matrix Factorization を比較する。ロングテールにあるアイテムを推薦するなら MFの方が優れている。accuracy 以外のmetrics で従来の手法を評価しなおす試み

f:id:ayakobaba:20211009154611p:plain

Accordion: A Trainable Simulator forLong-Term Interactive Systems

Netflix 。長期間のインタラクションをシミュレーションするアコーディオンの紹介。

f:id:ayakobaba:20211009154821p:plain

Evaluating the Robustness of Off-Policy Evaluation

半熟仮想さんの発表。RLをオフラインデータで学習した場合、どれくらいロバストなのか評価する。

f:id:ayakobaba:20211009155122p:plain

感想

1日目。セッションが増えているような気がする。 もう少し、強化学習 とOff-Policy Evaluationあたりの考えを身につけなければいけない。

diversity と serendipity

RecSys 2021 Abstract を眺める .... Tue Sept 28

二日目です。

Session 4: Users in Focus

“Serving Each User”: Supporting Different Eating Goals Through a Multi-List Recommender Interface

多くの場合、ユーザごとの好みによって食べ物の推薦が行われるが、日によって食欲があったりなかったりヘルシーなものを求めたりと違うことがある。このようなニーズに応えるため、2こ以上のリストを提示する手法を提案する

Building Public Service Recommenders: Logbook of a Journey

BBC のインダストリアルセッション。内容はきいてのお楽しみ

User Bias in Beyond-Accuracy Measurement of Recommendation Algorithms

推薦システムにはバイアスがある。昨今精度を超えた推薦アルゴリズムの評価指標の研究が多くされているが、ユーザバイアスに関連するものはない。そこで4つの推薦アルゴリズムのバイアスについて調査し考察する

Session 5: Language and Knowledge

言語処理と知識抽出

Transformers4Rec: Bridging the Gap between NLP and Sequential / Session-Based Recommendation

NVIDIA。Transformer ベースのものは、sequential でsession-based recommendationに利用できる。いくつかのアルゴリズムのパフォーマンスを比較検証した。

Welcome to Transformers4Rec’s documentation! — Transformers4Rec documentation

Sparse Feature Factorization for Recommender Systems with Knowledge Graphs

昨今のDLやfactorization ベースの推薦システムは精度が高いが運用が難しい。そこで計算量の少ない KGFlex を紹介する。これは、ユーザ - アイテムの予測において、ユーザが関心がある特徴のみ取り上げる、というもの

GitHub - sisinflab/KGFlex: Official implementation of the paper "Sparse Feature Factorization for Recommender Systems with Knowledge Graphs"

ProtoCF: Prototypical Collaborative Filtering for Few-shot Recommendation

DLベースの RecSys ではロングテールに含まれる多くItemを切り捨てる傾向にある。 インタラクションが少ないItemを few-shot-item と定義し、few-shot-itemのメタ学習を行い、プロトタイプを構築するProtoCF を提案する。

Towards Source-Aligned Variational Models for Cross-Domain Recommendation

スパースなデータは、推薦システムでは今でもchallengeのひとつ。 これを解決する方法として、ソースドメインやカテゴリの知識を利用するというものがある。ここでは、VAE を活用したクロスドメイン推薦の方法を提案する。さらに、ターゲットドメインに適合させるアプローチとして「rigid」なものと「soft」なもののを提案する。前者のシナリオでは、variationalモデルは ソースのモデルと等しく設定される。つまり、ターゲットドメインないの生成モデルしか学習しない。soft-alignment では、ターゲットVAE は自身のvariational モデルをもつが、それはソースの代替品の役割をはたす。検証をしたところ他のクロスドメイン推薦モデルより優れていた。

Together is Better: Hybrid Recommendations Combining Graph Embeddings and Contextualized Word Representations

この論文では、グラフ埋め込みとコンテキストを考慮した単語表現のハイブリッドな推薦フレームワークを提案する。我々のアプローチは両表現をベースにしている。我々は、以下のように両方の特徴を組み合わせる戦略を提案する。まず、グラフ埋め込みと単語表現を別々に生成する。次に、これらの表現からハイブリッドの表現を得るために、Deep Architecture に入力する。最終的に最適な推薦のための表現を獲得する。この戦略で精度が向上することを確認した。

Information Interactions in Outcome Prediction: Quantification and Interpretation using Stochastic Block Models

ほとんど全ての実世界のアプリケーションは、環境による影響をうける。ソーシャルネットワークでは、ユーザの振る舞いは、ニュースはフィード、流行りとトピックに左右される。自然言語では、出現するフレーズの意味は単語の組み合わせによってことなる。一般的な薬では、症状の相互作用により診断が確定する。ここで我々は、Mixed Membership Stochastic Block Model を提案する。これは、エンティティとその重要性の相互作用がもたらす役割を探索するものである。推論タスクでは、これらを考慮しないモデルと比較してパフォーマンスが改善されることがわかった。これにおいて、相互作用を無視して実世界の現象は語れない、ということを主張する。

Session 6: Interactive Recommendation

インタラクティブな推薦

Fast Multi-Step Critiquing for VAE-based Recommender Systems

最近の研究では、推薦時に説明も提供することにより、推薦の信頼と好感があがることが確認されている。さらに、説明に対して評価することにより、ユーザに推薦を改良する機会を与える。現状のRecSys では推薦、説明、批評を別々にモデリングするため、最終的なパフォーマンスに影響を与える。 一方、潜在的線形批判の手法がrecsys 上に構築されつつあるにもかかわらず、推論時の計算処理が非効率であることが課題となっている。これは、モデルがひとつひとつの会話に最適化されていることが理由としてあげられる。 そこで、M&Ms-VAE、multimodal modeling assumption をベースにした推薦と説明 のための新しい Variational autoencoder を提案する。完全と一部、両方の観測変数をシミュレーションするために、モデルは弱いsupervision のスキームで学習、その後、ユーザの嗜好と批判を独立して埋め込むことにより汎化能力をあげる。批判モジュールが画期的で、シンプルなランキングを目的に自己教師あり学習で構築する。検証で精度もよかったし、批判の処理はすごく速くなった。

Learning a Voice-based Conversational Recommender using Offline Policy Optimization

音声会話上の推薦システムは、質問をすることにより推薦の質をあげることができる。ここでは、対話マネージャーを学習するためにどのようにオフラインポリシー最適化を活用したか紹介する。対話では、どのアイテムを示し、どのような質問を投げかけるのか、どうすれば会話が成功するのか決定する。Counter-factual 学習により 比較対象のモデリングの技術をさまざまな会話のログデータに適用することができる。我々は Alexa の音楽推薦にこの手法を適用、抽象的な質問から最後の特定の曲の推薦までつなげていく。Offline policy evaluation では XGBoost reward regressor のパフォーマンスが、線形やニューラルなポリシーより性能がよかった。さらにA/B テストなどオンラインでの検証も実施し、オフライン検証が意義があることを確認した。

Large-scale Interactive Conversational Recommendation System using Actor-Critic Framework

従来のものより性能がよい AC-CRS を提案する。インタラクティブな推薦システムでは、まずユーザに最初の質問をしてもらい、そこから質疑応答を重ねて、推薦するアイテムを探す。他のモデルがアイテムを推薦した時点で会話を終了しがちだが、我々はユーザが推薦したアイテムを拒否した場合に会話を続けるモデルとした。これにより AC-CRS はより柔軟に会話ができる。AC-CRS は質問の価値(それがターゲットどどれくらい関連があるか?)を推し量ることができる。また、AC-CRSでは複数のアイテムを推薦することも可能としている。AC-CRS は大量のアイテムを取り扱うこともできる。実験では我々のモデルの効果があることが示された。

Generation-based vs. Retrieval-based Conversational Recommendation: A User-Centric Comparison

対話ベースの推薦システムにおいて、最近の研究ではニューラルモデルを活用したものが多い。このようなモデルは、システムが適切な応答を自然言語により生成する、といったものが多い。生成的なアプローチの他に あらかじめきまった応答から適切なものを取得する手法もある。現状、後者はあまり研究されていない。 この研究では、我々は取得ベースの対話推薦システムをあらためて評価する。2つのDL 対話システムと、NN + ヒューリスティックによる取得ベースの手法を比較し、ユーザ中心の評価をした。取得ベースのシステムがDL ベースのシステムを上回った。

The role of preference consistency, defaults and musical expertise in users’ exploration behavior in a genre exploration recommender

推薦システムにより、ユーザの音楽的嗜好をどのように探るのか研究した。データより、音楽のエキスパートは嗜好にあまり変化がないことがわかった。ユーザは自分の好みにあった音楽を探すが、この傾向はエキスパートの方が強い。これより、ジャンルの探索において 1. ちょっと違うジャンルの音楽を示すことはできるのか? 2. ちょっと違うジャンルの音楽推薦は推薦体験にどれくらい影響を及ぼすのか を検証した。これにより、リストのトップにある場合は受け入れられやすいが、エキスパートはあまり受け入れないということがわかった。もしほどよく混ざったリストを示されたら、ユーザはより探索的な選択をする。

Partially Observable Reinforcement Learning for Dialog-based Interactive Recommendation

会話ベースの推薦タスクではユーザは自然言語でフィードバックを表明するため、ここから読み取れるユーザの嗜好を推薦システムに組み込むことは難しい。RL ( POMDP) では ユーザと推薦システムのインタラクションをシミュレートすることができる。われわれは EGE (Estimator,Generator,Evaluator)を提案する。検証の結果SOTA モデルより改善した。