3日目にして、ようやくいろんなことに慣れてきましたが、もう終わりです!
Learning to Collaborate in Multi-Module Recommendation via Multi-Agent Reinforcement Learning without Communication
Abstract
Alibabaとの共同研究。同じページに推薦の「モジュール」が複数ある場合、そのままだとそれぞれが別々のモデルで学習、推論し、協調はしない。ただ、ユーザからすればひとつのモジュールでのユーザ行動はすべてのモジュールへのフィードバックとして学習してほしい。そこで、ゲーム理論を参考に二つのrewardを検討するSignal network の考えをとりいれる。オフライン、オンラインの検証をしていい結果がでた。
感想
ゲーム理論から発想。
Exploring Clustering of Bandits for Online Recommendation System
Abstract
contextual banditにはcold start problem がある。cluster of banditはユーザのuncertainty を考慮していない。
Clustering - explorable bandits を提案する。スパースに注意して、知識をadaptive cluster でshare するようにモデルを構成し、exploring clustering を通してユーザの関心を学習する。
感想
クラスタの作り方がわからなかった
Contextual User Browsing Bandits for Large-Scale Online Mobile Recommendation
Abstract
モバイルの画面はせまいので、見せられる商品の数も限られる。テキスト情報も少ししか表示できない。いまクリックしなかった情報をnegative sample に利用する手法があるが、このような状況では商品をみたかどうかわからないため、negative sample(あまりおきにめさなかった証拠)として扱うのは不適切。そこで、UBM 。これを Contextual Bandit に組み込む
感想
なんか二回話しているひとがいるw AB テストで、100万人 per day のユーザで検証するところが、Alibaba様。数の力。
Offline Contextual Multi-armed Bandits for Mobile Health Interventions: A Case Study on Emotion Regulation
Abstract
ER (emotional regulation)= 感情制御 を行うための、行動推薦システムを バンディットで作成する話。
ER はFlexibility / 人によってことなる という課題があり、 ER をscale させたいという思いもあって、調査。
dataset: N = 114 , 5週間のスマホのデータ、行動 + 1日6回気分をきく( negative - positive)
このデータからモデルを学習した。
感想
モデルよりわかった結果(どういう行動をとったら機嫌よくなるか?)を知りたい。論文をよむか。
[Industrial Talks] Building a Reciprocal Recommendation System at Scale from Scratch: Learnings from One of Japan’s Prominent Dating Applications
Abstract
SBX テクノロジーのIndustrial Talks
Tapple マッチングアプリを作っているので、その相互推薦の話。Reciprocal Recommendationの 難しさはmutual であること、 dynamicであること。Cold start problem ( あまりLike 乱発しない)もあるので、ひとつひとつ紐解いてクリアしている。
さらに、スケールさせないといけないので、DynamoDB → Sparkを AWS Step Function で構成するなど、システム面でも工夫しているよ。
感想
マッチングアプリの仕組みをつくるのは面白いんだろうなあ。そして儲かるんだろうなあ。