元CyberAgentの谷口氏、CyberAgent AILab AdEconチームリーダーの安井氏、CyberAgent AILab AdEconでインターン中の斎藤氏による勉強会。

1. CFMLの概要と研究動向 (谷口和輝氏 (@kazk1018))

本日のCFML勉強会の発表資料です。https://t.co/idwv6AsSGU
— Kazk1018 (@Kazk1018) July 10, 2019

マークシティで迷って少し遅れてしまった。駅直結のオフィスは便利そうで羨ましい。

・バンディットにおける選択しなかったアームの報酬をどう推論するかという問題と、因果推論の反実仮想モデルはいずれも「共変量シフト」として通底している

・共変量シフトとはp(y|x)は変わらないが，学習時のp(x)と推論時のp(x)が変わってしまうという問題．→ 基本的にはpropensity scoreのIPW推定が主流．

・Causal Inferenceについての学会動向

KDD

　Cauasl Discovery, 2018/2019

　Offline and Online Evaluation of Interactive Systems 2019

NIPS/NeurIPS

　From 'What if?' To 'What Next?' 2017

　Causal learning 2018

RecSys

　REVEAL 2018/2019

ICML

　FAIM'18 Workshop (Causal ML)

→（感想）医療ではバンディットというとかなりgreedyによった保守的な選択を取る（探索は，個々人の医師の裁量の範囲内を除くと，極めて限定的に登録・承認された先進医療やRCTでのみ実施される）ため，観察データからの因果推論が大きな意義を持つ．正直なところweb系はA/B testすればいいよね，と思っていたところがあったが，確かにログデータからしっかりと推論することがビジネス上も重要だと実感できた．

2. バンディットと因果推論（Shota Yasui氏 @housecat442)

https://t.co/MJ5ynkIm54
昨日のCounterfactual Machine Learning勉強会の資料です。バンディットのログデータで因果推論したら楽しいのではないか？という話をしてみました。
— shota yasui (@housecat442) July 11, 2019

・off-policy evaluation（バンディットのログデータからの評価）は反実仮想についての評価であり因果推論そのもの．

・take home messageは「確率的な意思決定をして，その確率データを持っておこう」という提案（現状ではargmaxかUCBがほとんど）

・それができないときは傾向スコアによるIPW推定で．

・Doubly Robustを用いてもよい．（このあたりも統計的因果推論の話）

・More Robust Doubly Robust (MRDR)という推定量もあるらしい．

→ （私見）バンディットのgreedy/exploreの話そのものだが，その単回での期待値は常にargmax >= 確率的意思決定となるので，そのデメリットと推定精度の向上がpayするかどうかが問題では．

3. 因果推論で推薦システムを問い直す（斎藤優太氏 @moshumoshu1205）

本日はCounterFactual Machine Learning勉強会#1のトリで推薦システムに潜在するバイアス補正の話題について話させていただきました。拙い部分もあったかと思いますが、多くの方にご参加いただくことができ、とても楽しかったです！https://t.co/Cg5qqxHbly
— usaito (@moshumoshu1205) 2019年7月10日

過去のデータを元に評価をすることをオフライン評価と呼ぶ。推薦システムのオフライン評価においては、観測データは過去の方策（推薦）に依存する。推薦したものしか観測されていない。ratingの場面であれば、ユーザーは中庸な評価のアイテムよりpos/negともに強い印象をもったアイテムに対して何らかのratingを付与しやすい。特にこの、「ユーザーによる自己選択」の部分は、システム側からは把握できないのが難しい。

この観測データ分布のまま最適化をしてしまうと「真に評価したい分布」と異なる分布に対する評価になってしまう。これをinversed propensity weighting によって補正すると、目的の分布に対しての最適化を実現できる。

なお、スライドではユーザー×アイテムについての離散的な一様分布を対象分布としていた。（ここについては結局推薦後のクリック率を最適化したいので、ランキング学習のような文脈での分布を想定することもできそう）

→（私見）「分布の違い」には最大限注意しよう、という大事な視点。医療でいうところのintention to treat analysis と as treated analysisの違いに近い話かも。

追記

統計寄りの学会としては，international causal inference conference, Atlantic Causal Inference Conferenceなどもあり，validationの困難さゆえに設定に気合の入ったコンペティションも開催されているよう．BARTやcausal forestを利用した因果推論についてもかなり豊富に文献があるようので，興味ある方は調べてみてください．