勉強の記録

機械学習、情報処理について勉強した事柄など

個人因果効果をどうやって推論するか①

①と銘打っているが、続くかどうか。ほかに

あたりも見ていきたいところ。

Estimating individual treatment effect: generalization bounds and algorithms

ICML 2017から。ICMLには毎年causalityのセクションがあり、機械学習を活用した因果推論について他にも面白そうな発表が多いので、これを数年前から追ってみようという企画。

icml.cc

枠組み

・因果効果の枠組みはRubinのpotential outcome model.

・いわゆる強く無視できる割当の仮定

このあたりは因果推論のデファクトか。introに述べられている通り、「強く無視できる割当」はデータからは判断することができず、ドメイン知識や変数間の因果関係の事前知識によって判断される必要がある。

概要

治療群の分布と、非治療群の分布が異なることがICE推定の難点。 これを、Integral Probability Metric (IPM)を使って上からおさえてやろうという発想。

IPMはざっくり言うと確率分布間の距離の指標らしく、 ・Maximum Mean Discrepancy ・Wasserstein distance の2つが用いられている。

ITE: τはY1, Y0のエラー+IPM項で上から押さえられる。

これをY0, Y1, IPMを別々に解くのではなく、総和を最適化すべくrepresentation learning (Bengio et al., 2013)の枠組みで学習している。

f:id:tmitani-tky:20190708171216p:plain
Shalit+, 2017

貢献

漸近一致性のみではなく、generalization-errorの程度を求めた。

randomised componentや操作変数を想定せず、観察研究の場面にも適用可能なモデル。

実験

CausalForestsやdoubly robustなど各種の因果推論の方法と比較。データセットはシミュレーションで生成したものとJobsというデータセット。 Jobsの方はrandom化されたcomponentで評価したのではっきりしない(という主張)だが、シミュレーションのものではもっとも良かったらしい。

感想

IPMの計算のところでLipschitz fuction、Hilbert spaceのあたりがでてきたのだけど、このあたりは理解の範囲外。

ざっくりいうとmulti-task learningのような枠組みか。IPWを最小化することでtreatmentと独立した「病状」といった表現を学習し、治療への効果はその表現から後段のネットワークで学習する。outcomeは実数値でbinaryの制約もなく、ネットワーク構造も比較的柔軟にモデリングできそう。

causal forestは信頼区間が広くなりがちなのが難点っぽいのだけど、こちらのほうが押さえられるのであれば嬉しい。

terminology

asymptotic consistency:漸近一致性