Doubly Robust の直感的解釈(を書こうとしたけど無理だった)

因果推論において、Doubly Robust法とは、傾向スコアまたはresponse functionのどちらかがmisspecifiedされていても、CATE(またはATEなど何かしらの介入効果)の不偏推定量を求めることができる手法です。

Notation, Definition, Assumption

$$ \begin{align} &\text{共変量(covariate)}:X \in \mathbb{R}^p \\ &\text{介入(treatment)}: T \in {0,1}\\ &\text{potential outcome}: Y(t) \in \mathbb{R}\\ &\text{被説明変数(outcome)}: Y = Y(1)T - Y(0)(1-T) \in \mathbb{R}\\ &\text{傾向スコア(propensity score)}:p(x) = E[T=1|X=x]\\ &\text{反応関数(?)(response function)}: \mu_t(x) = E[Y|T=t,X=x] = E[Y(t)|T=t,X=x]\\ &\text{CATE(Conditional Average Treatment Effect)}: E[Y(1)|X=x] - E[Y(0)|X=x] = \mu_1(x) - \mu_0(x) \end{align} $$

なお、以下では、Conditional unconfoundedness: $Y(1),Y(0) \perp T | X$およびoverlap condition: $\forall x :0<p(x)<1$は満たされていると仮定します。この仮定のもとでは、$E[Y(1)T|X=x] = E[Y(1)|X=x]E[T|X=x]=E[Y(1)]$

Doubly Robust推定量

Doubly Robust推定量とは、先述の通り「傾向スコアまたはresponse functionのどちらかがmisspecifiedされているときでも成立する、CATEの不偏推定量」です。その性質さえ満たしていればDoubly Robustなので、Doubly Robustな推定量自体はたくさん開発されていますが、その根幹になる式は以下のものだと理解しています。 $$ \begin{align} E[Y(1)|X=x] &= E\left[ \frac{TY}{p(X)} | X= x\right] - E \left [\frac{T-p(X)}{p(X)} \mu_1(X) | X=x \right] \quad (1) \end{align} $$

(1)のsample analogue(サンプルでの平均)をとってやると、いわゆるAugumented Inverse Probability Weightingに帰着します。この式が、$p(x),\mu_1(x)$のどちらかが間違っていたとしても成立することを今から説明していきます。

\eqref{1}の右辺を書き換えてみましょう。 $$ \begin{align} &E\left[ \frac{TY}{p(X)} | X= x\right] - E \left [\frac{T-p(X)}{p(X)} \mu_1(X) | X=x \right] \\ = &\frac{ E\left[ TY | X= x\right]}{p(x)} - \frac{E \left [T-p(x) | X=x \right] }{p(x)} \mu_1(x) \quad (2) \\ = &\mu_1(x) - \frac{E[T(Y-\mu_1(x))|X=x]}{p(x)} \quad (3) \end{align} $$

この変形は$p(x),\mu_1(x)$が特定化されていなくても成立することに注意して下さい。つまり、たとえ$\mu_1(x)$や$p(x)$がでたらめな関数でも成立する変形です。

では、$p(x)$は正しく特定化されており、$\mu(x)$はでたらめな関数だったとしましょう。でたらめであることを明示的にするために、$\tilde{\mu}_1(x)$と書きます。(2)の第一項は

$$ \begin{align} \frac{E[TY|X=x]}{p(x)} &= \frac{E[T(TY(1) - (1-T)Y(0))|X=x]}{p(x)} \\ &= \frac{E[TY(1)|X=x]}{p(x)} \\ &= \frac{E[T|X=x]}{p(x)}E[Y(1)|X=x] \\ &= E[Y(1)|X=x] \end{align} $$

となり、第2項が0になれば\eqref{1}が成立しそうです。では、第二項を見てみると $$ \begin{align} \frac{ E\left[ T-p(x)| X= x \right]}{p(x)} \tilde{\mu}1(x) = \frac{p(x) - p(x)}{p(x)} \tilde{\mu}1(x) = 0 \end{align} $$

となり、確かに成立します!すごい!

つぎに、$p(x)$はでたらめな$\tilde{p}(x)$で、$\mu(x)$は正しく特定化されているとしましょう。でたらめとは言いましたが、一応、$\tilde{p}(x)>0$は満たされているとします。すると、今度は(3)に注目してやると、第一項は$E[Y(1)|X=x]$なので、第二項が0に帰着してほしくなります。すると、実際に $$ \begin{align} \frac{E[T(Y-\mu_1(x))|X=x]}{\tilde{p}(x)} &= \frac{E[T|X=x]E[Y-\mu_1(x)|X=x]}{\tilde{p}(x)}\\ &= \frac{p(x) \cdot 0}{\tilde{p}(x)} = 0 \end{align} $$

しゅごい!