因果推断学习笔记.3

观测性研究中对平均因果作用()的估计方法:倾向得分(propensity score)、线性回归、Heckman Selection Model。本篇主要介绍倾向得分方法。线性回归和HSM可见文末附参考文献。

观测性研究中对ACE的估计方法

倾向得分

如上篇学习笔记所言,如果个体信息变量足够简单,为二值变量(如性别),则可以按照将样本分为两层,在每层分别估计后再做加权平均,即可得到全体的相合估计。但事实上,维数很高且可能有连续分量,因此很难将样本按分层。即便能分层,也会面临类别不平衡的问题。为此,Rosenbaum and Rubin(1983) 提出了倾向得分的概念。

定义:倾向得分的定义为:

且满足

  1. 如果有强可忽略性假定(即)且,则

分层方法

上述第二条性质表明,如果给定样本信息,处理机制是可忽略的,那么只需要给定一个一维的变量,处理机制也是可以忽略的。这样一来,我们得到了估计ACE的分层(stratify)方法:

  • Step 1: 先拟合一个Logistic/Probit模型(自变量为,因变量为),估计每个个体的倾向得分
  • Step 2: 用估计的倾向得分分层(相当于把倾向得分当作个体信息),在每一层中估计平均因果作用,再加权平均即可。

加权方法

此外,Hirano, Imbens and Ridder(2003)从经验似然的角度指出了另一种“加权方法”(weighting),并证明了该方法是半参数有效的估计方法。该方法使用以下统计量作为的估计:

参考文献

  1. 丁鹏.因果推断简介.PKU-MATH-00112230.2019