因果推断的常用方法。
承接上文
推断因果关系:试问某种处理/因素/变量,对于个体的状态有没有影响(因果作用)?
Rubin Causal Model (RCM)
- 设
表示个体 接受处理与否(处理取1,对照取0); 表示个体 的结果变量。另外记二元组 表示个体 接受处理或对照的潜在结果(potential outcome)。那么 表示个体 接受处理的个体因果作用。 然而问题在于,每个个体要么接受处理,要么作为对照,因此在一次观测中
必然缺失一半,因此个体的因果作用是不可识别的(注意,这里不允许前一个时刻对照、后一个时刻处理)。从概率的角度看, 可以看成样本空间 中的样本点 。但是在 做随机化的前提下,我们可以识别总体的平均因果作用(Average Casual Effect, ACE): 这是因为
注:这里
是固定的,期望的取法是将 视作随机变量,对 取条件期望 上述推导表明,随机化试验对于平均因果作用的识别起着至关重要的作用。
观测性研究:可忽略性、倾向得分与回归分析
- 上一节的结论表明随机化试验对于平均因果作用的识别非常重要。然而在现实中,很多研究都是无法进行随机化试验的的(对同一个体的随机化)。在观测性研究中,通常能搜集到以下数据:个体的信息变量
(如年龄、性别)、个体是否接受处理 (如是否吃某种新药、是否吸烟等)、个体的结果变量 (如康复情况、肺部清洁程度等)。那么,我们可以用如下条件期望之差去估计 吗? - 答案是:不能。反面教材:辛普森悖论(Yule-Simpson Paradox)
- 这就引出一个
的识别性问题,即通过观测数据我们能否得到ACE的相合估计。实际中,这需要一个不可验证的假定:可忽略性。
可忽略性&ACE的识别性
- 可忽略行假定:
。即上文公式中的“随机化”。 - 这是一条不可验证的假定,它的存在使得我们可以通过观测数据识别
。然而,在观测性研究中,个体选择处理与否( )与其个体属性可能相关(注意,本质上, 也是个体属性的一部分!),上面的假定可能被破坏。但通常的方法是,收集充分多的个体信息 ,使得如下的强可忽略性假定成立:可以证明,此时的 是可以识别的,因为 - 在上述推导中,通过全期望公式引入个体信息变量
的权重,解决了辛普森悖论的问题。接下来的问题是,如何通过上述条件期望计算 。目前有三种方法: 倾向得分(propensity score)
线性回归(linear regression)
Heckman Selection Model(又称Tobit Model)