因果推断学习笔记.2

因果推断的常用方法。

承接上文

推断因果关系:试问某种处理/因素/变量,对于个体的状态有没有影响(因果作用)?

Rubin Causal Model (RCM)

  • 表示个体接受处理与否(处理取1,对照取0);表示个体结果变量。另外记二元组表示个体接受处理或对照的潜在结果(potential outcome)。那么表示个体接受处理的个体因果作用
  • 然而问题在于,每个个体要么接受处理,要么作为对照,因此在一次观测中必然缺失一半,因此个体的因果作用是不可识别的(注意,这里不允许前一个时刻对照、后一个时刻处理)。从概率的角度看,可以看成样本空间中的样本点。但是在做随机化的前提下,我们可以识别总体的平均因果作用(Average Casual Effect, ACE):

    这是因为

    注:这里是固定的,期望的取法是将视作随机变量,对取条件期望

  • 上述推导表明,随机化试验对于平均因果作用的识别起着至关重要的作用。

观测性研究:可忽略性、倾向得分与回归分析

  • 上一节的结论表明随机化试验对于平均因果作用的识别非常重要。然而在现实中,很多研究都是无法进行随机化试验的的(对同一个体的随机化)。在观测性研究中,通常能搜集到以下数据:个体的信息变量(如年龄、性别)、个体是否接受处理(如是否吃某种新药、是否吸烟等)、个体的结果变量(如康复情况、肺部清洁程度等)。那么,我们可以用如下条件期望之差去估计吗?
  • 答案是:不能。反面教材:辛普森悖论(Yule-Simpson Paradox
  • 这就引出一个的识别性问题,即通过观测数据我们能否得到ACE的相合估计。实际中,这需要一个不可验证的假定:可忽略性

可忽略性&ACE的识别性

  • 可忽略行假定:。即上文公式中的“随机化”。
  • 这是一条不可验证的假定,它的存在使得我们可以通过观测数据识别。然而,在观测性研究中,个体选择处理与否)与其个体属性可能相关(注意,本质上,也是个体属性的一部分!),上面的假定可能被破坏。但通常的方法是,收集充分多的个体信息,使得如下的强可忽略性假定成立:可以证明,此时的是可以识别的,因为
  • 在上述推导中,通过全期望公式引入个体信息变量的权重,解决了辛普森悖论的问题。接下来的问题是,如何通过上述条件期望计算。目前有三种方法:

    倾向得分(propensity score)
    线性回归(linear regression)
    Heckman Selection Model(又称Tobit Model)

参考文献

  1. 丁鹏.因果推断简介.PKU-MATH-00112230.2019