因果推断学习笔记.4

本篇主要记录 A Survey of Learning Causality with Data: Problems and Methods 的调研记录。这是一篇机器学习研究者视角下的因果推断研究综述。

因果推断的两大研究方向

  1. 因果推理(causal inference):研究指定变量对另一变量的影响程度=已知因果关系,求关系强度
  2. 因果发现(causal discovery):研究哪些变量会对指定变量产生影响=不知因果关系,求因果关系

用于因果推断的数据形式

  • 干预型数据:至少一个变量是通过(人为)干预设定的
  • 观测型数据:任何变量都是依靠因果关系中的“因”确定的

例如,为了调查顾客对餐厅满意度的影响因素,可以使用现有的点评记录数据(观测型数据)或通过进行某些处理/干预来收集不同条件下的点评记录数据(干预型)。一般观测型数据比干预型数据更加容易获得。

用于因果推理的数据

共有3种形式:

  1. 标准数据集:
    • : 样本特征矩阵
    • : 样本处理向量。第个分量标记样本被处理(值为1)或未处理(值为0)
    • : 样本结果向量。第个分量标记样本处理/未处理后的状态
  2. 标记不同数据单元间相互连结关系的辅助信息(用矩阵表示)
    • 例如时间序列、时序点过程(由不同时间点的随机事件组成的随机过程)、属性网络
    • 不直接显示目标变量间的因果关系,但不同数据单元间的联系间接蕴含了因果关系
  3. 包含未观测的干扰因素(unobserved confounders)的数据
    • 辅助变量(instrumental variable)
    • 中介变量(mediator)
    • running variable (暂不理解,待补充)

用于因果发现的数据

  1. 多元数据+标准因果图,其中用于因果发现模型的评测
    • 源于先验知识,有可能是不完善(incomplete)的。
  2. 多元时间序列数据+标准因果图

因果推断的基本框架

  • 结构因果模型(Structural Causal Model, SCM)
  • 潜在结果框架(Potential Outcome Framework)

第一次读因果推断的综述论文,比较懵。

接下来以阅读Judea Pearl的Causal Inference in Statistics: A Primer为主。

参考文献

  1. Guo, Ruocheng & Cheng, Lu & Li, Jundong & Hahn, Paul & Liu, Huan. (2018). A Survey of Learning Causality with Data: Problems and Methods.