本文从以下六个方面来阐述,介绍内容较基础。
-
基本概念
-
难题和挑战
-
经典因果推断模型
-
子空间因果推断模型
-
深度表征学习因果推断模型
-
参考文献
一、基本概念
因果关系 Causality 指的是Cause和Effect,在很多领域被广泛应用,例如数据分析, 哲学、心理学、经济学、教育和医学等。
Causation和Correlation的区别 ,因果关系的存在,必然会伴随着相关性。但是,从因到果还需时间上的先后顺序、以及合理的机制等。因此,相关性只是因果关系的必要不充分条件。相关性并不一定代表着有因果关系。
因果推断和因果发现 ,因果发现是是通过计算方法从大量数据中识别因果关系,因果推理是根据结果发生的条件对因果关系作出结论的过程。
Experimental Study和Observational Study,实验学习中样本是随机的,treatment group和control group都是随机分配的,但是Observational Study中Treatment的分配一定是有策略的,非随机的。
因果推断有 两个经典框架 ,一个是基于Judea Pearl的结构因果模型Structure Causal Model,一个是基于Rubin提出的Potential Outcome Framework。不过二者在底层原理上也是相同的。下面重点介绍一些Rubin的POF框架中的相关概念。
- Unit,研究对象
- Treatment,施加在研究对象上的Action
- Outcome,在Unit被施加Treatment/Control后的输出结果
- Treatment Effect,当施加不同的Treatment时,Unit的Outcome的变化
- Potential Outcome,Unit被施加Treatment后所有可能的输出被称为潜在结果
- Observed Outcome,实验观测到的Unit被施加Treatment时的输出结果
- Counterfactual Outcome,实验中Unit没有发生的潜在结果,称为反事实结果
Treatment Effect的评估指标:ATE,ITE 和CATE
-
ATE,Average Treatment Effect,人群级别的评估指标,计算方式如下
-
ITE,Individual Treatment Effect,个体级别的评估指标,计算方式如下
-
CATE,Conditional Average Treatment Effect,Subgroup 级别的评估指标,计算方式如下
三大重要假设
-
Stable Unit Treatment Value Assumption SUTVA:Unit之间是相互独立的,即当对一个Unit施加treatment之后,不会影响其他Unit的Outcome;
-
Ignorability:在给定X的情况下,Treatment和Potential Outcome之间是相互独立的;
-
Positivity:对于任意一组X的值,Treatment是不确定的,即X和Treatment是随机的。
二、难题和挑战
重要概念:Confounders
Confounder是指实验中的一种变量,同时影响了Treatment,又影响了outcome,当实验中农存在这种变量时,便可能出现辛普森悖论。
上述表格中Age便是一个Confounder,age同时影响了治疗方式Treatment,又影响治疗效果,所以分组数据Young和Older,结论都是Treatment B的治疗效果更好,但是总体数据却得出Treatment A的治疗效果更好,这就是辛普森悖论。
重要概念: Selection Bias
Selection Bias是指观测组的数据分布不具有代表性,直白点来说就是X和Treatment之间不是相互独立的,会存在偏差。Confounder变量的存在会影响Unit对于Treatment的选择,进而导致了selection bias,进而selection bias又会使得counterfactual outcome的预估变得更加困难。
结论:Confounder好Selection bias是Causal inference中的两个重大难题,很多方法都是在着力解决这两大问题。
三、经典因果推断模型
1. Re-weighting methods ,核心思想:为了解决数据中存在的selection bias,通过给观察数据集中的每个样本分配适当的权重,建立了一个伪总体,在这个伪总体上实验组和对照组的分布是相似的,权重的计算通过propensity-score methods来求解。
2. Mathching methods ,核心思想:通过距离函数计算,将相似的数据分别分到实验组和对照组,该方法在估计反事实的同时,减少了由混杂因素带来的估计偏差。使用较多的matching方式时propensity score matching。
- Tree-based methods,核心思想:是一种基于决策树的预测模型,如分类树和回归树。在CART中,一棵树被建立直到达到分裂容忍。这里只有一棵树,可以根据需要进行生长和修剪
4. Stratification methods ,核心思想:也是为了解决数据中存在的selection bias,通过将整个组分成子组来调整选择偏倚,在每个子组中,处理组和对照组在某些测量下是相似的
5. Multitask Learning methods ,实验组和对照组使用不同的模型,共享一些共同的特点
6. Meta-Learning methods ,例如:S-learner,T-Learner,X-learner,R-learner等,是一个系列的解决方案。
四、子空间因果推断模型
核心思想:在original data space中执行matching是简单方便的,但是缺点是容易被不影响outcome的变量所误导,因此,可以映射到subspace进行matching来解决该问题。存在的方案有
-
NNM with Random Subspaces
-
Informative Subspace Learning
-
Nonlinear and Balanced Subspace Learning 这里给大家分享几篇经典论文
-
2016 Large sample properties of matching estimators for average treatment effects.
-
AAAI 2017 Informative Subspace Learning for Counterfactual Inference
-
IJCAI 2016 Matching via Dimensionality Reduction for Estimation of Treatment Effects in Digital Marketing Campaigns
-
NIPS 2017 Matching on balanced nonlinear representations for treatment effects estimation
五、深度表征学习因果推断模型
该方法将因果推断和深度学习相结合,分为以下三类
-
Balanced representation learning
-
Local similarity preserving based methods
-
Deep generative model based methods 这里给大家推荐几篇经典论文
-
ICDM 2019 ACE- Adaptively Similarity-Preserved Representation Learning for Individual Treatment Effect Estimation.
-
ICLR 2018 GANITE Estimation of Individualized Treatment Effects using Generative Adversarial Nets
-
ICML 2016 Learning Representations for Counterfactual Inference
-
IJCAI 2019 On the estimation of treatment effect with text covariates.
-
JMLR 2017 Estimating individual treatment effect- generalization bounds and algorithms
-
NIPS 2017 Causal Effect Inference with Deep Latent-Variable Models
-
NIPS 2018 Representation learning for treatment effect estimation from observational data
六、参考文献
-
A Survey on Causal Inference
-
Causal Inference in Machine Learning
-
Machine Learning for Causal Inference
-
From how to why: An overview of causal inference in machine learning
长按关注,更多精彩
往期精彩
SIGIR'22「阿里」MetaCVR:元学习缓解小规模推荐中数据分布波动问题
如果有用就点赞,收藏,转发三连呀!欢迎关注公众号