关注我们,一起学习
因果效应估计中经常会涉及到数据是RCT的随机对照样本还是观测样本,那RCT样本虽然可以得到准确的不同treatment下的effect但是RCT样本往往是比较昂贵的,包括但不限于RCT实验带来的预算消耗等,因此RCT实验通常只会开一个很小的流量样本量相对会比较少,所以需要考虑使用观测样本建模。
而观测样本通常是有偏的,观测样本往往会受到线上各种策略的影响(包括人群的分层,运筹等),因此如何对有偏数据纠偏是经常探讨的话题,本节我们一起探讨一下纠偏相关的方法
- 表征纠偏系列 =========
1.1 IPM分布约束
CFRNet[1]在共享层引入了分布约束,约束实验组和对照组的embedding的分布要接近,采用MMD距离或WASS距离要计算实验组和对照组的表征分布的距离,在loss中引入MMD/WASS距离约束。
无论是MMD还是WASS距离,在计算得过程中都是计算两个分布之间的距离,如果要扩展到multi-treatment场景,则复杂度会上升很多,需要去计算两两之间的距离
1.2.打乱标签
在使用IPW等加权的纠偏方式的时候,我们希望的是能够准确的预估treatment的倾向性预估分数(propensity score),然后采用得到的倾向性预估分数对treatment outcome进行加权。
而EFIN[2]是把思路反过来,EFIN是希望模型无法区分出当前样本属于哪一个treatment,从而达到在表征级别纠偏的目的,因此该方法是在propensity score训练分支中,将treatment的标签颠倒,比如
,treatment label改为
->
1.3.梯度反转
RMNet[3]采用的思路和EFIN类似,但是所采用的方式是梯度反转而不是直接修改标签,基于模型结构来看,上图中如果是EFIN则是颠倒propensity tower的label;而RMNet是在梯度传回share层的时候做梯度反转,对共享层的表征进行纠偏
1.4.表征分解
DeR-CFR[4][5]是对输入表征中存在的confounder进行分解,将原始表征分解为instrument,confounding和adjustment,因果图满足上面的结构
- instrument(工具变量),具有相关性和排他性,相关性表示该变量和treatment强相关,排他性表示该因子和最终的outcome Y无关;简而言之,工具变量只通过treatment影响outocme而不能直接影响outcome Y
- confounder(混淆因子),同时影响treatment和outcome从而导致treatment effect出现偏差的因子
- adjustment(调整变量),用于控制混淆因子的影响,有助于outocme预估的一些因子 DeR-CFR是DR-CFR的改进版本,在原始的协写变量中从表征层面拆解出三种因子,然后结合
来预估T,结合
来预估Y。
同时需要考虑三者之间的独立关系
-
考虑Adjustment应该和T独立并且要尽可能能准确预估出outcome Y,因此构造损失函数如下,其中disc为IPM,用于计算实验组和对照组的分布的距离,后者用于adjustment的表征的预估分和outcome y的loss(可以是MSE,CE等)
-
从平衡表征的角度出发,我们是希望confounder对treatment的影响越小越好,因此约束不同treatment样本的confounder
的分布要接近,这里平衡的过程中有一个weight w,这个后面单独解释
- 和低一点Adjustment类似,Instrument应该和outcome Y独立,因此对于给定的treatment k,
在不同Y值下的分布应该是接近的;并且
应该要能比较好的预测出treatment。
- 笔者的《自以为是》:这里做分布约束disc来保证A和T独立,I和Y独立以及去掉C对T的影响;那是不是也可以用类似上面的方法,让这些表征预测不准是不是也可以
- 上述在I和C中都用到了weight
,主要是因为在观测样本中数据是有偏的,因此C对T会有影响,那要去掉影响则可以采用
在w下C跟T条件独立;同理I对Y也一样;档w为倾向性分数时就是IPW的思想了,但是直接采用IPW依赖于模型对propensity score学习的好坏
- 为了使得A,I和C能够充分的分解,作者额外加入了对产生
的参数进行约束,
表示产生I的参数的均值。
-
最后C&A需要能够预测出准确的outcome Y
-
优化过程包含两部分:模型参数和前述的weight w;固定w,优化最小化
优化模型参数;固定模型,最小化
更新w;Reg是正则项
,
约束模型参数的l2正则,
约束w不全为0
,
约束
的权重和接近1防止全都学成0了
1.5.后门调整
DragonNet
DragonNet[6]的前身是NEDnet,NEDnet是两阶段的,我们假设存在共享层A和倾向性预估层B,网络结构为A->B,在训练完这个网络后,固定共享层A的参数,然后采用类似TARNet的结构在共享层之上构建不同treatment的分支去学习个字的outcome。他的思路是说,先去学习倾向性的信息,在已经学习到倾向性的表征后,各个分支可以只关注自己treatment自身的信息。
那DragonNet是端到端版本,其中倾向性预估中Z->g()中间没有更多的MLP等NN层,目的就是让Z和预估的g紧密相连,防止倾向性的信息被学习到共享层之外的tower;其他的两个分支用于学习outcome
在此基础上,DragonNet额外加入了Target Regularization,但笔者认为这部分是为了让估计更准,本身和纠偏的思想关系不大
- 加权 =====
2.1. IPW
IPW(逆概率加权)是常用的加权纠偏方式,以DESCN[7]为例,将其中用到的公式简化一下表示为下式,其中
为倾向性分数,我们真实需要用到的是
,但是实际的观测样本的label对应的预测值是
,因此在优化损失函数后,我们使用
来作为最终给的预测,相当于实现了
的逆概率加权
2.2. loss加权
CFRNet中基于不同treatment的样本量构造了响应的权重来对不同treatment组的样本进行加权
此类方法的问题是,粒度比较粗,只是基于不同组的样本量来加权,没有细化到样本粒度,如果两个样本属于同一个treatment组则他们的权重是一样的;样本粒度的有CFR-ISW等方法,在考虑样本量比例的同时还考虑倾向性分数,两者结合来做加权
总结
本文我们探讨了在观测样本下,uplift模型的纠偏方法,包括表征纠偏和加权纠偏,当然除了加权和表征纠偏方法还存在例如Double Machine Learning(DML)等方法,感兴趣的话我们将在后续的章节继续讨论
[1] Estimating individual treatment effect: generalization bounds and algorithms
[2] Explicit Feature Interaction-aware Uplift Network for Online Marketing
[3] Towards Effective and Efficient Multi-valued Treatment Uplift Modeling in Online Marketing
[4] Learning Decomposed Representation for Counterfactual Inference
[5] https://zhuanlan.zhihu.com/p/470041148
[6] Adapting Neural Networks for the Estimation of Treatment Effects
[7] DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
图片
长按关注,更多精彩
图片
点个在看你最好看