在线营销 | uplift模型纠偏之加权和表征纠偏方法 - 文章 - 开发者社区

picture.image

关注我们，一起学习

因果效应估计中经常会涉及到数据是RCT的随机对照样本还是观测样本，那RCT样本虽然可以得到准确的不同treatment下的effect但是RCT样本往往是比较昂贵的，包括但不限于RCT实验带来的预算消耗等，因此RCT实验通常只会开一个很小的流量样本量相对会比较少，所以需要考虑使用观测样本建模。

而观测样本通常是有偏的，观测样本往往会受到线上各种策略的影响（包括人群的分层，运筹等），因此如何对有偏数据纠偏是经常探讨的话题，本节我们一起探讨一下纠偏相关的方法

表征纠偏系列 =========

1.1 IPM分布约束

CFRNet[1]在共享层引入了分布约束，约束实验组和对照组的embedding的分布要接近，采用MMD距离或WASS距离要计算实验组和对照组的表征分布的距离，在loss中引入MMD/WASS距离约束。

无论是MMD还是WASS距离，在计算得过程中都是计算两个分布之间的距离，如果要扩展到multi-treatment场景，则复杂度会上升很多，需要去计算两两之间的距离

1.2.打乱标签

在使用IPW等加权的纠偏方式的时候，我们希望的是能够准确的预估treatment的倾向性预估分数（propensity score），然后采用得到的倾向性预估分数对treatment outcome进行加权。

而EFIN[2]是把思路反过来，EFIN是希望模型无法区分出当前样本属于哪一个treatment，从而达到在表征级别纠偏的目的，因此该方法是在propensity score训练分支中，将treatment的标签颠倒，比如

，treatment label改为

1.3.梯度反转

picture.image

RMNet[3]采用的思路和EFIN类似，但是所采用的方式是梯度反转而不是直接修改标签，基于模型结构来看，上图中如果是EFIN则是颠倒propensity tower的label；而RMNet是在梯度传回share层的时候做梯度反转，对共享层的表征进行纠偏

1.4.表征分解

picture.image DeR-CFR[4][5]是对输入表征中存在的confounder进行分解，将原始表征分解为instrument，confounding和adjustment，因果图满足上面的结构

instrument（工具变量），具有相关性和排他性，相关性表示该变量和treatment强相关，排他性表示该因子和最终的outcome Y无关；简而言之，工具变量只通过treatment影响outocme而不能直接影响outcome Y
confounder（混淆因子），同时影响treatment和outcome从而导致treatment effect出现偏差的因子
adjustment（调整变量），用于控制混淆因子的影响，有助于outocme预估的一些因子 DeR-CFR是DR-CFR的改进版本，在原始的协写变量中从表征层面拆解出三种因子，然后结合

来预估T，结合

来预估Y。

同时需要考虑三者之间的独立关系

考虑Adjustment应该和T独立并且要尽可能能准确预估出outcome Y，因此构造损失函数如下，其中disc为IPM，用于计算实验组和对照组的分布的距离，后者用于adjustment的表征的预估分和outcome y的loss（可以是MSE，CE等）
从平衡表征的角度出发，我们是希望confounder对treatment的影响越小越好，因此约束不同treatment样本的confounder

的分布要接近，这里平衡的过程中有一个weight w，这个后面单独解释

和低一点Adjustment类似，Instrument应该和outcome Y独立，因此对于给定的treatment k，

在不同Y值下的分布应该是接近的；并且

应该要能比较好的预测出treatment。

笔者的《自以为是》：这里做分布约束disc来保证A和T独立，I和Y独立以及去掉C对T的影响；那是不是也可以用类似上面的方法，让这些表征预测不准是不是也可以
上述在I和C中都用到了weight

，主要是因为在观测样本中数据是有偏的，因此C对T会有影响，那要去掉影响则可以采用

在w下C跟T条件独立；同理I对Y也一样；档w为倾向性分数时就是IPW的思想了，但是直接采用IPW依赖于模型对propensity score学习的好坏

为了使得A，I和C能够充分的分解，作者额外加入了对产生

的参数进行约束，

表示产生I的参数的均值。

最后C&A需要能够预测出准确的outcome Y
优化过程包含两部分：模型参数和前述的weight w；固定w，优化最小化

优化模型参数；固定模型，最小化

更新w；Reg是正则项

约束模型参数的l2正则，

约束w不全为0

，

约束

的权重和接近1防止全都学成0了

1.5.后门调整

picture.image

DragonNet

DragonNet[6]的前身是NEDnet，NEDnet是两阶段的，我们假设存在共享层A和倾向性预估层B，网络结构为A->B，在训练完这个网络后，固定共享层A的参数，然后采用类似TARNet的结构在共享层之上构建不同treatment的分支去学习个字的outcome。他的思路是说，先去学习倾向性的信息，在已经学习到倾向性的表征后，各个分支可以只关注自己treatment自身的信息。

那DragonNet是端到端版本，其中倾向性预估中Z->g()中间没有更多的MLP等NN层，目的就是让Z和预估的g紧密相连，防止倾向性的信息被学习到共享层之外的tower；其他的两个分支用于学习outcome

在此基础上，DragonNet额外加入了Target Regularization，但笔者认为这部分是为了让估计更准，本身和纠偏的思想关系不大

加权 =====

2.1. IPW

IPW（逆概率加权）是常用的加权纠偏方式，以DESCN[7]为例，将其中用到的公式简化一下表示为下式，其中

为倾向性分数，我们真实需要用到的是

，但是实际的观测样本的label对应的预测值是

，因此在优化损失函数后，我们使用

来作为最终给的预测，相当于实现了

的逆概率加权

2.2. loss加权

CFRNet中基于不同treatment的样本量构造了响应的权重来对不同treatment组的样本进行加权

此类方法的问题是，粒度比较粗，只是基于不同组的样本量来加权，没有细化到样本粒度，如果两个样本属于同一个treatment组则他们的权重是一样的；样本粒度的有CFR-ISW等方法，在考虑样本量比例的同时还考虑倾向性分数，两者结合来做加权

总结

本文我们探讨了在观测样本下，uplift模型的纠偏方法，包括表征纠偏和加权纠偏，当然除了加权和表征纠偏方法还存在例如Double Machine Learning（DML）等方法，感兴趣的话我们将在后续的章节继续讨论

参考

[1] Estimating individual treatment effect: generalization bounds and algorithms

[2] Explicit Feature Interaction-aware Uplift Network for Online Marketing

[3] Towards Effective and Efficient Multi-valued Treatment Uplift Modeling in Online Marketing

[4] Learning Decomposed Representation for Counterfactual Inference

[5] https://zhuanlan.zhihu.com/p/470041148

[6] Adapting Neural Networks for the Estimation of Treatment Effects

[7] DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

在线营销-uplift模型评估指标（一）

STREAM-Rec: 推荐系统实现慢思考推理！

大模型慢思考技术探讨

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image