在线营销 | uplift模型纠偏之加权和表征纠偏方法

大模型机器学习数据库

picture.image

关注我们,一起学习

因果效应估计中经常会涉及到数据是RCT的随机对照样本还是观测样本,那RCT样本虽然可以得到准确的不同treatment下的effect但是RCT样本往往是比较昂贵的,包括但不限于RCT实验带来的预算消耗等,因此RCT实验通常只会开一个很小的流量样本量相对会比较少,所以需要考虑使用观测样本建模。

而观测样本通常是有偏的,观测样本往往会受到线上各种策略的影响(包括人群的分层,运筹等),因此如何对有偏数据纠偏是经常探讨的话题,本节我们一起探讨一下纠偏相关的方法

  1. 表征纠偏系列 =========

1.1 IPM分布约束

CFRNet[1]在共享层引入了分布约束,约束实验组和对照组的embedding的分布要接近,采用MMD距离或WASS距离要计算实验组和对照组的表征分布的距离,在loss中引入MMD/WASS距离约束。

无论是MMD还是WASS距离,在计算得过程中都是计算两个分布之间的距离,如果要扩展到multi-treatment场景,则复杂度会上升很多,需要去计算两两之间的距离

1.2.打乱标签

在使用IPW等加权的纠偏方式的时候,我们希望的是能够准确的预估treatment的倾向性预估分数(propensity score),然后采用得到的倾向性预估分数对treatment outcome进行加权。

而EFIN[2]是把思路反过来,EFIN是希望模型无法区分出当前样本属于哪一个treatment,从而达到在表征级别纠偏的目的,因此该方法是在propensity score训练分支中,将treatment的标签颠倒,比如

,treatment label改为

->

1.3.梯度反转

picture.image

RMNet[3]采用的思路和EFIN类似,但是所采用的方式是梯度反转而不是直接修改标签,基于模型结构来看,上图中如果是EFIN则是颠倒propensity tower的label;而RMNet是在梯度传回share层的时候做梯度反转,对共享层的表征进行纠偏

1.4.表征分解

picture.imageDeR-CFR[4][5]是对输入表征中存在的confounder进行分解,将原始表征分解为instrument,confounding和adjustment,因果图满足上面的结构

  • instrument(工具变量),具有相关性和排他性,相关性表示该变量和treatment强相关,排他性表示该因子和最终的outcome Y无关;简而言之,工具变量只通过treatment影响outocme而不能直接影响outcome Y
  • confounder(混淆因子),同时影响treatment和outcome从而导致treatment effect出现偏差的因子
  • adjustment(调整变量),用于控制混淆因子的影响,有助于outocme预估的一些因子 DeR-CFR是DR-CFR的改进版本,在原始的协写变量中从表征层面拆解出三种因子,然后结合

来预估T,结合

来预估Y。

同时需要考虑三者之间的独立关系

  • 考虑Adjustment应该和T独立并且要尽可能能准确预估出outcome Y,因此构造损失函数如下,其中disc为IPM,用于计算实验组和对照组的分布的距离,后者用于adjustment的表征的预估分和outcome y的loss(可以是MSE,CE等)

  • 从平衡表征的角度出发,我们是希望confounder对treatment的影响越小越好,因此约束不同treatment样本的confounder

的分布要接近,这里平衡的过程中有一个weight w,这个后面单独解释

  • 和低一点Adjustment类似,Instrument应该和outcome Y独立,因此对于给定的treatment k,

在不同Y值下的分布应该是接近的;并且

应该要能比较好的预测出treatment。

  • 笔者的《自以为是》:这里做分布约束disc来保证A和T独立,I和Y独立以及去掉C对T的影响;那是不是也可以用类似上面的方法,让这些表征预测不准是不是也可以
  • 上述在I和C中都用到了weight

,主要是因为在观测样本中数据是有偏的,因此C对T会有影响,那要去掉影响则可以采用

在w下C跟T条件独立;同理I对Y也一样;档w为倾向性分数时就是IPW的思想了,但是直接采用IPW依赖于模型对propensity score学习的好坏

  • 为了使得A,I和C能够充分的分解,作者额外加入了对产生

的参数进行约束,

表示产生I的参数的均值。

  • 最后C&A需要能够预测出准确的outcome Y

  • 优化过程包含两部分:模型参数和前述的weight w;固定w,优化最小化

优化模型参数;固定模型,最小化

更新w;Reg是正则项

,

约束模型参数的l2正则,

约束w不全为0

约束

的权重和接近1防止全都学成0了

1.5.后门调整

picture.image

DragonNet

DragonNet[6]的前身是NEDnet,NEDnet是两阶段的,我们假设存在共享层A和倾向性预估层B,网络结构为A->B,在训练完这个网络后,固定共享层A的参数,然后采用类似TARNet的结构在共享层之上构建不同treatment的分支去学习个字的outcome。他的思路是说,先去学习倾向性的信息,在已经学习到倾向性的表征后,各个分支可以只关注自己treatment自身的信息。

那DragonNet是端到端版本,其中倾向性预估中Z->g()中间没有更多的MLP等NN层,目的就是让Z和预估的g紧密相连,防止倾向性的信息被学习到共享层之外的tower;其他的两个分支用于学习outcome

在此基础上,DragonNet额外加入了Target Regularization,但笔者认为这部分是为了让估计更准,本身和纠偏的思想关系不大

  1. 加权 =====

2.1. IPW

IPW(逆概率加权)是常用的加权纠偏方式,以DESCN[7]为例,将其中用到的公式简化一下表示为下式,其中

为倾向性分数,我们真实需要用到的是

,但是实际的观测样本的label对应的预测值是

,因此在优化损失函数后,我们使用

来作为最终给的预测,相当于实现了

的逆概率加权

2.2. loss加权

CFRNet中基于不同treatment的样本量构造了响应的权重来对不同treatment组的样本进行加权

此类方法的问题是,粒度比较粗,只是基于不同组的样本量来加权,没有细化到样本粒度,如果两个样本属于同一个treatment组则他们的权重是一样的;样本粒度的有CFR-ISW等方法,在考虑样本量比例的同时还考虑倾向性分数,两者结合来做加权

总结

本文我们探讨了在观测样本下,uplift模型的纠偏方法,包括表征纠偏和加权纠偏,当然除了加权和表征纠偏方法还存在例如Double Machine Learning(DML)等方法,感兴趣的话我们将在后续的章节继续讨论

参考

[1] Estimating individual treatment effect: generalization bounds and algorithms

[2] Explicit Feature Interaction-aware Uplift Network for Online Marketing

[3] Towards Effective and Efficient Multi-valued Treatment Uplift Modeling in Online Marketing

[4] Learning Decomposed Representation for Counterfactual Inference

[5] https://zhuanlan.zhihu.com/p/470041148

[6] Adapting Neural Networks for the Estimation of Treatment Effects

[7] DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

在线营销-uplift模型评估指标(一)

STREAM-Rec: 推荐系统实现慢思考推理!

大模型慢思考技术探讨

图片

长按关注,更多精彩

图片

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论