综述 | 因果推断中的 uplift 建模

技术

本文介绍一篇uplift的综述论文: Causal Inference and Uplift Modeling A review of the literature,下面先简单介绍一下相关背景知识。

因果推断基础知识

Causal Inference目标是推断某个试验Treatment针对某个结果outcome的影响效应effect,先举一个例子,有助于理解下面的相关定义。例如,现在试验发放优惠券对用户购物行为的影响效应。当前的treatment就是发放优惠券,现在总共四种人

  1. 给券买,不给不买
  2. 给不给券都买
  3. 给不给券都不买
  4. 给券不买,不给券就买

基于因果推断方法,我们想找到给券就买,不给就不买这批用户,来提高这批用户购买概率。因此uplift modeling就是要建模这一批人,建模不给他发优惠券和给他发优惠券的购买差异,即找到通过发优惠券带来增量最大的那批人。Uplift modeling模型的目标也就是建模出用户的购买增量。因此通常会使用到以下几个评估指标

  1. Individual treatment effect
  2. Average treatment effect
  3. Conditional average treatment effect

下面简单介绍一下上述评价指标的含义和计算方式 对于一个用户i,如果你给他发优惠券outcome是,不给发优惠券的outcome是,则该用户i的individual treatment effect计算方式是

对于一群人来说,如果计算用户的平均treatment效果,则average treatment effect计算方式是

而对于conditional average treatment effect则是在给定一定条件下,计算干预效果,比如给定用户情况下,基于用户的相关信息。计算用户的Treatment Effect,实际在很多文献中CATE和Individual Treatment Effect是一个含义,不做区别,但是在公式定义上还是有区别的。公式如下

上述三个指标,在uplift modeling中使用最多的还是individual treatment effect,用来评估具体用户的干预增量效应。

本文核心

评估用户的增量效应uplift既是因果推断问题又是机器学习问题。本文目标在于提出一个统一的uplift modeling框架,使得现有的多种方案更易于相互比较和评价。

摘要

uplift modeling是用来建模treatment(干预)对outcome(结果)的增量效应的一些列技术,因此,从分类上说,uplift modeling既是一个因果推断问题,又是一个机器学习问题。现有基于uplift的研究文献主要提出了三类解决方案,分别是:two-model approach,the class transformation approach和modeling uplift directly。但是,目前缺乏统一的因果推断框架,很难统一评估当前的方案。本文中,我们使用Rubin(1974)因果推断模型和现代的计量经济学符号,对上述提到的三种方案进行统一的比较,并进行拓展。本文是首次提出uplift模型的综述类文献。与此同时,本文的贡献在于,对因果等估计量最小化均方误差公式等价于最小化MSE,其中为观测到的处理效果被修改的目标变量所取代。最后,我们希望本文将有助于其他领域的研究人员,如医学,社会学和经济学等,将机器学习技术应用到因果推断问题上。

建模方法一:two model approach

Two-model方法是分别在treatment组和control组数据上分开建模,利用两组数据学习两个模型。Two-model的优点就是方法简单,但是推断是在treatment组和control组中分别进行,所以不能直接对uplift指标建模,弱化了uplift信号,不能直接构建两个数据集上的增益。

建模方案二:The Class Transformation Method

该方式是把uplift问题转化为分类问题,提出了新的优化目标,表示如下

对于新目标,Treatment=1并且也为1,或者Treatment=0并且=0,这两种情况下新目标=1,其他情况都为0,转化成二分类问题进行求解。

建模方案三:Modeling uplift directly

直接建模uplift的方法,简单来说就是把优化目标直接设置为在不同Treamtent组下用户的增益,直接在不同Treatment数据上学习增益。这种方案传统的有利用树模型来构建的,近些年比较常用的还有R-Learner,感兴趣的可以去关注一下 Quasi-Oracle Estimation of Heterogeneous Treatment Effects

本文结论

本文给出了使用因果推断框架解决uplift modeling的综述介绍,当前总共三类方案,第一种是Two-Model Method,在训练中包含两个独立的模型,一个是治疗组的Treatment Group,一个是对照组的Control Group。然后,在观测数据计算两个模型预测值的差值;第二种是The Class-transformation method,该方法目标在于构建一个转化后的outcome,然后用条件期望等价于true uplift,但该方案依赖于Complete treatment randomization assumptions,即treatment和potential outcome之间是相互独立的,第二种方案对于不平衡数据相对于第一种有更好的泛化性。第三种方式是直接建模uplift score,该方案将机器学习模型用到uplift建模上,在本文中,我们将注意力关注在基于树的方法上,并从文献中提出了不同的分割准则。

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

[picture.image

华为 | ReLoop:自纠正地训练推荐系统](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247491439&idx=1&sn=92179756e2f4fdbc02a914d13d6980ec&chksm=c1531c6bf624957d71d393581b11aa72962d20be50db9b77f75296e1d06a97118631d48bb62b&scene=21#wechat_redirect)

[picture.image

一文学完所有的Hive Sql(两万字最全详解)](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247491416&idx=1&sn=3bad12c1edeb3abf138320f50e8baa31&chksm=c1531c5cf624954a98cec7b62d6c3005f783d25f56b5754f83f24080cae3457a072160b4c402&scene=21#wechat_redirect)

[picture.image

当胶囊网络遇到序列推荐](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247491403&idx=1&sn=c9fd9ed03a1b512acef39ad942b4e78a&chksm=c1531c4ff6249559916845f6fd254c930763f399057be29f1c6c65493b8af91f2d867e07d98c&scene=21#wechat_redirect)

picture.image

长按关注,更多精彩

picture.image

picture.image

点个在看你最好看

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎AB测试总体经济影响
为充分了解火山引擎A/B测试平台为企业带来的潜在投资回报,火山引擎委托Forrester Consulting使用总 体经济影响(TEI)模型进行对其A/B测试产品潜在的投资回报率(ROI)进行评估分析。该研究的目的是为了给读者提供火山引擎A/B测试产品带来潜在财务影响评估的参考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论