在线营销-uplift模型评估指标(一)

大模型数据中台机器学习

#uplift #在线营销 #评估指标

评估指标用于反映模型的好坏,最直接的是采用线上的指标比如转化率,点击率等,但是线上的试验都是需要成本的,包括但不限于权益发放的资金消耗,模型效果不好带来的负向收益等。因此,一个好的离线评估指标,

  • 需要能够保持和线上结果的一致性,离线指标

->线上指标

  • 需要具备一定的物理含义,比如反映增量,增量roi,排序性能等
  • 具有一定的稳定性,不会因为随机的一些波动而造成指标大幅变化

本节,我们主要介绍uplift model相关的一些离线评估指标,以下评估指标都假定我们在rct样本上进行评估 ,令

,其中X为特征集合,y为标签,t为干预;令真实的uplift为

,预估的uplift为

ROC-AUC

ROC-AUC(Area Under the ROC Curve)是常见的排序评估指标,反映我们随机找到一组正负样本对,正样本排在负样本前面的概率。对于uplift模型来说可以采用ROC-AUC先评估一下不同treatment和control下排序性能,先确保模型在各treatment下表现符合预期,计算方式:

令正样本样本数为

,负样本样本数为

,对所有数据按照预估转化率

从小到大排序 后,得到每个样本的排序

,则计算公式为

AUUC

picture.image

①为随机情况下的auuc,②为模型的auuc,③为最优情况下的auuc

AUUC(Area Under the Uplift Curve)反映的是uplift模型对个体干预效果(ITE)的排序能力,计算方式:

基于预估的uplift

从大到小 排序后,令

表示筛选出的topK子集,其中treatment组样本量为

,control组样本量为

,在treament组的转化数为

,在control组的转化数为

为取topk子集时能带来的增益

表示随机圈选时的AUUC,即三角形的面积①;对应的曲线则为图中绿色的直线,反映无论圈选的topk为多少量级,lift都是等比缩放的。

反映模型圈人情况下不同topk下的lift的总和,那如果模型足够好,就会把最敏感的那部分人(即lift最大的人)排在最前面,则曲线一开始应该是比较陡的,后面慢慢变缓,类似ROC-AUC曲线。

我们都知道ROC-AUC通常会和0.5去对比,越接近0.5说明模型效果越差,那AUUC也是一样。从上面的公式可以发现,计算得到的lift受到样本量的影响可能会很大,因此为了达到和ROC-AUC类似的效果,会对AUUC做一个归一化,我们用

来表示最终的AUUC,其物理含义是模型的效果至少要比随机的好,如果不除以2则是和1对比。

不平衡样本的影响

当样本中treatment和control组的样本量不平衡的时候,会导致最终的评估结果产生偏差[1]。

|

| t=0&y=0 | t=0&y=1 | | --- | --- | --- | | t=1&y=0 | 无响应(0) | 负向作用(-1) | | t=1&y=1 | 有效干预(1) | 自然响应(0) |

通常营销可以有以上四个象限,假设treatment和control的样本是不平衡的,treatment组的样本量占比为q

  • 对于无响应的人群
  • 真实的lift
  • 不平衡样本下的lift为
  • 对于负向作用的人群
  • 真实的lift
  • 不平衡样本下的lift为
  • 对于有效干预的人群
  • 真实lift
  • 不平衡样本下lift为
  • 对于自然响应人群
  • 真实的lift
  • 不平衡样本下lift为
  1. 在最优情况下(模型A)(即按照最真实的lift排序)我们可以得到 有效干预>自然响应=无响应>负向作用 ,类似ROC-AUC中的计算的方式,当排序一样的时候,两个样本的排序值除以2然后两个样本共享排序值,则自然响应和无响应的lift为

;按照上述

的计算方式,最优模型的

为 2. 有一个不如最优情况下的模型B,排序后得到的是 有效干预>自然响应>无响应>负向作用 ,则

为 3. 当q>0.5的时候,

,我们会得到一个错误的对比结果

非RCT样本的影响

当样本是非rct样本的时候,即存在混淆因子导致样本在treatment上有倾向性,如果理解了不平衡部分的例子,那么非rct情况下的例子也会更好理解一些。

  • 对于无响应的人群
  • 真实的lift
  • 倾向性分数为
  • 不平衡样本下的lift为
  • 对于负向作用的人群
  • 真实的lift
  • 倾向性分数为
  • 不平衡样本下的lift为
  • 对于有效干预的人群
  • 真实lift
  • 倾向性分数为
  • 不平衡样本下lift为
  • 对于自然响应人群
  • 真实的lift
  • 倾向性分数为
  • 不平衡样本下lift为
  1. 在最优情况下(模型A)(即按照最真实的lift排序)我们可以得到 有效干预>自然响应=无响应>负向作用 ,最优模型的

为 2. 有一个不如最优情况下的模型B,排序后得到的是 有效干预>自然响应>无响应>负向作用 ,则

为 3. 当

时,

,我们会得到一个错误的对比结果

QINI

当然除了AUUC还是QINI也可以反映排序性能,两者类似,但是在计算上QINI额外考虑了最优情况下的AUUC,即上图中的③部分

考虑相对随机提升的部分占最优情况下的比例

AUCC

无论是AUUC还是QINI反映的都是单纯标签维度的lift排序性能,但是在在线营销场景中我们不仅需要考虑对lift的区分度,我们还需要考虑成本的影响,因此[2]提出了AUCC(Area Under Cost Curve)。

AUUC是基于lift排序,此时相当于把每个增量所需的增量成本看作是一样的;而AUCC是基于增量roi(

)从大到小排序,以下以binary treatment为例,当问题变为multi treatment时,可以人为设置control和treatment组进行计算和对比

理解了AUUC后,AUCC也相对会比较好理解,按照增量roi排序后,我们可以计算转化的lift和成本的lift

然后通过梯形面积计算曲线下的面积

和AUUC一样我们也再算一下random情况下的AUCC然后做一个比值就可以和0.5对比了

EOM

EOM(Expected Outcome Metrics)[3]是将策略和模型结合的评估指标,通过离线评估EOM可以大概得出上线后能够获取多少收益

  • 在rct样本上采用uplift模型进行打分,
  • 基于固定的策略(比如运筹或者其他)对样本进行分配后,
  • 筛选得到分配的treatment和实际该样本所属的treatment组匹配的样本,
  • 计算这些样本中的转化人数,然后对比不同的模型的转化人数的差异
  • 需要注意的是:这里的策略在不同模型对比时应该是固定的
PCOC

无论是EOM指标还是最终上线,我们都需要配合相关的策略来执行,最常用的是运筹策略,如在单均/GMV/ROI等约束下,最大化转化/增量/GMV等目标,在此过程中预估的值准对策略的最终效果影响很大,因此我们也需要来评估值准,PCOC(Predict Click Over Click)是搜广推中常见的评估值准的指标,同样也可以用在uplift model的枝准评估中,PCOC越接近1越好

  • 整体评估: 最粗粒度的评估,在全量样本对比不同模型的PCOC

  • 分treatment评估:分别评估不同treatment下的PCOC然后求均值

也可以进一步做更加细粒度的PCOC评估,比如进一步分桶,评估桶内的PCOC等

PEHE

PEHE(Precision in Estimation of Heterogeneous Effect)通常用于存在真实ITE

的情况下,来评估预估ITE

的值准

但是 在实际的场景中,我们是无法获取到真实ITE的,因此我们可以将问题转化一下,将数据以预估lift

排序后分桶,我们以桶内的ATE和预估的lift的均值进行对比,这样也就可以采用回归任务中的一些指标来评估了,如MSE,R2-Score等。

小结

本节我们介绍了在线营销场景中,uplift模型的一些评估指标,包括排序指标和值准的指标,而当值准出现问题的时候,我们就需要对打分进行校准,这个我们放到后面再聊。

ok,做了一个小小的总结,也希望这些内容对你有帮助

参考

[1] ABOUT EVALUATION METRICS FOR CONTEXTUAL UPLIFT MODELING

[2] Improve User Retention with Causal Learning.

[3] Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

STREAM-Rec: 推荐系统实现慢思考推理!

搜广推面经

Rec-R1: 利用强化学习桥接大模型与推荐系统

图片

长按关注,更多精彩

图片

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
CloudWeGo白皮书:字节跳动云原生微服务架构原理与开源实践
本书总结了字节跳动自2018年以来的微服务架构演进之路
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论