在线营销-uplift模型评估指标（一） - 文章 - 开发者社区

#uplift #在线营销 #评估指标

评估指标用于反映模型的好坏，最直接的是采用线上的指标比如转化率，点击率等，但是线上的试验都是需要成本的，包括但不限于权益发放的资金消耗，模型效果不好带来的负向收益等。因此，一个好的离线评估指标，

需要能够保持和线上结果的一致性，离线指标

->线上指标

需要具备一定的物理含义，比如反映增量，增量roi，排序性能等
具有一定的稳定性，不会因为随机的一些波动而造成指标大幅变化

本节，我们主要介绍uplift model相关的一些离线评估指标，以下评估指标都假定我们在rct样本上进行评估 ，令

，其中X为特征集合，y为标签，t为干预；令真实的uplift为

，预估的uplift为

ROC-AUC

ROC-AUC（Area Under the ROC Curve）是常见的排序评估指标，反映我们随机找到一组正负样本对，正样本排在负样本前面的概率。对于uplift模型来说可以采用ROC-AUC先评估一下不同treatment和control下排序性能，先确保模型在各treatment下表现符合预期，计算方式：

令正样本样本数为

，负样本样本数为

，对所有数据按照预估转化率

从小到大排序 后，得到每个样本的排序

，则计算公式为

正

样

本

AUUC

picture.image

①为随机情况下的auuc，②为模型的auuc，③为最优情况下的auuc

AUUC（Area Under the Uplift Curve）反映的是uplift模型对个体干预效果（ITE）的排序能力，计算方式：

基于预估的uplift

从大到小 排序后，令

表示筛选出的topK子集，其中treatment组样本量为

，control组样本量为

，在treament组的转化数为

，在control组的转化数为

为取topk子集时能带来的增益

表示随机圈选时的AUUC，即三角形的面积①；对应的曲线则为图中绿色的直线，反映无论圈选的topk为多少量级，lift都是等比缩放的。

反映模型圈人情况下不同topk下的lift的总和，那如果模型足够好，就会把最敏感的那部分人（即lift最大的人）排在最前面，则曲线一开始应该是比较陡的，后面慢慢变缓，类似ROC-AUC曲线。

我们都知道ROC-AUC通常会和0.5去对比，越接近0.5说明模型效果越差，那AUUC也是一样。从上面的公式可以发现，计算得到的lift受到样本量的影响可能会很大，因此为了达到和ROC-AUC类似的效果，会对AUUC做一个归一化，我们用

来表示最终的AUUC，其物理含义是模型的效果至少要比随机的好，如果不除以2则是和1对比。

不平衡样本的影响

当样本中treatment和control组的样本量不平衡的时候，会导致最终的评估结果产生偏差[1]。

| t=0&y=0 | t=0&y=1 | | --- | --- | --- | | t=1&y=0 | 无响应(0) | 负向作用(-1) | | t=1&y=1 | 有效干预(1) | 自然响应(0) |

通常营销可以有以上四个象限，假设treatment和control的样本是不平衡的，treatment组的样本量占比为q

对于无响应的人群

真实的lift
不平衡样本下的lift为

对于负向作用的人群

真实的lift
不平衡样本下的lift为

对于有效干预的人群

真实lift
不平衡样本下lift为

对于自然响应人群

真实的lift
不平衡样本下lift为

在最优情况下（模型A）（即按照最真实的lift排序）我们可以得到 有效干预>自然响应=无响应>负向作用 ，类似ROC-AUC中的计算的方式，当排序一样的时候，两个样本的排序值除以2然后两个样本共享排序值，则自然响应和无响应的lift为

；按照上述

的计算方式，最优模型的

为 2. 有一个不如最优情况下的模型B，排序后得到的是 有效干预>自然响应>无响应>负向作用 ，则

为 3. 当q>0.5的时候，

，我们会得到一个错误的对比结果

非RCT样本的影响

当样本是非rct样本的时候，即存在混淆因子导致样本在treatment上有倾向性，如果理解了不平衡部分的例子，那么非rct情况下的例子也会更好理解一些。

对于无响应的人群

真实的lift
倾向性分数为
不平衡样本下的lift为

对于负向作用的人群

真实的lift
倾向性分数为
不平衡样本下的lift为

对于有效干预的人群

真实lift
倾向性分数为
不平衡样本下lift为

对于自然响应人群

真实的lift
倾向性分数为
不平衡样本下lift为

在最优情况下（模型A）（即按照最真实的lift排序）我们可以得到 有效干预>自然响应=无响应>负向作用 ，最优模型的

为 2. 有一个不如最优情况下的模型B，排序后得到的是 有效干预>自然响应>无响应>负向作用 ，则

为 3. 当

时，

，我们会得到一个错误的对比结果

QINI

当然除了AUUC还是QINI也可以反映排序性能，两者类似，但是在计算上QINI额外考虑了最优情况下的AUUC，即上图中的③部分

考虑相对随机提升的部分占最优情况下的比例

AUCC

无论是AUUC还是QINI反映的都是单纯标签维度的lift排序性能，但是在在线营销场景中我们不仅需要考虑对lift的区分度，我们还需要考虑成本的影响，因此[2]提出了AUCC（Area Under Cost Curve）。

AUUC是基于lift排序，此时相当于把每个增量所需的增量成本看作是一样的；而AUCC是基于增量roi(

)从大到小排序，以下以binary treatment为例，当问题变为multi treatment时，可以人为设置control和treatment组进行计算和对比

理解了AUUC后，AUCC也相对会比较好理解，按照增量roi排序后，我们可以计算转化的lift和成本的lift

然后通过梯形面积计算曲线下的面积

和AUUC一样我们也再算一下random情况下的AUCC然后做一个比值就可以和0.5对比了

EOM

EOM（Expected Outcome Metrics）[3]是将策略和模型结合的评估指标，通过离线评估EOM可以大概得出上线后能够获取多少收益

在rct样本上采用uplift模型进行打分，
基于固定的策略（比如运筹或者其他）对样本进行分配后，
筛选得到分配的treatment和实际该样本所属的treatment组匹配的样本，
计算这些样本中的转化人数，然后对比不同的模型的转化人数的差异
需要注意的是：这里的策略在不同模型对比时应该是固定的

PCOC

无论是EOM指标还是最终上线，我们都需要配合相关的策略来执行，最常用的是运筹策略，如在单均/GMV/ROI等约束下，最大化转化/增量/GMV等目标，在此过程中预估的值准对策略的最终效果影响很大，因此我们也需要来评估值准，PCOC（Predict Click Over Click）是搜广推中常见的评估值准的指标，同样也可以用在uplift model的枝准评估中，PCOC越接近1越好

整体评估: 最粗粒度的评估，在全量样本对比不同模型的PCOC
分treatment评估：分别评估不同treatment下的PCOC然后求均值

也可以进一步做更加细粒度的PCOC评估，比如进一步分桶，评估桶内的PCOC等

PEHE

PEHE（Precision in Estimation of Heterogeneous Effect）通常用于存在真实ITE

的情况下，来评估预估ITE

的值准

但是在实际的场景中，我们是无法获取到真实ITE的，因此我们可以将问题转化一下，将数据以预估lift

排序后分桶，我们以桶内的ATE和预估的lift的均值进行对比，这样也就可以采用回归任务中的一些指标来评估了，如MSE，R2-Score等。

小结

本节我们介绍了在线营销场景中，uplift模型的一些评估指标，包括排序指标和值准的指标，而当值准出现问题的时候，我们就需要对打分进行校准，这个我们放到后面再聊。

ok，做了一个小小的总结，也希望这些内容对你有帮助

参考

[1] ABOUT EVALUATION METRICS FOR CONTEXTUAL UPLIFT MODELING

[2] Improve User Retention with Causal Learning.

[3] Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

STREAM-Rec: 推荐系统实现慢思考推理！

搜广推面经

Rec-R1: 利用强化学习桥接大模型与推荐系统

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image