#uplift #在线营销 #评估指标
评估指标用于反映模型的好坏,最直接的是采用线上的指标比如转化率,点击率等,但是线上的试验都是需要成本的,包括但不限于权益发放的资金消耗,模型效果不好带来的负向收益等。因此,一个好的离线评估指标,
- 需要能够保持和线上结果的一致性,离线指标
->线上指标
- 需要具备一定的物理含义,比如反映增量,增量roi,排序性能等
- 具有一定的稳定性,不会因为随机的一些波动而造成指标大幅变化
本节,我们主要介绍uplift model相关的一些离线评估指标,以下评估指标都假定我们在rct样本上进行评估 ,令
,其中X为特征集合,y为标签,t为干预;令真实的uplift为
,预估的uplift为
ROC-AUC(Area Under the ROC Curve)是常见的排序评估指标,反映我们随机找到一组正负样本对,正样本排在负样本前面的概率。对于uplift模型来说可以采用ROC-AUC先评估一下不同treatment和control下排序性能,先确保模型在各treatment下表现符合预期,计算方式:
令正样本样本数为
,负样本样本数为
,对所有数据按照预估转化率
从小到大排序 后,得到每个样本的排序
,则计算公式为
正
样
本
①为随机情况下的auuc,②为模型的auuc,③为最优情况下的auuc
AUUC(Area Under the Uplift Curve)反映的是uplift模型对个体干预效果(ITE)的排序能力,计算方式:
基于预估的uplift
从大到小 排序后,令
表示筛选出的topK子集,其中treatment组样本量为
,control组样本量为
,在treament组的转化数为
,在control组的转化数为
为取topk子集时能带来的增益
表示随机圈选时的AUUC,即三角形的面积①;对应的曲线则为图中绿色的直线,反映无论圈选的topk为多少量级,lift都是等比缩放的。
反映模型圈人情况下不同topk下的lift的总和,那如果模型足够好,就会把最敏感的那部分人(即lift最大的人)排在最前面,则曲线一开始应该是比较陡的,后面慢慢变缓,类似ROC-AUC曲线。
我们都知道ROC-AUC通常会和0.5去对比,越接近0.5说明模型效果越差,那AUUC也是一样。从上面的公式可以发现,计算得到的lift受到样本量的影响可能会很大,因此为了达到和ROC-AUC类似的效果,会对AUUC做一个归一化,我们用
来表示最终的AUUC,其物理含义是模型的效果至少要比随机的好,如果不除以2则是和1对比。
不平衡样本的影响
当样本中treatment和control组的样本量不平衡的时候,会导致最终的评估结果产生偏差[1]。
|
| t=0&y=0 | t=0&y=1 | | --- | --- | --- | | t=1&y=0 | 无响应(0) | 负向作用(-1) | | t=1&y=1 | 有效干预(1) | 自然响应(0) |
通常营销可以有以上四个象限,假设treatment和control的样本是不平衡的,treatment组的样本量占比为q
- 对于无响应的人群
- 真实的lift
- 不平衡样本下的lift为
- 对于负向作用的人群
- 真实的lift
- 不平衡样本下的lift为
- 对于有效干预的人群
- 真实lift
- 不平衡样本下lift为
- 对于自然响应人群
- 真实的lift
- 不平衡样本下lift为
- 在最优情况下(模型A)(即按照最真实的lift排序)我们可以得到 有效干预>自然响应=无响应>负向作用 ,类似ROC-AUC中的计算的方式,当排序一样的时候,两个样本的排序值除以2然后两个样本共享排序值,则自然响应和无响应的lift为
;按照上述
的计算方式,最优模型的
为 2. 有一个不如最优情况下的模型B,排序后得到的是 有效干预>自然响应>无响应>负向作用 ,则
为 3. 当q>0.5的时候,
,我们会得到一个错误的对比结果
非RCT样本的影响
当样本是非rct样本的时候,即存在混淆因子导致样本在treatment上有倾向性,如果理解了不平衡部分的例子,那么非rct情况下的例子也会更好理解一些。
- 对于无响应的人群
- 真实的lift
- 倾向性分数为
- 不平衡样本下的lift为
- 对于负向作用的人群
- 真实的lift
- 倾向性分数为
- 不平衡样本下的lift为
- 对于有效干预的人群
- 真实lift
- 倾向性分数为
- 不平衡样本下lift为
- 对于自然响应人群
- 真实的lift
- 倾向性分数为
- 不平衡样本下lift为
- 在最优情况下(模型A)(即按照最真实的lift排序)我们可以得到 有效干预>自然响应=无响应>负向作用 ,最优模型的
为 2. 有一个不如最优情况下的模型B,排序后得到的是 有效干预>自然响应>无响应>负向作用 ,则
为 3. 当
时,
,我们会得到一个错误的对比结果
当然除了AUUC还是QINI也可以反映排序性能,两者类似,但是在计算上QINI额外考虑了最优情况下的AUUC,即上图中的③部分
考虑相对随机提升的部分占最优情况下的比例
无论是AUUC还是QINI反映的都是单纯标签维度的lift排序性能,但是在在线营销场景中我们不仅需要考虑对lift的区分度,我们还需要考虑成本的影响,因此[2]提出了AUCC(Area Under Cost Curve)。
AUUC是基于lift排序,此时相当于把每个增量所需的增量成本看作是一样的;而AUCC是基于增量roi(
)从大到小排序,以下以binary treatment为例,当问题变为multi treatment时,可以人为设置control和treatment组进行计算和对比
理解了AUUC后,AUCC也相对会比较好理解,按照增量roi排序后,我们可以计算转化的lift和成本的lift
然后通过梯形面积计算曲线下的面积
和AUUC一样我们也再算一下random情况下的AUCC然后做一个比值就可以和0.5对比了
EOM(Expected Outcome Metrics)[3]是将策略和模型结合的评估指标,通过离线评估EOM可以大概得出上线后能够获取多少收益
- 在rct样本上采用uplift模型进行打分,
- 基于固定的策略(比如运筹或者其他)对样本进行分配后,
- 筛选得到分配的treatment和实际该样本所属的treatment组匹配的样本,
- 计算这些样本中的转化人数,然后对比不同的模型的转化人数的差异
- 需要注意的是:这里的策略在不同模型对比时应该是固定的
无论是EOM指标还是最终上线,我们都需要配合相关的策略来执行,最常用的是运筹策略,如在单均/GMV/ROI等约束下,最大化转化/增量/GMV等目标,在此过程中预估的值准对策略的最终效果影响很大,因此我们也需要来评估值准,PCOC(Predict Click Over Click)是搜广推中常见的评估值准的指标,同样也可以用在uplift model的枝准评估中,PCOC越接近1越好
-
整体评估: 最粗粒度的评估,在全量样本对比不同模型的PCOC
-
分treatment评估:分别评估不同treatment下的PCOC然后求均值
也可以进一步做更加细粒度的PCOC评估,比如进一步分桶,评估桶内的PCOC等
PEHE(Precision in Estimation of Heterogeneous Effect)通常用于存在真实ITE
的情况下,来评估预估ITE
的值准
但是 在实际的场景中,我们是无法获取到真实ITE的,因此我们可以将问题转化一下,将数据以预估lift
排序后分桶,我们以桶内的ATE和预估的lift的均值进行对比,这样也就可以采用回归任务中的一些指标来评估了,如MSE,R2-Score等。
本节我们介绍了在线营销场景中,uplift模型的一些评估指标,包括排序指标和值准的指标,而当值准出现问题的时候,我们就需要对打分进行校准,这个我们放到后面再聊。
ok,做了一个小小的总结,也希望这些内容对你有帮助
[1] ABOUT EVALUATION METRICS FOR CONTEXTUAL UPLIFT MODELING
[2] Improve User Retention with Causal Learning.
[3] Decision Focused Causal Learning for Direct Counterfactual Marketing Optimization
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
图片
长按关注,更多精彩
图片
点个在看你最好看