KDD'24 | DESC：在校准中考虑形状校准和值校准 - 文章 - 开发者社区

picture.image

关注我们，一起学习

标题: Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising

地址：https://arxiv.org/pdf/2401.09507

公司：shopee

代码：https://github.com/HaoYang0123/DESC

会议：KDD 2024

导读 =======

本文主要是在CTR，CVR校准领域提出相关的解决方法，以往常见的方法有类似SIR的保序回归算法，有考虑field的NN方法，本文在field级别校准的基础上，将校准拆分成两部分：shape校准和value校准。

引入基校准函数，将多个不同的基校准函数结合起来，增强函数的表达能力
设计分配器，将最合适的校准器分配给不同field和值内的不同估计误差分布。
图2所示，不同field下的不同值，未校准pctr/ctr的值误差是不一样的，因此需要field级别的值校准
图3所示，相同field下的不同值，分段去看未校准pctr/ctr的分布是不一样的，因此需要形状校准

2.方法

picture.image

alt text

2.1 shape calibrator

shape calibrator器的目标是确保：在给定输入特征的情况下，减少pCTR所有区间的高估和低估问题（形状校准误差）。

2.1.1 形状预定义

预先定义一些基校准函数，将基础校准函数合并为形状函数，以提高它们的表达能力。对于值域在0-1的变量t，定义的基校准函数需要满足两个条件

单调性：函数是非递减的，在0-1范围内连续
t接近0的时候，函数值接近0，t接近1的时候，函数值接近1 文中作者采用了三种基函数，幂函数，对数函数和缩放函数（当然也可以采用其他符合要求的函数），通过定义不同的超参数，可以得到三类基函数对应的不同形状的函数（每类多个基函数），在通过加权将不同的基函数组合起来，可以得到更加复杂的形状函数。不同基函数的构造方式如下，其中h，v，a为超参数，比如0.1,0.2,0.3，用来得到不同形状的基函数

如图4b所示是单个field下的计算方式，对于第i个field，对所有基函数加权求和得到校准函数

2.1.2 shape allocation

在形状分配中，根据特征值分配合适的形状函数。这些特征包括两部分：pCTR的分桶特征和原始field特征。

特征编码，通过embedding table得到pctr的分桶特征和field特征的emb，表示为和
将上述emb拼接后，经过MLP和softmax得到每个基函数的权重，的维度是，m是基函数个数
对于稀疏field，通过自注意力来增强嵌入的表达能力。对于更相似的field，它们的校准误差分布将是相似的。如果两个嵌入ei和ej之间的语义相似，那么相应的权重也相对较大。

则权重计算方式做略微改动

2.1.3 multi-field shape ensemble

不同field的不同校准值可能会相互冲突。例如，19至26岁的用户需要女鞋。在“女鞋”项目类别字段下，未校准模型在0.01至0.03范围内对pCTR的估计高出30%。然而，在“19至26岁”的用户年龄范围内，pCTR在0.01至0.03的范围内被低估了20%。

因此，不仅需要对单个field进行形状校准，还需要全局协调不同field的形状校准器的输出。使用全局形状注意力来组合从不同field获得的输出结果（图4a）。