关注我们,一起学习
标题: Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising
地址:https://arxiv.org/pdf/2401.09507
公司:shopee
代码:https://github.com/HaoYang0123/DESC
会议:KDD 2024
- 导读 =======
本文主要是在CTR,CVR校准领域提出相关的解决方法,以往常见的方法有类似SIR的保序回归算法,有考虑field的NN方法,本文在field级别校准的基础上,将校准拆分成两部分:shape校准和value校准。
- 引入基校准函数,将多个不同的基校准函数结合起来,增强函数的表达能力
- 设计分配器,将最合适的校准器分配给不同field和值内的不同估计误差分布。
- 图2所示,不同field下的不同值,未校准pctr/ctr的值误差是不一样的,因此需要field级别的值校准
- 图3所示,相同field下的不同值,分段去看未校准pctr/ctr的分布是不一样的,因此需要形状校准
alt text
2.1 shape calibrator
shape calibrator器的目标是确保:在给定输入特征的情况下,减少pCTR所有区间的高估和低估问题(形状校准误差)。
2.1.1 形状预定义
预先定义一些基校准函数,将基础校准函数合并为形状函数,以提高它们的表达能力。对于值域在0-1的变量t,定义的基校准函数需要满足两个条件
- 单调性:函数是非递减的,在0-1范围内连续
- t接近0的时候,函数值接近0,t接近1的时候,函数值接近1 文中作者采用了三种基函数,幂函数,对数函数和缩放函数(当然也可以采用其他符合要求的函数),通过定义不同的超参数,可以得到三类基函数对应的不同形状的函数(每类多个基函数),在通过加权将不同的基函数组合起来,可以得到更加复杂的形状函数。不同基函数的构造方式如下,其中h,v,a为超参数,比如0.1,0.2,0.3,用来得到不同形状的基函数
如图4b所示是单个field下的计算方式,对于第i个field,对所有基函数加权求和得到校准函数
2.1.2 shape allocation
在形状分配中,根据特征值分配合适的形状函数。这些特征包括两部分:pCTR的分桶特征和原始field特征。
-
特征编码,通过embedding table得到pctr的分桶特征和field特征的emb,表示为和
-
将上述emb拼接后,经过MLP和softmax得到每个基函数的权重,的维度是,m是基函数个数
-
对于稀疏field,通过自注意力来增强嵌入的表达能力。对于更相似的field,它们的校准误差分布将是相似的。如果两个嵌入ei和ej之间的语义相似,那么相应的权重也相对较大。
则权重计算方式做略微改动
2.1.3 multi-field shape ensemble
不同field的不同校准值可能会相互冲突。例如,19至26岁的用户需要女鞋。在“女鞋”项目类别字段下,未校准模型在0.01至0.03范围内对pCTR的估计高出30%。然而,在“19至26岁”的用户年龄范围内,pCTR在0.01至0.03的范围内被低估了20%。
因此,不仅需要对单个field进行形状校准,还需要全局协调不同field的形状校准器的输出。使用全局形状注意力来组合从不同field获得的输出结果(图4a)。
2.2 值校准器
2.2.1 全局field值校准器
全局field值校准器包含相关field的所有必要信息。操作方式比较简单,即将所有field的emb和未校准的pctr分桶emb拼接后,经过MLP得到,然后结合shape和value校准器的输出得到最终校准后的值。
2.2.2 全局形状注意力生成
这里生成2.1.3中需要的注意力权重,这里和上述操作类似,经过MLP得到对应的权重
alt text
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
RecSys'24 | 通过额外的注意力来增强自注意力机制用于序列推荐
WSDM2025|DLCRec:基于多样性的大语言模型可控推荐系统
NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架
长按关注,更多精彩
点个在看你最好看