关注我们,一起学习
标题: Coarse-to-fine Dynamic Uplift Modeling for Real-time Video Recommendation
地址:https://arxiv.org/pdf/2410.16755
公司吗,学校:快手,清华
- 导读 =======
本文主要是快手在视频推荐场景中,采用uplift建模。主要面临两个主要挑战:
- 1)treatment的设计和利用,
- 2)捕捉用户的实时兴趣。本文设计了调整不同持续时间的视频分布 作为treatment,并提出了用于实时视频推荐的粗到细动态uplift模型(CDUM)。如此设计treatment,是因为现有的视频推荐中,考虑用户体验的情况下,会去调整长短视频的分布,从而提升用户体验 。并且,通过提高短视频的曝光率,可以有效地提高商业化指标,而提高长视频的曝光度有助于提高消费指标 。
CDUM由CPM和FIC两个模块组成。CPM利用用户的离线特征来模拟长期偏好,FIC利用在线实时上下文特征和请求级候选来模拟用户的实时兴趣。
整体来说,CPM是去预测不同treatment下的响应,而FIC部分是去预测用户实时的对不同treatment的倾向性分数。
2.1 粗粒度偏好建模
2.1.1 多干预学习模块
在经过特征编码模块得到用户特征x和干预t的emb之后,利用调整不同时长的视频分布作为treatment,可以将问题建模为multi-treatment的学习范式,即学习用户对不同treatment的偏好。首先对用户的非干预特征emb进行拼接,并对干预的嵌入使用平均池化
为了充分利用treatment信息,基于多兴趣学习,将treatment嵌入细化为indicator嵌入和guidance嵌入 。这两种嵌入形式是在不同干预效果下的兴趣泛化。
- 对于guidance部分,希望它能作为用户特征的过滤器和信息提取器,表达treatment的指导作用。
- 对于indicator部分,希望它能表达干预的指示性作用,从而帮助模型推广到涉及不同治疗的学习任务 首先利用兴趣提取模块来细化中的guidance和indicator部分(二者的执行过程一致)。以下为guidnace部分,同理可以得到
而对于用户特征表征,采用M个专家网络来进一步提取M个专家网络表征(操作过程和上式一样),然后,利用guidance嵌入来过滤和提取用户特征的信息,同时利用indicator嵌入来增强提取信息的表示,其中表示经过第m个专家网络提取的emb。g()是注意力门控,h()是tower网络
2.1.2 训练
采用huber loss,是超参数,训练阶段只有对应treatment的数据,训练阶段只使用对应treatment的数据训练对应的tower。
推理阶段,分别推理各个treatment下的预估分。
2.2 细粒度兴趣捕捉
2.2.1 模型结构
使用上下文特征和请求级候选作为特征,即。同时,长短视频的曝光数量之比作为标签。
通过编码器得到在线特征的嵌入,,表示用户最近交互的视频数量,是嵌入维度大小。对第二维进行平均池化,并将所有池化的嵌入拼接。
池化后的数据送入到多任务学习的模型中(如MMOE)输出得到
2.2.2 训练和预测
获得了不同treatment的实时兴趣学习的输出r。设计一个在线请求级别标签,它是长播放视频数量与短播放视频数量的比率。假设用户请求的曝光视频数量为V,有K类treatment。标签设计为下式,其中表示视频持续时间的第k类(即treatment)。分别代表长播放和短播放视频的数量。
训练阶段,使用huber损失作为优化函数;预测阶段,直接在线部署此模块,并在每次用户请求时调用它来计算实时兴趣得分。
2.2.3 决策
获得了离线长期偏好得分和在线实时兴趣分之后,将它们结合起来,动态调整不同treatment的有效用户组。如图2所示,将定义为第k次treatment的决策得分。将定义为treatment是否有效的阈值(即,如果;则采用第k个treatment)。因此,每个用户的多treatment(即调整不同持续时间的视频分布)将被动态调整,以实时启用或禁用。
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
RecSys'24 | HTLNet:探索推荐系统中的混合目标之间的任务依赖性
长按关注,更多精彩
点个在看你最好看