【补充】​快手 | uplift建模用于实时视频推荐

推荐算法机器学习数据库

picture.image

关注我们,一起学习

标题: Coarse-to-fine Dynamic Uplift Modeling for Real-time Video Recommendation

地址:https://arxiv.org/pdf/2410.16755

公司吗,学校:快手,清华

  1. 导读 =======

本文主要是快手在视频推荐场景中,采用uplift建模。主要面临两个主要挑战:

  • 1)treatment的设计和利用,
  • 2)捕捉用户的实时兴趣。本文设计了调整不同持续时间的视频分布 作为treatment,并提出了用于实时视频推荐的粗到细动态uplift模型(CDUM)。如此设计treatment,是因为现有的视频推荐中,考虑用户体验的情况下,会去调整长短视频的分布,从而提升用户体验 。并且,通过提高短视频的曝光率,可以有效地提高商业化指标,而提高长视频的曝光度有助于提高消费指标

CDUM由CPM和FIC两个模块组成。CPM利用用户的离线特征来模拟长期偏好,FIC利用在线实时上下文特征和请求级候选来模拟用户的实时兴趣。

2.方法

picture.image

整体来说,CPM是去预测不同treatment下的响应,而FIC部分是去预测用户实时的对不同treatment的倾向性分数。

2.1 粗粒度偏好建模

2.1.1 多干预学习模块

在经过特征编码模块得到用户特征x和干预t的emb之后,利用调整不同时长的视频分布作为treatment,可以将问题建模为multi-treatment的学习范式,即学习用户对不同treatment的偏好。首先对用户的非干预特征emb进行拼接,并对干预的嵌入使用平均池化

为了充分利用treatment信息,基于多兴趣学习,将treatment嵌入细化为indicator嵌入和guidance嵌入 。这两种嵌入形式是在不同干预效果下的兴趣泛化。

  • 对于guidance部分,希望它能作为用户特征的过滤器和信息提取器,表达treatment的指导作用。
  • 对于indicator部分,希望它能表达干预的指示性作用,从而帮助模型推广到涉及不同治疗的学习任务 首先利用兴趣提取模块来细化中的guidance和indicator部分(二者的执行过程一致)。以下为guidnace部分,同理可以得到

而对于用户特征表征,采用M个专家网络来进一步提取M个专家网络表征(操作过程和上式一样),然后,利用guidance嵌入来过滤和提取用户特征的信息,同时利用indicator嵌入来增强提取信息的表示,其中表示经过第m个专家网络提取的emb。g()是注意力门控,h()是tower网络

2.1.2 训练

采用huber loss,是超参数,训练阶段只有对应treatment的数据,训练阶段只使用对应treatment的数据训练对应的tower。

推理阶段,分别推理各个treatment下的预估分。

2.2 细粒度兴趣捕捉

2.2.1 模型结构

使用上下文特征和请求级候选作为特征,即。同时,长短视频的曝光数量之比作为标签。

通过编码器得到在线特征的嵌入,,表示用户最近交互的视频数量,是嵌入维度大小。对第二维进行平均池化,并将所有池化的嵌入拼接。

池化后的数据送入到多任务学习的模型中(如MMOE)输出得到

2.2.2 训练和预测

获得了不同treatment的实时兴趣学习的输出r。设计一个在线请求级别标签,它是长播放视频数量与短播放视频数量的比率。假设用户请求的曝光视频数量为V,有K类treatment。标签设计为下式,其中表示视频持续时间的第k类(即treatment)。分别代表长播放和短播放视频的数量。

训练阶段,使用huber损失作为优化函数;预测阶段,直接在线部署此模块,并在每次用户请求时调用它来计算实时兴趣得分。

2.2.3 决策

获得了离线长期偏好得分和在线实时兴趣分之后,将它们结合起来,动态调整不同treatment的有效用户组。如图2所示,将定义为第k次treatment的决策得分。将定义为treatment是否有效的阈值(即,如果;则采用第k个treatment)。因此,每个用户的多treatment(即调整不同持续时间的视频分布)将被动态调整,以实时启用或禁用。

3 实验

picture.image

picture.image

4 在线实验

为了进一步评估模型的在线性能在真实产品场景中的表现,作者在快手的工业推荐服务中新增了CDUM模型,该服务为数亿用户提供服务。实验随机选择了20%的用户使用我们的模型,另外20%的用户使用在线基线模型,然后从2024年9月12日到2024年9月29日进行了为期18天的在线测试。

picture.image 线上链路

在在线视频推荐的流程中,一系列模块被串联在一起以过滤候选视频,最终将选定的视频展示给用户。具体来说,当用户触发一个请求时,相应的用户属性和上下文特征被发送到在线服务。然后在线流程被触发,以串联的形式从候选池中过滤和选择视频。最后,选定的视频被展示给用户,结束这个请求。

文中的模型,如上图所示,在应用于推荐链路的粗排阶段。具体来说,当用户发送一个请求时,检索部分首先从候选池中检索候选视频,并将它们发送到级联排名器。因此,级联排名器被触发,在这个阶段,CDUM被调用以用户请求级别的特征和用户属性等作为输入进行推理。在CDUM中,CPM的输出 是每天更新的,因此它们被直接用来计算决策分数。而FIC模块基于实时传入的特征和用户请求进行推理,并输出。CDUM的这两部分共同工作,以决定在用户请求级别启用干预,从而直接作用于级联排名器的桶视频时长调整部分。

为了评估模型的在线性能,论文采用了业界常见的消费指标(例如,应用使用时间和观看时间)和留存指标(例如,次日留存、7日留存、进入 LT7/LT30和滑动 LT7/LT30)。其中,LT7/LT30是中长期日活跃用户(DAU)的无偏估计,严格指向用户体验。这些是指示在线用户留存收益的关键指标,可以表述为:

代表记录实验数据的日期。 表示实验开始的日期。 表示在第天的日活跃用户数。WAU 表示从 到 期间的周活跃用户数。LT30 的计算方式与此类似。由于快手每天服务着数亿用户,已知在0.01%的水平上提高LT7/LT30(↑)被认为是显著的。这意味着即使是很小的百分比提升,在如此大的用户基数上也能代表一个重要的改进。

picture.image 线上LT实验

上图展示了CDUM模型在测试期间与在线基线模型相比的LT指标性能。可以发现,模型在Enter LT7/LT30和Slide LT7/LT30方面分别取得了0.048%/0.041%和0.041%/0.039%的显著提升,这验证了CDUM的有效性。此外,如下表所示,模型在其他留存和消费指标上也显示出比基线模型显著的改进,再次证明了CDUM的优越性。该模型现在已经在快手上全面部署,每天为数亿用户服务。

picture.image

此外,为了证明在线模块FIC的有效性,文章对提出的CDUM进行了消融实验。具体来说,移除了在线调整的决策部分FIC,并仅依赖于 () 来决定是否启用第k个干预。

正如下表所示,CDUM在消费指标上显著优于其变体CDUM w/o FIC,证明了FIC的不可或缺性。picture.image

交流群:点击“联系 作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

快手 | uplift建模用于实时视频推荐

DIIT:跨域推荐中的域不变信息迁移方法

RecSys'24 | HTLNet:探索推荐系统中的混合目标之间的任务依赖性

长按关注,更多精彩

点个在看你最好看

picture.image

0
0
0
0
相关资源
边缘计算在视频直播场景的应用与实践
视频直播作为当前视频行业的核心场景之一,对于高清化、实时性、交互性要求较高,需要强大算力保障用户流畅观看与互动体验。本次分享主要从视频直播场景需求切入,介绍基于边缘计算的视频直播场景方案及其架构、应用与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论