WWW'23「快手」基于对比学习解耦因果表征用于推荐系统

火山方舟向量数据库大模型

picture.image

关注我们,一起学习~

标题:Disentangled Causal Embedding With Contrastive Learning For Recommender System

地址:https://arxiv.53yu.com/pdf/2302.05862.pdf

代码:https://github.com/somestudies/DCCL

会议:WWW 2023

公司:快手

  1. 导读 =======

推荐系统通常是基于用户-商品交互的反馈来建模,而用户与商品交互也可能是由从众性(商品流行度)导致的,即流行商品被点击的概率更高(出发点和这篇文章是一样的推荐学习(六)——点击原因解耦:用户兴趣,item流行度)。因此,从因果关系的角度来看,解耦这些相互作用的因素(流行还是兴趣所致)是一个至关众要的问题。它还导致了OOD问题,即训练和测试数据不一致。然而,由于缺乏区分兴趣和从众性的信号,这是一个相当具有挑战性的问题。数据稀疏性和商品的长尾问题阻碍了解耦因果embedding。本文提出了DCCL,这是一个采用对比学习的框架,通过分别为兴趣和从众性增加样本来区分这两个原因。此外,DCCL是模型无关的,可以轻松地部署在任何工业在线系统中。

  1. 方法 =======

2.1 构建因果图

已经提出了几种与因果相关的方法,如IPS、因果embedding和反事实推理等。本文提出了一种基于因果embedding的框架,如图2所示为因果图,这里构造的因果图相比之前的推荐学习(六)——点击原因解耦:用户兴趣,item流行度更加复杂了。 解耦表征可以有以下优势 :一方面,它从交互生成的角度出发,针对不同的原因准确地模拟用户的个性化偏好。另一方面,因果建模可以得到更鲁棒的模型,具有更强的泛化能力。此外,用户-商品交互通常有多个原因,如商品流行度、类别和质量等。这里主要关注两个原因:兴趣和从众性。picture.image

2.2 对比学习

在推荐系统中有大量的长尾商品,并且交互非常稀疏。这些稀疏性问题使得解耦的表征更难学习。因此, 为了确保直接在观察的交互数据上充分学习解耦的因果embedding,本文利用对比学习来增广每个原因的样本picture.image总体结构如图3所示。设计了两个用户-商品对的对比学习任务,分别学习兴趣和从众性embedding。定义和作为用户u解耦的兴趣和从众embedding。对于商品i, 因果embedding与商品自身内容相关,与物品的流行程度有关。 对于给定N个样本的batch,考虑用户u的交互商品是正样本,其他用户的交互商品被视为当前用户u的负样本

基于上述定义,解耦后的表征可以组成正负样本对,正样本对为,负样本对为。令表示两个表征之间的相似性,在常见的对比学习损失函数的基础上考虑商品长尾性(流行度),可以构建下面的损失函数,其中表示标准化后的商品流行度,为交互次数和总次数的比值。

对于从中性的embedding样本对和损失函数的构建方式和上述方式类似,

总损失函数为

  1. 结果 =======

picture.image image.png

交流群:点击“联系 作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

[WWW2023 | 基于用户兴趣对齐的跨域推荐算法, 利用对比学习和梯度对齐提升双域性能

2023-02-23

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247493873&idx=2&sn=e63468e9660764fb563ca303a8cd5ebe&chksm=c150ebf5f62762e339b738f583885fdeaee7149d4ee49e98d3985026c8f1076bc015203dae70&scene=21#wechat_redirect)

[WWW'23「美团」用于点击率预测的深度行为路径匹配网络

2023-02-20

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247493847&idx=1&sn=fde532f0556aa553d840f8f5ef32ed38&chksm=c150ebd3f62762c5348afed451b2edd3495925457d840045fdf8906510a2ab10bd109d42a0e1&scene=21#wechat_redirect)

[微软 | GA2M:可解释模型之广义加性模型

2023-02-23

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247493873&idx=1&sn=fe2002bd10c6be19c04ecc99aa81344d&chksm=c150ebf5f62762e3a85e98cd8fe426aac02b6c03018627092e002114d0ebe7d1b9db5aac506c&scene=21#wechat_redirect)

[KDD'22「华为」CausalInt:因果干预用于多场景推荐系统

2023-02-12

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247493808&idx=1&sn=f67db2710fdfa726b88507af4cfb64c6&chksm=c150ebb4f62762a2bd583805a8feae74272a5efbc228ba2b832db61bb8c4e4f52b1b76df309d&scene=21#wechat_redirect)

picture.image

长按关注,更多精彩

picture.image

picture.image

点个在看你最好看

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论