关注我们,一起学习~
标题:Disentangled Causal Embedding With Contrastive Learning For Recommender System
地址:https://arxiv.53yu.com/pdf/2302.05862.pdf
代码:https://github.com/somestudies/DCCL
会议:WWW 2023
公司:快手
- 导读 =======
推荐系统通常是基于用户-商品交互的反馈来建模,而用户与商品交互也可能是由从众性(商品流行度)导致的,即流行商品被点击的概率更高(出发点和这篇文章是一样的推荐学习(六)——点击原因解耦:用户兴趣,item流行度)。因此,从因果关系的角度来看,解耦这些相互作用的因素(流行还是兴趣所致)是一个至关众要的问题。它还导致了OOD问题,即训练和测试数据不一致。然而,由于缺乏区分兴趣和从众性的信号,这是一个相当具有挑战性的问题。数据稀疏性和商品的长尾问题阻碍了解耦因果embedding。本文提出了DCCL,这是一个采用对比学习的框架,通过分别为兴趣和从众性增加样本来区分这两个原因。此外,DCCL是模型无关的,可以轻松地部署在任何工业在线系统中。
- 方法 =======
2.1 构建因果图
已经提出了几种与因果相关的方法,如IPS、因果embedding和反事实推理等。本文提出了一种基于因果embedding的框架,如图2所示为因果图,这里构造的因果图相比之前的推荐学习(六)——点击原因解耦:用户兴趣,item流行度更加复杂了。 解耦表征可以有以下优势 :一方面,它从交互生成的角度出发,针对不同的原因准确地模拟用户的个性化偏好。另一方面,因果建模可以得到更鲁棒的模型,具有更强的泛化能力。此外,用户-商品交互通常有多个原因,如商品流行度、类别和质量等。这里主要关注两个原因:兴趣和从众性。
2.2 对比学习
在推荐系统中有大量的长尾商品,并且交互非常稀疏。这些稀疏性问题使得解耦的表征更难学习。因此, 为了确保直接在观察的交互数据上充分学习解耦的因果embedding,本文利用对比学习来增广每个原因的样本 。总体结构如图3所示。设计了两个用户-商品对的对比学习任务,分别学习兴趣和从众性embedding。定义和作为用户u解耦的兴趣和从众embedding。对于商品i, 因果embedding与商品自身内容相关,与物品的流行程度有关。 对于给定N个样本的batch,考虑用户u的交互商品是正样本,其他用户的交互商品被视为当前用户u的负样本 。
基于上述定义,解耦后的表征可以组成正负样本对,正样本对为,负样本对为。令表示两个表征之间的相似性,在常见的对比学习损失函数的基础上考虑商品长尾性(流行度),可以构建下面的损失函数,其中表示标准化后的商品流行度,为交互次数和总次数的比值。
对于从中性的embedding样本对和损失函数的构建方式和上述方式类似,
总损失函数为
- 结果 =======
image.png
交流群:点击“联系 作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
[WWW2023 | 基于用户兴趣对齐的跨域推荐算法, 利用对比学习和梯度对齐提升双域性能
2023-02-23
[WWW'23「美团」用于点击率预测的深度行为路径匹配网络
2023-02-20
[微软 | GA2M:可解释模型之广义加性模型
2023-02-23
[KDD'22「华为」CausalInt:因果干预用于多场景推荐系统
2023-02-12
长按关注,更多精彩
点个在看你最好看