CMI:结合对比学习和多兴趣挖掘的微视频推荐

小程序计算开源镜像

picture.image

关注我们,一起学习~

标题:Improving Micro-video Recommendation via Contrastive Multiple Interests

链接:https://arxiv.org/pdf/2205.09593v1.pdf

会议:SIGIR 2022

公司:MX Media

  1. 导读

本文主要关注微视频的推荐 方面的一篇短文,现有的微视频推荐模型依赖于多模态信息,并且学习的embedding无法反映用户对微视频的多种兴趣。本文结合对比学习 提出提取对比多兴趣 并设计微视频推荐模型 CMI。CMI 从用户的历史交互序列中为每个用户学习多个兴趣embedding,其中隐式正交微视频类别用于解耦多个用户兴趣。此外,构建对比多兴趣损失,以提高兴趣embedding的鲁棒性和推荐的性能。

  1. 方法

picture.image用户集合表示为U,商品集合为V,用户u在时间t与商品v交互可以表示为,给定用户,其交互序列可以表示为,用户的多个兴趣表征可以表示为,然后,对于每个兴趣embedding,计算每个候选微视频的余弦相似度,并召回具有相似度最高的K个微视频,即总共召回了mK个微视频。最后,从召回的微视频中,根据余弦相似度选取topK个微视频。

2.1 多兴趣和一般兴趣编码器

本文认为商品的类别用户兴趣的基础 。假设有m种全局类别并设置可学习的隐式embedding为。对于交互序列中的商品,通过embedding层依次得到每个商品的embedding,得到 。使用商品embedding和类别embedding之间的余弦相似度作为衡量商品属于类别的分数。公式如下,

然后归一化得到相应的概率,

然后可以得到商品类别对应的用户兴趣为在执行类别分配时,可能会遇到两种退化情况。

  • 每个商品具有相同或相似的属于不同类别的概率。造成这种退化的原因是学习到的商品类别embedding很相似。
  • 所有商品都属于同一类。

为了避免退化情况,将类别embedding和商品embedding都约束在一个单位超球面内,即,并将两两类别的embedding约束为正交,公式如下,

除了对用户的多种兴趣进行编码外,还使用 GRU 对用户的一般兴趣的演变进行建模,获得用户的一般兴趣

2.2 对比正则项

部分交互中隐含的用户兴趣与所有交互(所有交互的意思是整个交互序列)中隐含的用户兴趣相同。因此,采用随机抽样来得到不同的子序列,从而获得增广的数据 。具体来说,给定用户的历史交互序列,从中采样个微视频,并根据它们在中的顺序形成一个新序列,其中μ是采样率,f是最长序列长度默认值为 100。通过随机采样两次,得到两个序列和 。然后将这两个增强序列馈送到两个多兴趣编码器,以学习两组用户兴趣,即和 ,可以表示为下式,

然后,构建一个对比多兴趣损失。对于用户的任何兴趣embedding,构造一个正对,用和其他2m-2个兴趣embedding构造2m-2个负样本对。由于m通常不会太大,因此上述负对的数量是有限的。给定,利用同一批次中每个其他用户的兴趣embedding来构建额外的负对。综上,设训练batch为B,batch size为|B|,对于每个正对,有2m(|B| − 1) + 2m − 2 = 2(m|B| − 1) 个负对,形成负集。损失函数如下所示,

通过数据增强和对比多兴趣损失,用户兴趣学习不再对特定的正交互敏感,从而减少噪声正交互的影响,实现正交互降噪。

2.3 损失函数

用户和候选商品的预测方式为

。在训练过程中,对于用户的每个正样本,从所有微视频中随机抽取从未交互过的n个微视频作为负样本。为了避免高采样成本,给定一个正样本,只采样一个负样本,即n为1。此外,将同一批次中其他用户的正样本商品和负样本商品作为负样本,从而形成负样本集N。然后采用以下交叉熵损失函数,公式如下,总损失函数为下式,

  1. 结果

picture.imageimage.png

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

[KDD'22|CrossCBR:跨视图对比学习在捆绑推荐中的应用

2022-06-07

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247492052&idx=1&sn=7b6f61d5e73d2f36d0e0b383eaa73d59&chksm=c150e2d0f6276bc6981cff7636d15a992c0312874292fc50e1bff2e091bd72f63c8d8cc60a28&scene=21#wechat_redirect)

[动手实现Bandit算法

2022-06-06

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247492035&idx=1&sn=92c5bc7a384ffe4997fb3e0a5dce3e5c&chksm=c150e2c7f6276bd11a18b5da87b2dfa44131c99b8e1f939ba4c5d6c8f157e47ae95d18d33caa&scene=21#wechat_redirect)

[SIGIR'22「腾讯」HIEN:用于点击率预估的分层意图embedding学习

2022-06-05

picture.image](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247492006&idx=1&sn=2d0e81fd3387457a7383ff3157c3fab5&chksm=c150e2a2f6276bb44d9b7223fd9c91b568d4a36428c29891775721e26c313a3bcc3785a8945a&scene=21#wechat_redirect)

picture.image

长按关注,更多精彩

picture.image

picture.image

点个在看你最好看

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
DataSail CDC 数据整库实时入仓入湖实践
在线数据库数据导入到数仓分析的链路已经存在多年,随着近年来实时计算的发展,业务希望有延迟更低、运维更便捷、效率更高的CDC同步通道。本次分享主要介绍DataSail实现CDC整库实时同步的技术方案和业务实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论