关注我们,一起学习~
title:Region or Global? A Principle for Negative Sampling in Graph-based Recommendation
link:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9723516
from:TKDE 2022
-
导读
本文是针对基于图的推荐系统而提出的负采样方法,以往的方法更多的关注负采样分布的设计,而忽略了采样的区域。本文提出了三区域原则来进行负采样,从而提出了RecNS方法,该方法包括两种策略:正辅助采样和曝光增强采样。
- 正辅助采样:通过三区域中的中间区域正样本辅助设计难负样本采样方法
- 曝光增强采样:通过曝光未交互商品来进一步增强负样本
-
负采样的三区域原则
image.png
- 邻接区域 :在基于图的推荐中,相邻区域中的商品通常用于为中心用户 u 传播特征信息。因此,这些商品代表了用户的积极偏好,不应作为消极偏好进行采样。
- 中间区域 :与相邻商品不同的是,中间区域的这些商品被认为是可以为模型训练带来更多信息的近似正样本的难样本。这些中间节点离中心用户 u 有点远,当它们作为相邻商品在用户-项目图中传播信息时,会降低(或略微提高)推荐性能。与相邻商品相比,这些中间商品在性能上的提升有限,有时甚至会降低性能。此外,将这些中间项传播到中心节点可能会导致大量内存消耗。因此,中间项目应该被充分采样为负样本以增强负样本。
- 更远区域 :距离中心用户u很远的商品节点,可以看做是易负样本,这些样本是很容易拟合的,在这上面过多的负采样对性能提升帮助不大。
2.1 分割三个区域的方法
对于如图 3 所示的用户 u 和子图,利用逐层广度优先搜索 (LBFS) 来遍历子图并获得个性化商品集。在这里,我们将 u 的 k阶 邻居内的商品定义为相邻商品,将 u 的 k阶邻居之外的商品定义为远距离商品。因此,u 的 k阶 邻居中的项目作为中间项目。值得注意的是,遍历的分离标准涉及每个用户的个性化区域,并涉及用户-商品图的结构。专注于中间商品的生成,因为中间区域对负采样起着决定性的作用。根据三区域原则,负采样区域是中间区域而不是全局区域。
伪代码如下,根据LBFS得到中间区域的商品节点集合。
-
RecNS方法
RecNS是一种通用的负采样方法,可以嵌入到各种基于图的推荐方法中。包括两种策略:正辅助采样(RecNS-O)和曝光增强采样(RecNS-W)。结合这两种方法可以得到最终的负样本embedding。其伪代码如下所示,后续将具体展开两种采样策略。
3.1 RecNS-O
为了得到难负样本,提出了正辅助采样策略RecNS-O,其中负采样是在正样本的辅助下进行的。具体来说, 对于任何给定的用户 u 和对应的正物品 v,用户 u 的负样本分布是由用户 u 和物品 v 共同决定的,而不仅仅是用户 u。
因此RecNS-O是结合正样本来对负样本进行采样。
- 首先从三区域原理构造的中间区域中选择M个候选负样本,形成候选项集,其中M通常远小于图数据中的商品数。
- 然后,利用内积计算得到的分数来近似正分布,并估计负分布,然后从候选商品集 中选择负样本。
其中负分布和正分布成正比,因此可以用内积分数来估计正样本辅助采样的分布,公式如下,其中表示从负分布采样的负样本,α为辅助系数,用于平衡用户和商品的影响。
正辅助采样通过将正样本信息合并到负采样中来增强负采样,利用难负样本来促进优化过程。使用增强的hinge损失来优化基于图的推荐的参数,从采样的k个负样本构成集合,具体可见RecNS的整体伪代码。
3.2 RecNS-W
通过 曝光信息来辅助负采样,曝光信息中会包含用户负偏好的信息 。曝光但未交互的商品(后续简称曝光商品)反映了用户与全局未观察商品相比的负面偏好。此外,假阴性问题也可以通过曝光信息来缓解。直接从曝光商品中采样负样本的策略可能会面临采样偏差,因为曝光商品本身可能存在严重偏差,导致性能欠佳。因此,作者提出将曝光信息整合到负样本中,并提出曝光增强采样以减少采样偏差并提高负样本的质量以减少假阴性问题。
对于用户u,他的曝光商品集合为,
- 首先从集合中均匀采样M个商品作为候选集
- 然后通过一个系数因子β来增强曝光信息的影响
这里同样利用内积计算用户u对候选集商品的偏好,然后选择分数最高的作为负样本,公式如下,
因子β是利用中采样的难负样本来修改曝光商品的内积分数。这使得整个采样更倾向于选择属于候选难样本集合中的曝光样本作为负样本,可以纠正曝光item本身带来的采样偏差问题。 具体来说 ,对于用户u和候选曝光物品集中的任意一个曝光物品,如果属于候选物品集,则β的量级将增加1。因此,β 的大小取决于 Cu 中曝光商品的数量。公式如下,
3.3 RecNS
在 RecNS 中,负样本依赖于上述两种采样策略:正辅助采样和曝光增强采样。接下来结合两类采样策略生成最终的商品embedding。本质上,基于图的推荐的核心思想是迭代地对用户-商品图中的embedding进行消息传播。因此,将这些采样策略合并到embedding空间中。公式如下,其中k是负样本个数
-
结果
-往期推荐-
[
RecSys Challenge 2022推荐赛题](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247490285&idx=2&sn=2b3465a6a3429d5a8e9f7bc85772d1d0&chksm=c15319e9f62490ff7e2cbb4696f15f2253b09b36699c5dbebe2bf71d999f694e64127e8e27e5&scene=21#wechat_redirect)
[
WSDM'22「谷歌」SA2C:用于推荐系统的监督优势 Actor-Critic](https://mp.weixin.qq.com/s?__biz=MzkxNjI4MDkzOQ==&mid=2247490261&idx=1&sn=efee971fc3895a42b61bbc36b68e8a4e&chksm=c15319d1f62490c76db1e91b08cb12744f346e7050ba14b2eb2baf7b22c2918ae37bb884600e&scene=21#wechat_redirect)
[
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎干货投稿|论文宣传|合作交流
长按关注,更多精彩
点个在看你最好看