RecSys'24 | 通过额外的注意力来增强自注意力机制用于序列推荐 - 文章 - 开发者社区

picture.image

关注我们，一起学习

论文标题：Pay Attention to Attention for Sequential Recommendation

论文链接：https://arxiv.org/pdf/2410.21048

会议：RecSys 2024

学校：青海大学

转载请注明出处

1 引言

基于transformer的方法在许多序列化任务中取得了显著效果，然而传统的自注意力模型可能不足以捕获序列推荐场景中复杂的item依赖关系，这是因为缺乏对注意力权重的明确强调，而注意力权重在分配注意力和理解item间相关性方面起着关键作用。为更好发挥注意力权重的潜力并提高序列推荐在学习高阶依赖关系方面的能力，本文提出了注意力权重细化 (AWRSR) 方法，主要创新点如下：

1.AWRSR 通过额外关注注意力权重来增强自注意力机制的有效性，从而实现item间相关性更精细的注意力分布

2.本文对 AWRSR 在捕获高阶依赖关系方面的有效性进行分析。为提高自注意力结构在序列推荐任务中的性能提供了新方向

2 方法

2.1 基于自注意力机制的序列推荐模型

自注意力机制(self-attention)中最常用的方法是使用序列中item之间的缩放点积运算来推断它们的相互关系，即：

其中Q、K、V分别代表queries，keys和values，由item的embedding和权重矩阵计算得到。两个item k和t之间的注意力值计算结果为，最近出现了一个强大而有效的计算注意力权重的基准 STOSA，它受到满足三角不等式的启发，采用 Wasserstein 距离来衡量两个item的随机embedding之间的差异，给定两个item k和t，对应的随机embedding为两个分布和,其中为embedding乘上权重矩阵，,ELU(指数线性单元)用来保证协方差的正定性，STOSA将注意力权重定义为负2-Wasserstein距离

picture.image

现有的注意力权重操作围绕计算item embedding或分布之间的相似性或距离，如上图右下角部分所示。这种方式并没有考虑注意力权重内的潜在相关性，而这些相关性可能会进一步揭示注意力权重本身内的高阶转换。如上图中右上角部分所示，注意力权重矩阵 A 源自序列中item的表示，它编码了序列中每个项目相对于所有其他项目的关系。例如，A1表示从第一个item到序列中所有其他item的注意力或重要性的分配，这意味着细化这些权重(本质上捕捉权重/注意力之间的相关性)具有建模高阶转换的潜力。鉴于此，比较A1和A2可以有助于对序列中两个item之间依赖关系的理解

2.2 提炼机制

本文共设计了4中细化机制来计算注意力权重之间的依赖关系，即：计算注意力权重之间的注意力权重(pay attention to attention)

机制1： Simple refinement()，该机制只是将一组新的可训练矩阵应用于 A，将其转换为新的查询和键，以计算更高级别的权重，形式如下：

其中W是可训练的矩阵。接着对新的权重矩阵B使用softmax函数，softmax(B) 与item集合的乘积相当于对值进行求和，这意味着每个值都通过细化的高阶注意力权重进行缩放。

机制2： Value-weighted refinement()通过attention进一步转化机制1得到新权重B，希望在更复杂的高阶空间中提炼并重新表达权重相关性，给出矩阵形式以简化计算：

机制3： Additive refinement()，该机制的目的是合并/平衡不同级别的注意力权重，计算如下：

机制4： Stochastic refinement()，该机制针对随机SA架构 STOSA 进行了量身定制，尝试将 STOSA 原有的随机权重 A 转变为一种可能保持权重概率性质的新形式。对item k计算一个新的注意力分布,其中,这里的W为两个随机矩阵