SIGIR'22 序列推荐：对辅助信息解耦后再融合

picture.image

关注我们，一起学习~

title：Decoupled Side Information Fusion for Sequential Recommendation

link：https://arxiv.org/pdf/2204.11046.pdf

code：https://github.com/AIM-SE/DIF-SR

from：SIGIR 2022

导读 =======

本文考虑在序列推荐中对各种辅助信息进行融合来提升下一个商品的预测性能。大多数方法采用注意力方法，但是不同异构信息的混合相关性给注意力机制带来了额外的干扰，并且embedding的早期集成限制了注意力机制的表达能力。

本文提出解耦的辅助信息融合DIF-SR，将辅助信息从输入移动到注意力层，并将各种辅助信息和商品表征的注意力计算解耦。辅助属性预测器进一步激活辅助信息和商品表征学习之间的有益交互。

懒人阅读 =========

通常的融合辅助信息的序列推荐方法都是将序列中交互对应的辅助信息（如商品的品牌，类别，用户打分等）和交互的商品ID一起融合后，再经过注意力机制进行相关性挖掘。本文作者发现提前融合会影响注意力层的表征能力，因此，作者将注意力机制放在融合之前，即下面章节的图3c，然后通过将不同属性的注意力权重进行融合（add，concat，gating具体看下文），然后再对embedding进行加权。得到序列中各个交互的embedding后，采用最后一次交互的商品embedding和候选商品embedding求用户交互分数。并且在训练阶段约束交互中商品embedding包含辅助信息，具体可见损失函数部分。

问题定义 =========

令I,U分别表示商品和用户集合。用户u的历史序列表示为，vi表示第i个交互的商品，辅助信息包括与商品相关的信息（例如，品牌、类别）和与行为相关的信息（例如，位置、评分）。假设有p种辅助信息，每个交互可以表示为：，表示第i次交互的商品ID，f为辅助信息。给定交互序列，预测用户最后可能交互的商品。

方法 =======

picture.image image.png

4.1 Embedding模块

对于输入序列，将其中的商品ID和对应的属性分别输入到相应的embedding层，表示如下，分别得到对应的embedding矩阵，lookup矩阵的维度为，，得到的embedding矩阵维度则为其他属性也类推。

4.2 解耦的辅助信息融合模块DIF

4.2.1 层结构

如图 2 所示，解耦的辅助信息融合模块包含几个堆叠的顺序组合 DIF 注意力层和前馈层的块。每个 DIF 块涉及两种类型的输入，即当前商品表征和辅助信息表征，然后输出更新的商品表示。辅助信息embedding不会每层更新以节省计算量，同时避免过度拟合。令表示块i的输入商品表征。

4.2.2 DIF注意力层

picture.image 从图中可以看出，本文所提的DIF中采用的注意力方式和其他方式的区别在于融合过程和注意力机制的位置关系，之前的方式都是先融合，然后再通过注意力机制；而DIF-SR 不是通过早期融合来获得融合的项目表征，而是将各种辅助信息的注意力计算过程解耦以生成融合的注意力矩阵，以获得更高的表征能力、避免混合相关性和灵活的训练梯度。