WSDM'23「腾讯」CAT-ART：多域跨域推荐学习用户表征

picture.image

关注我们，一起学习~

标题：One for All, All for One: Learning and Transferring User Embeddings for Cross-Domain Recommendation

地址：http://export.arxiv.org/pdf/2211.11964v1

代码：https://github.com/Chain123/CAT-ART

会议：WSDM 2023

公司，学校：腾讯，阿尔伯塔

导读 =======

跨域推荐是提高推荐系统性能的一种重要方法，特别是当目标域中的观测数据稀疏时。现有技术集中于单目标或双目标跨域推荐（CDR），并且很难推广到具有多个目标域。此外，负迁移问题在CDR中普遍存在，其中目标域中的推荐性能可能不总是通过从源域学习的知识来增强，尤其是当源域具有稀疏数据时。本文提出了CAT-ART，一种多目标CDR方法，它通过表征学习和embedding迁移来学习改进所有参与域中的推荐。该方法由两部分组成：一个基于所有参与域的信息生成全局用户embedding的自监督对比自编码器（CAT）框架，以及一个基于注意力的表征迁移（ART）框架，该框架从其他域迁移特定于域的用户embedding，以辅助目标域推荐。CAT-ART通过结合使用学习到的全局用户表征和从其他域迁移的知识，以及在目标域中的原始用户embedding，提高了任何目标域中的推荐性能。

方法 =======

本文关注多个目标域的跨域推荐问题，全局用户集合为U，商品集合为表示n个域对应的商品集合。在各自与的用户-商品交互矩阵表示为矩阵大小为，矩阵中每个位置表示用户与商品是否交互。

2.1 CAT-ART的结构

在处理多目标域的CDR问题时，设定两个目标。1）One for All：提取用于所有域中的推荐的全局用户表征。2）All for One：从所有可用域中迁移特定于域的embedding，以帮助目标域中的推荐。本节提出了CAT-ART模型，其中对比自动编码器（CAT）模块和基于注意力的表征迁移（ART）单元分别为上述两个目标而设计。

图1所示。

首先，使用BPRMF在每个域内独立地预训练特定于域的用户embedding。
然后，CAT模块将从所有域收集的特定于域的embedding作为输入，并生成全局用户表征。为了创建无偏的跨域用户embedding，在模型训练中结合了重构损失和对比自监督损失，使得CAT模块能够提取信息性全局用户表征。
最后，ART模块从所有其他域迁移特定于域的用户embedding，以提高单个域中的推荐性能。通过将注意力机制纳入ART模块，可以根据它们的相关性调整每个领域的贡献，以解决负迁移问题。

picture.image image.png

2.2 特定于域的用户embedding

如图1所示，在单域用户建模单元中，采用矩阵因子分解（MF）模型和贝叶斯个性化排名（BPR）损失，以获得每个域中的用户和商品embedding。为了分解在域d中的交互矩阵，构建两个矩阵和分别表示在域d的商品和用户的embedding矩阵，m为潜在空间的维度，对应的embedding为，。则相关性分数为，bpr损失构建如下，其中p为和用户交互的商品集合。

通过最小化BPR损失，得到特定于域的用户embedding。不共享原始用户数据，而是跨域共享预训练的特定于域的用户embedding，以在原始数据隔离约束下实现跨域的知识共享。

2.3 对比自动编码器

预训练的特定于域的用户embedding被收集并送到CAT模块以获得全局用户表征。采用一个自动编码器框架，该框架将用户的域特定embedding作为输入，并生成潜在的用户表征。

首先将所有特定于域的用户embedding以预定义的顺序（例如，从域1到域n）拼接成一个大的一维向量。
然后，使用编码器提取潜在用户表征，该潜在用户表征被进一步送到解码器以重建输入的特定于域的embedding。

使用MLP构建编码器和解码器，预训练后的特定于域的用户的embedding为，自动编码器的过程可以表示为下式，

重构损失函数为,

作为自动编码器输入的预训练的特定于域的用户embedding的有效性受到每个域中数据质量和稀疏性的高度影响。例如，来自稀疏域的训练不足的用户embedding可能会将噪声引入自动编码器的输入。此外，自动编码器可能偏向于具有更高用户embedding质量的域，因为重构高质量的embedding会相比充满噪声的embedding更容易。

因此，采用对比自监督学习来进一步训练自动编码器，以获得不偏向任何特定域的更一般和鲁棒的潜在用户表征。对比自监督学习的核心思想是使输入样本的表示与增强样本的表征一致，例如，通过应用高斯噪声或切割获得。

通过mask的方式获得增广后的embedding来构建对比学习，从组合的embedding中随机删除一些特定域的embedding。其中为可学习向量用于mask，mask后经过编码器得到*e。

给定原始embeddings经过编码的e和mask后得到的*e，可以构建对比学习损失函数，对于集合，为正样本对，对于一个batch中的数据，构建对比损失如下，为余弦相似度。第一项表示给定识别的损失，第二项是给定识别的损失。

处理对比损失，还有前面自动编码器的重构损失，即对增广后的embedding进行重构。

则cat模块部分的损失函数为，前两部分是重构损失，第三部分是每个用户的对比损失。