腾讯 | 基于提示学习（prompt learning）进行序列推荐和冷启动 - 文章 - 开发者社区

picture.image

关注我们，一起学习~

标题：Personalized Prompt for Sequential Recommendation

地址：https://arxiv.53yu.com/pdf/2205.09666.pdf

学校，公司：中国科学院大学，腾讯

导读

针对冷启动场景，结合预训练模型和提示学习，本文将提示学习（prompt learning）引入到预训练的推荐模型中，并提出了一种用于冷启动推荐的基于个性化提示的推荐（PPR）框架。具体而言，通过基于用户画像的提示生成器构建个性化软提示，并通过面向提示的对比学习实现对提示的充分训练。

方法

2.1 符号说明

用户表示为，，用户u的历史行为表示为，每个用户包含m个自身属性，在冷启动场景，将用户分为“暖用户”和“冷用户”，前者用于预训练，后者用于调整和评估。在预训练后，对于冷启动用户通过拼接用户属性embedding来构成提示之后来生成用户的序列表征，，其中是基于用户自身属性生成的embedding，是生成提示embedding的参数。

2.2 整体框架

picture.image PPR的总体框架如图2所示。对于每个用户，

首先通过提示生成器根据用户画像构建个性化提示，并将其插入到用户行为序列的开头。然后将提示增强序列输入到预训练的序列模型中，以生成用户的行为表示。
此外，除了提示生成器之外，用户自身属性还被输入到另一个深度模型中，以生成用户的属性级表征。
最后，组合用户的行为和属性级别偏好以获得最终的用户表征。

为了能够对个性化提示进行更充分的训练，对提示进行增广，从而构建一种面向提示的对比学习损失。

2.3 预训练PPR

基于现有的序列推荐模型，比如SASRec，针对用户的输入序列进行训练，经过第层Transformer后可以得到相应的矩阵，因此不同层之间的传递可以表示为下式，其中为用户的最终输出embedding用于就算和推荐item的相似性

这里主要就是采用一些常见的序列推荐模型进行预训练，没有说明不同，构建的损失函数如下，

2.4 个性化提示调整

2.4.1 个性化提示生成器

PPR的关键是生成有效的提示，帮助缩小预训练模型和下游任务之间的差距。然而，在推荐中找到合适的提示存在以下难题，

（1）在PPR中很难构建硬提示，与NLP中的单词不同，推荐中的token（即item）没有明确的有意义的语义。
（2）此外，与NLP不同，推荐应该是个性化的。因此，还应该为不同的用户定制提示。在某种意义上，每个用户的推荐都可以被视为一项任务，而现实世界系统中有数百万用户。不可能为每个用户手动设计提示。

在PPR中为了有效和自动化的生成提示，本文基于用户的自身属性来构建提示。在得到用户u的每个属性的embedding后，拼接他们得到，然后经过MLP得到提示embedding包含n个token，

2.4.2 基于提示训练

将上述提示和序列拼接后经过序列推荐模型得到用户行为表征，再结合用户静态属性表征得到最终计算相似度的embedding，表示如下，其中为用户静态属性表征。

损失函数和序列常用的一致，

PPR（light）。在PPR（light）中，仅更新新引入的参数，即提示生成器的参数和用于用户属性的模型参数，其他参数固定不变。这是一种直接而高效的提示调优方式，它完全依赖于序列建模和商品表征学习中的预训练推荐模型。
PPR（full）。然而，由于NLP和推荐任务之间的巨大差距，经过广泛验证的原始“light”提示调整在下游任务中并不总是表现得足够好。因此，可以采用另一种PPR（full）方式进行更全面的调整，即整个模型微调。当然，虽然这边也微调了，但是提示embedding在其中起到了诱导作用。

2.5 基于提示的对比学习

冷启动推荐的主要挑战是缺乏足够的调优实例，并且在快速调优中也存在类似的问题，通过数据增广构建对比学习损失函数来增强表征的训练。

2.5.1 基于提示的增广

用户的属性通常是有噪声的，甚至是缺失的，而它们是个性化提示的主要来源，个性化提示的质量至关重要，尤其是在零样本场景中。因此，本文设计了一种基于提示的数据增强，以提高提示生成器的有效性和鲁棒性。对用户属性embedding的特征元素进行随机元素级mask，得到mask比例为的用户特征embedding。增广后的序列embedding表示为。