RecSys'24 | 通过指令和提示词使用LLM构建可解释的跨域推荐方法 - 文章 - 开发者社区

picture.image

关注我们，一起学习

论文标题：Instructing and Prompting Large Language Models for Explainable Cross-domain Recommendations

论文地址：https://dl.acm.org/doi/pdf/10.1145/3640457.3688137

1 引言

本文利用大语言模型(LLM)为用户提供可解释的跨域推荐(CDR, cross-domain recommendations)策略，CDR的难点主要是数据稀疏性问题，需要大量在源域和目标域中标记的数据，但这些数据并不容易获取。本文的方法基于已经编码在LLMs中的知识来桥接域之间的信息，提供个性化的跨域建议。

为此，本文设计流程如下：(a)指导LLM处理CDR任务；(b)根据源域中用户的偏好和要在目标域中排序的item列表，设计个性化prompt；(c)在零样本示例(zero-shot)和单样本示例(one-shot)设置下将prompt喂给LLM，并处理答案以提取推荐和自然语言解释

2 方法

本文的执行策略如下图所示，由4个阶段组成：(a)数据预处理，目标是将数据准备成适合LLM的形式；(b)指示微调，使用部分数据训练模型来正确的处理CDR任务；(c)提示工程，旨在构建LLM的自然语言请求；(d)提炼和推荐，处理LLM的输出来提取建议列表和解释

picture.image

2.1 数据预处理

这步收集所有可用的数据(无论源域还是目标域)，并将其处理成适合工作流的形式。基础的步骤是将用户集合U分为两个不相交的子集Ui和Up，Ui用于指示微调步骤，Up用户提示阶段。确保两个集合没有相交的数据防止信息泄露。对于每个用户，会建立P(u,S)和N(u,S)，分别代表源域中用户喜欢和不喜欢的item集合，以及目标域中需要排序的集合R(u,T)，最后还有item的特征集合F。所有的这些结合在指示微调和提示工程阶段都会输入给LLM

2.2 指示微调

这步通过向LLM提供关于CDR场景的数据并对其调整，输出一个针对CDR的新LLM，本文将其称为CDR-LLM。指示器模型会将预处理步骤生成的数据转化为适合LLM的格式，使用它们来填充一套适应性提示，即用于使LLM适应新任务的提示，再进行微调。本文的案例中，设计了一个离散提示，将关于任务、用户偏好和项目特征的所有信息词汇化为字符串，然后将它们全部连接起来。最后，处理过程分为两步：首先设计适应性prompt的结构。具体而言，prompt分为三个主要部分：系统提示，此部分提供有关CDR任务和域的一般指示；用户提示，此部分详细介绍用户交互历史，它进一步分为三个部分:(a)源域中用户喜欢的项目及其特征。(b)源域中用户不喜欢的项目及其特征。(c)目标域中的候选项目及其特征。模型输出，这指定了LLM的预期输出，即基于用户偏好在目标域中重新排名的候选item列表和和推荐理由的解释

接着这部分会被逐一拼接起来，正式表示为：

完整的提示如下表

picture.image

如上例所示，系统提示部分保持不变，而用户提示则根据偏好词动态填充。最后，模型输出包含基于基本事实的正确排名和LLM本身生成的解释。换句话说，适应提示的目标是为LLM提供任务描述以及一组示例，这些示例还包含LLM应该能够提供的正确答案，即正确的排名和合适的解释。通过这种方式，让LLM充分利用其出色的泛化能力，并使其即使只有少量示例下适应这种新的前所未见的任务。

这个过程对所有Ui集合中的用户以及所有源域和目标域中的组合重复进行，这么做的合理性在于希望让模型专门处理通用的跨域推荐任务，而不考虑特定的源域和目标域。相反地，在接下来的提示工程阶段，会选择一对特定的源域和目标域，目的是希望在特定环境中提供跨域推荐。

在生成所有适应性prompt后，获得了指令数据用于微调模型并输出CDR-LLM模型，这个阶段对模型进行了全参数微调，微调的目标是最小化整个指令数据集的平均损失，定义为：

其中pi是适应性提示(包括系统部分和用户部分)，ri是期望响应(即指示输出)，L是损失函数(通常是交叉熵)。通过最小化这个损失时函数，LLMs学会对新颖和未见过的prompt作出正确的响应

2.3 CDR任务的LLM提示工程

如工作流所示，提示工程从域选择器组件开始，目标是选则一个源域和目标域，给定域之后，对于每个user，构建上诉样本集合P(u,S),N(u,S),R(u,T)以及item特征。使用这些集合作为个性化提示喂给CDR-LLM，模型输出为

2.4 输出提炼和推荐

尽管经过指示调优阶段，CDR-LLM的输出可能并不总是严格遵循理想的格式。为了解决这个问题，在工作流中引入输出提炼步骤，以确保模型的输出建议与这种格式对齐。

提炼过程包括两个步骤，首先分析作为输出返回的ID避免LLMs常见的幻觉，具体而言，比较CDR-LLM返回的元素和R(u,T)中的元素，并过滤掉那些在原始候选物品集中未出现的元素。然后最终的推荐列表与LLM响应中出现的过滤后的ID列表相同，顺序不变。接着解释部分，在此情况下提取LLM答案中"Explanation:"一词后面的所有文本。如提示表格所示，CDR-LLM生成的自然语言解释是当前方法的另一个显著特征。它们清楚地展示了LLMs能够无缝利用它们编码的巨大知识库，来识别不同领域物品之间的模式和联系。