微软 RecAI：使用LLM助力生成式推荐（多项工作均已开源）

转自：Coggle数据科学

picture.image

关注我们，一起学习

RecAI 核心理念是全方位（Holistic View） ，通过弥补通用大模型缺乏领域知识的短板，提升推荐系统的交互性、可解释性和可控性。

推荐 AI 智能体 (Recommender AI Agent)：将 LLM 作为“大脑”，将传统的推荐模型（如矩阵分解）作为“工具”。
选择性知识插件 (Selective Knowledge Plugin)：通过 提示工程（Prompting） 而非微调（Fine-tuning）来增强模型。
嵌入式 RecLM (Embedding RecLM)：专门为物品检索（Item Retrieval）优化的向量模型。
生成式 RecLM (Generative RecLM)：通过有监督微调（SFT）和强化学习（RL）对 LLM 进行领域适配。
模型解释器 (Model Explainer)：将 LLM 作为代理模型（Surrogate Models），学习并模拟目标推荐模型的行为，从而生成可理解的解释。
RecLM 评估器 (RecLM Evaluator)：不同于传统指标，它从检索、排序、解释能力以及通用 AI 能力等多个维度评估基于语言模型的推荐系统。

InteRecAgent 框架

https://github.com/microsoft/RecAI/blob/main/InteRecAgent/README.md

为了解决复杂交互中的技术挑战，InteRecAgent 引入了三大创新机制。首先是候选总线（Candidate Bus）存储机制 ：由于物品列表往往过长，无法全部塞进 LLM 的提示词中，系统设计了一个独立的内存空间来存储中间候选集，各工具之间像漏斗一样逐级过滤物品，而无需 LLM 频繁处理长文本。其次是长短期用户画像（Memory Mechanism） ：系统会实时维护用户的实时兴趣（Expect）与长期偏好（Like/Dislike），确保推荐既符合当下的指令，又一致于用户的个人品味。

picture.image

在任务执行效率上，论文提出了**“规划先行（Plan-first）”策略** 。不同于传统的逐步思考（Step-by-step），InteRecAgent 会先生成一个完整的工具调用计划，然后一次性执行，这大幅降低了 API 调用次数和系统延迟。为了保证规划的准确性，研究者还设计了动态示例注入（Dynamic Demonstration） 和自我反思机制（Reflection） 。如果系统检测到计划有误（如漏掉了排序步骤），“批评者”模型会要求“执行者”重新规划。

知识插件框架

https://github.com/microsoft/RecAI/blob/main/Knowledge\_Plugin/README.md

虽然大语言模型（LLM）在通用任务上表现卓越，但在面对特定行业或垂直领域时，往往会遭遇两大瓶颈：一是缺乏海量的动态领域数据 （例如电商平台每秒更新的商品和库存），二是缺乏特定领域的逻辑模式 （例如推荐系统中用户“协同过滤”的点击习惯，而非简单的文本相似度）。

picture.image

该框架的核心理念是：不微调大模型，而是通过“外挂”一个领域知识提取器，将专业知识以 Prompt（提示词）的形式注入模型。

知识准备（Knowledge Preparation）： 提取器首先识别任务所需的关键知识。以推荐系统为例，它不仅提取商品的 文本属性 （品牌、价格、类别），还挖掘 协同过滤（CF）信号 。这些信号揭示了哪些商品经常被用户一起购买，从而捕捉到 LLM 无法通过字面意思理解的深层行为关联。
知识定制（Knowledge Customization）： 由于 Prompt 的长度有限，DOKE 不会一股脑塞入所有信息。它会根据当前用户的历史行为和当前的候选商品， 按需选择 最相关的知识片段。例如，如果用户在看运动鞋，系统会精准调取与该运动鞋高度关联的品牌偏好和协同购买记录。
知识表达（Knowledge Expression）： DOKE 探索了如何让 LLM 更高效地“吸收”知识。除了简单的 文本模板 ，DOKE 还引入了 知识图谱（KG）推理路径 。例如，它不只是告诉模型“A和B相关”，而是展示路径： 电影A -> 同一导演 -> 电影B 。这种带有逻辑链条的表达方式，能够显著增强 LLM 的推理准确性。

物品检索模型

https://github.com/microsoft/RecAI/blob/main/RecLM-emb/README.md

在构建下一代推荐系统时，我们经常面临一个尴尬的挑战：通用的大语言模型（LLM）虽然博学多才，但在**“物品检索（Item Retrieval）”** 这一专业任务上却表现平平。当你告诉它“我想找类似《双人成行》但不是射击类的游戏”时，普通的文本向量模型往往只能识别出“射击”或“游戏”等关键词，而无法精准理解复杂的负向约束或隐性的用户偏好。

picture.image

为了填补这一空白，RecAI 项目推出了 RecLM-emb ，该研究的核心目标是：训练一个通用的文本向量模型，使其能够将任何形式的输入（对话、指令、属性堆砌）精准映射到推荐系统的商品库中。

研究团队总结了物品检索中常见的 10 大任务场景 ，并针对性地构建了训练数据集。这些任务包括：

隐式偏好匹配： 比如“根据用户历史行为（UH2I）推荐”或“根据 GPT-4 生成的用户总结（US2I）推荐”。
显式属性检索： 无论用户提供的是完整的商品参数（FA2I），还是零散、稀疏的关键词（SA2I），模型都能应对。
模糊与复杂查询： 针对现实中常见的“拼写错误（NM2I）”、“模糊条件（如：2020年后的低价战术竞技游戏）”以及“负向约束（如：不要卡通风格）”进行了深度优化。

传统的向量模型（如 BERT 或 OpenAI 的 ada-002）在零样本（Zero-shot）场景下，往往无法区分“文本相似”和“推荐相关”。通过在大规模领域数据上进行对比学习微调（Contrastive Fine-tuning） ，成功实现了意图对齐。实验证明，微调后的模型在处理“不仅要符合品味，还要满足特定过滤条件”的复合指令时，表现远超原始模型。

在刷短视频或逛电商平台时，你是否产生过这样的想法：“给我推荐点电影，但不要恐怖片”，或者“推荐 10 个游戏，其中一半要是国产的”。

研究团队首先定义了推荐智能体必须具备的三种“控制力”：

隐式意图： 根据历史行为猜你喜欢（基础能力）。
点对点意图（Item-wise）： 包含明确的“包含”或“排除”条件（例如：只要动作片，不要战争片）。
列表级意图（List-wise）： 对整个推荐列表的分布提出要求（例如：某类类别的占比要在 30% 左右）。

picture.image

为了让模型兼具准确性与可控性，RecLM-gen 采用了精密的训练策略：

第一阶段：监督学习（SL）与标签增强 大模型的训练需要高质量标签，但用户历史数据非常稀疏。研究者引入了一个**“教师推荐模型”（SASRec）** 。当用户提出指令时，由 SASRec 先生成一个高质量候选池，再根据指令过滤出符合条件的列表作为大模型的训练教材。

第二阶段：强化学习（RL）对齐 为了进一步减少格式错误（如重复推荐、推荐已看过的物品）并增强泛化能力，模型进入了 RL 阶段。系统根据物品级奖励 （是否为新物品、是否合法）和列表级奖励 （比例是否达标）对模型进行打分，通过 PPO 算法让模型在交互中自我进化。

在 Amazon Movie 和 Steam 两个数据集上的测试显示：

控制精度： 在“类别比例控制”任务中，RecLM-gen 的表现远超 GPT-3.5 和传统的微调模型。
减少幻觉： 相比其他基座模型，它推荐重复物品或不存在物品的概率大幅降低。
保持通才： 经过专门的对齐训练，模型依然保留了强大的通用语言能力（如 MMLU 跑分），没有因为学推荐而变“笨”。

RecExplainer 解释性框架

https://github.com/microsoft/RecAI/blob/main/RecExplainer/README.md

我们每天都在使用的推荐系统（如抖音、淘宝、Netflix）背后，通常运行着复杂的嵌入式模型（Embedding-based Models） 。这些模型将用户和商品转化为高维向量，虽然预测极其精准，但却像一个“黑盒”：没人知道它为什么觉得你会喜欢这件衣服，或者为什么给你推送这个视频。

picture.image

为了让推荐系统更透明、更值得信赖，RecAI 项目推出了 RecExplainer 。它的核心思路是：将 LLM 训练成推荐模型的“代理人”，利用 LLM 的逻辑推理能力，把冰冷的数学向量翻译成温暖的人类语言。

RecExplainer 提出了三种让大模型“对齐”推荐模型逻辑的方法：

行为对齐 (Behavior Alignment, RecExplainer-B)： 告诉 LLM 用户的历史记录，让它预测推荐模型会推荐什么（注意：是预测推荐模型的行为，而不是预测用户的真实行为）。
意图对齐 (Intention Alignment, RecExplainer-I)： 把推荐模型生成的向量投影到 LLM 的特征空间。LLM 就像看图识字一样，通过看这些向量就能感知用户的兴趣偏好。
混合对齐 (Hybrid Alignment, RecExplainer-H)： 时给 LLM 提供文字信息（商品标题）和隐性向量信息。

评估即进化：RecLM-eval

在推荐系统进入大模型时代后，我们面临一个核心难题：传统的评估指标（如 NDCG、Recall）只能衡量“准不准”，却无法衡量模型是否像人一样“懂行”。一个优秀的 AI 推荐助手不仅要推荐得准，还得解释得好、聊得顺，甚至还得保证不犯低级错误（如重复推荐、幻觉推荐）。

picture.image

RecLM-eval 正是为此而生。它是一个全方位的评估框架，能够针对云端 API（如 GPT-4）或本地部署模型（如 Qwen、Llama）进行多维度的“能力测评”。

RecLM-eval 不止于点击率预测，它涵盖了推荐场景下的几乎所有关键能力：

基础检索与排序 (Retrieval & Ranking)： 考察模型在海量物品中精准定位的能力。
协同/序列排序 (CF & Seq Ranking)： 特别设计的选择题（Multiple Choice）模式，测试模型对传统推荐逻辑（协同过滤和序列建模）的理解。
向量化能力 (Embedding Ranking/Retrieval)： 评估模型作为向量编码器（Encoder）的表征质量。
解释能力 (Explanation)： 考察模型是否能说清楚“为什么推荐这个”，并由裁判模型评估其合理性。
对话与聊天能力 (Conversation & Chatbot)： 通过模拟器进行多轮对话，测试模型在动态交互中的推荐稳定性。

除了常规的精度指标，RecLM-eval 引入了独特的错误指标 ，这些指标能直接暴露大模型在推荐时的弱点：