转自:Coggle数据科学
关注我们,一起学习
RecAI 核心理念是全方位(Holistic View) ,通过弥补通用大模型缺乏领域知识的短板,提升推荐系统的交互性、可解释性和可控性。
https://github.com/microsoft/RecAI
- 推荐 AI 智能体 (Recommender AI Agent):将 LLM 作为“大脑”,将传统的推荐模型(如矩阵分解)作为“工具”。
- 选择性知识插件 (Selective Knowledge Plugin):通过 提示工程(Prompting) 而非微调(Fine-tuning)来增强模型。
- 嵌入式 RecLM (Embedding RecLM):专门为物品检索(Item Retrieval)优化的向量模型。
- 生成式 RecLM (Generative RecLM):通过有监督微调(SFT)和强化学习(RL)对 LLM 进行领域适配。
- 模型解释器 (Model Explainer):将 LLM 作为代理模型(Surrogate Models),学习并模拟目标推荐模型的行为,从而生成可理解的解释。
- RecLM 评估器 (RecLM Evaluator):不同于传统指标,它从检索、排序、解释能力以及通用 AI 能力等多个维度评估基于语言模型的推荐系统。
InteRecAgent 框架
https://github.com/microsoft/RecAI/blob/main/InteRecAgent/README.md
为了解决复杂交互中的技术挑战,InteRecAgent 引入了三大创新机制。首先是候选总线(Candidate Bus)存储机制 :由于物品列表往往过长,无法全部塞进 LLM 的提示词中,系统设计了一个独立的内存空间来存储中间候选集,各工具之间像漏斗一样逐级过滤物品,而无需 LLM 频繁处理长文本。其次是长短期用户画像(Memory Mechanism) :系统会实时维护用户的实时兴趣(Expect)与长期偏好(Like/Dislike),确保推荐既符合当下的指令,又一致于用户的个人品味。
在任务执行效率上,论文提出了**“规划先行(Plan-first)”策略** 。不同于传统的逐步思考(Step-by-step),InteRecAgent 会先生成一个完整的工具调用计划,然后一次性执行,这大幅降低了 API 调用次数和系统延迟。为了保证规划的准确性,研究者还设计了动态示例注入(Dynamic Demonstration) 和自我反思机制(Reflection) 。如果系统检测到计划有误(如漏掉了排序步骤),“批评者”模型会要求“执行者”重新规划。
知识插件框架
https://github.com/microsoft/RecAI/blob/main/Knowledge\_Plugin/README.md
虽然大语言模型(LLM)在通用任务上表现卓越,但在面对特定行业或垂直领域时,往往会遭遇两大瓶颈:一是缺乏海量的动态领域数据 (例如电商平台每秒更新的商品和库存),二是缺乏特定领域的逻辑模式 (例如推荐系统中用户“协同过滤”的点击习惯,而非简单的文本相似度)。
该框架的核心理念是:不微调大模型,而是通过“外挂”一个领域知识提取器,将专业知识以 Prompt(提示词)的形式注入模型。
- 知识准备(Knowledge Preparation): 提取器首先识别任务所需的关键知识。以推荐系统为例,它不仅提取商品的 文本属性 (品牌、价格、类别),还挖掘 协同过滤(CF)信号 。这些信号揭示了哪些商品经常被用户一起购买,从而捕捉到 LLM 无法通过字面意思理解的深层行为关联。
- 知识定制(Knowledge Customization): 由于 Prompt 的长度有限,DOKE 不会一股脑塞入所有信息。它会根据当前用户的历史行为和当前的候选商品, 按需选择 最相关的知识片段。例如,如果用户在看运动鞋,系统会精准调取与该运动鞋高度关联的品牌偏好和协同购买记录。
- 知识表达(Knowledge Expression):
DOKE 探索了如何让 LLM 更高效地“吸收”知识。除了简单的
文本模板
,DOKE 还引入了
知识图谱(KG)推理路径
。例如,它不只是告诉模型“A和B相关”,而是展示路径:
电影A -> 同一导演 -> 电影B。这种带有逻辑链条的表达方式,能够显著增强 LLM 的推理准确性。
物品检索模型
https://github.com/microsoft/RecAI/blob/main/RecLM-emb/README.md
在构建下一代推荐系统时,我们经常面临一个尴尬的挑战:通用的大语言模型(LLM)虽然博学多才,但在**“物品检索(Item Retrieval)”** 这一专业任务上却表现平平。当你告诉它“我想找类似《双人成行》但不是射击类的游戏”时,普通的文本向量模型往往只能识别出“射击”或“游戏”等关键词,而无法精准理解复杂的负向约束或隐性的用户偏好。
为了填补这一空白,RecAI 项目推出了 RecLM-emb ,该研究的核心目标是:训练一个通用的文本向量模型,使其能够将任何形式的输入(对话、指令、属性堆砌)精准映射到推荐系统的商品库中。
研究团队总结了物品检索中常见的 10 大任务场景 ,并针对性地构建了训练数据集。这些任务包括:
- 隐式偏好匹配: 比如“根据用户历史行为(UH2I)推荐”或“根据 GPT-4 生成的用户总结(US2I)推荐”。
- 显式属性检索: 无论用户提供的是完整的商品参数(FA2I),还是零散、稀疏的关键词(SA2I),模型都能应对。
- 模糊与复杂查询: 针对现实中常见的“拼写错误(NM2I)”、“模糊条件(如:2020年后的低价战术竞技游戏)”以及“负向约束(如:不要卡通风格)”进行了深度优化。
传统的向量模型(如 BERT 或 OpenAI 的 ada-002)在零样本(Zero-shot)场景下,往往无法区分“文本相似”和“推荐相关”。通过在大规模领域数据上进行对比学习微调(Contrastive Fine-tuning) ,成功实现了意图对齐。实验证明,微调后的模型在处理“不仅要符合品味,还要满足特定过滤条件”的复合指令时,表现远超原始模型。
RecLM-gen 可控推荐
https://github.com/microsoft/RecAI/blob/main/RecLM-gen/README.md
在刷短视频或逛电商平台时,你是否产生过这样的想法:“给我推荐点电影,但不要 恐怖片”,或者“推荐 10 个游戏,其中一半 要是国产的”。
研究团队首先定义了推荐智能体必须具备的三种“控制力”:
- 隐式意图: 根据历史行为猜你喜欢(基础能力)。
- 点对点意图(Item-wise): 包含明确的“包含”或“排除”条件(例如:只要动作片,不要战争片)。
- 列表级意图(List-wise): 对整个推荐列表的分布提出要求(例如:某类类别的占比要在 30% 左右)。
为了让模型兼具准确性与可控性,RecLM-gen 采用了精密的训练策略:
第一阶段:监督学习(SL)与标签增强 大模型的训练需要高质量标签,但用户历史数据非常稀疏。研究者引入了一个**“教师推荐模型”(SASRec)** 。当用户提出指令时,由 SASRec 先生成一个高质量候选池,再根据指令过滤出符合条件的列表作为大模型的训练教材。
第二阶段:强化学习(RL)对齐 为了进一步减少格式错误(如重复推荐、推荐已看过的物品)并增强泛化能力,模型进入了 RL 阶段。系统根据物品级奖励 (是否为新物品、是否合法)和列表级奖励 (比例是否达标)对模型进行打分,通过 PPO 算法让模型在交互中自我进化。
在 Amazon Movie 和 Steam 两个数据集上的测试显示:
- 控制精度: 在“类别比例控制”任务中,RecLM-gen 的表现远超 GPT-3.5 和传统的微调模型。
- 减少幻觉: 相比其他基座模型,它推荐重复物品或不存在物品的概率大幅降低。
- 保持通才: 经过专门的对齐训练,模型依然保留了强大的通用语言能力(如 MMLU 跑分),没有因为学推荐而变“笨”。
RecExplainer 解释性框架
https://github.com/microsoft/RecAI/blob/main/RecExplainer/README.md
我们每天都在使用的推荐系统(如抖音、淘宝、Netflix)背后,通常运行着复杂的嵌入式模型(Embedding-based Models) 。这些模型将用户和商品转化为高维向量,虽然预测极其精准,但却像一个“黑盒”:没人知道它为什么觉得你会喜欢这件衣服,或者为什么给你推送这个视频。
为了让推荐系统更透明、更值得信赖,RecAI 项目推出了 RecExplainer 。它的核心思路是:将 LLM 训练成推荐模型的“代理人”,利用 LLM 的逻辑推理能力,把冰冷的数学向量翻译成温暖的人类语言。
RecExplainer 提出了三种让大模型“对齐”推荐模型逻辑的方法:
- 行为对齐 (Behavior Alignment, RecExplainer-B): 告诉 LLM 用户的历史记录,让它预测推荐模型会推荐什么(注意:是预测推荐模型的行为,而不是预测用户的真实行为)。
- 意图对齐 (Intention Alignment, RecExplainer-I): 把推荐模型生成的向量投影到 LLM 的特征空间。LLM 就像看图识字一样,通过看这些向量就能感知用户的兴趣偏好。
- 混合对齐 (Hybrid Alignment, RecExplainer-H): 时给 LLM 提供文字信息(商品标题)和隐性向量信息。
评估即进化:RecLM-eval
在推荐系统进入大模型时代后,我们面临一个核心难题:传统的评估指标(如 NDCG、Recall)只能衡量“准不准”,却无法衡量模型是否像人一样“懂行”。一个优秀的 AI 推荐助手不仅要推荐得准,还得解释得好、聊得顺,甚至还得保证不犯低级错误(如重复推荐、幻觉推荐)。
RecLM-eval 正是为此而生。它是一个全方位的评估框架,能够针对云端 API(如 GPT-4)或本地部署模型(如 Qwen、Llama)进行多维度的“能力测评”。
RecLM-eval 不止于点击率预测,它涵盖了推荐场景下的几乎所有关键能力:
- 基础检索与排序 (Retrieval & Ranking): 考察模型在海量物品中精准定位的能力。
- 协同/序列排序 (CF & Seq Ranking): 特别设计的选择题(Multiple Choice)模式,测试模型对传统推荐逻辑(协同过滤和序列建模)的理解。
- 向量化能力 (Embedding Ranking/Retrieval): 评估模型作为向量编码器(Encoder)的表征质量。
- 解释能力 (Explanation): 考察模型是否能说清楚“为什么推荐这个”,并由裁判模型评估其合理性。
- 对话与聊天能力 (Conversation & Chatbot): 通过模拟器进行多轮对话,测试模型在动态交互中的推荐稳定性。
除了常规的精度指标,RecLM-eval 引入了独特的错误指标 ,这些指标能直接暴露大模型在推荐时的弱点:
-
Duplicate Error: 推荐列表中是否有重复物品。
-
History Error: 是否把用户已经看过的历史物品又推荐了一遍。
-
Candidate Error: 模型是否推荐了候选列表之外的物品(幻觉表现)。
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
阿里 | 从缩放到结构化表达:重新思考CTR预测的transformer模型
图片
长按关注,更多精彩
图片
点个在看你最好看
