腾讯 | HiGR：通过分层规划和多目标偏好对齐实现高效的生成式Slate推荐 - 文章 - 开发者社区

picture.image

关注我们，一起学习

题目：HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment

地址：https://arxiv.org/pdf/2512.24787

公司、学校：腾讯、中山大学

一、解决的核心问题

传统两阶段推荐局限 ：仅优化单物品目标，忽略推荐列表内物品的协同关系（如多样性、主题连贯性），贪心选择易导致全局次优。
现有生成式推荐缺陷 ：

语义纠缠：传统语义量化（如RQ-VAE）生成的ID前缀语义模糊，存在“多义性”或“同义性”，难以精准控制生成过程。
推理低效：自回归生成需逐token解码，10个物品（每个含3个SID）需30步，无法满足工业级亚100ms延迟要求。
缺乏全局规划：左到右生成模式导致局部连贯但全局次优，难以保证推荐列表多样性、覆盖度等全局属性。

二、核心创新点

提出 CRQ-VAE（对比残差量化自编码器） ：通过全局量化损失与前缀级对比约束，生成语义结构化的物品ID，解决语义纠缠问题。
设计 HSD（分层推荐列表解码器） ：将生成过程解耦为“粗粒度列表规划+细粒度物品解码”，兼顾全局规划与推理效率。
引入 ORPO-based列表级偏好对齐 ：利用用户隐式反馈构建偏好对，优化排序准确性、真实兴趣、多样性三大目标，弥合训练与实际评价的差距。

三、算法细节

picture.image

3.1 问题定义

符号说明：

代表用户，包含年龄、性别等静态特征；

代表物品，包含标题、类别等特征；

是用户历史正反馈序列，按时间顺序排列，记录用户曾有效观看或互动过的物品。

核心目标：给定用户特征

和历史行为

，通过模型

生成推荐列表

，让整个列表能最大化获得用户的正反馈（如观看、点击等）。

3.2 CRQ-VAE：语义ID生成

picture.image

CRQ-VAE的核心作用是把每个物品转化为语义清晰、结构规整的语义ID（SID），避免传统方法中ID语义混乱的问题，其架构如图2所示。

分层残差量化：先通过BGE M3模型得到物品的初始嵌入

，再由编码器输出潜在表示

，并初始化残差

。对于每一层量化（共

层），都会从大小为

的码本中挑选与当前残差最接近的码本向量

，再用残差减去该向量得到新残差，用于下一层量化：

经过

层后，会得到一串码本序列和最终的量化潜在表示

，这串序列就是物品的语义ID。

损失函数设计：为了让生成的语义ID既保留物品原有信息，又具备清晰的语义结构，CRQ-VAE整合了三类损失：
重建损失：

，其中

是通过量化后的语义ID解码重建出的物品嵌入，该损失确保语义ID能准确还原物品的原始特征，不丢失关键信息。

全局量化损失：

，

表示停止梯度操作（避免梯度传递时相互干扰）。传统分层量化会导致“残差消失”（后续层残差接近0，无法学习有效信息），而该损失直接优化整体量化误差，让各层码本都能保留有意义的语义。

对比损失：

，其中

（

为温度系数，控制相似度的区分度）。该损失针对前

层（语义前缀层），将语义相似的物品对（如同一类别的视频）拉近，将不相似的物品（如新闻和游戏视频）推远，让语义ID的前缀成为可靠的“语义标签”，避免前缀语义混乱。

3.3 HSD：分层生成架构

picture.image

HSD将推荐列表生成拆分为“先定整体框架，再填具体物品”的两步，既保证全局合理性，又提升生成效率，其架构如图3所示，生成流程如图1所示。

粗粒度列表规划器：核心是确定推荐列表的“全局意图”，比如列表整体要涵盖的主题、风格、多样性分布等。

先通过编码器处理用户特征

和历史行为

，得到捕捉用户兴趣的上下文嵌入

。

训练时，输入序列由起始token（BOS）和前

个物品的真实偏好嵌入组成：

，其中

（物品的真实偏好嵌入是其语义ID各层嵌入的总和），

是模型隐藏层维度。

经过

层Transformer块（包含交叉注意力和自注意力，交叉注意力利用上下文嵌入

捕捉用户兴趣，自注意力捕捉物品间的全局关系），输出每个物品的预测偏好嵌入

：

这些偏好嵌入就代表了列表的全局规划——比如哪几个位置适合推荐娱乐类内容，哪几个适合推荐资讯类内容。

细粒度物品生成器：核心是根据规划好的偏好嵌入，生成具体的物品语义ID，最终映射为实际推荐物品。

对于

中每个物品的预测偏好嵌入

，训练时输入序列由

和该物品前

个真实语义ID组成：

。

经过

层Transformer块（同样结合上下文嵌入

，确保物品与用户兴趣匹配），输出完整的语义ID序列：

。

关键设计：所有物品的生成器参数共享，既减少模型参数量，又能保证生成逻辑一致；且多个物品的生成可并行进行，大幅降低延迟。

训练损失：采用next-token预测的交叉熵损失，确保模型能逐步生成连贯、准确的语义ID序列：

其中

是整个HSD模型的参数，损失目标是让模型根据已生成的偏好嵌入和部分语义ID，准确预测下一个语义ID token。

推理策略（GSBI）：为平衡效果和效率，采用“规划器贪心+生成器beam搜索”策略。规划器每次贪心选择最优的偏好嵌入，生成器针对每个偏好嵌入，用beam宽度

的beam搜索生成语义ID（保证局部最优），且多个物品的生成独立进行，无需等待前一个物品完全生成，推理效率较传统自回归提升5倍。

3.4 列表级偏好对齐

传统模型仅优化单个物品的预测准确性，而用户实际是对整个推荐列表做评价（比如列表多样性高才愿意多停留），因此需要通过偏好对齐让模型聚焦列表级质量。

核心方法：基于ORPO（无参考模型偏好优化），无需额外训练奖励模型，直接利用用户隐式反馈（如观看时长、完成率）构建“优质列表（

）- 劣质列表（

）”对，让模型学习生成更符合用户整体偏好的列表。

偏好损失：
第一部分：

是监督损失，确保模型能准确生成优质列表

的每个token。

第二部分：

是偏好对齐损失，

为对齐系数，

是sigmoid函数，

是列表级log-odds（衡量列表整体质量的指标）。该损失让模型学习“优质列表的整体质量高于劣质列表”，引导模型生成符合全局偏好的列表。

是模型的生成策略，即给定输入

和已生成的前

个token，生成第

个token的概率。

样本构建（优化“排序准确性、真实兴趣、多样性”三目标）：

正样本

：选取用户有高互动（如完整观看、反复观看）的物品序列，按用户反馈强度降序排列（保证排序合理性）。

负样本

：① 对

随机打乱顺序（惩罚排序混乱）；② 用用户不感兴趣的物品（如快速划走的视频）替换

中的部分物品（强化真实兴趣匹配）；③ 以

第一个物品为锚点，拼接相似物品（惩罚重复推荐、打破信息茧房，提升多样性）。

四、实验结果

对比实验

picture.image

消融实验

picture.image

强化学习方法对比

picture.image

量化方法对比

picture.image

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

微软 RecAI：使用LLM助力生成式推荐（多项工作均已开源）

推荐中协调语义ID和哈希ID

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image