腾讯 | HiGR:通过分层规划和多目标偏好对齐实现高效的生成式Slate推荐

推荐算法机器学习算法

picture.image

关注我们,一起学习

题目:HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment

地址:https://arxiv.org/pdf/2512.24787

公司、学校:腾讯、中山大学

一、解决的核心问题

  1. 传统两阶段推荐局限 :仅优化单物品目标,忽略推荐列表内物品的协同关系(如多样性、主题连贯性),贪心选择易导致全局次优。
  2. 现有生成式推荐缺陷
  • 语义纠缠:传统语义量化(如RQ-VAE)生成的ID前缀语义模糊,存在“多义性”或“同义性”,难以精准控制生成过程。
  • 推理低效:自回归生成需逐token解码,10个物品(每个含3个SID)需30步,无法满足工业级亚100ms延迟要求。
  • 缺乏全局规划:左到右生成模式导致局部连贯但全局次优,难以保证推荐列表多样性、覆盖度等全局属性。

二、核心创新点

  1. 提出 CRQ-VAE(对比残差量化自编码器) :通过全局量化损失与前缀级对比约束,生成语义结构化的物品ID,解决语义纠缠问题。
  2. 设计 HSD(分层推荐列表解码器) :将生成过程解耦为“粗粒度列表规划+细粒度物品解码”,兼顾全局规划与推理效率。
  3. 引入 ORPO-based列表级偏好对齐 :利用用户隐式反馈构建偏好对,优化排序准确性、真实兴趣、多样性三大目标,弥合训练与实际评价的差距。

三、算法细节

picture.image

3.1 问题定义

  • 符号说明:

代表用户,包含年龄、性别等静态特征;

代表物品,包含标题、类别等特征;

是用户历史正反馈序列,按时间顺序排列,记录用户曾有效观看或互动过的物品。

  • 核心目标:给定用户特征

和历史行为

,通过模型

生成推荐列表

,让整个列表能最大化获得用户的正反馈(如观看、点击等)。

3.2 CRQ-VAE:语义ID生成

picture.image

CRQ-VAE的核心作用是把每个物品转化为语义清晰、结构规整的语义ID(SID),避免传统方法中ID语义混乱的问题,其架构如图2所示。

  • 分层残差量化:先通过BGE M3模型得到物品的初始嵌入

,再由编码器输出潜在表示

,并初始化残差

。对于每一层量化(共

层),都会从大小为

的码本中挑选与当前残差最接近的码本向量

,再用残差减去该向量得到新残差,用于下一层量化:

经过

层后,会得到一串码本序列和最终的量化潜在表示

,这串序列就是物品的语义ID。

  • 损失函数设计:为了让生成的语义ID既保留物品原有信息,又具备清晰的语义结构,CRQ-VAE整合了三类损失:

  • 重建损失:

,其中

是通过量化后的语义ID解码重建出的物品嵌入,该损失确保语义ID能准确还原物品的原始特征,不丢失关键信息。

  • 全局量化损失:

表示停止梯度操作(避免梯度传递时相互干扰)。传统分层量化会导致“残差消失”(后续层残差接近0,无法学习有效信息),而该损失直接优化整体量化误差,让各层码本都能保留有意义的语义。

  • 对比损失:

,其中

为温度系数,控制相似度的区分度)。该损失针对前

层(语义前缀层),将语义相似的物品对(如同一类别的视频)拉近,将不相似的物品(如新闻和游戏视频)推远,让语义ID的前缀成为可靠的“语义标签”,避免前缀语义混乱。

3.3 HSD:分层生成架构

picture.image

HSD将推荐列表生成拆分为“先定整体框架,再填具体物品”的两步,既保证全局合理性,又提升生成效率,其架构如图3所示,生成流程如图1所示。

  • 粗粒度列表规划器:核心是确定推荐列表的“全局意图”,比如列表整体要涵盖的主题、风格、多样性分布等。
  • 先通过编码器处理用户特征

和历史行为

,得到捕捉用户兴趣的上下文嵌入

  • 训练时,输入序列由起始token(BOS)和前

个物品的真实偏好嵌入组成:

,其中

(物品的真实偏好嵌入是其语义ID各层嵌入的总和),

是模型隐藏层维度。

  • 经过

层Transformer块(包含交叉注意力和自注意力,交叉注意力利用上下文嵌入

捕捉用户兴趣,自注意力捕捉物品间的全局关系),输出每个物品的预测偏好嵌入

这些偏好嵌入就代表了列表的全局规划——比如哪几个位置适合推荐娱乐类内容,哪几个适合推荐资讯类内容。

  • 细粒度物品生成器:核心是根据规划好的偏好嵌入,生成具体的物品语义ID,最终映射为实际推荐物品。
  • 对于

中每个物品的预测偏好嵌入

,训练时输入序列由

和该物品前

个真实语义ID组成:

  • 经过

层Transformer块(同样结合上下文嵌入

,确保物品与用户兴趣匹配),输出完整的语义ID序列:

  • 关键设计:所有物品的生成器参数共享,既减少模型参数量,又能保证生成逻辑一致;且多个物品的生成可并行进行,大幅降低延迟。
  • 训练损失:采用next-token预测的交叉熵损失,确保模型能逐步生成连贯、准确的语义ID序列:

其中

是整个HSD模型的参数,损失目标是让模型根据已生成的偏好嵌入和部分语义ID,准确预测下一个语义ID token。

  • 推理策略(GSBI):为平衡效果和效率,采用“规划器贪心+生成器beam搜索”策略。规划器每次贪心选择最优的偏好嵌入,生成器针对每个偏好嵌入,用beam宽度

的beam搜索生成语义ID(保证局部最优),且多个物品的生成独立进行,无需等待前一个物品完全生成,推理效率较传统自回归提升5倍。

3.4 列表级偏好对齐

传统模型仅优化单个物品的预测准确性,而用户实际是对整个推荐列表做评价(比如列表多样性高才愿意多停留),因此需要通过偏好对齐让模型聚焦列表级质量。

  • 核心方法:基于ORPO(无参考模型偏好优化),无需额外训练奖励模型,直接利用用户隐式反馈(如观看时长、完成率)构建“优质列表(

)- 劣质列表(

)”对,让模型学习生成更符合用户整体偏好的列表。

  • 偏好损失:

  • 第一部分:

是监督损失,确保模型能准确生成优质列表

的每个token。

  • 第二部分:

是偏好对齐损失,

为对齐系数,

是sigmoid函数,

是列表级log-odds(衡量列表整体质量的指标)。该损失让模型学习“优质列表的整体质量高于劣质列表”,引导模型生成符合全局偏好的列表。

  • 是模型的生成策略,即给定输入

和已生成的前

个token,生成第

个token的概率。

  • 样本构建(优化“排序准确性、真实兴趣、多样性”三目标):
  • 正样本

:选取用户有高互动(如完整观看、反复观看)的物品序列,按用户反馈强度降序排列(保证排序合理性)。

  • 负样本

:① 对

随机打乱顺序(惩罚排序混乱);② 用用户不感兴趣的物品(如快速划走的视频)替换

中的部分物品(强化真实兴趣匹配);③ 以

第一个物品为锚点,拼接相似物品(惩罚重复推荐、打破信息茧房,提升多样性)。

四、实验结果

对比实验

picture.image

消融实验

picture.image

强化学习方法对比

picture.image

量化方法对比

picture.image

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

RealMLP:调参Tricks组合拳 让MLP精度超过XGB、LGBM、CatBoost

微软 RecAI:使用LLM助力生成式推荐(多项工作均已开源)

推荐中协调语义ID和哈希ID

图片

长按关注,更多精彩

图片

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论