AAAI'26 | 从ID到语义：具有自适应语义标记的跨域推荐生成式框架 - 文章 - 开发者社区

picture.image

关注我们，一起学习

题目：From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization

地址：https://arxiv.org/pdf/2511.08006

会议：AAAI 2026

学校：西交利物浦大学

代码：https://github.com/ hupeiyu21/GenCDR

TLDR ：这篇工作把跨域推荐（Cross-Domain Recommendation , CDR )从传统的「共享 ID + 表征对齐 」思路，推进到一个真正语义驱动、生成式建模的新范式。现实世界里，大多数跨域场景根本没有统一的 user / item ID，现有 CDR 方法在工业落地时非常受限；而 LLM-based 推荐虽然强大，却普遍卡在两个核心瓶颈：一是 item tokenization 困境——要么词表爆炸，要么无法表达高阶协同信号；二是 domain personalization 缺失——只能学到一份「泛化偏好」，却难以细粒度刻画不同域里的兴趣表达。GenCDR 的核心做法，是先把多域内容统一压缩到一套离散语义 ID（Semantic IDs, SIDs）上，再让 LLM 在这套语义 ID 上做生成式推荐，并通过域自适应建模和前缀树约束，兼顾表达力、效率与可扩展性。实验表明，GenCDR 在多个真实跨域数据集上，相比单域推荐、经典 CDR、现有生成式推荐和 LLM4CDR 方法均有显著提升。

引言

随着用户行为越来越跨场景、多模态、多平台，跨域推荐成为现代推荐系统的核心能力。然而传统 CDR 通常依赖共享用户或商品 ID 进行知识迁移，而在真实世界中，不同平台、不同业务、不同商品体系之间几乎不存在稳定的 ID 对齐关系。

picture.image

图1：跨域场景示意

如图1所示，“Apple”在不同域具有完全不同的语义：在科技域，它是健康监测、智能生态的 Apple Watch；在生活域，它是甜度、营养相关的新鲜水果。它们共享一部分语义，但又有强烈的域特性。传统 ID 根本无法表达这些语义差异，而简单拼接文本让 LLM 直接学习，又会带来词表膨胀、结构缺失等问题。

基于这一观察，本文提出一个关键观点：跨域推荐真正需要的，不是对齐 IDs，而是对齐语义空间 。换言之，跨域知识迁移的核心在于构建一个既能跨域共享，又能保留域特定细粒度差异的统一离散语义空间（Semantic ID space）。

为此，本文提出 GenCDR 框架，旨在系统解决跨域推荐中的两类长期瓶颈：

Item Tokenization Dilemma：如何在不同域之间获得可生成、可检索、且语义融合共性与特性的离散表示；
Domain Personalization Gap：如何同时建模跨域共享兴趣与域内特定偏好，而不发生负迁移。

GenCDR 提供了一个完整的生成式跨域范式，包括：

Domain-adaptive Tokenization ：通过“通用语义编码器 + 域自适应 LoRA”生成统一但可调节的语义 IDs，动态分离通用语义与域特定语义；
Cross-domain Autoregressive Recommendation ：在用户侧构建对称结构，通过“通用兴趣建模 + 域自适应兴趣路由”实现多域用户兴趣的动态融合；
Domain-aware Prefix-tree 推理机制 ：确保生成的 Semantic IDs 合法、高效，并适配目标域的语义结构。

方法

为了解决跨域推荐的根源性瓶颈，本文提出了 GenCDR（Generative Cross-Domain Recommendation）。它通过“语义 tokenization → 生成式序列建模 → 结构化解码”三层机制，从根本上重塑跨域推荐的建模方式。

picture.image

图2：GenCDR 整体架构（Tokenization → Autoregressive Generation → Prefix-tree Decoding）

GenCDR 核心包含三个阶段：

Domain-adaptive Tokenization：构建跨域统一语义 ID: 为了摆脱传统 item ID 无法迁移的问题，GenCDR 首先利用 RQ-VAE 学习一个跨域共享的语义空间，并通过 LoRA 轻量适配不同 domain 的语义差异。进一步地，一个 item-level 动态门控会在“通用语义”与“域特定语义”之间自适应融合，最终将每个 item 编码成可生成、可迁移的 Semantic ID，使所有商品在跨域场景下拥有统一的表达形式。
Cross-Domain Autoregressive Recommendation：用 LLM 生成跨域兴趣序列: 在 item 获得语义化表达后，用户的多域行为也被统一成了一条可生成的语义序列。GenCDR 通过 LLM 进行自回归建模：先训练一组“通用 LoRA 专家”学习跨域共享偏好，再为每个 domain 训练专属 LoRA 适配不同行业的细粒度兴趣。推理时，一个 user-level 动态路由器会根据用户状态融合“通用偏好”与“域特定偏好”，从而同时捕捉跨域可迁移兴趣与单域个性化模式。
Domain-aware Prefix-tree：保证生成式推荐合法高效: 为避免 LLM 出现不存在的 item（hallucination），GenCDR 为每个 domain 构建 prefix-tree，将生成空间限制在真实存在的语义前缀集合中。解码过程中模型只能在合法路径上前进，使生成结果始终对应真实 item，同时推理复杂度与 item 总规模解耦，具备大规模工业部署的实际可用性。

实验

整体效果（Overall Performance） ：在所有数据集上，GenCDR 在 Recall@5/10 与 NDCG@5/10 均稳定超越单域模型（SASRec、BERT4Rec）、生成式模型（TIGER、VQ-Rec）以及最新跨域方法（TriCDR、LLM4CDSR）。尤其在极低重叠且高度稀疏的 Phones–Electronics 场景，GenCDR 依然取得最优结果，表明语义 ID 与跨域生成式建模能够有效弥补 domain gap，提高泛化能力。

picture.image

消融实验（Ablation Study） ：对三个核心模块分别进行拆解验证。移除 Domain-adaptive Tokenization 会导致跨域表达混乱，性能显著下降；去除 domain-specific LoRA 则削弱了用户兴趣在不同场景中的差异化建模能力；取消 Prefix-tree 解码会产生大量不合法 ID，导致生成质量与下游指标明显退化。结果表明三大模块缺一不可，完整 GenCDR 始终最优。

picture.image

语义空间可视化验证 (In-depth Analysis) : 对最终的语义表示进行了 t-SNE 分析，结果显示 Domain-adaptive Tokenization 能让不同 domain 的 items 自然分簇，而跨域相似商品依旧保持语义邻近；同时，在用户序列层面，GenCDR 生成的跨域行为轨迹呈现清晰的语义迁移模式，验证了模型成功同时捕捉“共享语义”与“域特定差异”，也是其在低重叠高稀疏场景仍能稳定领先的关键原因。

picture.image

总结与展望

GenCDR 通过引入统一且可适配的离散语义空间，为跨域推荐构建了一条新的生成式路径。从通用语义到域特定语义，从用户共享偏好到个性化兴趣表达，再到域感知的结构化生成，GenCDR 提供了一套可解释、可扩展、且与大模型原生契合的系统化范式。实验结果表明，这种“从 ID 到语义（From IDs to Semantics）”的生成式转向，不仅有效缓解了长期存在的 tokenization 困境，也显著提升了跨域推荐的泛化性与表达能力。整体而言，GenCDR 展示了生成式方法在跨域推荐中的可行性与潜力，也提出了新的研究方向：以语义为基础、以生成为核心，以跨域一致性与个性化共存为目标，构建下一代统一的推荐范式。

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

AAAI'26 | 基于LLM的生成式推荐新范式Align3GR

TRACT：结合思维链的回归感知微调

字节 | OneTrans：统一特征交互与序列建模的 Transformer 模型

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image