关注我们,一起学习
题目:From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization
地址:https://arxiv.org/pdf/2511.08006
会议:AAAI 2026
学校:西交利物浦大学
代码:https://github.com/ hupeiyu21/GenCDR
TLDR :这篇工作把跨域推荐(Cross-Domain Recommendation , CDR )从传统的「共享 ID + 表征对齐 」思路,推进到一个真正语义驱动、生成式建模的新范式。现实世界里,大多数跨域场景根本没有统一的 user / item ID,现有 CDR 方法在工业落地时非常受限;而 LLM-based 推荐虽然强大,却普遍卡在两个核心瓶颈:一是 item tokenization 困境——要么词表爆炸,要么无法表达高阶协同信号;二是 domain personalization 缺失——只能学到一份「泛化偏好」,却难以细粒度刻画不同域里的兴趣表达。GenCDR 的核心做法,是先把多域内容统一压缩到一套离散语义 ID(Semantic IDs, SIDs)上,再让 LLM 在这套语义 ID 上做生成式推荐,并通过域自适应建模和前缀树约束,兼顾表达力、效率与可扩展性。实验表明,GenCDR 在多个真实跨域数据集上,相比单域推荐、经典 CDR、现有生成式推荐和 LLM4CDR 方法均有显著提升。
随着用户行为越来越跨场景、多模态、多平台,跨域推荐成为现代推荐系统的核心能力。然而传统 CDR 通常依赖共享用户或商品 ID 进行知识迁移,而在真实世界中,不同平台、不同业务、不同商品体系之间几乎不存在稳定的 ID 对齐关系。
图1:跨域场景示意
如图1所示,“Apple”在不同域具有完全不同的语义:在科技域,它是健康监测、智能生态的 Apple Watch;在生活域,它是甜度、营养相关的新鲜水果。它们共享一部分语义,但又有强烈的域特性。传统 ID 根本无法表达这些语义差异,而简单拼接文本让 LLM 直接学习,又会带来词表膨胀、结构缺失等问题。
基于这一观察,本文提出一个关键观点:跨域推荐真正需要的,不是对齐 IDs,而是对齐语义空间 。换言之,跨域知识迁移的核心在于构建一个既能跨域共享,又能保留域特定细粒度差异的统一离散语义空间(Semantic ID space)。
为此,本文提出 GenCDR 框架,旨在系统解决跨域推荐中的两类长期瓶颈:
- Item Tokenization Dilemma:如何在不同域之间获得可生成、可检索、且语义融合共性与特性的离散表示;
- Domain Personalization Gap:如何同时建模跨域共享兴趣与域内特定偏好,而不发生负迁移。
GenCDR 提供了一个完整的生成式跨域范式,包括:
- Domain-adaptive Tokenization :通过“通用语义编码器 + 域自适应 LoRA”生成统一但可调节的语义 IDs,动态分离通用语义与域特定语义;
- Cross-domain Autoregressive Recommendation :在用户侧构建对称结构,通过“通用兴趣建模 + 域自适应兴趣路由”实现多域用户兴趣的动态融合;
- Domain-aware Prefix-tree 推理机制 :确保生成的 Semantic IDs 合法、高效,并适配目标域的语义结构。
为了解决跨域推荐的根源性瓶颈,本文提出了 GenCDR(Generative Cross-Domain Recommendation)。它通过“语义 tokenization → 生成式序列建模 → 结构化解码”三层机制,从根本上重塑跨域推荐的建模方式。
图2:GenCDR 整体架构 (Tokenization → Autoregressive Generation → Prefix-tree Decoding)
GenCDR 核心包含三个阶段:
- Domain-adaptive Tokenization:构建跨域统一语义 ID: 为了摆脱传统 item ID 无法迁移的问题,GenCDR 首先利用 RQ-VAE 学习一个跨域共享的语义空间,并通过 LoRA 轻量适配不同 domain 的语义差异。进一步地,一个 item-level 动态门控会在“通用语义”与“域特定语义”之间自适应融合,最终将每个 item 编码成可生成、可迁移的 Semantic ID,使所有商品在跨域场景下拥有统一的表达形式。
- Cross-Domain Autoregressive Recommendation:用 LLM 生成跨域兴趣序列: 在 item 获得语义化表达后,用户的多域行为也被统一成了一条可生成的语义序列。GenCDR 通过 LLM 进行自回归建模:先训练一组“通用 LoRA 专家”学习跨域共享偏好,再为每个 domain 训练专属 LoRA 适配不同行业的细粒度兴趣。推理时,一个 user-level 动态路由器会根据用户状态融合“通用偏好”与“域特定偏好”,从而同时捕捉跨域可迁移兴趣与单域个性化模式。
- Domain-aware Prefix-tree:保证生成式推荐合法高效: 为避免 LLM 出现不存在的 item(hallucination),GenCDR 为每个 domain 构建 prefix-tree,将生成空间限制在真实存在的语义前缀集合中。解码过程中模型只能在合法路径上前进,使生成结果始终对应真实 item,同时推理复杂度与 item 总规模解耦,具备大规模工业部署的实际可用性。
-
整体效果(Overall Performance) :在所有数据集上,GenCDR 在 Recall@5/10 与 NDCG@5/10 均稳定超越单域模型(SASRec、BERT4Rec)、生成式模型(TIGER、VQ-Rec)以及最新跨域方法(TriCDR、LLM4CDSR)。尤其在极低重叠且高度稀疏的 Phones–Electronics 场景,GenCDR 依然取得最优结果,表明语义 ID 与跨域生成式建模能够有效弥补 domain gap,提高泛化能力。
-
消融实验(Ablation Study) :对三个核心模块分别进行拆解验证。移除 Domain-adaptive Tokenization 会导致跨域表达混乱,性能显著下降;去除 domain-specific LoRA 则削弱了用户兴趣在不同场景中的差异化建模能力;取消 Prefix-tree 解码会产生大量不合法 ID,导致生成质量与下游指标明显退化。结果表明三大模块缺一不可,完整 GenCDR 始终最优。
-
语义空间可视化验证 (In-depth Analysis) : 对最终的语义表示进行了 t-SNE 分析,结果显示 Domain-adaptive Tokenization 能让不同 domain 的 items 自然分簇,而跨域相似商品依旧保持语义邻近;同时,在用户序列层面,GenCDR 生成的跨域行为轨迹呈现清晰的语义迁移模式,验证了模型成功同时捕捉“共享语义”与“域特定差异”,也是其在低重叠高稀疏场景仍能稳定领先的关键原因。
GenCDR 通过引入统一且可适配的离散语义空间,为跨域推荐构建了一条新的生成式路径。从通用语义到域特定语义,从用户共享偏好到个性化兴趣表达,再到域感知的结构化生成,GenCDR 提供了一套可解释、可扩展、且与大模型原生契合的系统化范式。实验结果表明,这种“从 ID 到语义(From IDs to Semantics)”的生成式转向,不仅有效缓解了长期存在的 tokenization 困境,也显著提升了跨域推荐的泛化性与表达能力。整体而言,GenCDR 展示了生成式方法在跨域推荐中的可行性与潜力,也提出了新的研究方向:以语义为基础、以生成为核心,以跨域一致性与个性化共存为目标,构建下一代统一的推荐范式。
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
AAAI'26 | 基于LLM的生成式推荐新范式Align3GR
字节 | OneTrans:统一特征交互与序列建模的 Transformer 模型
图片
长按关注,更多精彩
图片
点个在看你最好看
