KDD'25 | 用于推荐系统的预训练scaling transformer - 文章 - 开发者社区

标题: Scaling Transformers for Discriminative Recommendation via Generative Pretraining

地址：https://arxiv.org/pdf/2506.03699

公司：阿里

#LLM #大模型 #推荐系统

导读 =====

CTR/CVR等判别式模型由于数据稀疏，在训练过程中会出现过拟合现象（one epoch现象），并且随着模型规模变大而恶化。本文提出GPSD方法，从预训练生成式模型中学习到的参数来初始化判别式模型，随后应用稀疏参数冻结策略训练模型。

1）GPSD大幅缩小了模型训练中的泛化差距，从而获得更好的测试性能；
2）利用了 Transformer 的scalability，随着模型规模的扩大，性能持续提升。
作者观察到随着模型参数从 13K 扩展到 0.3B，性能持续提升，且遵循幂律规律。

picture.image

2.方法

picture.image

GPSD框架由三个部分组成：1）生成式预训练部分，2）判别式训练部分， 3）生成式预训练与判别式训练的桥梁。

2.1 生成式预训练

以用户行为序列训练transformer模型，给定数据集

，其中每个元素是长度为

的按时间顺序排列的用户行为项序列

。生成式训练的目标是最小化数据集

的负对数似然。根据链式法则分解每个序列的概率，损失函数为：

其中，

是模型给出的，基于前面的项目预测下一个项目的概率，这部分和以往的序列推荐建模类似，也和语言模型decoder only的模式匹配。

模型采用Transformer架构，并融合现在大模型中的多种改进方法，包括：Pre-Normalization ：用于提升训练的稳定性。RMSNorm ：有助于提高模型性能。RoPE ：实现可扩展的位置编码。SwiLU ：作为激活函数。在生成式训练时，对每个注意力操作应用因果掩码，使Transformer变为单向结构。

2.1.1 模型训练

概率计算 ：在模型训练的时候，由于item非常多对应到模型中就是vocabulary很多，softmax计算概率会导致内存不足，因此采用采样softmax计算概率。普通softmax计算概率公式为：

采样softmax计算概率公式为：

其中，

是所有item的集合，

是负采样item的集合，

代表模型给出的logit。使用均匀采样器对负样本进行采样，省略校正项。

优化策略 ：为进一步降低内存使用，在每个序列内共享负样本，并将嵌入层和输出线性层绑定。训练时采用BFloat16数据格式，使用AdamW优化器。学习率设置为先通过linear warmup，之后采用余弦退火策略衰减至峰值的10%。

2.1.2 聚合辅助特征

嵌入层调整 ：将item ID作为模型输入的同时，考虑如类别ID等辅助特征。对每个特征独立映射为嵌入，然后将所有嵌入相加构成Transformer的输入。
损失函数调整 ：除了预测下一个item ID，还训练模型预测下一个item的特征，将多个损失聚合形成最终损失。

2.2 判别式模型训练

输入处理 ：将用户行为item与候选item进行拼接构成输入序列，再将其输入到Transformer中。为了让Transformer更好地区分用户行为item和item项目，在item嵌入上添加了额外的segment emb。
特征处理 ：在Transformer的最后一层之上连接一个MLP head，对其他类别和数值特征进行处理。
Transformer选择 ：在判别式训练阶段，可以选择单向Transformer或双向Transformer。默认情况下采用单向Transformer，这是为了在保证模型性能的同时，提高在线推理效率。
模型训练 ：采用交叉熵作为损失函数。在训练设置方面，除了模型架构和损失函数的调整，其他训练设置保持与预训练阶段一致。这种一致性有助于在模型训练过程中更好地继承预训练阶段学习到的特征和模式，减少训练的不稳定性，提高训练效率和模型性能。

2.3 生成式预训练与判别式训练的桥梁

通过对模型参数分类，设计不同迁移策略，并分析其对缓解过拟合和提升性能的作用

参数分类 ：将Transformer推荐模型的参数划分为 稀疏参数和密集参数 。 稀疏参数 指嵌入表，用于将离散特征（如物品ID、用户ID等）映射到低维向量空间，特点是规模庞大且依赖特定数据集； 密集参数 包括Transformer层中的权重和偏置，负责对嵌入向量进行特征提取和交互，通用性较强，可在不同任务间迁移。
五种参数迁移策略

NT（No Transfer） ：完全不使用生成式预训练参数，判别式模型从头开始训练，作为基准策略，用于对比其他迁移策略的效果。
FT（Full Transfer） ：将生成式预训练得到的所有参数（包括稀疏和密集参数）直接迁移到判别式模型中，期望充分利用预训练学习到的所有知识。
ST（Sparse Transfer） ：仅迁移生成式预训练模型的稀疏参数，密集参数则在判别式训练中从头训练，利用预训练学习到的特征表示能力，同时针对判别式任务重新训练核心计算部分。
FT&SF（Full Transfer & Sparse Freeze） ：先将生成式预训练的所有参数迁移到判别式模型，然后冻结稀疏参数，训练过程中仅更新密集参数，防止因数据稀疏导致的过拟合，同时保留预训练的特征表示能力。
ST&SF（Sparse Transfer & Sparse Freeze） ：迁移生成式预训练的稀疏参数并冻结，判别式模型的密集参数从头训练，结合了稀疏参数迁移和防止过拟合的优势。