RankMixer:排序模型中的Scaling up怎么做?

推荐算法大数据机器学习

picture.image

关注我们,一起学习

标题:RankMixer: Scaling Up Ranking Models in Industrial Recommenders

地址:https://arxiv.org/pdf/2507.15551

公司:字节

昨晚在量子位和猫的薛定谔看到了RankMixer这篇文章,觉得很有意思,于是早上起来立马花了点时间看了一下,和大家分享。

1、论文的创新点

  • 采用统一且可扩展的特征交互架构,用多头token混合模块替代二次自注意力机制以提高效率。
  • 利用Per-token FFNs对不同特征子空间和交叉特征空间交互进行建模。
  • 推出Sparse-MoE变体将其扩展到十亿参数,采用动态路由策略解决专家训练不足和不平衡问题。

2.1 整体架构

RankMixer的整体架构由

个输入token(tokens)经

个连续的RankMixer块处理,再经过一个输出池化操作符构成。每个RankMixer块有两个主要组件:(1)多头token混合层;(2)逐token前馈网络(PFFN)层,如图1所示。

picture.image

图1:RankMixer块的架构。一个RankMixer块由两个模块组成:多头token混合和基于SMoE的逐token前馈网络。token混合模块将每个token的嵌入划分为

个较小的部分(头),然后跨token重新组合这些部分以创建新的混合token,这使得不同特征的信息能够相互交互。

首先,输入向量

被分割为

个特征token

,每个token代表一个连贯的特征向量。RankMixer块通过以下公式对token表示进行

层迭代细化:

其中,

是层归一化函数,

分别是多头token混合模块和逐token前馈网络模块,

是第

个RankMixer块的输出,

堆叠而成,

是模型的隐藏维度。输出表示

由最后一层表示

的均值池化得到,用于计算不同任务的预测结果。

2.2 输入层和特征tokenization

常规的将特征转换为嵌入后,为了在后续阶段实现高效的并行计算,不同维度的嵌入进一步转换为维度对齐的向量,即特征token。这就是本文的tokenization过程,最简单的策略是为每个特征分配一个嵌入,但会导致对重要特征的建模不足,所以文本提出了一种基于语义的标记化方法,结合领域知识将特征分组为几个语义连贯的簇。这些分组特征按顺序连接成一个嵌入向量

,然后划分为适当数量的具有固定维度大小的token。每个特征token

捕获一组表示相似语义方面的特征嵌入。

2.3 RankMixer块

2.3.1 多头token混合

为了促进token之间的有效信息交换,这对特征交叉和全局信息建模很重要,引入了多头token混合模块。每个token被均匀地划分为

个头,token

的第

个头表示为

这些头可以看作是token

在低维特征子空间的投影,因为推荐任务需要从不同角度进行考虑。token混合用于融合这些子空间向量以实现全局特征交互。形式上,多头token混合后对应第

个头的第

个token

构建如下:

多头token混合模块的输出

由token

堆叠而成。在本文中,设置

以在token混合后保持相同数量的token,以便进行残差连接。

经过残差连接和归一化模块后,可以得到:

尽管自注意力在大语言模型中被证明非常有效,但发现它在推荐系统中并非最优。在自注意力中,注意力权重通过token的内积计算。这种方法在自然语言处理中效果很好,因为所有token共享统一的嵌入空间。然而,在推荐任务中,特征空间本质上是异质的。计算两个异质语义空间之间的内积相似度非常困难,特别是在推荐系统中,用户和物品侧特征的ID空间可能包含数亿个元素。因此,将自注意力应用于如此多样化的输入并不比无参数的多头token混合方法更优,并且会消耗更多的计算资源、内存IO操作和GPU内存。

2.3.2 逐token前馈网络

在单个交互模块中混合来自许多不同语义空间的特征,这可能导致高频字段占主导地位,淹没低频或长尾信号,最终影响整体推荐质量。本文引入了一种参数隔离的前馈网络架构,即逐token前馈网络。在传统设计中,前馈网络的参数在所有token之间共享,但的方法为每个token进行专门的变换,从而为每个token隔离参数(这个和快手的HoME对不同专家网络输入的处理有点类似,只是HoME专家的原始输入是一样的,而RankMixer是对不同token进行处理)。对于第

个token

,逐token前馈网络可以表示为:

其中,

是逐token前馈网络的第

层多层感知机(MLP),

是调整逐token前馈网络隐藏维度的超参数,

是Gelu激活函数,

是第

个token。

逐token前馈网络模块总结为:

其中,

与参数全共享的前馈网络相比,逐token前馈网络在保持计算复杂度不变的情况下,通过引入更多参数增强了建模能力。

逐token前馈网络与MMoE专家不同,每个逐token前馈网络看到的是不同的token输入,而MMoE中的所有专家共享相同的输入。与MMoE中许多专家处理相同输入以及Transformer中不同输入共享一个前馈网络不同,RankMixer同时分割输入和参数,这有利于在不同特征子空间中学习多样性。

2.4 RankMixer中的稀疏混合专家(Sparse MoE)

为了进一步提高扩展的ROI,可以用稀疏混合专家(Sparse Mixture-of-Experts,MoE)块替换每个逐token的密集前馈网络,使模型容量增加,而计算成本大致保持不变。

ReLU路由:为了赋予token灵活的专家数量并保持可微性,用ReLU门加自适应

。对于token

的第

个专家

和路由器

其中,

是每个token的专家数量,

是token数量。ReLU路由将为高信息token激活更多专家,提高参数效率。稀疏性由

控制,系数

使平均激活专家比例接近预算:

密集训练/稀疏推理(Dense-training/Sparse-inference,DTSI-MoE):采用两个路由器

,并且仅对

应用

。在训练期间更新

,而在推理时仅使用

。结果表明,DTSI-MoE可以使专家避免训练不足,同时降低推理成本。

3、实验结论

本实验围绕RankMixer模型展开,与多个经典和SOTA模型对比,验证其在推荐系统中的有效性和优越性。

  • 1、 模型性能对比 :RankMixer在多个目标和指标上显著优于其他SOTA模型。如在约1亿参数规模下,对比DLRM、DCN、RDCN等模型,RankMixer性能最佳
  • picture.image
  • 2、 模型缩放规律 :RankMixer在参数和FLOPs方面的缩放规律最陡峭。可通过增加宽度

、特征token

和层数

来缩放,不同缩放方向性能相近,大隐藏维度计算效率更高。如悟空模型虽参数曲线较陡但计算成本增长快,hiformer性能略逊,DHEN和MoE缩放效果不佳。

  • picture.image

  • 3、 消融实验 :RankMixer - 100M模型中,移除残差连接、多头token混合等组件会显著降低性能。不同token混合策略中,多头token混合策略效果最佳。

picture.image

  • 4、 在线性能 :RankMixer在个性化排序的两个核心应用场景(内容推荐和广告)中,所有关键业务指标均有显著提升,对低活跃用户提升最大,证明其泛化能力强。

picture.image

picture.image

交流群:点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

SIGIR'25 | HiLTV:网络游戏生命周期价值预测的分层多分布模型

ICML'25 | 从特征交互到特征生成:CTR预测模型的生成范式

KDD 2025 | 多任务离线强化学习MTORL助力推荐系统广告优化

图片

长按关注,更多精彩

图片

点个在看你最好看

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论