RankMixer：排序模型中的Scaling up怎么做？ - 文章 - 开发者社区

picture.image

关注我们，一起学习

标题：RankMixer: Scaling Up Ranking Models in Industrial Recommenders

地址：https://arxiv.org/pdf/2507.15551

公司：字节

昨晚在量子位和猫的薛定谔看到了RankMixer这篇文章，觉得很有意思，于是早上起来立马花了点时间看了一下，和大家分享。

1、论文的创新点

采用统一且可扩展的特征交互架构，用多头token混合模块替代二次自注意力机制以提高效率。
利用Per-token FFNs对不同特征子空间和交叉特征空间交互进行建模。
推出Sparse-MoE变体将其扩展到十亿参数，采用动态路由策略解决专家训练不足和不平衡问题。

2.1 整体架构

RankMixer的整体架构由

个输入token（tokens）经

个连续的RankMixer块处理，再经过一个输出池化操作符构成。每个RankMixer块有两个主要组件：（1）多头token混合层；（2）逐token前馈网络（PFFN）层，如图1所示。

picture.image

图1：RankMixer块的架构。一个RankMixer块由两个模块组成：多头token混合和基于SMoE的逐token前馈网络。token混合模块将每个token的嵌入划分为

个较小的部分（头），然后跨token重新组合这些部分以创建新的混合token，这使得不同特征的信息能够相互交互。

首先，输入向量

被分割为

个特征token

，每个token代表一个连贯的特征向量。RankMixer块通过以下公式对token表示进行

层迭代细化：

其中，

是层归一化函数，

和

分别是多头token混合模块和逐token前馈网络模块，

是第

个RankMixer块的输出，

由

堆叠而成，

是模型的隐藏维度。输出表示

由最后一层表示

的均值池化得到，用于计算不同任务的预测结果。

2.2 输入层和特征tokenization

常规的将特征转换为嵌入后，为了在后续阶段实现高效的并行计算，不同维度的嵌入进一步转换为维度对齐的向量，即特征token。这就是本文的tokenization过程，最简单的策略是为每个特征分配一个嵌入，但会导致对重要特征的建模不足，所以文本提出了一种基于语义的标记化方法，结合领域知识将特征分组为几个语义连贯的簇。这些分组特征按顺序连接成一个嵌入向量

，然后划分为适当数量的具有固定维度大小的token。每个特征token

捕获一组表示相似语义方面的特征嵌入。

2.3 RankMixer块

2.3.1 多头token混合

为了促进token之间的有效信息交换，这对特征交叉和全局信息建模很重要，引入了多头token混合模块。每个token被均匀地划分为

个头，token

的第

个头表示为

：

这些头可以看作是token

在低维特征子空间的投影，因为推荐任务需要从不同角度进行考虑。token混合用于融合这些子空间向量以实现全局特征交互。形式上，多头token混合后对应第

个头的第

个token

构建如下：

多头token混合模块的输出

由token

堆叠而成。在本文中，设置

以在token混合后保持相同数量的token，以便进行残差连接。

经过残差连接和归一化模块后，可以得到：

尽管自注意力在大语言模型中被证明非常有效，但发现它在推荐系统中并非最优。在自注意力中，注意力权重通过token的内积计算。这种方法在自然语言处理中效果很好，因为所有token共享统一的嵌入空间。然而，在推荐任务中，特征空间本质上是异质的。计算两个异质语义空间之间的内积相似度非常困难，特别是在推荐系统中，用户和物品侧特征的ID空间可能包含数亿个元素。因此，将自注意力应用于如此多样化的输入并不比无参数的多头token混合方法更优，并且会消耗更多的计算资源、内存IO操作和GPU内存。

2.3.2 逐token前馈网络

在单个交互模块中混合来自许多不同语义空间的特征，这可能导致高频字段占主导地位，淹没低频或长尾信号，最终影响整体推荐质量。本文引入了一种参数隔离的前馈网络架构，即逐token前馈网络。在传统设计中，前馈网络的参数在所有token之间共享，但的方法为每个token进行专门的变换，从而为每个token隔离参数（这个和快手的HoME对不同专家网络输入的处理有点类似，只是HoME专家的原始输入是一样的，而RankMixer是对不同token进行处理）。对于第

个token

，逐token前馈网络可以表示为：

其中，

是逐token前馈网络的第

层多层感知机（MLP），

，

是调整逐token前馈网络隐藏维度的超参数，

是Gelu激活函数，

是第

个token。

逐token前馈网络模块总结为：

其中，

与参数全共享的前馈网络相比，逐token前馈网络在保持计算复杂度不变的情况下，通过引入更多参数增强了建模能力。

逐token前馈网络与MMoE专家不同，每个逐token前馈网络看到的是不同的token输入，而MMoE中的所有专家共享相同的输入。与MMoE中许多专家处理相同输入以及Transformer中不同输入共享一个前馈网络不同，RankMixer同时分割输入和参数，这有利于在不同特征子空间中学习多样性。

2.4 RankMixer中的稀疏混合专家（Sparse MoE）

为了进一步提高扩展的ROI，可以用稀疏混合专家（Sparse Mixture-of-Experts，MoE）块替换每个逐token的密集前馈网络，使模型容量增加，而计算成本大致保持不变。

ReLU路由：为了赋予token灵活的专家数量并保持可微性，用ReLU门加自适应

。对于token

的第

个专家

和路由器

：

其中，

是每个token的专家数量，

是token数量。ReLU路由将为高信息token激活更多专家，提高参数效率。稀疏性由

控制，系数

使平均激活专家比例接近预算：

密集训练/稀疏推理（Dense-training/Sparse-inference，DTSI-MoE）：采用两个路由器

和

，并且仅对

应用

。在训练期间更新

和

，而在推理时仅使用

。结果表明，DTSI-MoE可以使专家避免训练不足，同时降低推理成本。

3、实验结论

本实验围绕RankMixer模型展开，与多个经典和SOTA模型对比，验证其在推荐系统中的有效性和优越性。

1、 模型性能对比 ：RankMixer在多个目标和指标上显著优于其他SOTA模型。如在约1亿参数规模下，对比DLRM、DCN、RDCN等模型，RankMixer性能最佳
2、 模型缩放规律 ：RankMixer在参数和FLOPs方面的缩放规律最陡峭。可通过增加宽度

、特征token

和层数

来缩放，不同缩放方向性能相近，大隐藏维度计算效率更高。如悟空模型虽参数曲线较陡但计算成本增长快，hiformer性能略逊，DHEN和MoE缩放效果不佳。

3、 消融实验 ：RankMixer - 100M模型中，移除残差连接、多头token混合等组件会显著降低性能。不同token混合策略中，多头token混合策略效果最佳。

picture.image

4、 在线性能 ：RankMixer在个性化排序的两个核心应用场景（内容推荐和广告）中，所有关键业务指标均有显著提升，对低活跃用户提升最大，证明其泛化能力强。

picture.image

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

SIGIR'25 | HiLTV：网络游戏生命周期价值预测的分层多分布模型

ICML'25 | 从特征交互到特征生成：CTR预测模型的生成范式

KDD 2025 | 多任务离线强化学习MTORL助力推荐系统广告优化

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image