关注我们,一起学习
标题:RankMixer: Scaling Up Ranking Models in Industrial Recommenders
地址:https://arxiv.org/pdf/2507.15551
公司:字节
昨晚在量子位和猫的薛定谔看到了RankMixer这篇文章,觉得很有意思,于是早上起来立马花了点时间看了一下,和大家分享。
1、论文的创新点
- 采用统一且可扩展的特征交互架构,用多头token混合模块替代二次自注意力机制以提高效率。
- 利用Per-token FFNs对不同特征子空间和交叉特征空间交互进行建模。
- 推出Sparse-MoE变体将其扩展到十亿参数,采用动态路由策略解决专家训练不足和不平衡问题。
2.1 整体架构
RankMixer的整体架构由
个输入token(tokens)经
个连续的RankMixer块处理,再经过一个输出池化操作符构成。每个RankMixer块有两个主要组件:(1)多头token混合层;(2)逐token前馈网络(PFFN)层,如图1所示。
图1:RankMixer块的架构。一个RankMixer块由两个模块组成:多头token混合和基于SMoE的逐token前馈网络。token混合模块将每个token的嵌入划分为
个较小的部分(头),然后跨token重新组合这些部分以创建新的混合token,这使得不同特征的信息能够相互交互。
首先,输入向量
被分割为
个特征token
,每个token代表一个连贯的特征向量。RankMixer块通过以下公式对token表示进行
层迭代细化:
其中,
是层归一化函数,
和
分别是多头token混合模块和逐token前馈网络模块,
是第
个RankMixer块的输出,
由
堆叠而成,
是模型的隐藏维度。输出表示
由最后一层表示
的均值池化得到,用于计算不同任务的预测结果。
2.2 输入层和特征tokenization
常规的将特征转换为嵌入后,为了在后续阶段实现高效的并行计算,不同维度的嵌入进一步转换为维度对齐的向量,即特征token。这就是本文的tokenization过程,最简单的策略是为每个特征分配一个嵌入,但会导致对重要特征的建模不足,所以文本提出了一种基于语义的标记化方法,结合领域知识将特征分组为几个语义连贯的簇。这些分组特征按顺序连接成一个嵌入向量
,然后划分为适当数量的具有固定维度大小的token。每个特征token
捕获一组表示相似语义方面的特征嵌入。
2.3 RankMixer块
2.3.1 多头token混合
为了促进token之间的有效信息交换,这对特征交叉和全局信息建模很重要,引入了多头token混合模块。每个token被均匀地划分为
个头,token
的第
个头表示为
:
这些头可以看作是token
在低维特征子空间的投影,因为推荐任务需要从不同角度进行考虑。token混合用于融合这些子空间向量以实现全局特征交互。形式上,多头token混合后对应第
个头的第
个token
构建如下:
多头token混合模块的输出
由token
堆叠而成。在本文中,设置
以在token混合后保持相同数量的token,以便进行残差连接。
经过残差连接和归一化模块后,可以得到:
尽管自注意力在大语言模型中被证明非常有效,但发现它在推荐系统中并非最优。在自注意力中,注意力权重通过token的内积计算。这种方法在自然语言处理中效果很好,因为所有token共享统一的嵌入空间。然而,在推荐任务中,特征空间本质上是异质的。计算两个异质语义空间之间的内积相似度非常困难,特别是在推荐系统中,用户和物品侧特征的ID空间可能包含数亿个元素。因此,将自注意力应用于如此多样化的输入并不比无参数的多头token混合方法更优,并且会消耗更多的计算资源、内存IO操作和GPU内存。
2.3.2 逐token前馈网络
在单个交互模块中混合来自许多不同语义空间的特征,这可能导致高频字段占主导地位,淹没低频或长尾信号,最终影响整体推荐质量。本文引入了一种参数隔离的前馈网络架构,即逐token前馈网络。在传统设计中,前馈网络的参数在所有token之间共享,但的方法为每个token进行专门的变换,从而为每个token隔离参数(这个和快手的HoME对不同专家网络输入的处理有点类似,只是HoME专家的原始输入是一样的,而RankMixer是对不同token进行处理)。对于第
个token
,逐token前馈网络可以表示为:
其中,
是逐token前馈网络的第
层多层感知机(MLP),
,
,
,
,
是调整逐token前馈网络隐藏维度的超参数,
是Gelu激活函数,
是第
个token。
逐token前馈网络模块总结为:
其中,
与参数全共享的前馈网络相比,逐token前馈网络在保持计算复杂度不变的情况下,通过引入更多参数增强了建模能力。
逐token前馈网络与MMoE专家不同,每个逐token前馈网络看到的是不同的token输入,而MMoE中的所有专家共享相同的输入。与MMoE中许多专家处理相同输入以及Transformer中不同输入共享一个前馈网络不同,RankMixer同时分割输入和参数,这有利于在不同特征子空间中学习多样性。
2.4 RankMixer中的稀疏混合专家(Sparse MoE)
为了进一步提高扩展的ROI,可以用稀疏混合专家(Sparse Mixture-of-Experts,MoE)块替换每个逐token的密集前馈网络,使模型容量增加,而计算成本大致保持不变。
ReLU路由:为了赋予token灵活的专家数量并保持可微性,用ReLU门加自适应
。对于token
的第
个专家
和路由器
:
其中,
是每个token的专家数量,
是token数量。ReLU路由将为高信息token激活更多专家,提高参数效率。稀疏性由
控制,系数
使平均激活专家比例接近预算:
密集训练/稀疏推理(Dense-training/Sparse-inference,DTSI-MoE):采用两个路由器
和
,并且仅对
应用
。在训练期间更新
和
,而在推理时仅使用
。结果表明,DTSI-MoE可以使专家避免训练不足,同时降低推理成本。
3、实验结论
本实验围绕RankMixer模型展开,与多个经典和SOTA模型对比,验证其在推荐系统中的有效性和优越性。
- 1、 模型性能对比 :RankMixer在多个目标和指标上显著优于其他SOTA模型。如在约1亿参数规模下,对比DLRM、DCN、RDCN等模型,RankMixer性能最佳
- 2、 模型缩放规律 :RankMixer在参数和FLOPs方面的缩放规律最陡峭。可通过增加宽度
、特征token
和层数
来缩放,不同缩放方向性能相近,大隐藏维度计算效率更高。如悟空模型虽参数曲线较陡但计算成本增长快,hiformer性能略逊,DHEN和MoE缩放效果不佳。
-
-
3、 消融实验 :RankMixer - 100M模型中,移除残差连接、多头token混合等组件会显著降低性能。不同token混合策略中,多头token混合策略效果最佳。
-
4、 在线性能 :RankMixer在个性化排序的两个核心应用场景(内容推荐和广告)中,所有关键业务指标均有显著提升,对低活跃用户提升最大,证明其泛化能力强。
交流群:点击“联系作者”--备注“研究方向-公司或学校”
欢迎|论文宣传|合作交流
往期推荐
SIGIR'25 | HiLTV:网络游戏生命周期价值预测的分层多分布模型
ICML'25 | 从特征交互到特征生成:CTR预测模型的生成范式
KDD 2025 | 多任务离线强化学习MTORL助力推荐系统广告优化
图片
长按关注,更多精彩
图片
点个在看你最好看