更长也更快：抖音亿级规模 10k 序列端到端建模 - 文章 - 开发者社区

picture.image

关注我们，一起学习

[2511.06077] Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin[1]

1.1 TL;DR

端到端长序列建模

：在严格线上时延与成本约束下，把用户历史长度扩展到 10k ，并保持 稳定、可预期 的增益。

STCA（Stacked Target-to-History Cross Attention）

：以“ 目标→历史 ”为 单查询交叉注意力 ， 移除历史自注意力 ，将复杂度从 O(L²) 降为 O(L) ，更契合排序任务的本质相关性计算。

RLB（Request Level Batching）

： 请求级聚合 同一用户的多个目标，用户/历史编码 算一次、复用多次 ，端到端实测：带宽减少 77%（L=512）~84%（L=2k） 、训练吞吐 +2.2× （配合内核优化可达 +5.1× ）、最长可训练序列约 +8× 、PS CPU/通信带宽 -50% 。

“训练稀疏 / 推断稠密”外推

：训练平均长度约 2k ，上线推断直接 10k ；采用 U 形 Beta 随机长度采样与 最近后缀保留 策略，在不显著增加训练成本的前提下获得长序收益。

效果亮点

：

离线

：在抖音数据上，相比强基线， Ours （STCA+RLB+外推）在 Finish/Skip/Head 上分别达 +0.49/-1.16、+0.71/-1.14、+0.39/-1.41（ΔAUC/ΔNLL，%） 。

线上

（抖音 & 抖音极速版，1 个月）：全量上线后核心互动、停留、活跃 一致提升 （详见表 6）。

1.2 背景与挑战

短视频推荐中，用户历史常达数千甚至上万 条。传统“两阶段”（检索→截断排序）虽高效，但截断会牺牲端到端信息与梯度传导；自注意力长序方法受限于平方复杂度 ，难以在线上预算 下扩展到 10k。
我们的目标是：兼顾效果与工程可落地 ，真正把历史拉长到 10k，并在规模化生产系统中稳定获益。

1.3 方法总览

1.3.1 STCA：目标→历史的单查询交叉注意力（线性复杂度）

核心思想

：排序的关键信号来自“ 候选目标与用户历史 ”的匹配。让目标作为 唯一 Query ，对 全历史 做交叉注意力； 不进行历史—历史的自注意力 。

带来的好处

：每层复杂度 O(L) ，将算力聚焦在“任务关键路径”，支持 更长历史、更深堆叠 的端到端建模；配合 跨层目标条件融合（query fusion） 和 SwiGLU 前馈，在长序下仍保持稳定与表达力。

图 1 ：序列长度与模型容量的扩展下，完播率 AUC 提升随之单调增长 （Scaling）。

1.3.2 RLB：请求级聚合，算一次用多次

做法

：将同一用户/请求内的多个目标样本组成 用户batch ， 用户/历史编码共享 ，在多个目标上复用。

系统实测收益

：端到端带宽 -77%（L=512）~ -84%（L=2k） ；训练吞吐 +2.2× （配合重排 attention/SwiGLU/LN 内核可达 +5.1× ）；最长可训练序列约 +8× ；PS CPU 与通信带宽 -50% 。

学习无偏

：RLB 仅改变数据组织与复用，不改变经验风险目标与梯度估计。

图 2 ：抖音精排长序列建模 (A) STCA；(B) RLB；(C) 外推训练。

1.3.3 训练稀疏 / 推断稠密：长度外推

训练

：随机长度采样（ U 形 Beta ）， 平均 ≈2k ；

推断

： 直接 10k ；

策略

： 最近后缀保留 优于随机； 批级负载均衡 + Ragged 注意力 降低 padding 浪费。

收益

：以 低训练成本 换取 高长度泛化 ，达到 成本—效果双优 。

图 3 ：STCA vs Transformer 的计算量–效果 对比：在相近 NLL 下，STCA 可在 L=10k 以显著更低 FLOPs 运行。

1.4 我们方法的优势（Why It Wins）

线性复杂度、真长序

：从根因上消除了二次复杂度， 10k 历史可在线落地 ，同时为更深/更宽模型留出余量。

端到端、无截断

：保留 完整历史 上的 精确注意力与梯度 ，避免检索/截断带来的信息损失。

系统工程友好

：RLB 有效抵消长序引发的带宽、显存与通信压力， 吞吐显著提升 、 资源更可控 。

外推训练高性价比

：训练长度与推断长度解耦，以 2k 的成本 获得 10k 的收益 。

线上业绩稳定

：在亿级规模下 全量上线 并持续提升核心指标，对 低/中活跃 用户尤为明显。

1.5 结果一览

1.5.1 离线（抖音）

表 1 ：Douyin 离线主结果（单位：%，报告 ΔAUC↑ / ΔNLL↓）。

关键结论 ：在 Finish/Skip/Head 三目标上，Ours （STCA+RLB+外推）分别达 +0.49/-1.16、+0.71/-1.14、+0.39/-1.41 ，在相近算力与相同非序列特征下显著优于 DIN/Transformer/HSTU 等对照。

图 1 ：随历史长度与容量扩大，效果单调提升 （Scaling）。

图 3 ：在相近 NLL 时，STCA 的 FLOPs 明显低于 Transformer，长序区间前沿更优 。

1.5.2 消融

表 2 ：512-token 条件下 4 层复杂 STCA 的消融对比（如：更深 STCA、FFN→SwiGLU、时间差特征、增头数、Query Fusion 等均带来正向增益）。

1.5.3 外推训练

表 3 ：最大训练长度 的影响（2k → 4k → 10k，AUC 持续提升）。

表 4 ：平均训练长度 的影响（1.0k → 2.0k → 2.5k，收益递减；均值≈2k 性价比最佳）。

表 5 ：Beta 分布形状 分析（小 α 的 U 形分布优于其他形状）。

1.5.4 线上 A/B

表 6 ：上线 1 个月对照组提升（%），含全体与分群指标。

要点：

抖音（全体）

：30日活跃 +0.1161% 、停留 +0.9266% 、完播 +3.3454% 、评论 +1.5678% 、点赞 +1.8282% 。

抖音极速版（全体）

：30日活跃 +0.1281% 、停留 +0.8467% 、完播 +4.2275% 、评论 +2.6167% 、点赞 +2.3828% 。

分群

：低/中活用户提升更大；时延持续满足实时预算。

1.6 工程与上线实践

内核优化

：单查询注意力 计算顺序优化 、高吞吐 SwiGLU/LN 、 Ragged 注意力 降低 padding。

资源与调度

：RLB 显著降低带宽与激活峰值， 提升集群利用率 与训练稳定性。

可组合性

：与多目标、多模态、检索/记忆模块互补，便于在现有推荐栈 渐进式融合 。

1.7 总结

本文在“长序列但低时延、低成本”的工业约束下，给出了一条可落地、可扩展、可复用的端到端建模路线，核心贡献与价值体现在以下四个方面：

架构层：STCA 让长序真正可行
以“目标→历史”的单查询交叉注意力替代历史自注意力，将复杂度从 O(L²) 降为 O(L) ；配合跨层目标条件融合与高表达力前馈（如 SwiGLU），在不依赖检索截断 的前提下对完整历史进行精确对齐和端到端学习，支撑 10k 级历史的稳定建模。
系统层：RLB 把长序成本打下来
在“请求级”聚合同一用户的多个目标，用户/历史编码一次计算、多处复用 ，显著降低带宽、激活与显存占用，提升训练吞吐并抬升可训练长度上限；同时保持学习目标无偏，效果不打折 、系统更友好。
训练策略：用“稀疏训练”换“稠密推断”
通过 U 形 Beta 随机长度采样与最近后缀保留 ，以约 2k 的平均训练长度获得 10k 的推断收益；批级负载均衡与 Ragged 注意力避免 padding 浪费，实现成本—效果双最优 。
效果与落地：规模验证、稳健增益
离线与线上实验均显示随着历史长度与模型容量扩展呈稳定单调增益 ；在亿级规模 与实时预算 条件下实现全量上线，核心互动、停留与活跃指标持续提升，尤其对低/中活跃 用户更为友好，证明方案的工程可行性与业务价值 。

一句话总结 ：
STCA（线性复杂度）× RLB（请求级复用）× 外推训练（2k→10k） ，构成了长序端到端推荐的实用范式：既把序列拉长，又把时延拉平；既强效果，又强工程。 该范式与多目标、多模态及检索/记忆模块天然互补，可在现有推荐栈中渐进式集成与持续演进 。

引用链接

[2511.06077] Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin: https://arxiv.org/abs/2511.06077

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

阿里 | 从缩放到结构化表达：重新思考CTR预测的transformer模型

AAAI'26 | 从ID到语义：具有自适应语义标记的跨域推荐生成式框架

AAAI'26 | 基于LLM的生成式推荐新范式Align3GR

图片

长按关注，更多精彩

图片

点个在看你最好看

picture.image