2026年开年,DeepSeek照例不让大家放松过年,又发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位,提出了一种全新的网络连接方式。
残差连接的隐形天花板
先说说残差连接是什么。ResNet被提出时,解决了一个困扰深度学习的大问题:网络越深,训练越困难。原因是梯度在反向传播时会逐层衰减,到了很深的层就基本消失了。残差连接的巧妙之处在于给每一层加了一条"高速公路":x_{l+1} = x_l + F(x_l),让信息可以直接跳过某些层传递。这个简单的加法操作拯救了深度网络,从此几乎所有深度模型都在用这个结构。
现在 ResNet出来这么多年,残差连接也基本成了标配。然而,传统的残差连接限制了层间信息的交换带宽,随着模型进入百亿、千亿参数量级,传统的残差连接显现出两大瓶颈:
-
表达能力受限:由于输入输出维度必须对齐,模型在层间只能进行简单的逐元素相加,限制了特征变换的自由度。
-
连接稀疏性:标准残差仅连接相邻两层,忽视了跨层特征的潜在互补性。
就像工厂流水线,第50个工人想用第5个工人的半成品,还得等前面45个工人一个个传下来。信息在这个过程中被稀释得差不多了。
超连接的困境
早期研究者想得很直接:既然单路连接不够用,那就搞多路。超连接的想法是把x' = x + layer(x)改成x' = Ax + B layer(Cx),让A、B、C都可以学习。
更激进的版本直接让每一层都能访问前面所有层:x_{l+1} = Σ_{i=0}^{l} α_{li} F_i(x_i)。听起来很棒,给每个工人都配对讲机,想和谁聊就和谁聊。但现实很打脸。这种结构虽然增加了带宽,但由于权重的自由度过大,破坏了恒等映射(Identity Mapping),网络一深,那些α矩阵的乘积要么爆炸要么消失,60层网络的反向增益能飙到3000,根本没法训练。理想很丰满,现实很骨感。
流形约束的数学巧思
DeepSeek选择从流形上下文章(Thinking Machines再发文:模块化流形让训练更稳定),他们没有简单粗暴地砍连接,而是给这些连接加了数学约束。核心是一个投影算子P,把连接权重矩阵A投影到特殊的流形上。
这个流形有两个关键限制:
- 单位增益约束:Σ_{i=0}^{l} α_{li}^2 = 1,保证方差不乱跑
- 恒等漂移控制:初始化时让α_{l,l}占大头,训练初期还是像残差连接
具体用的是Birkhoff多面体投影,就是双随机矩阵(行和列的和都是1)。这种矩阵有个好性质:乘积还是双随机矩阵,天然不会爆炸。实现上采用的是 Sinkhorn-Knopp 算法,通过交替归一化的方法,在工程上迭代 20 次就能达到理想的收敛状态。实验发现,在普通连接里这个值会爆炸到 10^3 - 10^4,但在 mHC 里它被压回了 1 附近。这意味着梯度传播既不会消失也不会爆炸,超深网络训练变得完全可控。
为了确保训练初期稳定,mHC 采用了特定的初始化逻辑。它让近端权重占主导,远端权重随距离倒数衰减初始化。这使得模型在训练初期表现得像标准的残差网络,随着训练进行,模型逐渐学会利用更远的跨层路径进行特征混合。
另外,mHC 并非简单的加权平均,每个超连接路径都配有受流形约束的轻量级映射,像是一个个智能调色阀,能根据当前层需要从不同深度提取特征。这种设计有效地恢复了恒等映射属性,让浅层的原始语义、中层的逻辑表达与深层的抽象推理在同一个“特征光谱”中并存。
实际效果与优化
实验数据挺有说服力。全面展示了 mHC 如何在保持训练稳定的前提下,突破传统架构的性能瓶颈。
在 3B 到 27B 的模型验证中,mHC 在相同计算量(FLOPs)下的 Loss 始终低于 Baseline。在 27B 模型中,mHC 的训练 Loss 相比 Baseline 降低了约 0.021,且 Relative Loss Ratio 保持在 98.5% 左右,证明了其优异的可扩展性。
在 27B 模型验证中,mHC 的 Loss 始终低于基准模型,约为 Baseline 的 98.5%。任务表现更硬核:在 BBH 上比 Baseline 提升了 2.1%,在 MMLU 上提升了 4.4%,在 DROP 上的提升更是达到了 4.6%。
在工程优化上,DeepSeek表现依旧出彩,通过一套“组合拳”将 n=4 的 mHC 训练开销压到了仅 6.7%。
首先利用 TileLang 开发算子融合(Kernel Fusion)内核,将线性投影、激活乃至 20 次 Sinkhorn 迭代合并为原子操作,极大提升了带宽利用率;
其次采用重计算(Recomputing)机制,正向仅存储块起始输入 x_{l_0} 而丢弃中间激活值,反向时再即时恢复,将显存占用降至常数级别;
最后配合 DualPipe 实现计算与通信的深度重叠(Overlapping),在 GPU 执行复杂算子或重计算的同时同步进行数据传输,彻底消除流水线空泡并确保满带宽运行。
与其他方法的对比
俄罗斯研究者提出的LIME(层集成内存)方法在1B模型上表现也不错,甚至超过了超连接基线。
LIME利用现有的key-value缓冲区和每层路由权重来整合前面所有层的表示,缓解表示坍塌问题。说明在残差连接之外,确实有多种可能的演进方向。
小结
mHC的价值不只是性能提升那点儿,而是证明了残差连接的垄断可以被打破。通过严格的数学约束,可以构建比传统架构更强大、更稳定的深度网络。
现在大家都在拼模型规模、拼数据量,但架构层面的突破可能才是通向AGI的关键。DeepSeek用mHC告诉我们,数学之美和工程实用性可以很好地结合。
说不定我们一直低估了网络架构创新的潜力。在这场军备竞赛中,谁能在架构上取得突破,谁可能就掌握了下一轮的主动权。
论文链接:https://arxiv.org/abs/2512.24880
关注公众号回复“进群”入群讨论。
