深度学习十年不变的老零件，终于被中国团队换掉了

2015年，微软亚洲研究院的何恺明搞出了一个叫"残差连接"的东西。说白了就是在神经网络里加了一条"快捷通道"，让信息可以跳过中间层直接往后传。

这玩意儿简单得要命，但效果好得离谱。从那以后，几乎所有的深度学习模型都用上了它。GPT用它，BERT用它，你现在用的各种AI助手，底层全是它。

十年了，这东西几乎没人动过。

不是没人想动，是不敢动。这就像汽车的方向盘，你说改就改？万一改出问题，整辆车都得报废。

但2025年底，DeepSeek的研究团队干了一件事：他们不光动了这个老零件，还真的换成功了。

新零件叫mHC，全称"流形约束超连接"。名字拗口，但背后的故事挺有意思。

一、先搞明白：残差连接到底解决了什么问题？

要理解mHC，得先知道残差连接为什么这么重要。

2012年深度学习火起来之后，大家发现了一个很诡异的现象：神经网络不是层数越多越好。

按理说，网络越深，能学到的东西应该越复杂。但实际训练的时候，层数加到一定程度，效果反而变差了。

为什么？

打个比方。你小时候可能玩过"传话游戏"——一排人站成一列，第一个人说一句话，一个传一个，最后一个人说出来。人少的时候还行，人一多，传到最后基本就面目全非了。

神经网络也是这样。信息从第一层传到最后一层，中间要经过几十上百次的处理。每处理一次，原始信息就失真一点。等传到最后，该学的东西早就模糊得差不多了。

这在术语里叫"梯度消失"，说人话就是：信号传着传着就没了。

何恺明的解决办法简单粗暴：既然中间处理会让信息失真，那我干脆给信息开一条直通车，让它原封不动地传到后面去。

具体怎么做？每一层的输出不再只是"处理后的结果"，而是"处理后的结果 + 原始输入"。

就这么一个加法，问题就解决了。

原始信息永远不会丢，不管网络有多深，最开始的信号都能传到最后。2015年，何恺明用这个方法训练出了152层的网络，直接刷新了当时所有的记录。

从那以后，残差连接就成了标配。十年间，AI领域翻天覆地，但这个小零件几乎没变过。

二、有人不信邪，想把单车道改成多车道

故事讲到这里，按说该结束了。但总有人不满足。

残差连接虽然好用，但它本质上就是"一条通道"。信息从前往后传，就这一条路。

有人就想：要是我开四条通道呢？信息可以在不同通道之间切换、混合，是不是能学到更复杂的东西？

这就是"超连接"（Hyper-Connections）的想法。2024年有团队提出了这个概念，初步实验确实有效果。

但问题很快就来了。

还是用交通来打比方。原来是一条高速公路，车流固定，大家规规矩矩往前开，稳得很。现在改成四条路，还允许车在路之间随便换，听起来更灵活了，但实际跑起来呢？

有的路越来越堵，车越积越多；有的路越来越空，最后都没车走了。

翻译成技术语言：信号在有的通道里被不断放大，在有的通道里被不断缩小。经过几十层之后，有的信号变成了天文数字，有的信号直接归零。

DeepSeek团队在270亿参数的模型上做实验，发现超连接的信号放大倍数最高到了3000倍。

3000倍是什么概念？你开车从北京到上海，正常油耗500块钱。现在告诉你，因为路况问题，有时候要花150万，有时候只要1毛6。这车你敢开吗？

训练直接就崩了。损失曲线剧烈震荡，根本没法收敛。

三、DeepSeek的思路：不是不要多车道，是要加规矩

面对这个问题，最直接的反应可能是：那算了，还是用回单车道吧。

但DeepSeek团队没这么想。他们觉得，多车道的思路是对的，问题出在没有规矩。

原来的超连接，允许信号在不同通道之间随意分配。想放大10倍就放大10倍，想缩小100倍就缩小100倍，完全没有约束。

DeepSeek说：这不行，得给它加个限制。

加什么限制呢？他们选了一个数学上叫"双随机矩阵"的东西。

别被名字吓到，这东西的核心意思很简单：公平分配。

打个比方。你是班主任，班上四个小组，每组都有100块钱活动经费。现在允许小组之间互相调配经费，但你定了一条规矩：

每个小组给出去的总额，必须等于它收到的总额。

一组给二组30块，那一组也得从别的组那里收到30块。整体的钱不会凭空增加，也不会凭空消失。

这条规矩一加，情况就完全不一样了。不管怎么调配，经费分布都不会失控。不会出现一个组有一万块、另一个组只剩一毛钱的情况。

mHC就是把这个"公平分配"的规矩，加到了信号的跨通道传递上。

技术上怎么实现呢？他们用了一个叫"Sinkhorn-Knopp"的算法。大概过程是这样：

先随便给一个分配方案（一个矩阵）
把每一行都调整一下，让行的和变成1
把每一列都调整一下，让列的和变成1
重复2和3，来回调整

神奇的是，这样来回调整个十几二十次，最后的矩阵就自然满足"双随机"的条件了。

就像你在调一个不平的桌子，左边垫一下，右边垫一下，来回几次，桌子就平了。

四、数学上为什么管用？

光说"公平分配"可能有点抽象。这里稍微深入一点，解释一下为什么双随机矩阵能解决稳定性问题。

矩阵有一个性质叫"谱范数"，可以理解为这个矩阵对信号的"最大放大能力"。

普通的矩阵，谱范数可以是任意值。如果谱范数是10，信号经过这个矩阵就可能被放大10倍；如果谱范数是0.1，信号就可能被缩小到原来的十分之一。

但双随机矩阵的谱范数永远不超过1。

这意味着什么？信号经过这个矩阵，最多保持原样，绝对不会被放大。经过几十层、几百层，信号的大小也不会失控。

更妙的是，双随机矩阵还有一个"封闭性"：两个双随机矩阵乘起来，结果还是双随机矩阵。

所以不管网络有多深，只要每一层的连接矩阵都是双随机的，整体的连接矩阵也是双随机的。稳定性从第一层保持到最后一层。

回到刚才的数字对比：

超连接：60层叠加后，信号放大倍数最高3000倍
mHC：60层叠加后，信号放大倍数最高1.6倍

三个数量级的差距。这就是有规矩和没规矩的区别。

五、工程上的麻烦事

理论说通了，但要真正用起来，还有一堆工程问题要解决。

最大的问题是：多通道设计会大幅增加内存访问量。

现在训练AI模型用的都是GPU。GPU的计算能力很强，但有个瓶颈：从内存读数据、往内存写数据，这个过程相对慢。如果一个算法需要频繁读写内存，就算计算量不大，也会被拖慢。

超连接把单通道变成了四通道，内存访问量直接翻了四倍多。如果不优化，速度会慢得没法用。

DeepSeek团队用了几个办法来解决这个问题。

第一个办法：合并操作

原来的做法是：读数据A，处理完写回去；再读出来，处理完再写回去；再读出来……每一步都要读写一次。

优化后的做法是：读数据A，一口气做完所有处理，最后才写回去。中间的读写全省了。

这在术语里叫"核融合"。就是把多个小操作融合成一个大操作，减少内存访问次数。

第二个办法：有选择地重新计算

训练神经网络的时候，每一层的中间结果都要存下来，后面反向传播的时候要用。但存的东西太多，GPU内存就不够了。

一个办法是：不存那么多，需要的时候重新算一遍。用时间换空间。

mHC团队用了一种"分块"的策略：把网络分成若干组，每组只存开头的数据，中间的数据用到的时候再算。他们还推导出了最优的分组大小，在速度和内存之间找到平衡点。

第三个办法：让通信和计算同时进行

训练大模型需要几百上千块GPU一起干活，GPU之间要互相传数据。传数据是要时间的，如果GPU在等数据的时候闲着，效率就低了。

mHC团队改进了调度策略，让GPU在等数据的时候继续算别的东西。等数据到了，该算的也算完了，无缝衔接。

经过这些优化，mHC相比普通模型的额外开销只有6.7%。也就是说，原来训练100小时，用mHC大概要107小时。这个代价完全可以接受。

六、效果到底怎么样？

说了这么多，得拿数据说话。

DeepSeek团队在三个规模的模型上做了实验：30亿参数、90亿参数、270亿参数。

先看训练稳定性。

270亿参数的模型，用普通超连接训练，损失曲线在一万多步的时候开始剧烈震荡，梯度数值动不动飙到0.2以上。

换成mHC之后，曲线平稳得跟用传统残差连接一样，但损失值更低。

稳定性问题，解决了。

再看最终效果。

他们在8个不同的测试集上做了评估，涵盖综合推理、阅读理解、数学应用题、常识判断等多个方面。

具体数字我就不一一列了，总体结论是：mHC在绝大多数任务上都比传统方法好，而且比不加约束的超连接也更好。

比如在BBH（一个综合推理测试）上，传统方法43.8分，超连接48.9分，mHC是51.0分。在DROP（阅读理解测试）上，传统方法47.0分，超连接51.6分，mHC是53.9分。

提升是全面的。

还有一个重要的问题：这个方法能不能扩展到更大的模型？

有些技巧只在小模型上有效，模型一大就不行了。mHC不是这样。从30亿参数到270亿参数，相对优势一直保持。这说明它是一个真正可扩展的方法。

七、这件事的意义

说完技术细节，退一步看看这件事的意义。

残差连接是深度学习最基础的组件之一。十年来，大家都觉得它已经足够好了，没什么可改的。

但DeepSeek团队证明：即使是这么基础的东西，也还有提升的空间。关键是要找到正确的方向。

他们的方向是什么？用数学上的约束来换取稳定性。

超连接的问题不是思路错了，而是太"自由"了。信号想怎么传就怎么传，没有任何限制，结果就是失控。

mHC加了一个"双随机"的约束，牺牲了一点点自由度，换来了稳定性。而且这个约束选得很巧妙，既能保持信号不失控，又保留了足够的灵活性让模型学习。

这种思路在机器学习里其实挺常见的：正则化、Dropout、BatchNorm，本质上都是通过加约束来提升效果。mHC把这个思路用到了网络的连接结构上。

另一个意义是：它重新激发了大家对"宏观架构"的兴趣。

过去几年，深度学习的进步主要来自两个方向：一是改进单个模块的内部设计，比如更高效的注意力机制；二是简单粗暴地把模型做大。

但模块之间怎么连接、整体架构怎么设计，这方面的研究相对少。残差连接用了十年不变，就是一个例子。

mHC说明，这个领域还有很多可以挖掘的地方。

八、还有哪些问题没解决？

mHC不是终点，它打开了一扇门，但门后面还有很多未知。

首先，双随机矩阵只是众多可能的约束之一。还有没有其他的约束方式，效果更好或者适用于不同的场景？比如正交矩阵、低秩矩阵、稀疏矩阵，各有什么优缺点？

其次，mHC目前主要在语言模型上验证。它在视觉模型、多模态模型、科学计算模型上表现如何？这些都需要更多的实验。

第三，扩展倍数n目前固定是4。这个数字是最优的吗？不同的任务是不是需要不同的扩展倍数？能不能让模型自己学习最优的n？

最后，Sinkhorn-Knopp算法的迭代次数目前设为20。这个数字是怎么定的？迭代次数和最终效果之间是什么关系？

这些问题都有待进一步研究。

尾声

写到这里，差不多把mHC的来龙去脉讲清楚了。

总结一下：

残差连接是深度学习的基础组件，十年没怎么变过
超连接试图把单通道改成多通道，增强表达能力，但导致了训练不稳定
mHC通过给连接矩阵加上"双随机"约束，既保留了多通道的好处，又恢复了稳定性
工程上通过核融合、选择性重计算、通信重叠等技术，把额外开销控制在6.7%
实验证明mHC在多个任务上都有稳定的提升

这个工作的价值不仅在于提出了一个新方法，更在于它展示了一种思维方式：面对复杂系统，不要追求无限制的自由，而要找到恰当的约束。约束不是限制，而是保障。

从更大的视角看，mHC代表了深度学习领域的一个趋势：从经验驱动走向理论驱动。以前很多设计是"试出来的"，效果好就用，但不知道为什么好。现在越来越多的工作开始用数学理论来指导设计，知其然也知其所以然。

这是学科走向成熟的标志。

AI还在快速发展。今天的mHC，可能只是明天更大突破的一块垫脚石。但正是这样一块一块的垫脚石，铺出了通往更强大AI的道路。

故事就讲到这里。

2026 年 1 月
日	一	二	三	四	五	六
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31