2015年,微软亚洲研究院的何恺明搞出了一个叫"残差连接"的东西。说白了就是在神经网络里加了一条"快捷通道",让信息可以跳过中间层直接往后传。
这玩意儿简单得要命,但效果好得离谱。从那以后,几乎所有的深度学习模型都用上了它。GPT用它,BERT用它,你现在用的各种AI助手,底层全是它。
十年了,这东西几乎没人动过。
不是没人想动,是不敢动。这就像汽车的方向盘,你说改就改?万一改出问题,整辆车都得报废。
但2025年底,DeepSeek的研究团队干了一件事:他们不光动了这个老零件,还真的换成功了。
新零件叫mHC,全称"流形约束超连接"。名字拗口,但背后的故事挺有意思。
一、先搞明白:残差连接到底解决了什么问题?
要理解mHC,得先知道残差连接为什么这么重要。
2012年深度学习火起来之后,大家发现了一个很诡异的现象:神经网络不是层数越多越好。
按理说,网络越深,能学到的东西应该越复杂。但实际训练的时候,层数加到一定程度,效果反而变差了。
为什么?
打个比方。你小时候可能玩过"传话游戏"——一排人站成一列,第一个人说一句话,一个传一个,最后一个人说出来。人少的时候还行,人一多,传到最后基本就面目全非了。
神经网络也是这样。信息从第一层传到最后一层,中间要经过几十上百次的处理。每处理一次,原始信息就失真一点。等传到最后,该学的东西早就模糊得差不多了。
这在术语里叫"梯度消失",说人话就是:信号传着传着就没了。
何恺明的解决办法简单粗暴:既然中间处理会让信息失真,那我干脆给信息开一条直通车,让它原封不动地传到后面去。
具体怎么做?每一层的输出不再只是"处理后的结果",而是"处理后的结果 + 原始输入"。
就这么一个加法,问题就解决了。
原始信息永远不会丢,不管网络有多深,最开始的信号都能传到最后。2015年,何恺明用这个方法训练出了152层的网络,直接刷新了当时所有的记录。
从那以后,残差连接就成了标配。十年间,AI领域翻天覆地,但这个小零件几乎没变过。
二、有人不信邪,想把单车道改成多车道
故事讲到这里,按说该结束了。但总有人不满足。
残差连接虽然好用,但它本质上就是"一条通道"。信息从前往后传,就这一条路。
有人就想:要是我开四条通道呢?信息可以在不同通道之间切换、混合,是不是能学到更复杂的东西?
这就是"超连接"(Hyper-Connections)的想法。2024年有团队提出了这个概念,初步实验确实有效果。
但问题很快就来了。
还是用交通来打比方。原来是一条高速公路,车流固定,大家规规矩矩往前开,稳得很。现在改成四条路,还允许车在路之间随便换,听起来更灵活了,但实际跑起来呢?
有的路越来越堵,车越积越多;有的路越来越空,最后都没车走了。

翻译成技术语言:信号在有的通道里被不断放大,在有的通道里被不断缩小。经过几十层之后,有的信号变成了天文数字,有的信号直接归零。
DeepSeek团队在270亿参数的模型上做实验,发现超连接的信号放大倍数最高到了3000倍。
3000倍是什么概念?你开车从北京到上海,正常油耗500块钱。现在告诉你,因为路况问题,有时候要花150万,有时候只要1毛6。这车你敢开吗?
训练直接就崩了。损失曲线剧烈震荡,根本没法收敛。
三、DeepSeek的思路:不是不要多车道,是要加规矩
面对这个问题,最直接的反应可能是:那算了,还是用回单车道吧。
但DeepSeek团队没这么想。他们觉得,多车道的思路是对的,问题出在没有规矩。
原来的超连接,允许信号在不同通道之间随意分配。想放大10倍就放大10倍,想缩小100倍就缩小100倍,完全没有约束。
DeepSeek说:这不行,得给它加个限制。
加什么限制呢?他们选了一个数学上叫"双随机矩阵"的东西。
别被名字吓到,这东西的核心意思很简单:公平分配。

打个比方。你是班主任,班上四个小组,每组都有100块钱活动经费。现在允许小组之间互相调配经费,但你定了一条规矩:
每个小组给出去的总额,必须等于它收到的总额。
一组给二组30块,那一组也得从别的组那里收到30块。整体的钱不会凭空增加,也不会凭空消失。
这条规矩一加,情况就完全不一样了。不管怎么调配,经费分布都不会失控。不会出现一个组有一万块、另一个组只剩一毛钱的情况。
mHC就是把这个"公平分配"的规矩,加到了信号的跨通道传递上。
技术上怎么实现呢?他们用了一个叫"Sinkhorn-Knopp"的算法。大概过程是这样:
先随便给一个分配方案(一个矩阵)
把每一行都调整一下,让行的和变成1
把每一列都调整一下,让列的和变成1
重复2和3,来回调整
神奇的是,这样来回调整个十几二十次,最后的矩阵就自然满足"双随机"的条件了。
就像你在调一个不平的桌子,左边垫一下,右边垫一下,来回几次,桌子就平了。
四、数学上为什么管用?
光说"公平分配"可能有点抽象。这里稍微深入一点,解释一下为什么双随机矩阵能解决稳定性问题。
矩阵有一个性质叫"谱范数",可以理解为这个矩阵对信号的"最大放大能力"。
普通的矩阵,谱范数可以是任意值。如果谱范数是10,信号经过这个矩阵就可能被放大10倍;如果谱范数是0.1,信号就可能被缩小到原来的十分之一。
但双随机矩阵的谱范数永远不超过1。
这意味着什么?信号经过这个矩阵,最多保持原样,绝对不会被放大。经过几十层、几百层,信号的大小也不会失控。
更妙的是,双随机矩阵还有一个"封闭性":两个双随机矩阵乘起来,结果还是双随机矩阵。
所以不管网络有多深,只要每一层的连接矩阵都是双随机的,整体的连接矩阵也是双随机的。稳定性从第一层保持到最后一层。
回到刚才的数字对比:
超连接:60层叠加后,信号放大倍数最高3000倍
mHC:60层叠加后,信号放大倍数最高1.6倍
三个数量级的差距。这就是有规矩和没规矩的区别。

五、工程上的麻烦事
理论说通了,但要真正用起来,还有一堆工程问题要解决。
最大的问题是:多通道设计会大幅增加内存访问量。
现在训练AI模型用的都是GPU。GPU的计算能力很强,但有个瓶颈:从内存读数据、往内存写数据,这个过程相对慢。如果一个算法需要频繁读写内存,就算计算量不大,也会被拖慢。

超连接把单通道变成了四通道,内存访问量直接翻了四倍多。如果不优化,速度会慢得没法用。
DeepSeek团队用了几个办法来解决这个问题。
第一个办法:合并操作
原来的做法是:读数据A,处理完写回去;再读出来,处理完再写回去;再读出来……每一步都要读写一次。
优化后的做法是:读数据A,一口气做完所有处理,最后才写回去。中间的读写全省了。
这在术语里叫"核融合"。就是把多个小操作融合成一个大操作,减少内存访问次数。
第二个办法:有选择地重新计算
训练神经网络的时候,每一层的中间结果都要存下来,后面反向传播的时候要用。但存的东西太多,GPU内存就不够了。
一个办法是:不存那么多,需要的时候重新算一遍。用时间换空间。
mHC团队用了一种"分块"的策略:把网络分成若干组,每组只存开头的数据,中间的数据用到的时候再算。他们还推导出了最优的分组大小,在速度和内存之间找到平衡点。
第三个办法:让通信和计算同时进行
训练大模型需要几百上千块GPU一起干活,GPU之间要互相传数据。传数据是要时间的,如果GPU在等数据的时候闲着,效率就低了。
mHC团队改进了调度策略,让GPU在等数据的时候继续算别的东西。等数据到了,该算的也算完了,无缝衔接。
经过这些优化,mHC相比普通模型的额外开销只有6.7%。也就是说,原来训练100小时,用mHC大概要107小时。这个代价完全可以接受。
六、效果到底怎么样?
说了这么多,得拿数据说话。
DeepSeek团队在三个规模的模型上做了实验:30亿参数、90亿参数、270亿参数。
先看训练稳定性。
270亿参数的模型,用普通超连接训练,损失曲线在一万多步的时候开始剧烈震荡,梯度数值动不动飙到0.2以上。
换成mHC之后,曲线平稳得跟用传统残差连接一样,但损失值更低。

稳定性问题,解决了。
再看最终效果。
他们在8个不同的测试集上做了评估,涵盖综合推理、阅读理解、数学应用题、常识判断等多个方面。
具体数字我就不一一列了,总体结论是:mHC在绝大多数任务上都比传统方法好,而且比不加约束的超连接也更好。
比如在BBH(一个综合推理测试)上,传统方法43.8分,超连接48.9分,mHC是51.0分。在DROP(阅读理解测试)上,传统方法47.0分,超连接51.6分,mHC是53.9分。
提升是全面的。
还有一个重要的问题:这个方法能不能扩展到更大的模型?
有些技巧只在小模型上有效,模型一大就不行了。mHC不是这样。从30亿参数到270亿参数,相对优势一直保持。这说明它是一个真正可扩展的方法。
七、这件事的意义
说完技术细节,退一步看看这件事的意义。
残差连接是深度学习最基础的组件之一。十年来,大家都觉得它已经足够好了,没什么可改的。
但DeepSeek团队证明:即使是这么基础的东西,也还有提升的空间。关键是要找到正确的方向。

他们的方向是什么?用数学上的约束来换取稳定性。
超连接的问题不是思路错了,而是太"自由"了。信号想怎么传就怎么传,没有任何限制,结果就是失控。
mHC加了一个"双随机"的约束,牺牲了一点点自由度,换来了稳定性。而且这个约束选得很巧妙,既能保持信号不失控,又保留了足够的灵活性让模型学习。
这种思路在机器学习里其实挺常见的:正则化、Dropout、BatchNorm,本质上都是通过加约束来提升效果。mHC把这个思路用到了网络的连接结构上。
另一个意义是:它重新激发了大家对"宏观架构"的兴趣。
过去几年,深度学习的进步主要来自两个方向:一是改进单个模块的内部设计,比如更高效的注意力机制;二是简单粗暴地把模型做大。
但模块之间怎么连接、整体架构怎么设计,这方面的研究相对少。残差连接用了十年不变,就是一个例子。
mHC说明,这个领域还有很多可以挖掘的地方。
八、还有哪些问题没解决?
mHC不是终点,它打开了一扇门,但门后面还有很多未知。
首先,双随机矩阵只是众多可能的约束之一。还有没有其他的约束方式,效果更好或者适用于不同的场景?比如正交矩阵、低秩矩阵、稀疏矩阵,各有什么优缺点?
其次,mHC目前主要在语言模型上验证。它在视觉模型、多模态模型、科学计算模型上表现如何?这些都需要更多的实验。
第三,扩展倍数n目前固定是4。这个数字是最优的吗?不同的任务是不是需要不同的扩展倍数?能不能让模型自己学习最优的n?
最后,Sinkhorn-Knopp算法的迭代次数目前设为20。这个数字是怎么定的?迭代次数和最终效果之间是什么关系?
这些问题都有待进一步研究。
尾声
写到这里,差不多把mHC的来龙去脉讲清楚了。
总结一下:
残差连接是深度学习的基础组件,十年没怎么变过
超连接试图把单通道改成多通道,增强表达能力,但导致了训练不稳定
mHC通过给连接矩阵加上"双随机"约束,既保留了多通道的好处,又恢复了稳定性
工程上通过核融合、选择性重计算、通信重叠等技术,把额外开销控制在6.7%
实验证明mHC在多个任务上都有稳定的提升
这个工作的价值不仅在于提出了一个新方法,更在于它展示了一种思维方式:面对复杂系统,不要追求无限制的自由,而要找到恰当的约束。约束不是限制,而是保障。
从更大的视角看,mHC代表了深度学习领域的一个趋势:从经验驱动走向理论驱动。以前很多设计是"试出来的",效果好就用,但不知道为什么好。现在越来越多的工作开始用数学理论来指导设计,知其然也知其所以然。
这是学科走向成熟的标志。
AI还在快速发展。今天的mHC,可能只是明天更大突破的一块垫脚石。但正是这样一块一块的垫脚石,铺出了通往更强大AI的道路。

故事就讲到这里。