2015年,微软亚洲研究院的何恺明搞出了一个叫"残差连接"的东西。说白了就是在神经网络里加了一条"快捷通道",让信息可以跳过中间层直接往后传。

这玩意儿简单得要命,但效果好得离谱。从那以后,几乎所有的深度学习模型都用上了它。GPT用它,BERT用它,你现在用的各种AI助手,底层全是它。

十年了,这东西几乎没人动过。

不是没人想动,是不敢动。这就像汽车的方向盘,你说改就改?万一改出问题,整辆车都得报废。

但2025年底,DeepSeek的研究团队干了一件事:他们不光动了这个老零件,还真的换成功了。

新零件叫mHC,全称"流形约束超连接"。名字拗口,但背后的故事挺有意思。

一、先搞明白:残差连接到底解决了什么问题?

要理解mHC,得先知道残差连接为什么这么重要。

2012年深度学习火起来之后,大家发现了一个很诡异的现象:神经网络不是层数越多越好。

按理说,网络越深,能学到的东西应该越复杂。但实际训练的时候,层数加到一定程度,效果反而变差了。

为什么?

打个比方。你小时候可能玩过"传话游戏"——一排人站成一列,第一个人说一句话,一个传一个,最后一个人说出来。人少的时候还行,人一多,传到最后基本就面目全非了。

神经网络也是这样。信息从第一层传到最后一层,中间要经过几十上百次的处理。每处理一次,原始信息就失真一点。等传到最后,该学的东西早就模糊得差不多了。

这在术语里叫"梯度消失",说人话就是:信号传着传着就没了。

何恺明的解决办法简单粗暴:既然中间处理会让信息失真,那我干脆给信息开一条直通车,让它原封不动地传到后面去。

具体怎么做?每一层的输出不再只是"处理后的结果",而是"处理后的结果 + 原始输入"。

就这么一个加法,问题就解决了。

原始信息永远不会丢,不管网络有多深,最开始的信号都能传到最后。2015年,何恺明用这个方法训练出了152层的网络,直接刷新了当时所有的记录。

从那以后,残差连接就成了标配。十年间,AI领域翻天覆地,但这个小零件几乎没变过。

二、有人不信邪,想把单车道改成多车道

故事讲到这里,按说该结束了。但总有人不满足。

残差连接虽然好用,但它本质上就是"一条通道"。信息从前往后传,就这一条路。

有人就想:要是我开四条通道呢?信息可以在不同通道之间切换、混合,是不是能学到更复杂的东西?

这就是"超连接"(Hyper-Connections)的想法。2024年有团队提出了这个概念,初步实验确实有效果。

但问题很快就来了。

还是用交通来打比方。原来是一条高速公路,车流固定,大家规规矩矩往前开,稳得很。现在改成四条路,还允许车在路之间随便换,听起来更灵活了,但实际跑起来呢?

有的路越来越堵,车越积越多;有的路越来越空,最后都没车走了。

翻译成技术语言:信号在有的通道里被不断放大,在有的通道里被不断缩小。经过几十层之后,有的信号变成了天文数字,有的信号直接归零。

DeepSeek团队在270亿参数的模型上做实验,发现超连接的信号放大倍数最高到了3000倍。

3000倍是什么概念?你开车从北京到上海,正常油耗500块钱。现在告诉你,因为路况问题,有时候要花150万,有时候只要1毛6。这车你敢开吗?

训练直接就崩了。损失曲线剧烈震荡,根本没法收敛。

三、DeepSeek的思路:不是不要多车道,是要加规矩

面对这个问题,最直接的反应可能是:那算了,还是用回单车道吧。

但DeepSeek团队没这么想。他们觉得,多车道的思路是对的,问题出在没有规矩。

原来的超连接,允许信号在不同通道之间随意分配。想放大10倍就放大10倍,想缩小100倍就缩小100倍,完全没有约束。

DeepSeek说:这不行,得给它加个限制。

加什么限制呢?他们选了一个数学上叫"双随机矩阵"的东西。

别被名字吓到,这东西的核心意思很简单:公平分配

打个比方。你是班主任,班上四个小组,每组都有100块钱活动经费。现在允许小组之间互相调配经费,但你定了一条规矩:

每个小组给出去的总额,必须等于它收到的总额。

一组给二组30块,那一组也得从别的组那里收到30块。整体的钱不会凭空增加,也不会凭空消失。

这条规矩一加,情况就完全不一样了。不管怎么调配,经费分布都不会失控。不会出现一个组有一万块、另一个组只剩一毛钱的情况。

mHC就是把这个"公平分配"的规矩,加到了信号的跨通道传递上。

技术上怎么实现呢?他们用了一个叫"Sinkhorn-Knopp"的算法。大概过程是这样:

  1. 先随便给一个分配方案(一个矩阵)

  2. 把每一行都调整一下,让行的和变成1

  3. 把每一列都调整一下,让列的和变成1

  4. 重复2和3,来回调整

神奇的是,这样来回调整个十几二十次,最后的矩阵就自然满足"双随机"的条件了。

就像你在调一个不平的桌子,左边垫一下,右边垫一下,来回几次,桌子就平了。

四、数学上为什么管用?

光说"公平分配"可能有点抽象。这里稍微深入一点,解释一下为什么双随机矩阵能解决稳定性问题。

矩阵有一个性质叫"谱范数",可以理解为这个矩阵对信号的"最大放大能力"。

普通的矩阵,谱范数可以是任意值。如果谱范数是10,信号经过这个矩阵就可能被放大10倍;如果谱范数是0.1,信号就可能被缩小到原来的十分之一。

但双随机矩阵的谱范数永远不超过1。

这意味着什么?信号经过这个矩阵,最多保持原样,绝对不会被放大。经过几十层、几百层,信号的大小也不会失控。

更妙的是,双随机矩阵还有一个"封闭性":两个双随机矩阵乘起来,结果还是双随机矩阵。

所以不管网络有多深,只要每一层的连接矩阵都是双随机的,整体的连接矩阵也是双随机的。稳定性从第一层保持到最后一层。

回到刚才的数字对比:

  • 超连接:60层叠加后,信号放大倍数最高3000倍

  • mHC:60层叠加后,信号放大倍数最高1.6倍

三个数量级的差距。这就是有规矩和没规矩的区别。

五、工程上的麻烦事

理论说通了,但要真正用起来,还有一堆工程问题要解决。

最大的问题是:多通道设计会大幅增加内存访问量。

现在训练AI模型用的都是GPU。GPU的计算能力很强,但有个瓶颈:从内存读数据、往内存写数据,这个过程相对慢。如果一个算法需要频繁读写内存,就算计算量不大,也会被拖慢。

超连接把单通道变成了四通道,内存访问量直接翻了四倍多。如果不优化,速度会慢得没法用。

DeepSeek团队用了几个办法来解决这个问题。

第一个办法:合并操作

原来的做法是:读数据A,处理完写回去;再读出来,处理完再写回去;再读出来……每一步都要读写一次。

优化后的做法是:读数据A,一口气做完所有处理,最后才写回去。中间的读写全省了。

这在术语里叫"核融合"。就是把多个小操作融合成一个大操作,减少内存访问次数。

第二个办法:有选择地重新计算

训练神经网络的时候,每一层的中间结果都要存下来,后面反向传播的时候要用。但存的东西太多,GPU内存就不够了。

一个办法是:不存那么多,需要的时候重新算一遍。用时间换空间。

mHC团队用了一种"分块"的策略:把网络分成若干组,每组只存开头的数据,中间的数据用到的时候再算。他们还推导出了最优的分组大小,在速度和内存之间找到平衡点。

第三个办法:让通信和计算同时进行

训练大模型需要几百上千块GPU一起干活,GPU之间要互相传数据。传数据是要时间的,如果GPU在等数据的时候闲着,效率就低了。

mHC团队改进了调度策略,让GPU在等数据的时候继续算别的东西。等数据到了,该算的也算完了,无缝衔接。

经过这些优化,mHC相比普通模型的额外开销只有6.7%。也就是说,原来训练100小时,用mHC大概要107小时。这个代价完全可以接受。

六、效果到底怎么样?

说了这么多,得拿数据说话。

DeepSeek团队在三个规模的模型上做了实验:30亿参数、90亿参数、270亿参数。

先看训练稳定性。

270亿参数的模型,用普通超连接训练,损失曲线在一万多步的时候开始剧烈震荡,梯度数值动不动飙到0.2以上。

换成mHC之后,曲线平稳得跟用传统残差连接一样,但损失值更低。

稳定性问题,解决了。

再看最终效果。

他们在8个不同的测试集上做了评估,涵盖综合推理、阅读理解、数学应用题、常识判断等多个方面。

具体数字我就不一一列了,总体结论是:mHC在绝大多数任务上都比传统方法好,而且比不加约束的超连接也更好。

比如在BBH(一个综合推理测试)上,传统方法43.8分,超连接48.9分,mHC是51.0分。在DROP(阅读理解测试)上,传统方法47.0分,超连接51.6分,mHC是53.9分。

提升是全面的。

还有一个重要的问题:这个方法能不能扩展到更大的模型?

有些技巧只在小模型上有效,模型一大就不行了。mHC不是这样。从30亿参数到270亿参数,相对优势一直保持。这说明它是一个真正可扩展的方法。

七、这件事的意义

说完技术细节,退一步看看这件事的意义。

残差连接是深度学习最基础的组件之一。十年来,大家都觉得它已经足够好了,没什么可改的。

但DeepSeek团队证明:即使是这么基础的东西,也还有提升的空间。关键是要找到正确的方向。

他们的方向是什么?用数学上的约束来换取稳定性

超连接的问题不是思路错了,而是太"自由"了。信号想怎么传就怎么传,没有任何限制,结果就是失控。

mHC加了一个"双随机"的约束,牺牲了一点点自由度,换来了稳定性。而且这个约束选得很巧妙,既能保持信号不失控,又保留了足够的灵活性让模型学习。

这种思路在机器学习里其实挺常见的:正则化、Dropout、BatchNorm,本质上都是通过加约束来提升效果。mHC把这个思路用到了网络的连接结构上。

另一个意义是:它重新激发了大家对"宏观架构"的兴趣。

过去几年,深度学习的进步主要来自两个方向:一是改进单个模块的内部设计,比如更高效的注意力机制;二是简单粗暴地把模型做大。

但模块之间怎么连接、整体架构怎么设计,这方面的研究相对少。残差连接用了十年不变,就是一个例子。

mHC说明,这个领域还有很多可以挖掘的地方。

八、还有哪些问题没解决?

mHC不是终点,它打开了一扇门,但门后面还有很多未知。

首先,双随机矩阵只是众多可能的约束之一。还有没有其他的约束方式,效果更好或者适用于不同的场景?比如正交矩阵、低秩矩阵、稀疏矩阵,各有什么优缺点?

其次,mHC目前主要在语言模型上验证。它在视觉模型、多模态模型、科学计算模型上表现如何?这些都需要更多的实验。

第三,扩展倍数n目前固定是4。这个数字是最优的吗?不同的任务是不是需要不同的扩展倍数?能不能让模型自己学习最优的n?

最后,Sinkhorn-Knopp算法的迭代次数目前设为20。这个数字是怎么定的?迭代次数和最终效果之间是什么关系?

这些问题都有待进一步研究。

尾声

写到这里,差不多把mHC的来龙去脉讲清楚了。

总结一下:

  1. 残差连接是深度学习的基础组件,十年没怎么变过

  2. 超连接试图把单通道改成多通道,增强表达能力,但导致了训练不稳定

  3. mHC通过给连接矩阵加上"双随机"约束,既保留了多通道的好处,又恢复了稳定性

  4. 工程上通过核融合、选择性重计算、通信重叠等技术,把额外开销控制在6.7%

  5. 实验证明mHC在多个任务上都有稳定的提升

这个工作的价值不仅在于提出了一个新方法,更在于它展示了一种思维方式:面对复杂系统,不要追求无限制的自由,而要找到恰当的约束。约束不是限制,而是保障。

从更大的视角看,mHC代表了深度学习领域的一个趋势:从经验驱动走向理论驱动。以前很多设计是"试出来的",效果好就用,但不知道为什么好。现在越来越多的工作开始用数学理论来指导设计,知其然也知其所以然。

这是学科走向成熟的标志。

AI还在快速发展。今天的mHC,可能只是明天更大突破的一块垫脚石。但正是这样一块一块的垫脚石,铺出了通往更强大AI的道路。

故事就讲到这里。