
这项由红帽AI创新团队、MIT-IBM Watson AI实验室以及IBM核心AI研究部门联合开展的研究,以预印本形式于2026年5月18日发布在arXiv平台,论文编号为arXiv:2605.17842。有兴趣深入了解技术细节的读者可通过该编号在arXiv上查阅完整论文。
**故事从一个根深蒂固的瓶颈说起**
每当你向ChatGPT或其他AI对话系统提出一个问题,它回答你之前,有一件事情正在悄悄发生:这些语言模型的"大脑"——一个由几十甚至上百层"神经层"组成的深度网络——必须像一条流水线一样,严格地从第一层算到最后一层,每一层都要等上一层算完才能开始。这种严格的"串行"方式,就像一家只有一条收银台、并且必须按到来顺序结账的超市,不管你手里拿的是一颗糖还是一车货,都得老老实实排队。
问题在于,AI大模型越来越深,层数越来越多。研究界已经有大量工作去优化每一层内部的计算效率,比如更快的注意力机制、更省内存的量化方法、投机解码(一种提前猜测答案的技巧)等等,但这些手段都没有触碰那条最根本的依赖链——层与层之间那道"你必须等我算完"的铁门。正是为了撬开这扇铁门,研究团队提出了一个名为**结构化牛顿层并行推理(SNLP,Structured Newton Layer Parallelism)**的新框架。
**一、为什么"并行流水线"在这里这么难**
理解SNLP之前,先搞清楚"并行"在这里究竟难在哪里。
我们平时理解的并行,比如工厂里多条流水线同时生产,或者厨房里多个厨师同时备菜,都有一个前提:各条线路之间相互独立。但神经网络的层与层之间恰恰相反——第二层的计算结果,完全依赖第一层吐出的数值;第三层依赖第二层,依此类推。用一个直观的比喻来说:这就像玩一种接龙游戏,每个玩家说出的词,必须以上一个玩家说的词的最后一个字开头。你不可能让所有玩家同时说话,因为谁都不知道自己的"开头"是什么,直到前一个人说完为止。
那么,有没有办法绕开这个接龙规则?研究团队的回答是:可以,但需要换一种思维方式。与其把神经网络的前向传播理解为"一步一步算出每一层的输出",不如把它理解为一个方程组的求解问题——整个网络从第一层到最后一层的所有中间状态,本质上是某个联立方程组的解。如果你同时猜出所有层的中间状态,然后检验哪些地方猜错了、再修正,不断迭代,最终也能得到正确答案。这种"联合猜测、统一修正"的思路,在数学上叫做"牛顿法",研究团队借鉴的正是这个经典思想。
**二、牛顿法听起来很美,但直接用行不通**
牛顿法在数学上是一种非常经典的求根方法,直觉上极其简单:先猜一个答案,然后根据函数在当前位置的"斜率"(数学上叫雅可比矩阵)来决定下一步应该往哪里修正,迭代几次就能快速逼近真正的答案。
但把牛顿法原封不动地搬到神经网络的层并行上,有一个致命问题:计算那个"斜率"(雅可比矩阵)代价极其高昂。对于语言模型来说,每一层的隐藏状态维度可能有几千甚至上万个数字,精确计算一层输入输出之间的雅可比矩阵,需要的存储和计算量是正常前向传播的数千倍。你本来想用并行加速推理,结果光是算"修正方向"就已经比直接顺序算慢了几十倍,得不偿失。
研究者们自然也想到了一些取巧的近似方法,比如用随机扰动估算雅可比矩阵的对角线,或者干脆不算雅可比、直接用简单的不动点迭代。但实验证明,对于已经训练好的残差网络(现代大模型几乎都是这种结构),简单的不动点迭代极不稳定,很容易发散,根本无法得到有意义的结果。
就在这两条路都走不通的时候,研究团队找到了一个关键突破口:何不用网络自身的结构来提供廉价的近似雅可比矩阵?
**三、SNLP的核心思路:用建筑的骨架来猜方向**
现代Transformer语言模型有一个几乎无处不在的设计:残差连接。简单来说,每一层的输出不是完全从头算出来的,而是"上一层的输入加上一个小修正"。用符号表示就是:`这一层的输出 = 上一层的输入 + 这一层算出的修正量`。
这个"加号"意味着,在残差网络中,每一层对输入的最简单近似变换就是"什么都不改变"——即恒等变换,在数学上记作单位矩阵I。如果真实的雅可比矩阵(那个昂贵的"斜率")很接近单位矩阵,那就可以直接用单位矩阵来替代它,完全不需要任何额外计算。研究团队把这个想法命名为**身份牛顿(IDN,Identity Newton)**。
有了这个替代品,牛顿法的修正公式变得极其简单:每一层修正后的状态,等于用当前估计算出的这层输出,加上"上一层修正量"。这个操作本质上就是一个前缀求和——从第一层往后,把修正量一路累加下去。整个修正过程几乎没有额外计算代价,却能在一次迭代中把来自最早层的信息传递到最后一层,这是朴素并行迭代做不到的事情(朴素迭代每次只能向后传递一层信息)。
研究团队还为另外两种情况设计了对应变体。**对角牛顿(DiagN)**使用雅可比矩阵的对角线部分作为近似,对角线可以通过随机探针高效估计,精度比IDN更高,但代价也更大。而对于一种名为**mHC(多超连接)**的特殊架构,网络本身就显式地维护了一个描述层间信息混合方式的小矩阵,研究团队直接把这个矩阵用作近似雅可比,称为**HC牛顿(HCN)**,既精确又几乎没有额外代价。
**四、光改推理方式还不够:让模型"学会配合"**
仅仅在推理时用便宜的近似雅可比替换精确雅可比,对于一个已经按照传统方式训练好的模型来说,往往效果有限。原因在于,传统训练方式让模型的每一层都高度依赖前一层的精确输出——就像一个习惯了接力棒赛跑的运动员,突然让他在接棒之前就开始跑,必然会出问题。
为了解决这个矛盾,研究团队引入了**SNLP感知训练正则化**。思路说起来并不复杂:在正常训练的交叉熵损失之外,额外加一项惩罚——如果用一次(或少数几次)结构化牛顿迭代算出来的各层状态,与正常顺序前向传播算出来的结果差距太大,就给这一差距一个惩罚分。这个额外的损失函数促使模型在训练过程中逐渐调整自己的参数,让后半部分层的计算变得不那么依赖精确的前序状态——换句话说,让那些层的"修正量"对输入变得不那么敏感。
用更直白的比喻来说:传统训练就像培养一批只会按固定剧本演出的演员,台词和动作必须严格依赖上一个演员的表演。SNLP感知训练则像让演员们额外练习一种即兴表演技能——即使不知道前面演员的精确表演,也能给出差不多的效果。
这个正则化手段带来了一个意外的惊喜:它不仅提升了并行推理的效果,还改善了模型顺序推理时的困惑度(PPL,一种衡量语言模型质量的指标,越低越好)。这说明这个正则化并不只是一个推理时的权宜之计,而是真正改变了模型内部的表示方式,让层间动态变得更加健康。
**五、推理时的融合技巧:把多层"打包"成一块宽板**
仅仅有了SNLP算法,并不意味着墙上时钟走得更快。因为GPU的效率高度依赖矩阵乘法的规模——小矩阵乘法远没有大矩阵乘法高效。如果每次并行执行十几个独立的小层,GPU的利用率可能反而下降。
为了真正榨出硬件的性能,研究团队引入了**层融合(Layer Fusion)**技术。核心思想是:既然多个层都在处理同一个输入,干脆把它们的权重"横向拼接"起来,合并成一个更宽的层,用一次大型矩阵乘法替代多次小型矩阵乘法。具体来说,如果几个层共享同一个输入,就把它们的Query/Key/Value投影矩阵和MLP展开矩阵沿输出维度拼接,把输出投影矩阵和MLP压缩矩阵沿输入维度拼接,然后在大矩阵乘法之后再做必要的加法聚合。这样,层并行的算法结构就被转化成了GPU高效执行的宽矩阵运算。
更进一步,研究团队还引入了**分块策略(Chunking)**:把整个后缀层序列分成若干"块",每块包含若干个融合的层,所有块的前向计算都可以并行执行,然后只在块与块之间做结构化牛顿修正。一个配置标记如"4xF6-h0",意味着把后缀分成4个块,每块融合6个层,用前缀状态初始化。这种分块方式相当于用粗粒度的近似换取更好的硬件利用率,是一个精度与速度之间的权衡旋钮。
**六、实验结果:数字背后的真实含义**
研究团队在一个名为Nanochat的紧凑型语言模型框架上进行了大量实验,规模从5亿参数(0.5B)到30亿参数(3B)不等,全部在H100 GPU上测试。
首先来看训练效果带来的变化。在0.5B标准配置下,没有任何正则化的基础模型困惑度为69.54;加入IDN正则化后,顺序推理的困惑度降至53.25,降幅高达23.4%。3B模型同样从37.16降至35.31,降幅约5%。这个结果清晰地说明:SNLP感知正则化本身就是一种有效的训练技巧,即便你不打算使用并行推理,仅仅把它当成正则化手段来训练模型,也能获得更好的语言建模质量。
然后来看并行推理的加速效果。在0.5B模型上,使用12个融合两层的块(12xF2)配合h0初始化、2次迭代,实测推理速度达到顺序执行的2.37倍,困惑度为53.68,仅比IDN正则化后的顺序推理(53.25)略高0.8%,而相比没有正则化的基础模型(69.54),困惑度还大幅降低了。另一个配置(4xF6-h0,2次迭代)将0.5B无x0/VE模型的推理速度提升至2.32倍,同时困惑度从79.96降至75.09,下降6.1%。
这意味着在某些配置下,并行推理不仅更快,生成质量还更好——这是一个颇为反直觉的发现,研究团队在论文中对此给出了细致的解释(后面会讲到)。3B模型的情况有所不同:SNLP配置确实能降低困惑度,但在当前PyTorch实现下还未能实现实际加速,原因在于3B模型的顺序层已经能更充分地饱和H100的计算资源,层融合带来的效率提升不足以抵消overhead。
研究团队还在现成的商业预训练模型(Qwen2.5-0.5B、TinyLlama-1.1B、Gemma-3-1B)上做了测试,发现这些模型在不经过SNLP感知训练的情况下,最多只能匹配顺序推理的困惑度,无法超越,速度也比顺序推理慢。这个结果清楚地表明:SNLP的效果高度依赖训练与推理的协同设计,对于"开箱即用"的预训练模型,效果十分有限。
**七、为什么并行推理有时反而更好?这个问题值得认真回答**
这可能是整篇论文最耐人寻味的发现:在某些配置下,SNLP并行推理产生的困惑度,比同一个模型的顺序推理还低。这怎么可能?顺序推理不是"标准答案"吗?
研究团队对此给出了一个被称为**"求解器诱导的推理偏置"**的解释框架。
首先要理解,牛顿法精确收敛的极限,确实是恢复完全等同于顺序推理的结果。但SNLP在实践中使用的是近似雅可比、有限迭代次数、分块融合和特定初始化——这些因素加在一起,定义了一种与顺序推理既相关又不完全相同的计算过程。
SNLP的一个关键特性是:后缀层(那些被并行处理的层)的非残差分支,都在同一个前缀状态(或同一个块的状态)上被评估,而不是在各自上一层精确累积后的状态上评估。这消除了顺序传播中逐层误差累积的"雪球效应"——每层在错误状态上的计算会引入误差,这个误差又成为下一层的错误输入,层层叠加。SNLP用一种有偏估计替代了这种有方差的累积估计,当训练使得偏差足够小时,方差减少带来的好处会占主导地位。
研究团队用实验数据(表3)量化验证了这一点。IDN正则化后,各后缀层的"替代误差"(用前缀状态评估与用正确顺序状态评估之间的差距)缩小到前缀状态规模的0.03%到0.15%,而没有正则化的模型这个误差高达2%到24%。这说明正则化确实让后缀层"学会了"在任何合理输入下都给出几乎一样的修正量。
层融合带来了另一种"偏置":融合后的MLP分支看到的是多个层的注意力输出之和,而不是自己那层的注意力输出。这相当于让每个MLP分支能"看到"同一块内其他层关注了什么,引入了一种隐式的跨层特征融合,类似于超连接(Hyper-Connection)架构的思想。这种融合在大多数情况下是有益的,但块分得太粗时也可能适得其反。
研究团队特别强调,这些低困惑度结果不应该被解读为"迭代次数越多越好"的单调扩展规律。精确收敛只会恢复顺序计算,而不是超越它。SNLP在有限迭代、近似修正、融合块等条件下定义的是一种不同的计算,偶尔恰好更优,原因在于上述偏置与方差的权衡,而非某种神奇的推理时扩展能力。
**八、细节实验:修正的顺序和传播方式**
论文中有两组有趣的细节实验值得关注,它们揭示了SNLP内部机制的一些细微之处。
第一组实验测试了**修正顺序是否重要**。研究者把后缀层随机打乱顺序,看看对结果有多大影响。对于IDN正则化后的模型,顺序推理时把层随机打乱,在后缀长度不超过12层的情况下,困惑度几乎不变,打乱顺序的方差极小——这意味着正则化成功地让这些层变得"顺序无关",真正具备了并行化的基础。但SNLP修正过程本身对顺序更敏感,正向顺序始终表现最好,这是因为修正递推式保留了原始深度计算的因果方向。当后缀更长(16层)时,出现了一些随机打乱反而比正向顺序更好的情况,这暗示单次迭代的SNLP或许可以通过搜索修正顺序来进一步改善。
第二组实验验证了**修正的传播效果**。如果去掉牛顿修正项,只做朴素并行迭代,会发生什么?实验数据(表22)清楚地展示了一个"阶梯型"模式:第1次迭代时,只有最靠近前缀的那一层受到影响;第2次迭代时,影响传播到前两层;依此类推。没有修正的情况下,影响每次只能向前传播一层,K次迭代后最多影响K层。加入IDN修正后,第1次迭代就能让所有后缀层的输出都发生变化,信息在修正递推中瞬间传遍整个后缀。这正是修正步骤的核心价值所在。
研究团队还做了一个发人深思的对照实验:早退(Early Exit)与"在同一输入上评估所有层"的对比。在某个32层的IDN训练模型上,跳过最后7层会让困惑度从74.8骤升至113.6(增加52%);但把最后7层全都在同一个前缀输入上评估,困惑度却只有74.7,几乎不变。这说明后缀层的价值不在于它们精确地看到了不同的输入状态,而在于它们的非残差特征本身携带了有用信息。"雅可比近似单位矩阵"意味着这些层的修正量对输入不敏感,但绝对不意味着这些修正量是多余的。
**九、对现成模型和微调的尝试**
一个自然的问题是:能不能把SNLP用在已经预训练好的大模型上,比如Qwen2.5或TinyLlama,而不用重新训练?
实验给出了一个相对保守的答案。直接后验应用(不做任何微调),Qwen2.5-0.5B需要8次迭代才能在8个并行块上匹配顺序推理的困惑度,速度反而慢了22%。TinyLlama-1.1B同样需要8次迭代才能匹配,速度慢35%。Gemma-3-1B的情况更复杂,因为它的WikiText困惑度异常高(229.36),推测是指令微调格式与评测文本格式不匹配所致,SNLP在此基础上可以接近匹配但未能提升。
研究团队还尝试对TinyLlama进行IDN正则化微调,结果显示:温和的正则化(权重0.5)能保持基础质量,但K=1时SNLP困惑度与顺序推理仍有较大差距;激进的正则化(权重5或10)能减小IDN损失,但会明显损害顺序推理质量。最好的微调配置(K=2,一次性批前向初始化)能接近顺序推理水平,但始终无法产生那种"比顺序推理还低困惑度"的效果。这个结果支持了研究团队的核心论点:SNLP的最大收益需要从训练开始就与并行推理协同设计,而不是在训练完成后亡羊补牢。
**说到底,这项研究意味着什么**
归根结底,这项研究做的事情,是把一个一直被认为"天生串行"的计算瓶颈——神经网络的层与层之间的依赖链——转化成了一个可以用数学工具并行求解的方程组问题。用现实生活的场景来打个比方:顺序推理就像一条只有一个厨师、每道菜都要等上一道菜做完才能动手的餐厅流水线;SNLP则像把整套菜单设计成一种特殊的食谱,多个厨师可以同时备菜,最后只需要一个简单的"协调步骤"来把各自的工作整合起来,而且这套食谱本身就比老食谱做出的菜更好吃。
这项研究的实际意义对于普通用户来说,可能体现在未来AI对话系统响应速度的提升上。当你向AI提问时,从你按下发送键到屏幕上出现第一个字的那段等待时间,很大程度上就取决于模型能以多快的速度完成这一次前向传播。SNLP在0.5B规模上展示的2.3倍加速,如果最终能推广到更大规模的模型,就意味着AI回复的延迟可能大幅缩短。
当然,这项研究也坦诚地列出了自己的局限:目前的加速效果在3B以上规模尚未实现,对现成预训练模型的适用性有限,改善困惑度的机制也不是一种可以无限叠加的推理时扩展能力。未来或许需要专门设计的GPU内核或软硬件协同方案,才能把这种算法层面的并行性真正变成大规模部署时的速度优势。
这些问题给后续研究留下了足够的空间:如何设计原生支持SNLP的硬件执行器?如何把这种层并行与token并行(Jacobi解码)有机结合起来?如何让已经预训练的超大型模型也能通过有限的微调获得SNLP的好处?这些都是值得继续探索的方向。对这些问题感兴趣的读者,可以通过arXiv编号2605.17842查阅完整论文,也可以访问论文中提供的GitHub代码仓库(phymhan/nanochat-snlp)亲手尝试这套框架。
Q&A
Q1:SNLP并行推理为什么有时候比顺序推理的困惑度还低?
A:SNLP并行推理使用的是近似雅可比、有限迭代和层融合,定义了一种与顺序推理相关但不完全相同的计算过程。关键在于,并行推理让后缀层的计算都基于同一个前缀状态,消除了顺序传播中逐层误差累积的雪球效应。配合SNLP感知训练让各层对输入不敏感,方差减少带来的好处超过了近似带来的偏差,从而产生更低的困惑度。
Q2:SNLP能直接用在ChatGPT或Qwen这类现成模型上吗?
A:直接用效果有限。实验显示,对Qwen2.5-0.5B和TinyLlama等预训练模型直接应用SNLP,需要多次迭代才能勉强匹配顺序推理质量,速度反而更慢。对TinyLlama做IDN正则化微调可以部分改善,但始终无法复现从头训练时那种"超越顺序推理"的效果。SNLP的最大收益需要训练和推理的协同设计,从训练开始就让模型学会配合并行求解方式。
Q3:SNLP感知正则化为什么能改善模型的顺序推理质量?
A:SNLP正则化要求后缀层的输出对不同输入状态不敏感,这在数学上等价于给非残差分支施加了隐式的Lipschitz(利普希茨)约束,限制了层的输出对输入变化的放大倍数。这种约束改善了梯度流动,鼓励了网络容量的合理分配——前缀层承担更多依赖输入的处理,后缀层更像稳定的特征修正模块。这种对层间动态的健康约束,本身就有助于模型训练,即使不使用并行推理也能受益。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。