微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

月光团队发现AI训练深层机密：让超深网络不再"失忆"的注意力残差法

人工智能深度学习注意力机制

月光团队发现AI训练深层机密：让超深网络不再"失忆"的注意力残差法

作者：科技行者

2026-03-27 10:35

分享至：

月光团队发现AI训练中一个根本性问题：传统深度网络存在"失忆症"，越深的层越难获取早期信息。他们提出注意力残差方法，让网络每层都能选择性地回顾历史信息，就像智能图书管理员。为解决大规模训练问题，又设计了块注意力残差，将层分组处理。实验证明该方法在48B参数模型上显著提升性能，特别在复杂推理任务上效果突出。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-27 10:35 • 科技行者

这项突破性研究由月光团队完成，于2026年3月16日发表，论文编号为arXiv:2603.15031v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究针对深度学习中一个长期困扰研究者的基础问题，提出了全新的解决方案。

要理解这项研究的重要性，我们需要先了解一个困扰AI发展的根本问题。设想你正在建造一座摩天大楼，每一层都要在前一层的基础上添加新的功能。然而，随着楼层越建越高，底层的信息越来越难以传达到顶层，就像在一个巨大的企业中，基层员工的声音很难传达到最高管理层一样。这正是深度神经网络面临的核心挑战。

在传统的深度学习模型中，信息从底层到顶层的传递过程就像一条狭窄的单行道。每当信息经过一层网络时，都会发生一些变化和损失，就好比一个消息在传话游戏中被逐层传递，到最后往往面目全非。更糟糕的是，当网络变得非常深时，早期层的重要信息会被后续层的信息淹没，就像一个巨大图书馆里，最有价值的古籍被新书覆盖，变得难以查找。

月光团队敏锐地观察到，现有的残差连接虽然能够缓解这个问题，但仍然存在根本性的局限。传统的残差连接就像是一条固定的输送带，每一层都必须平等地接收前面所有层的信息，没有选择性。这就好比一个厨师在做复杂的料理时，必须把之前每一步的所有食材都加进去，而不能根据当前的烹饪需要有选择地使用特定的食材。

月光团队的核心洞察是将深度维度的信息传递类比为时间序列中的注意力机制。他们发现，就像人类在回忆过往时能够有选择地关注特定的记忆片段一样，神经网络的每一层也应该能够有选择地"回顾"和"借鉴"之前任何一层的信息。这种想法催生了他们称为"注意力残差"的创新方法。

一、解密传统网络的"失忆症"问题

要理解注意力残差方法的革命性意义，我们首先需要深入了解传统深度网络面临的根本性问题。在深度学习的世界里，网络层数的增加就像建造越来越高的信息处理塔楼。每增加一层，理论上网络的能力就更强一分，但实际上却面临着信息传递的根本性挑战。

传统的残差连接可以比作一个简单的加法器。每当信息流过一层时，这层的输出会被简单地加到输入上，就像在一个不断增长的数字序列中，每次都要加上一个新的数值。这种机制的设计初衷是为了让梯度能够直接从输出层传回到输入层，避免梯度消失问题，就像在高楼中安装直达电梯，让信息能够快速上下传递。

然而，这种看似聪明的设计却带来了意想不到的副作用。随着网络层数的增加，每一层的输出都会被累加到整个信息流中，导致隐藏状态的数值规模呈线性增长。这就像一个雪球效应，随着雪球越滚越大，后来添加的每一层雪花在整个雪球中的占比就越来越小。在实际的网络训练中，这意味着早期层的贡献会被逐渐稀释，后期层必须产生越来越大的输出值才能在最终结果中发挥影响。

更深层的问题在于信息的不可逆损失。在传统的残差连接中，一旦多个层的输出被加在一起，就无法再分离出各个层的原始贡献。这就像把不同颜色的颜料混合在一起后，就无法再还原出原来的单独颜色。当网络需要在某个特定任务中重点利用早期层的特征时，它却无法选择性地访问这些信息。

研究表明，在许多实际应用中，相当大比例的网络层可以被移除而对最终性能影响甚微。这个现象揭示了一个令人深思的问题：如果这些层的贡献如此微不足道，为什么网络无法更有效地利用它们？答案正是在于传统残差连接的固定权重累加机制无法适应不同情况下的信息需求。

PreNorm这一广泛采用的规范化方法进一步加剧了这个问题。虽然PreNorm能够稳定训练过程，但它会导致隐藏状态的幅度随深度呈O(L)级别增长，其中L是网络层数。这种不受控制的增长不仅稀释了各层的相对贡献，还可能导致训练的不稳定性。就像一个音响系统中，如果基础音量不断放大，后续的精细调节就会变得越来越困难。

月光团队还发现，这种固定权重的累加方式在本质上是一种"线性注意力"机制的特例。在序列建模领域，循环神经网络曾经也面临类似的挑战：如何在长序列中保持对早期信息的记忆。Transformer的出现通过引入注意力机制彻底解决了这个问题，让模型能够动态地决定关注序列中的哪些部分。

这个类比启发了月光团队的核心洞察：既然注意力机制在序列维度上如此成功，为什么不能在深度维度上应用类似的思想？传统的残差连接实际上是在深度方向上执行固定权重的线性注意力，而注意力残差方法则是将其升级为具有学习权重的softmax注意力。

二、注意力残差的巧妙设计哲学

注意力残差方法的核心设计哲学源于一个深刻的类比：将神经网络在深度方向上的信息传递比作人类记忆的检索过程。当我们试图回忆某件事情时，大脑并不会机械地重现所有相关记忆，而是会根据当前的需要有选择地激活特定的记忆片段。注意力残差正是要让神经网络的每一层都拥有这种选择性记忆检索的能力。

在传统的残差连接中，每一层接收到的输入是前面所有层输出的简单算术和。这种设计可以比作一个只会说"是"的助手，无论你问什么问题，它都会把所有可能相关的信息一股脑地提供给你。而注意力残差则像一个聪明的图书管理员，能够根据你的具体询问，有针对性地为你找到最相关的信息资源。

具体来说，注意力残差为网络的每一层引入了一个可学习的"伪查询"向量。这个查询向量就像是每一层的个性化搜索指令，它会与所有前面层的输出进行匹配，计算出对应的注意力权重。这些权重经过softmax归一化后，决定了当前层应该从前面的哪些层中获取多少信息。

这种设计的巧妙之处在于其动态性和选择性。不同的任务、不同的输入数据，甚至是同一个模型在处理不同部分的信息时，都可能需要不同的历史信息组合。注意力残差允许网络在训练过程中自动学习这种选择性，而不需要人工预先设定。

为了防止某些层因为输出幅度过大而在注意力权重中占据主导地位，研究团队在计算注意力权重之前对所有候选信息进行了RMS标准化。这就像是在一个辩论会上，为了确保每个发言者都有平等的机会被听到，主持人会为他们提供相同的音量级别。

注意力残差的另一个重要特性是它保持了与传统残差连接的向后兼容性。如果所有的注意力权重都相等，注意力残差就退化为传统的均匀加权平均。这种设计确保了在最坏的情况下，新方法的性能不会低于原始方法。

更令人印象深刻的是，注意力残差能够自动发现和建立跳跃连接。在训练过程中，某些层可能会学习到直接关注更早期的层，而跳过中间的一些层。这种自适应的跳跃连接形成过程类似于大脑中神经连接的可塑性重组，让网络能够根据任务需求自动优化信息流动路径。

研究团队还观察到，注意力残差展现出明显的局部性偏好：大多数层仍然主要关注其直接前驱，但会保留对更早期层的选择性访问能力。这种设计既保持了逐层处理的基本架构，又提供了必要的长距离信息访问能力，实现了局部性和全局性的完美平衡。

三、解决规模化训练的工程挑战

虽然注意力残差在理论上非常优雅，但要在大规模模型训练中实际应用，必须解决一系列严峻的工程挑战。最主要的问题是内存和通信开销。在全注意力残差方案中，每一层都需要访问前面所有层的输出，这意味着内存需求会随着网络深度呈二次方增长。

为了让这种方法在实际应用中可行，月光团队提出了"块注意力残差"这一创新的简化方案。这种方法可以比作将一部长篇小说分成若干章节来阅读。在每个章节内部，读者仍然需要记住章节中每个段落的内容，但在章节之间，只需要记住每章的核心要点即可。

在块注意力残差中，网络的层被分组为若干个块，每个块内部仍然使用传统的残差连接来累加信息。但在跨块的信息传递中，每个块会被压缩为一个代表性的向量，后续的块通过注意力机制来访问这些块级别的摘要信息。这种设计将内存复杂度从O(L×d)降低到O(N×d)，其中N是块的数量，通常远小于总层数L。

实验表明，使用大约8个块就能够恢复全注意力残差的大部分性能增益。这个结果表明，深度信息的有效传递并不需要访问每一个中间层的详细信息，而是可以通过适当的信息压缩和组织来实现。

在分布式训练环境中，特别是在使用流水线并行的情况下，跨阶段的信息传递成为另一个技术挑战。传统的流水线并行假设每个阶段之间只需要传递固定大小的隐藏状态，但块注意力残差需要传递历史块的信息。

为了解决这个问题，研究团队开发了基于缓存的流水线通信策略。这种策略的核心思想是利用虚拟流水线阶段之间的时间差，在本地缓存之前接收到的块信息。当需要向下一个物理阶段发送信息时，只需要传输自上次传输以来新产生的块信息，而不需要重复传输整个历史记录。

这种优化将通信开销从朴素实现的O(C?)降低到O(P?)，其中C是总的虚拟阶段数，P是物理阶段数。在典型的大规模训练配置中，这种优化能够带来数倍的通信效率提升。

在推理阶段，研究团队进一步开发了两阶段计算策略来优化内存访问模式。第一阶段并行计算所有块内层的跨块注意力，充分利用批处理的优势来摊分内存访问成本。第二阶段顺序处理块内的层间依赖关系，并使用在线softmax技术来合并两个阶段的结果。

这种两阶段策略的巧妙之处在于它将批处理的优势与顺序计算的必要性完美结合。通过将跨块访问批处理化，单层的内存访问成本从O(L×d)降低到O((S+N)×d)，其中S是块大小。在典型配置下，这种优化能够将推理时的内存带宽需求降低几倍。

四、实验验证与性能突破

月光团队的实验验证工作可以分为三个层次：缩放定律实验、组件消融研究和大规模模型评估。这种多层次的验证策略确保了注意力残差方法在不同规模和不同应用场景下的有效性。

在缩放定律实验中，研究团队系统地测试了五种不同大小的模型，参数量从1.94亿到5.28亿不等。所有模型都在相同的训练设置下进行对比，包括相同的超参数选择和计算预算分配。这种严格控制的实验设计确保了观察到的性能差异确实来自于残差连接机制的改进，而不是其他因素的影响。

实验结果显示出令人信服的一致性模式。在所有测试的模型规模下，注意力残差都显著优于基线模型。更重要的是，这种优势随着计算规模的增长而保持稳定，表明该方法具有良好的可扩展性。拟合的幂律曲线显示，块注意力残差在相同的验证损失下，相当于基线模型使用1.25倍的计算资源所能达到的效果。

特别值得注意的是块注意力残差与全注意力残差之间的性能差距。在最小的模型规模下，两者存在明显的差距，但随着模型规模的增长，这种差距逐渐缩小。在最大的测试规模下，两种方法的性能几乎相同。这个观察结果表明，对于大规模模型，块级别的信息压缩已经足以捕获深度信息传递的主要模式。

组件消融研究进一步验证了设计选择的合理性。研究团队系统地测试了注意力残差的各个组件，包括查询向量的设计、注意力机制的类型、归一化策略等。结果表明，使用输入无关的可学习查询向量比输入相关的查询投影表现更好，这可能是因为前者更容易优化并且需要更少的额外参数。

在比较不同的注意力聚合方式时，研究发现softmax注意力明显优于sigmoid激活或简单的线性组合。这个结果符合注意力机制在其他领域的成功经验，证明了竞争性归一化在选择性信息聚合中的重要作用。

RMS归一化的重要性在消融研究中得到了突出体现。移除RMS归一化会导致明显的性能下降，特别是在块注意力残差中。这是因为不同块的输出可能具有很大的数值范围差异，如果不进行归一化，某些块可能会在注意力权重中占据主导地位，从而削弱了选择性聚合的效果。

大规模模型评估在48B参数的Kimi Linear架构上进行，这个模型在1.4万亿token的数据集上进行预训练。这种规模的实验为注意力残差在实际应用中的效果提供了强有力的证据。在广泛的下游任务评估中，注意力残差模型在所有测试任务上都优于基线模型，包括语言理解、数学推理、代码生成和中文语言任务。

特别令人印象深刻的是在需要多步推理的任务上的表现。在GPQA-Diamond任务上，注意力残差实现了7.5分的显著提升，在数学问题求解上提升了3.6分。这些结果与理论预期一致：改进的深度信息流动特别有利于需要组合早期和后期表示的复杂推理任务。

五、训练动态的深层分析

通过对训练过程的深入分析，研究团队揭示了注意力残差如何从根本上改变深度网络的学习动态。这种分析不仅验证了方法的有效性，还为理解深度学习中的信息流动提供了新的洞察。

在输出幅度的变化模式上，传统基线模型展现出典型的PreNorm稀释问题：隐藏状态的幅度随着深度单调递增，深层网络层被迫学习越来越大的输出值来维持影响力。这就像一个声音越来越嘈杂的环境中，后来的发言者必须越说越大声才能被听到。

相比之下，注意力残差模型展现出截然不同的模式。输出幅度在每个块内部确实会增长，但在块边界处会被重置为相对较小的值。这种周期性的重置机制有效地控制了幅度的无限制增长，使得不同深度的层能够在相对平等的条件下做出贡献。

梯度分布的分析揭示了另一个重要的改进。在传统模型中，梯度的分布极不均匀，早期层往往接收到不成比例的大梯度，而深层的梯度相对较小。这种分布不均会导致训练的不稳定，早期层可能会过度更新，而深层的学习速度过慢。

注意力残差通过引入可学习的注意力权重，在不同层之间建立了竞争关系。这种竞争机制自然地平衡了梯度的分布，使得每一层都能获得适当的学习信号。实验观察到，使用注意力残差的模型具有更均匀的梯度分布，这有助于更稳定和高效的训练。

对学习到的注意力权重模式的分析提供了深入理解网络信息流动的窗口。研究团队发现，虽然大多数层仍然主要关注其直接前驱（保持对角优势），但会出现有趣的选择性跳跃连接模式。某些层会学习到直接关注更早期的层，特别是嵌入层在整个网络中都保持着非零的权重。

更细致的分析显示，注意力层和MLP层在注意力权重模式上表现出不同的偏好。注意力层往往保持更广泛的感受野，会关注多个历史层的信息，这与注意力机制路由信息的功能相一致。而MLP层则表现出更强的局部性偏好，主要关注最近的表示，这反映了MLP进行局部特征变换的特性。

嵌入层的持续重要性是另一个值得注意的发现。在传统的深度网络中，嵌入层的信息往往在经过多层变换后变得模糊不清。但在注意力残差中，许多层都保持对嵌入层的非零关注，这表明原始的词汇级信息在深层处理中仍然具有价值。

六、理论洞察与统一框架

月光团队的工作不仅在实用层面取得了突破，更在理论层面提供了深刻的洞察，建立了一个统一的框架来理解各种残差连接变体。这个理论框架的核心是将所有残差方法视为结构化矩阵的不同实例，其中每种方法对应于特定的矩阵结构和权重生成方式。

在这个统一框架中，传统的残差连接对应于全下三角单位矩阵，其中所有非零元素都等于1。Highway网络对应于具有输入相关权重的1-半可分离矩阵，其权重通过门控机制动态生成。多流超连接（mHC）对应于m-半可分离矩阵，其中m个并行流提供了更高的表达能力。

注意力残差在这个框架中占据了特殊的地位：它对应于具有输入相关权重的满秩密集矩阵。这种满秩特性使得注意力残差能够学习任意复杂的深度信息聚合模式，而不受特定结构约束的限制。

这个理论视角还揭示了序列-深度对偶性的深层含义。正如循环神经网络在序列维度上执行线性注意力（通过隐状态的线性更新），传统残差连接在深度维度上也执行线性注意力（通过固定权重的线性组合）。Transformer通过引入softmax注意力革命性地改进了序列建模，注意力残差则将同样的softmax注意力思想引入深度维度。

更进一步，研究团队发现，当注意力核函数具有可分解形式（如φ(q)^T φ(k)）时，深度注意力会退化为递归形式，这解释了为什么某些看似不同的方法（如MRLA-GLA对应关系和DDL-DeltaNet对应关系）在本质上是等价的。

这种理论统一性不仅有助于理解现有方法，还为设计新的残差连接变体提供了指导原则。例如，它表明未来的工作可以探索介于线性和softmax注意力之间的其他注意力形式，或者开发具有特定结构先验的半可分离注意力变体。

七、架构优化的新发现

注意力残差不仅改进了信息流动，还为神经网络架构设计提供了新的洞察。通过系统的架构搜索实验，研究团队发现注意力残差改变了最优架构配置的偏好，特别是在深度-宽度权衡方面。

在固定计算预算的约束下，研究团队测试了25种不同的架构配置，系统地变化模型的深度和宽度比例。结果显示，虽然基线模型和注意力残差模型都偏好相对较窄且较深的配置，但注意力残差的最优配置更加偏向深度方向。

具体来说，基线模型在dmodel/Lb ≈ 60时达到最优性能，而注意力残差模型的最优点出现在dmodel/Lb ≈ 45。这意味着在相同的参数预算下，注意力残差能够更有效地利用额外的深度。这个发现与直觉一致：既然注意力残差改进了深度信息的流动，那么它自然能够从更深的网络中获得更大的收益。

这种深度偏好的改变具有重要的实践意义。在设计新的模型架构时，使用注意力残差的系统可以考虑采用更深、相对更窄的配置来达到最优的参数效率。当然，这种建议需要在具体的推理延迟要求下进行权衡，因为更深的网络通常意味着更长的推理时间。

注意力头数的消融研究揭示了另一个有趣的发现。与序列维度的多头注意力不同，在深度维度上使用多头注意力并没有带来性能提升，反而轻微损害了效果。这表明最优的深度聚合模式在不同通道间是相对一致的：当某一层的信息对当前处理有用时，它通常对所有通道都是有用的。

这个观察结果简化了注意力残差的实现，也减少了额外的参数开销。每一层只需要一个d维的查询向量，而不需要多个头的复杂设计，这使得方法在保持强大表达能力的同时保持了实现的简洁性。

八、应用前景与局限性

注意力残差方法的成功验证为深度学习的未来发展开辟了新的方向，但同时也存在一些需要进一步解决的挑战和局限性。

在应用前景方面，注意力残差最直接的受益者是需要深度推理能力的任务。实验结果表明，需要多步推理、长程依赖或复杂组合能力的任务特别能够从改进的深度信息流动中受益。这包括数学问题求解、代码生成、复杂问答和长文本理解等领域。

随着模型规模的不断增长，注意力残差的优势可能会进一步放大。大规模模型通常具有更多的层数，传统残差连接的信息稀释问题在这种情况下更为严重。注意力残差提供的选择性信息访问能力在超大规模模型中可能成为必需而不是可选的特性。

在多模态学习场景中，注意力残差可能发挥特殊的作用。不同模态的信息可能在网络的不同深度被处理和融合，注意力残差能够让后续层选择性地访问特定模态的早期表示，这对于复杂的多模态理解任务具有潜在的重要价值。

然而，注意力残差也面临一些技术挑战。在当前的硬件条件下，全注意力残差的O(L?)复杂度仍然是一个限制因素。虽然块注意力残差提供了实用的解决方案，但它代表了一种妥协而不是最优解。未来硬件的发展，特别是内存带宽和容量的提升，将决定更精细粒度的注意力残差是否能够得到广泛应用。

训练稳定性是另一个需要持续关注的问题。虽然实验显示注意力残差能够稳定训练，但在某些极端配置下（如非常深的网络或非常大的学习率），动态权重的引入可能会带来新的训练挑战。参数初始化策略，特别是查询向量的初始化，对训练的早期阶段具有重要影响。

从计算效率的角度来看，注意力残差在推理阶段引入了额外的计算开销。虽然两阶段计算策略能够有效控制这种开销，但在对延迟极其敏感的应用中，这仍然可能是一个考虑因素。未来的工作需要在表达能力和计算效率之间找到更好的平衡点。

九、未来研究方向的展望

注意力残差的成功开启了深度学习架构设计的新篇章，为未来的研究提供了丰富的探索方向。

在算法层面，一个自然的扩展是探索更精细的注意力机制。当前的注意力残差使用标准的softmax注意力，但其他类型的注意力机制（如稀疏注意力、局部注意力或层次化注意力）可能在特定场景下提供更好的权衡。特别是，结合深度先验知识的结构化注意力可能能够在保持表达能力的同时进一步降低计算复杂度。

另一个有前景的方向是自适应块划分策略。当前的块注意力残差使用固定的块大小，但不同的网络区域可能受益于不同的粒度。开发能够根据任务需求或训练过程动态调整块划分的方法，可能会进一步提升性能和效率。

在硬件协同设计方面，注意力残差的特殊计算模式为专用硬件加速提供了机会。设计能够高效支持深度注意力计算的专用芯片或加速器，可能会显著降低这种方法的计算开销，使得更精细粒度的深度注意力成为可能。

理论研究方向包括更深入地理解不同残差机制的表达能力边界。虽然统一框架提供了结构化的视角，但关于哪些类型的深度信息流动模式是真正必要的，以及如何量化不同方法的理论表达能力，仍然需要更深入的分析。

在应用层面，注意力残差在特定领域的定制化应用值得探索。例如，在科学计算中，不同的物理过程可能对应于网络的不同层次，注意力残差可能能够更好地建模这种层次化的物理现象。在自然语言处理中，语言的不同抽象层次（词汇、句法、语义）可能也能从专门设计的深度注意力模式中受益。

最重要的是，注意力残差代表了一种新的思考深度学习的方式：不仅关注单个层的设计，更关注层间的信息流动模式。这种视角可能会启发更多关于网络架构本质的思考，推动深度学习向更加智能和高效的方向发展。

说到底，月光团队的这项研究不仅仅是一个技术改进，更是对深度学习基础架构的重新思考。他们证明了，通过借鉴不同领域的成功思想（序列注意力机制），我们可以在看似成熟的领域中发现新的突破点。这种跨领域的洞察和创新精神，正是推动人工智能技术不断进步的核心动力。对于普通读者来说，这项研究展示了基础技术创新的重要性：有时候，最深远的进步来自于对最基础问题的重新审视和创新解答。随着这种技术的进一步发展和应用，我们有理由期待更加智能、高效和强大的AI系统的出现。

Q&A

Q1：注意力残差是什么？

A：注意力残差是一种新的神经网络连接方式，就像给网络装上了智能的"选择性记忆"系统。传统网络只能简单地把前面所有层的信息累加起来，而注意力残差让每一层都能有选择地从前面的层中挑选最有用的信息，就像一个聪明的图书管理员能根据你的需求找到最相关的资料。

Q2：块注意力残差如何解决大规模训练问题？

A：块注意力残差将网络层分组成若干个块，每个块内部用传统方式连接，但块之间使用注意力机制。这就像把一本厚书分成若干章节，每章内部你需要记住每段内容，但章节之间只需记住核心要点。这样将内存需求从O(L?)降低到O(N?)，大大提高了训练效率。

Q3：注意力残差对普通用户有什么意义？

A：虽然普通用户不会直接接触这种技术，但它会让AI模型在复杂推理任务上表现更好，比如数学问题求解、代码生成、长文本理解等。未来使用的AI助手可能会因为这种技术而变得更聪明，能够更好地处理需要多步思考的复杂问题，为用户提供更准确和有用的回答。

人工智能深度学习注意力机制

分享至