微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

香港科技大学突破性发现：让AI训练快人一步的神奇"刹车"技术

梯度保持激活缩放大型语言模型训练Transformer架构优化

香港科技大学突破性发现：让AI训练快人一步的神奇"刹车"技术

作者：科技行者

2025-07-02 10:58

分享至：

香港科技大学研究团队提出GPAS技术，通过"梯度保持激活缩放"解决Pre-LayerNorm架构中激活方差指数增长问题。该技术在前向传播时缩放激活值，反向传播时保持梯度不变，在71M到1B参数模型上均显示显著性能提升。GPAS具有出色的架构兼容性，可应用于多种Transformer变体，为大型语言模型训练优化提供了简单有效的解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-02 10:58 • 科技行者

在人工智能快速发展的今天，训练大型语言模型就像培养一个超级聪明的学生。这项由香港科技大学的陈天浩、徐鑫等研究团队在2025年6月27日发布的最新研究，提出了一种名为"梯度保持激活缩放"(GPAS)的创新技术。这篇发表在arXiv预印本平台的论文(编号：2506.22049v1)，为解决当前主流Transformer架构中的关键问题提供了巧妙的解决方案。

目前绝大多数先进的大型语言模型，包括我们熟知的LLaMA、Qwen和DeepSeek系列，都采用了一种叫做"Pre-LayerNorm"的架构设计。这种设计虽然在训练稳定性方面表现出色，但却存在一个令人头疼的问题：随着模型层数的增加，信息处理过程中会出现类似"声音越来越大"的现象，导致后面的层次逐渐被"淹没"，学习效果大打折扣。

研究团队发现，这种问题的根源在于激活方差的指数级增长。当信息在模型的各个层之间传递时，就像声音在山谷中回响一样，会越来越响亮，最终掩盖了真正重要的细节信息。这种现象导致深层网络的学习能力受限，训练效率低下。

为了解决这个问题，研究团队提出了GPAS技术。这项技术的核心思想非常巧妙：在信息传递过程中适当"调低音量"，但同时确保"音质"不受影响。具体来说，GPAS在前向传播时缩放激活值来控制信息强度，但在反向传播时保持梯度不变，确保模型仍能有效学习。

这种设计就像给汽车安装了一套智能刹车系统。当车速过快时，系统会自动调节速度，但不会影响司机对方向盘的控制力度。同样，GPAS技术能够控制信息传递的"速度"，但不影响模型的学习能力。

研究团队通过大量实验验证了GPAS的有效性。他们测试了从7100万参数到10亿参数的各种规模模型，结果显示GPAS在所有测试中都带来了显著的性能提升。更令人惊喜的是，这项技术不仅适用于Pre-LayerNorm架构，还能与其他多种架构兼容，展现出了极强的通用性。

**一、深度解析激活方差难题**

在深入了解GPAS技术之前，我们需要先理解Pre-LayerNorm架构面临的核心挑战。这个问题可以用一个生动的比喻来解释：设想你正在组织一场接力赛，每一棒选手都需要在接到棒子后加速奔跑。在传统的Post-LayerNorm设计中，每个选手在交棒前都会调整自己的状态，确保下一棒选手能够顺利接棒。但在Pre-LayerNorm设计中，选手们在接棒前就调整状态，交棒时却不做任何调整。

这种设计带来的后果是，随着接力的进行，每一棒的速度都会不断累积，到了后面几棒时，速度已经快到无法控制。在神经网络中，这种"速度累积"就是激活方差的指数级增长。研究团队发现，这种增长模式会导致残差连接（相当于跑道的主干道）完全压倒子层输出（相当于各个岔路口的信息），使得深层网络失去了有效处理复杂信息的能力。

具体来说，在一个24层的Pre-LayerNorm模型中，最后几层的激活方差可能比第一层高出数百倍。这种巨大的差异使得模型在训练过程中主要依赖浅层特征，而深层的复杂特征提取能力被严重削弱。研究团队通过可视化分析发现，许多深层参数在训练过程中几乎没有得到有效更新，这解释了为什么很多研究发现可以直接移除深层网络而对性能影响很小。

这个问题的数学本质涉及方差传播的复合效应。当信息通过多层网络传播时，每一层都会对方差产生乘性效应，导致整体方差呈指数增长。传统的解决方案通常涉及复杂的初始化策略或架构修改，但这些方法往往治标不治本，而且可能引入新的问题。

**二、GPAS技术的巧妙设计**

GPAS技术的设计理念源于一个看似矛盾的需求：既要控制激活值的大小，又要保持梯度的强度。这就像要求一个音量控制器只在播放时调低音量，但在录音时保持原始音量强度。

研究团队通过引入一个特殊的"停止梯度"操作符巧妙地解决了这个矛盾。在前向传播过程中，GPAS使用一个可学习的门控参数来缩放激活值。这个门控参数通过SiLU激活函数处理，确保缩放行为的平滑性和可控性。关键的创新在于，在反向传播时，停止梯度操作符会"切断"缩放操作对梯度的影响，使得梯度能够保持原始强度传播到前面的层次。

这种设计的数学表达非常简洁：对于第l层，输出为x'_{l+1} - SiLU(α_l) · sg(x'_{l+1})，其中sg表示停止梯度操作符。在前向传播时，这个公式会根据α_l的值缩放激活；在反向传播时，由于停止梯度的作用，梯度传播就像没有缩放操作一样。

研究团队选择SiLU作为激活函数有其深层考虑。SiLU函数的平滑特性能够避免激活值的突变，同时其正值偏向性鼓励模型学习到合适的缩放比例。实验表明，相比于其他激活函数如ReLU或Tanh，SiLU在稳定性和性能方面都表现更优。

门控参数α_l在训练开始时被初始化为0，这意味着GPAS在训练初期不会对模型行为产生任何影响，确保了训练的稳定启动。随着训练的进行，模型会自动学习到最适合每一层的缩放参数，实现自适应的方差控制。

**三、多架构兼容性探索**

GPAS技术的一个突出优势是其出色的架构兼容性。研究团队不仅在Pre-LayerNorm上验证了GPAS的效果，还成功将其应用到了多种不同的架构变体上，每种应用都需要针对性的适配策略。

对于Sandwich-LN架构，GPAS的应用相对直接。Sandwich-LN在注意力和前馈网络模块的前后都加入了层归一化，形成了"三明治"式的结构。在这种架构中，GPAS仍然在残差连接之后发挥作用，但需要考虑额外层归一化的影响。实验结果显示，GPAS在Sandwich-LN上同样取得了显著的性能提升。

LayerNorm Scaling(LNS)是另一种有趣的架构变体，它通过层深度的平方根来缩放归一化输出。由于这种缩放可以被吸收到层归一化的仿射变换中，LNS本质上等价于具有不同初始化的Pre-LN。因此，GPAS在LNS上的应用方式与Pre-LN完全相同，实验证明了GPAS与这种架构的良好兼容性。

对于Post-LN和DeepNorm架构，情况则更加复杂。这些架构通过层归一化包装整个残差连接，打破了传统的信息流模式。研究团队发现，在层归一化之后应用GPAS并不能带来性能提升。相反，他们采用了一种创新的策略：将GPAS应用到缩放后的残差分支上，而保持注意力和前馈网络的输入不变。这种设计使得GPAS能够调节残差连接的贡献，而不影响子模块的信息处理能力。

Mix-LN架构结合了Pre-LN和Post-LN层，为GPAS的应用提出了独特挑战。研究团队采用了差异化策略：对Pre-LN层使用标准的GPAS应用方式，对Post-LN层则采用DeepNorm式的应用策略。这种混合方法确保了GPAS在复合架构中的有效性。

这种广泛的架构兼容性表明，GPAS不仅仅是一个针对特定问题的补丁，而是一个具有普遍适用性的技术原理。它揭示了激活缩放和梯度保持之间的基本关系，为未来的架构设计提供了重要启示。

**四、全面实验验证与性能分析**

研究团队设计了一套全面的实验方案来验证GPAS的有效性。实验覆盖了从7100万参数到10亿参数的多种模型规模，确保了结果的可靠性和普适性。所有实验都基于LLaMA架构实现，使用RMSNorm作为归一化层，在C4数据集上进行预训练。

在实验设计上，研究团队特别注意了公平性原则。除了归一化方案的差异外，所有基线架构都共享相同的注意力和前馈网络设计，使用相同的初始化策略（DeepNorm和LNS的特殊缩放除外）。这种设计确保了性能差异真正来源于GPAS技术本身，而非其他因素的干扰。

预训练结果令人印象深刻。在所有测试的模型规模和架构组合中，GPAS都带来了一致的性能提升。以10亿参数模型为例，Pre+GPAS相比原始Pre-LN在困惑度上改善了0.67，Sandwich+GPAS改善了0.97，LNS+GPAS改善了0.77。这些提升虽然在数值上看似微小，但在大规模语言模型的评估中已经是相当显著的进步。

更重要的是，研究团队发现GPAS的益处会随着模型规模的增加而放大。在7亿参数的扩展实验中，Pre+GPAS相比Pre-LN的优势更加明显，训练曲线显示出更快的收敛速度和更低的最终损失。这一发现表明GPAS在更大规模的模型中可能具有更大的应用价值。

为了验证预训练改进是否能够转化为下游任务的性能提升，研究团队在10亿参数模型上进行了监督微调实验。他们使用Commonsense170K数据集进行微调，然后在七个常见推理基准上评估性能。结果显示，GPAS在下游任务中同样带来了一致的性能提升，证明了预训练阶段的改进确实能够转化为实际应用中的优势。

值得注意的是，研究团队在实验中观察到一些有趣的现象。例如，在某些架构和规模组合中，GPAS的门控参数在训练早期会经历剧烈波动，然后逐渐稳定。这种现象可能与模型的自适应调节机制有关，表明GPAS能够根据训练动态自动调整其行为。

**五、深入剖析训练动态**

为了深入理解GPAS的工作机制，研究团队进行了详细的训练动态分析。这些分析就像给模型做"体检"，从多个维度观察GPAS对模型行为的影响。

首先是门控参数的学习模式分析。研究团队发现，不同架构的门控参数展现出了截然不同的学习模式。Pre-LN和Sandwich-LN架构的门控参数倾向于学习正值，这意味着模型更倾向于缩小激活值。相反，Post-LN架构的门控参数更多地学习负值，表明模型需要放大某些激活来保持信息流的平衡。

特别有趣的是，几乎所有架构的第一层都学习到了负的门控值。研究团队认为这是因为初始词嵌入的方差相对较低，模型需要适当放大这些激活以匹配后续层的方差水平。这种发现揭示了GPAS的自适应性质：它不仅能够缩小过大的激活，还能够增强过小的激活，实现真正的方差平衡。

激活方差的对比分析提供了GPAS工作效果的直观证明。在原始Pre-LN模型中，激活方差随层深呈指数增长，最深层的方差可能是最浅层的数百倍。而在应用GPAS后，这种指数增长被有效控制，方差分布变得更加均匀和紧凑。具体来说，GPAS将最高激活方差降低了约50%，同时使各层之间的方差差异显著减小。

梯度范数的比较验证了GPAS的梯度保持特性。传统的激活缩放方法会导致梯度随缩放比例减小，但GPAS通过停止梯度操作成功避免了这个问题。实验显示，Pre+GPAS的梯度范数比原始Pre-LN大了5-10倍，这证明了梯度保持机制的有效性。虽然研究团队观察到在某些训练步骤中会出现梯度峰值，但模型最终都能够自我调节并达到稳定状态。

权重范数的分析揭示了GPAS对模型参数学习的深层影响。由于GPAS在早期层放大了激活，相应地，这些层的权重范数也显著增加。这种变化帮助早期层和深层之间建立了更好的信息传递平衡，使得所有层都能够得到有效训练。

层重要性分析可能是最具说服力的证据之一。通过逐层移除实验，研究团队发现GPAS显著提高了深层网络的重要性。在原始Pre-LN模型中，移除某些深层甚至会带来性能提升，表明这些层实际上是有害的。但在应用GPAS后，几乎每一层的移除都会导致性能下降，说明GPAS使得所有层都能够有效贡献。

**六、理论分析与数学洞察**

研究团队不满足于经验性的实验验证，还从理论角度分析了GPAS的工作原理。他们建立了一套数学框架来描述GPAS对方差传播和梯度流的影响，为这项技术提供了坚实的理论基础。

在方差分析方面，研究团队证明了GPAS能够将原本的指数级方差增长转化为更可控的增长模式。在传统Pre-LN中，第l层的方差大致与层数L成正比，在深层网络中会导致方差爆炸。而GPAS通过引入自适应缩放因子，使得方差增长受到门控参数的调节，实现了更加稳定的信息传播。

梯度分析揭示了GPAS的核心优势。在数学上，传统缩放方法会导致梯度范数的上界为O(L)，在深层网络中容易导致梯度消失。而GPAS通过停止梯度操作，成功地将梯度范数的下界提升为一个严格非常数的表达式，确保了有效的梯度流。同时，上界得到了显著改善，减少了梯度爆炸的风险。

这种理论分析的核心在于理解门控参数α对系统行为的双重影响。当α取负值时，它作为补偿因子抵消方差的影响，加速梯度范数边界的增长；当α取正值时，它作为乘性缩放因子指数级地抑制上界，防止梯度爆炸。这种双向调节机制使得GPAS能够在梯度消失和梯度爆炸之间找到最佳平衡点。

研究团队还分析了不同激活函数对GPAS性能的影响。通过对比实验，他们发现虽然Identity和Tanh在某些情况下能够取得略低的困惑度，但SiLU在大规模模型中表现更加稳定。这是因为SiLU的平滑梯度特性能够约束门控参数的更新幅度，避免训练过程中的剧烈波动。

理论分析还解释了为什么GPAS需要应用在特定位置才能发挥最佳效果。研究团队发现，在残差连接之后应用GPAS能够直接调节层间信息传递的强度，而在其他位置应用则可能被后续的归一化操作抵消或干扰。

**七、细致入微的消融研究**

为了完全理解GPAS的每个组成部分，研究团队进行了一系列精心设计的消融实验。这些实验就像拆解一台精密机器，逐个检验每个零件的作用。

激活函数的选择实验覆盖了Identity、ReLU、LeakyReLU、Tanh和SiLU等多种选项。结果显示，虽然Identity和Tanh在350M参数规模上取得了略好的困惑度，但在10亿参数规模上，SiLU表现出了更好的稳定性和性能。研究团队分析认为，Identity激活允许过于激进的门控更新，而SiLU的平滑特性能够提供更稳定的训练动态。

GPAS插入位置的实验验证了设计选择的合理性。研究团队测试了四种不同的插入位置：子层之后（默认）、子层之前、层归一化之后、以及注意力/前馈网络之后。结果表明，默认位置（子层之后）提供了最大的性能提升，证实了在残差连接点进行调制的有效性。

停止梯度操作符的必要性通过对比实验得到了明确验证。在移除停止梯度操作的控制实验中，虽然激活方差仍然得到了约50%的降低，但困惑度几乎没有改善。这个结果强有力地证明了梯度保持机制的关键作用，说明仅仅控制激活方差是不够的，必须同时保持有效的梯度流。

可学习门控与预定义门控的对比实验揭示了自适应性的重要性。研究团队尝试使用从预训练模型中提取的固定门控值，结果发现性能显著下降。这说明GPAS的门控参数需要根据训练动态进行实时调整，固定的预设值无法应对复杂的训练过程。

这些消融实验的结果为GPAS的设计选择提供了坚实的实验支撑，证明了每个组件都是必要且经过深思熟虑的。它们也为未来的改进方向提供了指导，比如探索更适合大规模模型的激活函数或开发更智能的门控初始化策略。

**八、实际应用潜力与未来展望**

GPAS技术的价值不仅在于其理论创新，更在于其巨大的实际应用潜力。在当前大型语言模型训练成本不断攀升的背景下，任何能够提高训练效率的技术都具有重要的经济和社会价值。

从训练效率的角度来看，GPAS带来的收敛速度提升意味着相同的性能可以用更少的训练步骤达到，这直接转化为计算资源和时间的节省。考虑到大型语言模型的训练通常需要数百万到数千万美元的成本，即使是小幅度的效率提升也能带来显著的经济效益。

参数效率的改善同样重要。GPAS使得深层网络的每一层都能发挥更大作用，意味着可以用更少的参数达到相同的性能，或者用相同的参数达到更好的性能。这种改善对于资源受限的场景特别有价值，比如边缘计算设备上的模型部署。

GPAS的架构兼容性使其能够作为一个"即插即用"的组件集成到现有的训练流程中。这种特性大大降低了技术adoption的门槛，研究人员和工程师可以在最小修改的基础上获得性能提升。

然而，研究团队也坦率地承认了当前方案的局限性。首先，实验规模主要集中在10亿参数以下，对于真正的大规模模型（如千亿参数）的效果还需要进一步验证。其次，SiLU激活函数虽然表现良好，但在某些情况下仍可能导致训练不稳定，需要额外的梯度裁剪来控制。

未来的研究方向包括开发理论支撑的预定义门控调度策略，这可能比完全可学习的方案更适合超大规模模型。另一个有趣的方向是探索GPAS与其他优化技术的结合，比如自适应学习率调度或新型正则化方法。

研究团队还指出，GPAS主要针对从头训练的场景进行了优化，如何将其应用到预训练模型的继续训练或微调中还需要进一步研究。这个问题的解决将进一步扩大GPAS的应用范围。

从更广阔的视角来看，GPAS代表了一种新的思维模式：通过精确控制信息流的强度来优化深度网络的训练。这种思维可能启发更多创新的架构设计和训练策略，推动整个领域向更高效、更稳定的方向发展。

归根结底，这项研究为大型语言模型的训练优化提供了一个简单而有效的解决方案。虽然GPAS看似只是在网络中添加了几个简单的操作，但其背后体现的是对深度学习基本原理的深刻理解和巧妙应用。随着研究的深入和技术的完善，GPAS有望成为下一代大型语言模型训练的标准组件，为构建更强大、更高效的人工智能系统贡献力量。这项来自香港科技大学的研究成果，再次证明了基础研究在推动技术进步中的重要作用，也为其他研究机构提供了宝贵的参考和启示。

Q&A

Q1：GPAS技术是什么？它解决了什么问题？ A：GPAS是"梯度保持激活缩放"技术，主要解决大型语言模型训练中的激活方差指数增长问题。它能在控制信息传递强度的同时保持有效的梯度流，就像给汽车装上智能刹车系统，既能控制速度又不影响方向控制。

Q2：GPAS会不会让模型训练变得复杂？ A：恰恰相反，GPAS设计得非常简单，只需要在现有架构中添加几行代码，就像插件一样即插即用。研究团队已经在多种主流架构上验证了其兼容性，普通研究者可以轻松应用。

Q3：这项技术的实际效果如何？值得尝试吗？ A：实验结果很有说服力。在所有测试的模型规模（71M到1B参数）中，GPAS都带来了一致的性能提升，困惑度改善0.3-1.8不等。更重要的是，这种提升在下游任务中同样有效，证明了其实用价值。

梯度保持激活缩放大型语言模型训练Transformer架构优化

分享至