
这项由字节跳动Seed团队与北京大学联合开展的研究,以预印本形式发布于2026年5月26日,论文编号为arXiv:2605.26895。感兴趣的读者可通过该编号在arXiv平台查阅完整原文。
每一个现代大语言模型(也就是ChatGPT、Llama这类能聊天、能写作的AI)的内部,都有一种叫做"归一化层"的结构,它就像厨师在把食材下锅之前先统一处理一遍,让所有原料大小均匀、状态稳定,方便后续操作。这个结构里有两个部分:一个是固定的"均匀化"操作,另一个是一组可学习的小数字,叫做"缩放向量"(scale vector)。前者被研究者们反复研究、讨论,而后者——这组小数字——却几乎从没被人认真对待过。
毕竟,它们的数量实在太少了。以Llama 1B这个模型为例,整个模型有超过十亿个参数,而所有缩放向量加起来只有80640个,占比不到万分之一。这就好比一道大餐里,有人只盯着那一小撮装饰用的葱花,觉得它可有可无。
然而这项研究的出发点正是一个反直觉的疑问:这撮"葱花",真的只是摆设吗?
研究结果令人意外。缩放向量虽然参数量微乎其微,但把它们从模型里拿掉,训练效果会显著变差;经过精心设计的改进方案,还能让模型在同等算力下训练得更好、扩展性更强。这项工作从理论和实验两个维度,完整地解释了缩放向量到底在做什么、什么时候该用什么策略、以及如何让它发挥更大的作用。
一、那撮"葱花"拿掉之后,菜就不对味了
要理解为什么缩放向量重要,先要明白它在模型里的位置。现代大语言模型普遍采用一种叫做"Pre-Norm"的架构(Llama就是典型代表),每个计算模块在进行核心运算之前,都会先经过一个归一化层处理,而这个归一化层的输出,就是"归一化结果乘以缩放向量"。
从数学上看,缩放向量紧接着后面的线性变换(矩阵乘法),二者可以合并。换句话说,缩放向量完全可以被"吸收"进后面的权重矩阵里,在表达能力上不增加任何新东西。这就像一道食谱里,葱花的量可以直接折算进酱料配比——单独列出来,似乎多此一举。
既然如此,把它们去掉会怎样?研究团队在0.12B规模的Llama模型上做了实验,结论出乎意料:在相同学习率下,有缩放向量的模型从头到尾都比没有的更优,最终损失低了约0.028,换算成训练效率,相当于节省了约40%的训练数据量。即便为去掉缩放向量的模型单独重新调整学习率,差距依然存在,最终损失仍高出约0.015。
这说明缩放向量的价值不在于"表达更多",而在于"训练更快"。研究团队用理论分析揭示了背后的机制:缩放向量的存在,让后面的矩阵权重的训练动态发生了根本性变化,产生了一种"自我放大的预条件效应"。
用更通俗的话来说:以厨房流水线为比喻,矩阵权重是负责切菜的厨师,损失函数是最终菜品的评分。没有缩放向量时,厨师每次只按照统一节奏切菜;有了缩放向量后,流水线会根据当前状态自动调速——哪块地方还没切好,就在那里加快节奏,越切越顺。研究团队从梯度流的角度证明,在相同初始状态下,有缩放向量的模型训练损失在每一个时间步都严格低于没有的版本,这一结论具有严格的数学保障。
这个机制还有一个漂亮的守恒律:在标准初始化下(缩放向量初始为全1,矩阵权重初始为接近0的小值),系统会始终保持"缩放向量的平方减去权重列的平方等于1"这个关系,从而保证训练全程都有加速效果,而不只是某个阶段。
二、何时该给"葱花"加盐,何时不该
确认了缩放向量有用之后,下一个实际问题来了:训练大模型时,通常会对权重参数施加"权重衰减"(weight decay,简称wd),也就是定期轻轻压缩参数的幅度,防止它们无限膨胀。对缩放向量,要不要也这么做?
这个问题在业界悬而未决。OLMo、nanoGPT、Qwen等主流开源模型的做法各不相同,有的加,有的不加。研究团队给出了一个系统性的理论框架来回答这个问题,关键在于区分两种不同的缩放向量。
第一种叫"输入端归一化层"(Input-Norm)的缩放向量,它紧接着后面的线性变换,就像Pre-Norm结构里的情况。正如前面分析的,这类缩放向量不增加表达能力,只影响优化动态。对这类向量施加权重衰减,好处是可以压制它们的幅度增长,进而控制训练过程中损失函数的"曲率"(Hessian尖锐度)——曲率越高,训练越容易不稳定。研究团队用随机梯度下降的随机微分方程分析证明,不加权重衰减时,缩放向量的期望范数会无界增长,导致损失的最大特征值、迹、Frobenius范数等曲率指标都趋于发散;而加了权重衰减后,这些指标都能保持有界,训练因此更稳、更快,甚至允许使用更大的学习率。
第二种叫"输出端归一化层"(Output-Norm)的缩放向量,它不直接接线性变换,而是直接作用在某个子模块的输出上,比如Gemma架构里注意力模块后面额外加的归一化层、以及查询/键归一化(Q/K-Norm)。这类缩放向量直接决定了输出的幅度,因此真实地影响着模型的表达能力。对它们施加权重衰减,相当于在压缩这个子模块的发言权,与残差主干的相对影响力就会被削弱,这通常是有害的。
为了验证这套理论,研究团队在0.5B的Gemma模型上分别控制两类缩放向量的权重衰减,训练了10B和50B个token。结果完全符合预测:给输入端缩放向量加权重衰减,性能更好;给输出端缩放向量去掉权重衰减,性能更好。由此,他们提出了一条实用原则,称为"个体化权重衰减"(IWD):对两类缩放向量区别对待,不能一刀切。
三、三条让"葱花"更香的改进思路
理解了缩放向量的作用机制之后,一个自然的问题出现了:既然它的价值在于为矩阵训练提供"预条件",能不能设计得更好,让这种加速效果更强?研究团队给出了三个方向。
第一个方向叫做"异构化"。在标准的Transformer注意力模块里,查询(Q)、键(K)、值(V)三个线性变换共用同一个Pre-Norm层的输出,也就是共用同一组缩放向量。类似地,前馈网络里的门控投影和上投影也共用一组。但研究团队发现,这三个(或两个)矩阵在训练过程中的动态行为是不同的——以0.12B Llama的第三层为例,Q矩阵和V矩阵的Frobenius范数随训练的变化曲线就明显不同。
既然各自动态不同,用同一组缩放向量来为它们提供"预条件",就好比一个厨房助手要同时给三个节奏不同的厨师调速,肯定有人被拖累。解决方案自然是为每个分支分配独立的缩放向量,让Q有自己的一组,K有自己的一组,V有自己的一组。这样每个分支的预条件都能贴合自己的训练动态,实现"量身定制"的加速。这个改动只增加了O(d)量级的参数(d是隐藏维度),相对于O(d?)的矩阵参数而言可以忽略不计,但带来的优化好处是实质性的。
第二个方向叫做"位置改进"。标准做法里,缩放向量总是放在线性变换的输入侧,相当于只对输入的每个通道施加了一个乘数,影响的是矩阵运算的"行方向"。研究团队指出,这种单侧调节可能不够充分——矩阵运算结束后,输出通道的状态依然可能不均衡,而标准设计无法直接干预输出侧。
他们提出了几种改进方案。其中一种是"双侧放置"(DP),在线性变换的输入侧和输出侧各放一组缩放向量,从而同时覆盖行方向和列方向的预条件。还有一种更稳定的变体叫"双侧归一化放置"(DNP),在输出侧的缩放向量前先插入一次归一化,防止双侧乘法引起的数值不稳定。值得注意的是,当DNP用在注意力模块的查询和键投影上时,它等价于给这两个投影分别加了一个Q/K-Norm,这正是Gemma等模型已有的设计;而用在其他位置时,它引入了额外的归一化。研究团队从理论上证明,双侧放置在相同有效状态下的瞬时损失下降速率不低于单侧,且在早期训练阶段有严格的量化优势(差距以t?的速率快速扩大)。
第三个方向叫做"幅度-方向重参数化"。任何一组缩放向量都可以分解为两个部分:整体幅度(这组向量有多"大")和方向(各个分量之间的相对比例)。标准做法里这两者被耦合在一个向量里,可能导致梯度在这两个方向上的流动不平衡。
研究团队提出了一种分离式参数化,称为"原始空间重参数化"(OR):把缩放向量写成"幅度标量 × 归一化方向向量"的形式,分别用两个参数控制。这样,梯度流对幅度和方向的调整是独立的。理论分析表明,这种参数化会在有效参数空间里诱导一个各向异性的预条件算子——沿幅度方向的调整被放大了d倍(d是维度数),而方向调整保持在O(1)的稳定尺度上。这意味着整体缩放的调整会非常敏捷,而每个通道相对比例的精细调整则相对保守,两者各司其职。另一种变体是"指数空间重参数化"(ER),把乘法关系转化为指数形式处理,在对数尺度上分离幅度和方向,适合那些天然以乘积形式出现的参数场景。
这三个方向背后有一个统一的数学框架。研究团队指出,所有这些设计实质上都是在对矩阵的"有效参数"做一种低秩的乘积重参数化:把矩阵W替换为diag(u)·W·diag(v)的形式,其中u和v是两个向量,分别作用在输出通道和输入通道上。这种结构只用O(d?+d?)个额外参数,却能调制整个O(d?×d?)维的矩阵空间,以极低的成本带来实质性的优化收益。而这种参数变换诱导的预条件算子,与Adam、Shampoo等自适应优化器的梯度统计预条件是互补的、机制不同的——前者来自当前模型状态,后者来自历史梯度统计,两者结合可以带来额外的协同增益。
四、实验验证:从小模型到大模型,一路领先
理论再漂亮,也需要实验来检验。研究团队将上述四个方向——异构化(HG)、双侧归一化放置(DNP)、原始空间重参数化(OR)、个体化权重衰减(IWD)——逐步叠加,在0.12B Llama模型上一步步验证效果。
首先单独引入HG(异构化),模型性能提升,最终损失下降。然后在HG的基础上测试不同的位置设计,双侧放置DP带来持续的损失降低,而DNP虽然在短期内不如DP,但结合后续改进后表现最优。接着叠加OR或ER重参数化,两者均有改善,其中DNP+OR的组合效果最为突出。最后加入IWD,DNP引入了输出端归一化层,从而使得IWD策略有了用武之地,进一步降低了终态损失。四个类别的改进全部带来了清晰的收益,与理论预期高度一致。
随后,研究团队把这四种改进组合成一个统一策略,在密集模型(Dense)和混合专家模型(MoE)两种架构上,从0.12B到2B参数规模,系统性地与精心调优的Llama基线进行比较。训练预算约为每个参数(密集模型)或每个激活参数(MoE模型)100个token,远超Chinchilla最优比例,更接近实际工业预训练规模。
密集模型方面,在0.12B、0.25B、0.5B、0.75B、1B五个规模上,改进策略在整个训练过程中始终保持更低的验证损失,且差距随训练推进逐渐扩大,训练越久优势越明显。拟合的扩展律曲线也显示,改进方案的斜率略陡于基线,意味着随着模型变大,优势可能进一步扩大——在扩展律对比图中,改进方案相当于把基线的算力效率提高了约1.22倍。
MoE模型同样一致地胜出,在所有五个规模(0.25B到2B总参数)上,改进策略比精心调优的基线低0.02以上的终态损失,扩展律对比显示约1.25倍的算力效率提升。
兼容性方面,研究团队还测试了Muon优化器和warmup-stable-decay(wsd)学习率调度器这两种最近流行的训练配置。在两者下,改进策略依然稳定领先基线超过0.015的终态损失,且在wsd调度的稳定训练阶段优势持续扩大,进入衰减阶段后也没有缩小,暗示这套方案对长时间过训练(overtraining)场景尤为友好。
参数和计算开销方面,改进策略只引入了O(d)量级的额外参数,在1B模型上仅增加约万分之七的参数量。为了排除"参数多了自然更强"的干扰,研究团队专门对比了一个参数总量与改进方案相同的"加宽基线"(通过微调前馈网络宽度实现),结果后者几乎没有改善,而改进策略带来了0.033的大幅下降,从而确认收益来自设计本身,而非额外参数。计算层面,在1B模型上实测,改进策略的训练壁钟时间增加约4%,显存增加约1%,均可忽略不计。
---
说到底,这项研究做的事情,就是把一个几十年来一直被忽视的"小零件"翻出来,认认真真地研究了它到底是什么、为什么有用、什么时候有害、以及如何改进。结论出人意料地扎实:这个参数量可以忽略不计的缩放向量,是大语言模型训练效率的一个真实但未被充分挖掘的杠杆点。
对于普通用户而言,这项研究意味着:未来基于这套方案训练出来的模型,在相同的算力预算下,可能表现得更好;或者达到同等表现,所需的算力和时间更少。在大模型训练成本动辄数百万乃至数千万美元的今天,哪怕是几个百分点的效率提升,也意味着相当可观的资源节约。
研究团队本身也点出了未来值得继续探索的方向:这套分析框架目前集中在Llama和Gemma这样的具体架构上,如何推广到更广泛的模型设计,以及缩放向量的最优设计是否会随模型规模变化而变化,都是开放的问题。从这个意义上说,这撮"葱花"的故事,还没有讲完。
有兴趣深入了解的读者,可以通过arXiv编号2605.26895查阅完整论文和附录中详细的数学证明。
---
Q&A
Q1:缩放向量在大语言模型里的作用是什么?
A:缩放向量是归一化层里一组可学习的参数,数量极少但作用关键。它并不增加模型的表达能力,而是通过影响矩阵权重的训练动态来加快收敛——相当于给后续的矩阵运算提供了一种自适应的加速机制,让训练过程更高效。
Q2:权重衰减对缩放向量有什么影响?
A:这取决于缩放向量的类型。紧接线性变换的"输入端"缩放向量,加权重衰减有助于控制训练曲率、稳定训练;而直接作用于模块输出的"输出端"缩放向量,加权重衰减反而会压缩模型的表达能力,通常应该避免。一刀切地对所有缩放向量统一处理是不准确的。
Q3:这篇论文提出的改进方案具体提升了多少效果?
A:在密集模型上,改进方案相当于将基线的算力效率提升约1.22倍;在混合专家模型上约为1.25倍。在0.12B到2B的所有测试规模上,改进策略的终态验证损失均持续低于精心调优的基线,且差距随训练时间推进而扩大,额外参数和计算开销均可忽略不计。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。