微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

亚马逊AI团队找到了让大模型"廉价扩容"的秘密武器

大语言模型混合专家模型高效训练策略

亚马逊AI团队找到了让大模型"廉价扩容"的秘密武器

作者：科技行者

2026-05-04 12:34

分享至：

亚马逊商店基础AI团队于2026年4月提出"专家升级复用"（Expert Upcycling）方法，通过在继续预训练中段对已有MoE模型的专家进行复制扩展，在不改变推理成本的前提下提升模型容量。实验显示，从32专家扩展至64专家的7B→13B模型，在11项下游任务上与从头训练的大模型效果相当，同时节省约32%的GPU训练时长。论文编号arXiv:2604.19835。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 12:34 • 科技行者

这篇研究来自亚马逊商店基础AI团队，以预印本形式发布于2026年4月21日，论文编号为arXiv:2604.19835。感兴趣的读者可通过该编号在arXiv平台检索原文。

当你买了一辆小排量的车，用了几年之后发现它确实很好开，但动力还是不够用——这时你面临两个选择：要么卖掉旧车重新买辆大排量的，要么把现有的发动机改造升级一下。买新车固然能得到全新的大排量体验，但花费是全额的；改造升级则能保留你熟悉的驾驶感和已经磨合好的零件，同时花费更少。

大型AI模型的训练成本，正面临着类似的两难困境。而亚马逊的研究团队提出的"专家升级复用"（Expert Upcycling）方法，正是那条"改造升级"的路。

一、你不得不知道的AI模型成本难题

要理解这项研究，得先聊聊现在最流行的大模型架构——混合专家模型，英文叫Mixture-of-Experts，简称MoE。

普通的AI模型每次处理一个词（或者说"token"），都要把模型里所有的"神经元"全部激活、全部计算一遍。这就像一家餐厅，不管客人点什么，后厨所有厨师都要全员上阵，哪怕客人只要了一碗面。混合专家模型则更聪明：它把模型拆分成很多个"专家模块"，每次只激活其中少数几个最合适的专家来处理当前的词。就像客人点了面条，只有面点师傅出来干活，其他厨师可以先歇着。

这种做法的好处是显而易见的：模型可以有海量的专家（意味着总体知识量很大），但每次计算只用几个（意味着推理速度很快、成本很低）。当今世界上最强的开源大模型都采用了这种架构，比如DeepSeek-V3有6710亿个参数，但每次处理一个词只激活370亿个；阿里巴巴的Qwen3有2350亿个参数，激活量只有220亿；最夸张的Kimi K2甚至拥有高达1万亿个参数，每次激活却仅有320亿。

问题来了：虽然每次计算只用少数专家，但这些专家的参数全部都要存在显卡内存里，训练时也都要计算梯度和优化器状态。这意味着专家越多，训练所需的显卡数量和专家之间通信的开销就越大。研究表明，专家间的数据传输甚至可以占掉总训练时间的45%到50%。所以，训一个专家很多的大MoE模型，代价极为高昂。

亚马逊团队面对的正是这样的困境：你已经知道增加专家数量能显著提升模型质量，但从头训练一个专家数量翻倍的模型，成本也几乎翻倍。有没有一种方法，能在不承担全部训练成本的前提下，获得"大专家数量"带来的质量提升呢？

二、从"分身术"到"真正的独立专家"

亚马逊团队的解决思路，可以用中国功夫里的"分身术"来理解。

他们的方法分三步走，就像给那辆小排量的车做一次有计划的改造升级。

第一步，先正常训练一个有E个专家的MoE模型，让它在大量数据上充分学习。这个阶段就像培养一批有真本事的厨师，每个人都有扎实的基础技能。

第二步，在训练了τ步之后，执行"专家复用"操作：把现有的每个专家都复制一份（或者多份），让专家总数从E扩展到mE（m是扩展倍数，比如2表示翻倍）。同时，负责"分配工作"的路由器也跟着扩展，新复制的专家槽位加上一点点微小的随机噪声。此刻，每个新专家和它的"原型"是完全一样的，就像复印出来的一份一样。这个扩展操作不改变每次计算激活的专家数量（top-K不变），所以推理成本完全不变。

第三步，在扩展后的大模型上继续训练T-τ步。由于加了噪声，相同的输入会以略微不同的方式路由到两个"双胞胎"专家那里；它们接收到的数据不完全相同，计算出的梯度也不完全相同，于是开始朝着不同方向演化，逐渐"各有专精"，成为真正独立的专家。

这个过程的核心优势在于：扩展之后的大模型，它的"起点"损失（衡量模型当前表现的指标）只比原来的小模型略高一点点，而不是从零开始的随机损失。打个比方，从头训练一个新的64位专家模型，刚开始时它什么都不懂，损失值可以高达10.5。但通过专家复用扩展得到的64专家模型，由于继承了32专家模型的所有知识，起点损失只有1.38，而原来的32专家模型本身是1.32。研究团队将这一特性称为"温启动"（warm initialization）——模型不是从冷冰冰的零起步，而是带着满满的已有知识继续学习。

三、省了多少钱？效果损失了多少？

说到这里，关键问题来了：这么做到底能省多少训练成本？质量上又会有多大损失？

研究团队用7B（70亿）到13B（130亿）总参数规模的实验给出了明确答案。他们训练了一个32专家的7B模型，用了380亿个词的数据。然后对比了三种方案：一直用32专家的小模型训练完（这是下限）；从一开始就用64专家的13B模型训练完（这是上限，也是标准方案）；以及用专家复用的方法，先训32专家，然后扩展到64专家继续训练（这是他们的新方法）。

三种方案处理的总词数相同。但从计算成本看，64专家模型每一步训练都比32专家模型贵——研究中测量到大约是1.9倍的时间差。标准方案需要全程用64专家跑完所有步骤；专家复用方案则是前三分之二时间用便宜的32专家跑，后三分之一时间才切换到贵的64专家。算下来，专家复用总共只需要27888个GPU小时，而从头训练64专家模型需要41328个GPU小时，节省了约32%。

质量方面呢？在全量CPT（继续预训练）条件下，专家复用得到的模型在验证集损失上是1.263，而从头训练的64专家模型是1.267——不仅没有损失，反而略好一点点。在11个下游任务的综合测试中，专家复用模型平均得分56.4分，从头训练的64专家模型是56.7分，差距微乎其微，远超过32专家小模型的52.9分。在常识推理、语言理解等任务上（HellaSwag、PIQA、Social IQA等），专家复用模型甚至直接超过了从头训练的大模型。在需要更多专业知识的任务上（MMLU、BBH、GSM8K等），两者也差距极小。

更诱人的是，如果你已经有一个训练好的MoE模型（比如下载了某个开源模型），那训练成本就可以按"沉没成本"来算——你根本不需要重算前期训练的代价，只需要承担扩展后继续训练的部分。这样算下来，相比从头训练大模型，节省的GPU小时高达约67%。

四、哪些"分身"更值得多复制几份？

均匀复制是最简单的做法：每个专家都复制同样的份数。但亚马逊团队更进一步，提出了一种"看人下菜碟"的聪明策略——不是给所有专家平等的复制份数，而是优先多复制那些对模型"最重要"的专家。

怎么判断一个专家重不重要？研究团队从结构化剪枝领域借来了一套工具：梯度（gradient）信息。梯度可以理解为"损失值对每个参数的敏感程度"——如果某个专家的参数稍微一变，模型的损失就大幅波动，那说明这个专家在当前数据下极为关键，改动它的代价很大。

具体来说，他们用两种打分方式：一种叫"梯度范数平方"，记为||g||?，衡量的是模型对该专家的参数多敏感；另一种叫"权重梯度显著性"，记为||w||·||g||，同时考虑参数量级和梯度大小，相当于纠正了单纯用梯度打分时可能对"参数值比较大的专家"有所偏差的问题。两种方法都比均匀复制效果好，其中||g||?略胜一筹，是推荐的默认选项。

这个效果在CPT预算有限时尤为明显。当继续训练的时间只有正常训练的25%时，均匀复制只能弥合8.2%的质量差距（和从头训练的大模型相比），而基于梯度的智能复制能弥合26.5%的差距，效率直接提升了三倍多。

团队还测试了另一类思路：与其选择复制哪些专家，不如在复制的同时对新生成的"分身"做一些扰动，让它们一开始就有所差异，比如加入随机噪声、重新初始化部分权重、做奇异值分解（SVD）后混合不同专家的成分等等。他们测试了10种专家级别的初始化策略和10种路由器级别的策略，结果发现几乎没有任何一种能够明显超过简单的"直接复制"。原因在于：任何扰动都会拉高"分身"的初始损失，让模型在训练初期忙于"恢复状态"而不是"学习新内容"。研究人员通过计算65组实验结果的斯皮尔曼秩相关系数（一种衡量两组排名是否一致的统计量），发现验证损失排名的相关系数高达0.80——也就是说，谁在复用的第一刻损失越低，训练结束时损失也越低。开局决定终局，温启动比人为制造多样性更重要。

五、理论上，这件事为什么能成功？

研究团队不满足于"做出来效果好就行"，他们还从数学上分析了这个方法成功的原因。

他们借助在线凸优化（OCO）理论，把"专家复用模型与从头训练大模型之间的质量差距"分解成两项之和。

第一项叫"容量差距"。这一项描述的是：在扩展之前，专家复用方案一直在用一个更小、容量更有限的模型学习，而从头训练的大模型从一开始就有更强的表达能力。在这段时间里，小模型能学到的"最优损失"比大模型能达到的"最优损失"要高，差值就是容量差距。这一项始终是非负的——它在拖专家复用的后腿。好在，CPT训练的时间越长，这一项的"权重"就越小，因为扩展后训练的步骤越来越占总步骤的大头。

第二项叫"初始化增益"。这一项描述的是：扩展之后，专家复用模型的新参数（也就是那些"分身"专家的参数）距离最优解有多近，相比于从头训练的大模型从随机初始化开始有多远。只要温启动的效果足够好——也就是说，继承来的参数比随机初始化更接近最终最优解——这一项就是负数，帮专家复用拉分。

两项加起来，如果初始化增益足够大，把容量差距抵消掉，那专家复用就能和从头训练的大模型打个平手甚至更好。这个理论框架不仅解释了"为什么专家复用可行"，还给出了几个可操作的预测：CPT时间越长，质量越接近大模型；扩展前的源模型训练越充分，效果越好（但也不是越晚扩展越好，因为那会压缩CPT的时间）；在已经是MoE的模型上做专家复用，比把密集模型变成MoE要效果好得多，因为前者的容量差距更小。这些预测都在后续实验中得到了验证。

六、什么时候扩展最合适？需要继续训多久？

理论有了，实践中还有两个核心问题：第一，如果从头训练，什么时候做扩展最合适？第二，如果已经有一个现成的模型，扩展后至少要继续训练多久才够？

研究团队在约10亿总参数规模的中小型模型上做了细致的消融实验来回答这两个问题。

关于扩展时机：在总训练步数固定为10万步的情况下，他们让扩展发生在不同时间点——从5%时就扩展，到50%时才扩展。结果显示，在5%到50%之间扩展，效果都相当好（效率在81%到100%之间，100%意味着完全追上了大模型的质量）。在12%到38%之间扩展，效率甚至能达到100%，完全不输从头训练的大模型。唯一例外是5%这个极早期点，效果略差——因为此时模型见过的数据太少，专家们还没来得及形成真正的专业化分工，温启动的优势尚未建立起来。

关于继续训练时长：在扩展点固定、只改变扩展后CPT总量的实验中，随着CPT预算从10%增加到100%，效率从34.7%单调上升到98%。当CPT在50%以上时，效果开始明显好转；到100%时，几乎完全追上了大模型的质量。这说明扩展后的继续训练是决定质量的关键瓶颈——充分的训练时间给了所有"分身"专家足够多的机会去发展各自的特化方向。

七、不同架构、不同规模都管用吗？

亚马逊团队还测试了方法的通用性，验证它在不同条件下是否稳健。

首先是架构差异。文中主要介绍了两种架构：一种叫"交错式MoE"，就是把MoE层和普通的密集层交替排列，类似Meta公司Llama 4所采用的方式，优点是通信开销更低、每步训练更快；另一种叫"全MoE"，每一层都是MoE层，类似DeepSeek-V3、GLM-4.5等前沿模型所采用的方式。在约10亿参数规模的全MoE实验中（256个专家，每次激活8个，激活比例约3%），从154M到1B不同大小的模型上，专家复用都实现了超过92%的质量追回，证明方法在不同架构下都同样有效。

其次是激活比例的影响。研究团队在一个8层交错MoE上测试了从25%到3.13%四种激活比例，同时对比了另一种方法——"稀疏升级复用"（Sparse Upcycling，把密集模型变成MoE）。结果一目了然：专家复用在所有激活比例下都非常接近从头训练大模型的效果，而稀疏升级复用在所有情况下都达不到哪怕是小MoE模型的质量水平。而且，随着激活比例越来越低（专家越来越多、越来越稀疏），两种方法的差距越拉越大——在3.13%的极低激活比例下，两者的验证损失差距从0.026扩大到0.241，相差悬殊。原因正如理论所预测的：密集模型和MoE模型之间的"容量差距"太大，CPT根本无法在有限时间内弥合；而同是MoE的两个模型之间，这个差距要小得多，完全可以弥合。

归根结底，这项研究的核心发现可以用一句话来概括：不要从零开始造一辆新的跑车，把你现有的好车扩容升级一下，同样的路程，少花三分之一的油钱，最终到达的地方几乎一样远。

研究团队在7B到13B参数的实验中证明，这条路是通的，省的不是小钱，是32%的GPU小时，而且换来的模型质量和从头训练不分伯仲。当然，这项研究目前只在翻倍（m=2）扩展场景下得到了充分验证，对于前沿的超大规模模型（如数千亿参数）、更大的扩展倍数、或者预训练和继续训练数据分布差异很大的场景，还有待进一步探索。研究团队也坦诚地指出，在极端低激活比例的场景下，可以先用稀疏升级复用把密集模型变成中等规模的MoE，再反复应用专家复用来逐步扩大专家数量——把"一次大跳"变成"多次小跳"，每次跳跃都保持较小的容量差距，让每一步扩展都能高效地弥合。

如果你想深入了解数学推导、各种消融实验的细节或模型架构配置，可以在arXiv上通过编号2604.19835查阅完整论文，研究团队也已将代码和训练配置开放发布。

Q&A

Q1：专家复用方法和稀疏升级复用（Sparse Upcycling）有什么本质区别？

A：稀疏升级复用是把一个普通的密集模型（每次计算所有参数）改造成MoE模型，是一种"架构切换"。专家复用则是在已经是MoE的模型内部增加专家数量，架构性质不变，只是专家更多了。实验表明，稀疏升级复用因为跨越的"容量差距"太大，往往连源模型的质量都达不到；而专家复用由于源模型和目标模型同属MoE架构，差距更小，可以有效弥合。

Q2：专家复用中的"温启动"为什么这么重要？

A：温启动的意思是，扩展后的大模型从一个接近原模型质量水平的位置开始继续训练，而不是从完全随机的参数开始。实验显示，随机初始化的64专家模型起始损失高达10.5，而专家复用得到的64专家模型起始损失只有1.38，几乎和源模型的1.32持平。研究还发现，初始损失越低，最终训练结束后的损失也越低，两者的斯皮尔曼秩相关系数达到0.80，说明开局质量直接决定终局质量。

Q3：专家复用训练完的模型推理成本会增加吗？

A：不会。专家复用扩展了总参数量（从7B到13B），但每次处理一个词时激活的专家数量（即top-K的K值）始终保持不变。推理成本只和激活的参数量有关，而激活量没有变化，所以用户使用这个更大模型时，响应速度和计算成本和小模型完全一样。这正是该方法的核心优势：用更多的总参数换来更好的"知识库"，但不增加"每次查阅知识库的费用"。

大语言模型混合专家模型高效训练策略

分享至