微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

模型合并：一项提升大型语言模型预训练效果的强大武器——字节跳动Seed团队最新研究成果解析

大型语言模型模型合并技术预训练优化

模型合并：一项提升大型语言模型预训练效果的强大武器——字节跳动Seed团队最新研究成果解析

作者：科技行者

2025-05-23 15:20

分享至：

这篇研究探讨了模型合并技术在大型语言模型预训练中的应用。字节跳动Seed团队通过从百万到千亿参数级别的系统实验证明，在稳定训练阶段合并检查点不仅显著提升模型性能，还能准确预测学习率衰减效果，大大节省计算资源。研究提出的PMA策略使恒定学习率训练后通过简单合并就能获得相当于完成衰减训练的效果。此外，他们还发现该技术能有效提高训练稳定性，避免训练崩溃。通过全面实验分析，研究为开源社区提供了实用的预训练模型合并指南。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-23 15:20 • 科技行者

研究背景与核心发现

在人工智能的广阔天地中，大型语言模型(LLM)如同一位位博学多识的智者，为我们解答各种复杂问题，完成各类困难任务。不过，要培养这样一位"智者"，可不是一件容易的事——它需要海量的计算资源和漫长的训练时间。最近，来自字节跳动Seed团队的研究人员发表了一篇题为《Model Merging in Pre-training of Large Language Models》（大型语言模型预训练中的模型合并）的论文，探索了一种名为"模型合并"的技术，这项技术就像是一种神奇的"智慧融合术"，可以大幅提升模型训练效率和性能。这篇研究论文于2025年5月18日发布在arXiv预印本平台（arXiv:2505.12082v1），由Yunshui Li领导的字节跳动Seed团队完成。

想象你正在烤制一个精美的蛋糕。通常的做法是严格按照食谱，经过预热、搅拌、烘焙等一系列完整步骤。而模型合并技术相当于发现了一个巧妙的烘焙捷径——你可以把几个半成品的蛋糕按特定比例混合，居然能得到一个比单独烤制更美味的成品！这不仅节省了时间和能源，还提高了蛋糕的品质。

在人工智能领域，模型合并并不是全新概念，此前已在模型微调阶段得到应用。例如，研究人员曾将专门解答问题的WizardLM模型与专攻数学的WizardMath模型合并，结果在GSM8K数学测试上的成绩从2.2分飙升至66.3分。然而，在预训练阶段应用模型合并的研究却相对稀少，主要是因为大规模模型预训练需要庞大的计算资源，普通研究者难以进行系统性实验。虽然DeepSeek和LLaMA-3等知名模型也提到使用了模型合并技术，但并未详细公开其具体方法。

字节跳动Seed团队的研究弥补了这一空白。他们提出了一种名为"预训练模型平均"（Pre-trained Model Average，简称PMA）的策略，并在从百万到千亿参数级别的各种模型架构上进行了系统性验证。研究结果令人振奋：在训练稳定阶段合并检查点不仅能显著提升模型性能，还能准确预测后期学习率衰减的效果。这意味着研究人员可以使用恒定学习率训练模型，然后通过简单的模型合并就能获得相当于完成了学习率衰减阶段的优秀模型，大大节省了计算资源和时间。

模型合并的基本原理：智慧的融合之道

在深入了解研究细节前，让我们先弄清楚什么是模型合并。简单来说，模型合并就像是多位专家的智慧结晶。想象你有几位经验丰富的老师，每位老师都有自己的教学方法和长处。模型合并就相当于把这些老师的知识和经验按照某种比例融合在一起，形成一套更全面、更有效的教学方案。

在技术层面，模型合并指的是将多个模型的权重（可以理解为模型的"知识"）按照特定公式合并成一个新模型。如果用数学公式表示，合并后的模型Mavg是这样得到的：

Mavg = 求和(w?M? + w?M? + ... + w?M?)

其中，M?到M?是要合并的模型，w?到w?是每个模型的权重系数。这些系数决定了各个模型对最终结果的贡献程度，就像配方中各种配料的比例。

研究团队探索了三种主要的模型合并方法：

1. 简单移动平均(SMA)：这种方法就像平均分配投票权，每个模型获得相同的权重。比如合并10个模型，每个模型的权重都是0.1。

2. 指数移动平均(EMA)：这方法更重视"新鲜"的模型，给予训练较多的模型更高的权重，类似于我们更信任最新消息而非旧闻。

3. 加权移动平均(WMA)：这种方法也偏向较新的模型，但权重分配方式不同，可以设定为线性增长的权重。

这三种方法就像三种不同的融合配方，每种都有其特点和适用场景。

实验设计：全方位的探索历程

为了验证模型合并的效果，研究团队设计了一系列精心的实验。他们训练了多种规模和架构的语言模型，包括参数量从411M到70B的Dense模型，以及有效/总参数从0.7B/7B到20B/200B的混合专家模型(MoE)。

训练过程采用了目前流行的"预热-稳定-衰减"(Warmup-Stable-Decay，WSD)学习率调度策略。这就像烹饪时的火候控制：先用小火预热，然后保持稳定的中火烹煮一段时间，最后慢慢转小火收尾。在AI训练中，这对应着学习率先缓慢增加（预热），然后保持一段恒定值（稳定），最后逐渐降低（衰减）。

研究团队在不同的训练阶段进行了模型合并实验，主要关注稳定阶段和衰减阶段。他们评估模型性能时使用了多种开源基准测试，包括编程能力测试（HumanEval）、通用知识测试（MMLU）、推理能力测试（BBH）以及数学问题求解（GSM8K）等。

研究发现一：模型合并显著提升性能

首个重要发现是，在恒定学习率的稳定训练阶段合并模型可以一致且显著地提高模型性能。以MoE-1.3B/13B模型为例，在HumanEval测试中，性能从31.1提升到36.6；更大的MoE-10B/100B模型在同一测试中从54.3提升到61.6。虽然较大模型在某些测试上改进幅度较小，但这很可能是因为它们已经接近饱和状态。

更令人惊喜的是，在衰减阶段初期合并的模型表现往往与完全衰减阶段训练的模型相当，甚至有时更优。这就像发现了一条烹饪捷径——不必等待菜肴完全炖煮，在中途就能通过某种方法预览最终成品的味道！

为了验证这一发现，研究团队进行了一个特别实验：他们从MoE-1.3B/13B模型的稳定阶段（1.4T tokens位置）分出两条训练路径，一条继续使用恒定学习率训练，另一条进入衰减阶段，各自再训练250B tokens。随后，他们对恒定学习率训练的模型进行合并。结果表明，合并后的模型在训练早期显著优于单个恒定学习率模型和衰减模型，在训练后期也能与衰减模型相媲美。

这一发现意义重大：研究人员可以只用恒定学习率训练，然后通过模型合并获得相当于完成衰减训练的效果，大大加速模型验证周期并节省计算资源。

研究发现二：不同合并方法的比较

研究团队还比较了不同合并方法的效果。在训练早期（204B tokens），所有合并方法都能提升性能，但WMA方法表现最佳。这表明，在模型权重变化较大的训练早期，给予训练更多的模型更高权重是有益的。这一点从EMAα=0.2优于EMAα=0.1的结果也能看出。

然而，随着训练进行到后期，模型权重趋于稳定，不同合并方法的性能差异逐渐缩小。基于简单性和稳定性考虑，团队在后续实验中主要使用SMA方法。

研究发现三：最佳合并间隔与数量

除了合并方法本身，合并间隔V（选择模型之间的训练量差异）和合并模型数量N也是重要因素。

关于合并间隔，研究团队发现，在训练早期（204B tokens），使用太大的间隔（V=16B或32B）会导致合并效果不佳，可能是因为较大间隔会引入训练初期不稳定的权重。随着训练进行和权重稳定，不同间隔设置的性能差距逐渐缩小。

实践中，最佳间隔与模型大小有关：1.3B/13B模型约为8B tokens，0.7B/7B模型约为4B tokens，10B/100B模型约为80B tokens。这一规律与较大模型倾向使用更大批次大小的趋势一致。

关于合并模型数量，团队设置V=8B，测试了N=3、6、10和15的效果。发现训练早期，合并更多模型会引入不稳定权重，反而降低性能。但完成训练后，合并更多模型能显著提升性能，N=3的整体性能比N=15低近1个点。为平衡计算成本和性能提升，团队在后续实验中选择N=10。

研究发现四：PMA对下游训练的影响

一个完整的大型语言模型训练通常包括预训练、持续训练（CT）、监督微调（SFT）和强化学习（RL）阶段。研究团队探索了PMA在预训练后的持续训练和监督微调阶段的应用。

他们提出了"PMA初始化"（PMA-init）技术，即用合并模型作为后续训练阶段的初始权重。在持续训练阶段，PMA-init模型在训练初期显示出略低的损失值，随着训练进行，不同初始化权重的模型性能趋于相似水平。在MMLU测试中，PMA-init模型在训练早期优于基线，但后期优势不明显。

在监督微调阶段，使用相同学习率时，PMA-init显著优于基线，特别是在内部评估集上，OOD和指令遵循测试提高超过两点，推理能力提高1.9点。不过，这种显著改进在其他模型规模上的实验中并不总是能复现。

总体而言，PMA-init作为一种低成本方法，值得尝试用于增强下游模型性能。

研究发现五：PMA提高训练稳定性

大规模语言模型训练中，基础设施问题几乎不可避免，常导致训练不稳定，如损失值突增或发散。研究发现，使用PMA-init初始化的模型在监督微调阶段展示出更稳定的梯度范数（GradNorm）指标，损失值突增现象也减少。

为深入研究这一现象，团队在一个330M/3.3B MoE模型上使用极高学习率（6e-3）复现了训练不稳定现象。当模型训练崩溃时，他们采用PMA-init合并崩溃前的三个检查点恢复训练，结果训练过程成功稳定，顺利通过崩溃点并沿原轨迹继续。

这表明PMA-init能可靠增强多阶段训练稳定性。当出现损失值突增时，可以合并突增前的模型检查点并从那里恢复训练，避免从头重新训练，大大节省计算资源。

研究发现六：模型合并的工作机制探索

为了深入理解模型合并为何有效，研究团队进行了理论分析和可视化研究。

从理论角度，他们使用泰勒展开式分析了损失函数。简单来说，合并模型的损失值低于单个模型平均损失的条件在于，不同模型的"偏差向量"在损失函数曲率（海森矩阵）背景下呈现某种互补性或"负相关"。

通俗理解就是，不同训练检查点探索了参数空间的不同区域或方向，当这些探索在损失函数几何结构上形成互补时，它们的平均位置能比单个模型更接近最优点。

研究团队还选取了几个预训练检查点，可视化了特定层两个参数的平均分布并生成MMLU性能等高线。结果显示，单个模型的权重位置（黑点）分布在MMLU得分等高线上，呈现出明显的"互补"模式。合并后的权重位置（图中的红星）通常更接近更高MMLU得分区域。

这也解释了为何在学习率降至很低的衰减后期，模型合并改进效果减弱——此时要合并的模型已经紧密收敛在特定局部最优区域内，合并它们基本上就是在这个狭窄区域内平均，难以跳出到显著更好的区域。

实际应用指南与建议

基于研究发现，字节跳动Seed团队为开源社区提供了一些实用的预训练模型合并指南：

1. 在稳定训练阶段进行模型合并是一种简单有效的性能提升方法，特别适合资源有限的研究团队。

2. 合并间隔应根据模型大小适当调整，较大模型需要较大间隔。

3. 合并更多模型通常能获得更好性能，但计算成本也更高，N=10是较好的平衡点。

4. 对于性能验证，可以在稳定阶段用恒定学习率训练，然后通过模型合并预测最终性能，避免完整的学习率衰减阶段，大大加速开发周期。

5. 当训练出现不可恢复的损失值突增时，可以尝试PMA-init技术，合并突增前的检查点恢复训练，而非从头重来。

6. 简单移动平均(SMA)方法因其简单性和稳定性，是实践中的推荐选择。

这些指南如同一份"模型合并食谱"，帮助研究人员在实际工作中更有效地应用这一技术。

总结与展望

字节跳动Seed团队的这项研究深入探索了模型合并在大型语言模型预训练中的应用，开创性地证明了这一技术在大规模预训练场景的有效性和优势。

通过在百万到千亿参数级别的各种模型架构上的系统实验，研究团队发现：稳定训练阶段的模型合并不仅能显著提升性能，还能准确预测学习率衰减效果；合并更多模型通常带来更好性能；最佳合并间隔与模型大小有明确的缩放关系；模型合并还能有效提高训练稳定性，避免因损失值突增导致的训练崩溃。

这些发现为大规模语言模型的高效开发提供了宝贵工具。研究人员可以通过模型合并技术加速验证周期，减少计算资源消耗，同时获得更高质量的模型。

未来研究方向可能包括：探索更多样化的合并策略；研究不同学习率下模型合并的效果；将模型合并扩展到强化学习等后训练阶段；以及深入理解模型合并的理论基础。

正如研究团队所展示的，模型合并不仅是一种技术手段，更是一种思维方式——通过巧妙组合已有资源，创造超越个体总和的价值。这种"1+1>2"的智慧，或许正是人工智能发展的重要思路之一。

大型语言模型模型合并技术预训练优化

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

模型合并：一项提升大型语言模型预训练效果的强大武器——字节跳动Seed团队最新研究成果解析

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接