微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

普林斯顿大学团队如何让AI专家模型训练速度翻倍

人工智能深度学习系统优化

普林斯顿大学团队如何让AI专家模型训练速度翻倍

作者：科技行者

2025-12-22 10:18

分享至：

普林斯顿大学等机构联合开发的SonicMoE技术，针对专家混合模型训练效率问题提出了系统性解决方案。通过重新设计内存管理、利用GPU异步处理能力和创新的令牌舍入路由方法，SonicMoE将训练速度提升近一倍，内存使用量减少45%，为大规模AI模型训练提供了更经济高效的路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-12-22 10:18 • 科技行者

这篇由普林斯顿大学郭文涛、程新乐，加州大学伯克利分校米什拉、斯托伊察，以及Together AI的赵天分别在2025年12月17日发表的最新研究报告，介绍了一项名为SonicMoE的突破性技术。这项研究针对目前人工智能领域最重要的"专家混合模型"(Mixture of Experts，简称MoE)在训练过程中遇到的瓶颈，提出了一套完整的解决方案。有兴趣深入了解的读者可以通过论文编号arXiv:2512.14080查询完整论文。

要理解这项研究的重要性，我们首先要明白什么是专家混合模型。这种模型就像一个拥有众多专业老师的学校，每个老师只专精某一个科目，当学生有特定问题时，会被引导到最合适的老师那里获得帮助。这种设计让AI模型在不大幅增加计算成本的前提下，显著扩展了知识储备和处理能力。

然而，随着AI技术的发展，研究人员发现一个有趣的现象：让每个"专家老师"更加专业化（也就是处理更细分的领域），以及增加专家数量同时保持激活专家数量不变（提高稀疏性），确实能让模型表现得更好。这就好比把一个通用数学老师拆分成代数专家、几何专家、微积分专家等，每个专家只负责自己最擅长的部分，学生学习效果会更好。

不过，这种做法也带来了问题。当专家变得越来越专业化时，系统需要记住更多信息来协调这些专家之间的工作，这就像学校需要更大的档案室来存放每个老师的课程资料。同时，由于每个专家处理的内容变少了，计算资源的利用效率也下降了，就好比让一个专业的心脏外科医生去处理简单的感冒，既浪费了专家的时间，也增加了系统的复杂性。

一、重新设计大脑的记忆系统

研究团队首先解决的是内存占用问题。传统的专家混合模型在训练过程中需要保存大量中间结果，这些信息在后续的学习过程中要用到。随着专家变得更加专业化，需要保存的信息量呈直线上升，就像一个图书馆随着藏书分类越来越细，需要的目录卡片也越来越多。

研究团队通过仔细分析整个计算过程，发现了一个巧妙的解决方案。他们重新设计了计算路径，避免保存某些中间结果，而是在需要时重新计算。这种做法类似于一个聪明的图书管理员，不再存储所有可能用到的索引卡片，而是建立了一套高效的即时查找系统。

具体来说，传统方法需要保存每个专家的输出结果Y和相应的梯度信息dY，用于后续的参数更新。SonicMoE通过数学推导，找到了一条不需要这些信息的计算路径。他们将路由器评分的梯度计算重新表述为dS = ?dA', A?的形式，而不是传统的dS = ?dO, Y?。这种改变看似微小，实际上消除了对大量中间结果的依赖。

这种优化的效果非常明显。对于一个7B参数的精细化专家混合模型，SonicMoE将每层的激活内存使用量减少了45%。更重要的是，无论专家变得多么专业化，内存使用量都保持恒定，这为训练更大更复杂的模型提供了可能。

二、让计算和数据传输并行进行

第二个创新点是充分利用现代GPU硬件的异步处理能力。这就好比一个餐厅厨房，传统做法是厨师完成一道菜的全部步骤后再开始下一道，而SonicMoE的方法是让厨师在炒菜的同时，助手已经开始准备下一道菜的食材，实现真正的流水线作业。

在现代GPU（特别是NVIDIA的Hopper和Blackwell架构）中，矩阵乘法运算和内存读写操作可以同时进行。SonicMoE巧妙地利用了这一特性，设计了一种被称为"乒乓调度"的机制。在这种机制下，当一个计算单元在执行矩阵乘法时，另一个单元同时在加载下一批数据，两者交替进行，充分利用了硬件资源。

这种设计特别适合精细化的专家混合模型，因为这类模型的计算强度相对较低，传统方法往往被内存访问速度限制。通过重叠计算和数据传输，SonicMoE能够在相同硬件上实现更高的整体吞吐量。

研究团队还在内存管理上做了进一步优化。他们避免了传统方法中的同步写入操作，而是使用异步的张量内存访问（TMA）指令。这类似于快递员不再等待每个包裹的签收确认，而是将包裹放在指定位置后立即前往下一个目的地，大大提高了整体配送效率。

三、消除计算资源浪费的智能路由

第三个重要创新是"令牌舍入路由"方法。要理解这个概念，我们需要知道GPU在处理矩阵运算时，为了效率考虑，通常将数据分成固定大小的"瓦片"进行处理，比如每次处理128个数据点。但在实际应用中，分配给某个专家的数据量可能是任意数字，比如145个，这就需要补齐到256个才能充分利用两个瓦片，剩余的111个位置就被浪费了。

SonicMoE的令牌舍入方法就像一个聪明的班车调度员，会调整每趟班车的乘客数量，确保每辆车都能坐满或接近坐满。具体做法是，对于每个专家接收到的令牌数量，自动调整到最接近的瓦片大小倍数。如果某个专家原本应该处理145个令牌，系统会智能地决定是调整到128个（舍弃17个）还是256个（增加111个），选择偏差最小的方案。

这种方法的巧妙之处在于，它在保持原始令牌选择逻辑基本不变的前提下，消除了GPU计算中的填充浪费。实验结果显示，在高度稀疏的专家混合模型中，这种方法能够带来额外16%的速度提升，而且对模型的最终性能没有负面影响。

研究团队通过大量实验验证了令牌舍入方法的有效性。他们训练了多个不同规模的模型（从5亿到14亿参数），测试结果表明，使用令牌舍入训练的模型在各种下游任务上的表现与传统方法相当，有时甚至略好。这证明了这种优化方法不会损害模型的学习能力。

四、全面的性能评估与验证

为了验证SonicMoE的整体效果，研究团队进行了全面的性能测试。他们使用了从1.4B到120B参数的各种模型配置，在NVIDIA H100 GPU上进行了详细的基准测试。结果显示，SonicMoE在各种配置下都能显著超越现有的最先进方法。

在实际应用测试中，SonicMoE在64张H100 GPU上训练7B专家混合模型的速度达到每天2130亿令牌，这个速度相当于使用96张H100 GPU运行传统ScatterMoE方法的每天2250亿令牌。换句话说，SonicMoE用更少的硬件资源实现了几乎相同的训练速度，硬件利用效率提升了约50%。

更令人印象深刻的是，在极端稀疏的配置下（比如DeepSeek-V3.2-Exp这样的685B参数模型），SonicMoE是唯一能够在单张H100 GPU上成功运行的方法，其他基准方法都因为内存不足或其他限制而无法工作。

研究团队还测试了SonicMoE在不同硬件配置下的表现。除了H100，他们还验证了在最新的Blackwell架构GPU上的性能。SonicMoE充分利用了新硬件的特性，比如张量内存（TMEM）和统一矩阵乘法累加（UMMA）指令，在新硬件上表现出更好的性能。

五、对业界的深远影响

这项研究的意义远远超出了技术优化本身。随着AI模型规模的不断增长，训练效率已经成为制约技术发展的关键瓶颈。SonicMoE提供的解决方案不仅能够降低训练成本，还能让研究机构用更少的资源训练出更强大的模型。

从行业发展角度看，这种效率提升对于推动AI技术的普及具有重要意义。降低训练成本意味着更多的研究团队和公司能够参与到大规模AI模型的开发中，这将加速整个领域的创新步伐。同时，更高效的训练方法也减少了能源消耗，符合当前对环境友好技术的需求。

SonicMoE的另一个重要贡献是它的开源特性。研究团队将所有核心组件以开放许可证发布，这意味着整个AI社区都能从这些优化中受益。这种开放合作的精神对于推动技术进步至关重要，也体现了学术研究回馈社会的价值。

展望未来，SonicMoE的设计理念和优化策略很可能会被广泛采用，成为训练大规模专家混合模型的标准方法。研究团队也指出了一些未来的发展方向，包括支持更多的数值精度格式（如FP8、MXFP8）以及在分布式训练环境中进一步优化通信与计算的重叠。

说到底，这项研究展示了在AI快速发展的今天，系统优化和算法创新同样重要。SonicMoE不是通过改变模型结构或训练算法来提升性能，而是通过深度理解硬件特性和精心设计计算流程，在不损失任何功能的前提下大幅提升了效率。这种"软硬结合"的优化思路为未来的AI系统设计提供了重要参考，也证明了在追求更强大AI能力的同时，我们同样需要关注如何更好地利用现有资源。

这项研究的成功还说明了跨领域合作的价值。普林斯顿大学、加州大学伯克利分校和Together AI的联合团队结合了理论研究、系统设计和工程实现的专长，这种多元化的合作模式正是解决复杂技术挑战所需要的。对于有志于AI研究的读者来说，这也提示了掌握多方面技能的重要性，从算法设计到系统优化，每个环节都可能成为突破的关键点。

Q&A

Q1：SonicMoE是什么？

A：SonicMoE是普林斯顿大学等机构联合开发的专家混合模型训练优化技术，主要解决精细化和稀疏化MoE模型训练中的内存占用过大和计算效率低下问题，能够将训练速度提升近一倍。

Q2：令牌舍入路由方法如何提升训练效率？

A：令牌舍入路由通过调整每个专家接收的令牌数量到GPU瓦片大小的整数倍，消除了计算中的填充浪费。这种方法在保持模型性能不变的前提下，能够额外提升16%的训练速度。

Q3：为什么专家混合模型训练会遇到内存瓶颈？

A：随着专家变得更加专业化，模型需要保存更多中间结果用于后续计算，内存使用量呈线性增长。SonicMoE通过重新设计计算路径，避免保存某些中间结果，将内存使用量减少45%且保持恒定。

人工智能深度学习系统优化

分享至