微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学团队提出MoA：让AI大模型学习更高效的"异构专家混合"新方法

人工智能参数高效微调异构专家混合

浙江大学团队提出MoA：让AI大模型学习更高效的"异构专家混合"新方法

作者：科技行者

2025-06-13 15:42

分享至：

浙江大学与腾讯联合研究团队提出MoA异构适配器混合方法，通过整合不同类型的参数高效微调技术，解决了传统同质化专家混合方法中的表征坍塌和负载不均衡问题。该方法在数学和常识推理任务上显著优于现有方法，同时大幅降低训练参数和计算成本，为大模型高效微调提供了新的技术路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-13 15:42 • 科技行者

这项由浙江大学曹杰、林天威、何鸿洋等研究团队以及腾讯公司闫若兰共同完成的创新研究，发表于2025年6月的arXiv预印本平台（论文编号：arXiv:2506.05928v1）。有兴趣深入了解的读者可以通过https://github.com/DCDmllm/MoA访问项目主页获取更多技术细节。

想象一下，你正在学习一门复杂的手艺，比如做菜。传统的学习方法就像请来八个厨师，但这八个厨师都有着相同的烹饪风格和技巧——虽然人多力量大，但由于大家都擅长同样的东西，很容易出现"英雄所见略同"的情况，最终做出的菜品缺乏多样性和创新。更糟糕的是，由于大家技能相似，往往会出现"抢活儿"的现象，有些厨师忙得不可开交，而另一些厨师却无所事事。

这个烹饪的比喻恰好反映了当前人工智能大模型训练中遇到的一个关键问题。目前最流行的参数高效微调方法叫做MoE-LoRA（专家混合低秩适应），就像雇佣多个相同技能的专家来帮助AI学习新任务。但正如我们的烹饪例子一样，这些"同质化专家"存在着严重的局限性。

研究团队发现，当前的AI训练方法面临两个核心困境。首先是"表征坍塌"问题，就像那八个厨师最终都学会了同样的菜谱，失去了各自的特色。在AI领域，这意味着原本设计为不同专家的模块最终学到了相似的知识表示，浪费了系统的潜在能力。其次是"专家负载不均衡"问题，就像某些厨师总是被优先选择，而其他厨师逐渐被边缘化，导致整个团队的工作效率低下。

为了解决这些问题，浙江大学的研究团队提出了一个革命性的解决方案：异构适配器混合方法（MoA）。如果说传统方法像是雇佣八个相同的厨师，那么MoA就像是组建一个多元化的烹饪团队——其中有擅长中式炒菜的师傅、专业的西式烘焙师、精通日式料理的匠人，以及熟悉分子美食的创新厨师。每个专家都有自己独特的技能和工具，当面对不同类型的烹饪任务时，系统会智能地选择最合适的专家组合。

这种异构设计的核心理念在于充分利用不同类型适配器的互补特性。研究团队巧妙地整合了三种不同类型的参数高效微调技术：LoRA（低秩适应）、并行适配器和提示调优。就像我们的多元化烹饪团队一样，每种技术都有其独特的"专长"。LoRA就像是经验丰富的全能厨师，能够高效地处理大部分常见任务；并行适配器则像是专业的配菜师傅，专门负责处理特定的辅助任务；而提示调优则像是调味专家，能够为整道菜品增添恰到好处的风味。

更令人兴奋的是，研究团队开发了两种不同的"专家协调机制"。第一种叫做"软MoA"，就像是一个善于统筹的主厨，会根据每道菜的具体需求，按照不同比例混合各位专家的贡献。比如在制作一道复杂的融合菜品时，主厨可能会要求中式炒菜师傅贡献40%的技艺，西式烘焙师贡献30%，分子美食专家贡献20%，其余专家各自贡献一小部分。

第二种机制叫做"稀疏MoA"，则更像是一个精明的餐厅经理，会根据每道菜的具体需求动态决定需要哪些厨师参与。对于简单的家常菜，可能只需要一两个厨师就够了；而对于复杂的宴席大菜，则可能需要调动更多专家。这种动态选择机制不仅提高了效率，还大大节省了"人力成本"——在AI训练中，这意味着显著降低了计算资源的消耗。

研究团队在数学推理和常识推理两大领域进行了广泛的实验验证。数学推理任务包括GSM8K、SVAMP、MultiArith等六个测试数据集，就像是考察厨师们处理不同复杂程度菜品的能力。常识推理任务则包括BoolQ、PIQA、SIQA等八个数据集，相当于测试厨师们对不同菜系文化背景的理解程度。

实验结果令人振奋。在数学推理任务中，软MoA方法取得了81.51%的平均准确率，而所使用的训练参数仅为24.52百万个——这相当于用不到传统方法四分之一的"食材成本"，却做出了更美味的"菜品"。稀疏MoA方法虽然准确率略低（81.20%），但参数量进一步减少到22.29百万个，在效率方面表现更加出色。

在常识推理任务中，两种MoA方法也都显著超越了现有的最先进方法。更重要的是，通过详细的效率分析，研究团队发现MoA方法在训练时间、GPU内存使用和推理速度等关键指标上都表现优异。就像我们的多元化烹饪团队不仅能做出更好的菜品，还能更高效地利用厨房资源一样。

为了深入理解MoA方法的工作机制，研究团队进行了大量的消融实验。他们发现，在MoA的异构专家团队中，LoRA模块确实承担了主要的"重活儿"，就像全能厨师在大部分情况下都是主力。但有趣的是，并行适配器和提示调优这两种"辅助专家"的存在对最终性能有着不可忽视的提升作用，就像调味师傅的一小撮香料能让整道菜的味道提升一个层次。

研究团队还发现了一个有趣的现象：在不同的网络层中，各个专家的活跃程度呈现出明显的分层特性。在网络的前半部分（较低层），专家们通常比较活跃，而在后半部分（较高层），活跃度相对较低。这就像在烹饪过程中，前期的准备工作需要多个厨师协作，而后期的精细调味则可能只需要少数专家参与。

更令人印象深刻的是，MoA方法展现出了优秀的一致性和稳定性。无论使用什么样的随机种子进行训练，各个专家的权重分布都保持高度一致，这表明该方法找到了真正有效的专家分工模式，而不是偶然的巧合。相比之下，传统的同质化专家方法在不同训练条件下的表现变化很大，就像那八个相同技能的厨师在不同环境下可能会产生完全不同的协作效果。

在计算效率方面，MoA方法的优势更加明显。稀疏MoA通过智能的专家选择机制，平均只需要激活原本专家数量的60%左右，却几乎没有性能损失。这就像一个聪明的餐厅经理，能够根据订单的复杂程度精确调配人员，既保证了菜品质量，又最大化了人员利用效率。

研究团队还特别关注了方法的实际应用价值。他们发现，随着批处理大小的增加，稀疏MoA的计算优势变得更加明显。在小批量处理时，由于需要进行专家选择的额外计算，稀疏MoA的速度优势并不明显；但在大批量处理时，这种动态选择机制带来的计算节省远超过了额外开销，使得整体效率显著提升。

从技术创新的角度来看，MoA方法的最大贡献在于突破了传统"同质化专家"的思维局限。它证明了在AI训练中，多样性比数量更重要——与其雇佣更多相同技能的专家，不如组建一个技能互补的小团队。这种设计理念不仅提升了性能，还大大提高了资源利用效率。

值得注意的是，MoA方法在路由机制的设计上也有独到之处。传统的专家混合方法通常使用softmax激活函数，这会强制各专家之间形成竞争关系——一个专家权重的增加必然导致其他专家权重的减少。而MoA方法采用了sigmoid激活函数，允许专家之间进行协作而非竞争。这就像是鼓励厨师们相互配合做出更好的菜品，而不是让他们互相争夺表现机会。

在实际应用方面，研究团队还探讨了实例级路由和词汇级路由的区别。实例级路由就像是为每一桌客人指定一套固定的厨师组合，而词汇级路由则像是根据每道菜的每个步骤动态调整参与的厨师。实验证明，词汇级路由虽然计算复杂度更高，但能够提供更精细的专家分工，从而获得更好的效果。

研究团队通过可视化分析进一步揭示了MoA方法的工作原理。他们发现，不同类型的专家在处理不同类型的语言信息时表现出明显的偏好。例如，在处理数学推理任务时，LoRA专家在处理数字和运算符时更加活跃，而提示调优专家则在处理问题描述的自然语言部分发挥更大作用。这种专门化分工正是异构设计的核心价值所在。

从更广泛的影响来看，MoA方法的成功为参数高效微调领域开辟了新的研究方向。它表明，未来的AI训练方法应该更多地关注不同技术的互补性，而不是简单地扩大单一技术的规模。这种设计理念可能会影响未来大模型架构的发展方向。

研究团队也诚实地讨论了该方法的局限性。稀疏MoA在小批量处理时的计算开销问题，以及某些参数高效微调技术（如提示调优）与稀疏路由机制的兼容性问题，都是需要在后续研究中继续改进的方向。此外，如何进一步扩展异构专家的类型，以及如何在更大规模的模型上验证这种方法的有效性，也是值得探索的问题。

说到底，浙江大学团队的这项研究为我们提供了一个重要启示：在AI技术快速发展的今天，创新往往来自于对现有技术的巧妙组合，而不是完全从零开始的发明。通过将不同的参数高效微调技术有机结合，MoA方法不仅提升了性能，还提高了效率，为未来大模型的实用化部署提供了有价值的技术路径。

归根结底，这项研究证明了一个朴素而深刻的道理：团队合作的力量不在于成员数量的多少，而在于成员技能的多样性和互补性。就像一个优秀的烹饪团队需要不同专长的厨师相互配合一样，未来的AI系统也需要不同类型的"专家模块"协同工作，才能在复杂多变的任务中发挥出最佳性能。这种异构专家混合的设计理念，可能会成为下一代AI系统架构设计的重要指导原则。

对于普通读者而言，这项研究的意义在于它让我们看到了AI技术变得更加高效和实用的可能性。随着类似技术的不断发展和完善，未来我们可能会看到更多能够以更低成本提供更好服务的AI应用，从而让人工智能技术真正惠及更广泛的用户群体。有兴趣深入了解技术细节的读者，可以访问研究团队在GitHub上开源的项目页面，或者查阅发表在arXiv平台上的完整论文。

人工智能参数高效微调异构专家混合

分享至