微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中国人民大学"给AI路由器做了次手术"——专门为大模型混合专家架构设计的全新路由器方案

中国人民大学"给AI路由器做了次手术"——专门为大模型混合专家架构设计的全新路由器方案

2026-06-18 14:05
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-18 14:05 科技行者

这项由中国人民大学高岭人工智能学院与腾讯大语言模型部门联合完成的研究,发表于2026年6月,论文编号为arXiv:2606.12397,有兴趣深入了解的读者可以通过这个编号查询完整论文。

**一个被忽视已久的"调度员问题"**

现代最强大的AI大模型,比如你每天用到的各种智能助手背后的引擎,很多都采用了一种叫做"混合专家"的架构。这个名字听起来很玄乎,但核心思路其实相当朴实:既然一个人不可能精通所有领域,那就组建一支专家团队——有的专家擅长理解语法,有的擅长处理数字,有的擅长理解常识——然后根据每个问题的特点,把它分派给最合适的专家去处理。

这种架构让模型可以在不消耗更多计算资源的前提下,拥有更强大的综合能力。DeepSeek、GPT等顶级大模型都在大量使用这种技术。

然而,在这套精密的分工体系里,有一个至关重要的角色长期以来被人忽视——那就是负责"分派任务"的调度员,在技术上称为"路由器"(Router)。路由器的工作听起来很简单:每当一段文字输入进来,它负责判断这段文字应该交给哪几位专家处理。但问题在于,这位调度员对每位专家的了解有多深?它手里拿着的那份"专家简历",是否真实准确地反映了每位专家的能力特长?

长期以来,研究者们设计路由器的方式,就像是随便给每位专家贴了一张名片,然后靠模型训练过程中的自然磨合,希望这张名片最终能变得准确。然而,没有任何明确的机制去保证这一点。中国人民大学的研究团队注意到了这个漏洞,并提出了一套名为"流形幂迭代"(Manifold Power Iteration,简称MPI)的路由器重设计方案,用一种数学上极为优雅的方式,让路由器真正"读懂"每一位专家。

**一、调度员的困境:名片上写的是什么?**

为了理解这项研究解决的问题,可以用一个生活中的场景来类比。假设你是一家大型咨询公司的前台接待,你的工作是把客户的咨询需求分配给公司里最合适的顾问。公司里有64位顾问,每个人都精通不同的领域。你手边有一张顾问花名册,上面有每个人的简介——这就相当于路由器里的"权重矩阵",每一行对应一位专家的"代理向量"。

你的判断逻辑是:把客户的需求(即输入的文字)和花名册上每位顾问的简介做对比,哪几位顾问的简介和这个需求最吻合,就把任务分给他们。这种对比在数学上叫做"内积"或"点积"。

问题就在这里——花名册上的简介,是怎么来的?在传统的混合专家模型里,这份简介是通过模型整体训练自然"涌现"出来的,没有任何明确的规则要求它必须准确反映顾问的实际能力。结果就是,一位实际上专精金融分析的顾问,他的简介可能只是模糊地写着"善于解决复杂问题"——这种描述太笼统,前台根据它做出的分配决策自然也会有所偏差。

从数学的角度说,每一位"专家"本质上是一个矩阵(一组参数),而调度员手里的那张"名片"只是一个向量(一行数字)。要用一个向量来概括一个矩阵,就必须问:这个矩阵最本质、最有代表性的特征是什么?

数学家们早就有了答案:一个矩阵最有代表性的方向,叫做它的"主奇异方向"(Principal Singular Direction)。你可以把它理解成,如果一个矩阵是一张椭圆形的地毯,那它的主奇异方向就是这张椭圆地毯最长的那条轴线的方向。这个方向承载了矩阵里最密集、最重要的信息。用这个方向来作为专家的"名片",在数学上是最优的选择。

中国人民大学的团队由此提出了一个核心主张:路由器里每一行的代理向量,都应该与对应专家矩阵的主奇异方向保持对齐。这就是MPI方案的根本动机。

**二、怎么找到矩阵的"最长轴":幂迭代的妙用**

找到矩阵的主奇异方向,标准的数学工具是"奇异值分解"(SVD)。这种方法可以精确地找到矩阵的每一条轴以及对应的重要程度,就像精确测量地毯每条轴的长度。然而,对一个大型神经网络来说,每次训练步骤都对每一位专家的矩阵做完整的奇异值分解,计算代价极为昂贵——这就好比每天上班前都要把整间办公室的家具精确测量一遍,显然不现实。

研究团队选择了一种轻量级的替代方案——"幂迭代"(Power Iteration)。这种方法的思路非常直觉化:如果你反复用一个矩阵去"揉搓"一个向量,这个向量最终会自然而然地朝着矩阵最主要的方向倒去,就像把一根随机放置的铁棒放在一个有方向的磁场里,它最终会顺着磁场方向躺平。

具体做法是:对于路由器里的第i行代理向量,先拿出对应第i号专家的权重矩阵,然后让代理向量"穿越"专家矩阵一次——先乘以专家矩阵,再乘以专家矩阵的转置。这个操作在数学上写作:

$\hat{R}_{[i]} = R_{[i]} W_g^i W_g^{i\top}$

这一步就是所谓的"幂"操作。每次训练都执行这个操作,积累足够多的步骤之后,代理向量就会越来越接近专家矩阵的主奇异方向。

然而,反复执行这个操作会带来一个副作用:向量的长度(L2范数)可能会不受控制地膨胀,就像反复揉搓橡皮泥,它会越来越大块。如果任由这种情况发展,训练过程会变得极不稳定,出现数值爆炸或崩溃。

为了应对这个问题,研究团队在每次幂操作之后,立即加入了一步"收缩"操作——把向量的长度强制归一化到一个由超参数C控制的固定值。这一步在数学上叫做"回缩"(Retraction),把向量拉回到一个固定半径的球面上,保证训练的数值稳定性。这两步操作合在一起,就构成了方法名字中"幂-后-回缩"(Power-then-Retract)范式,也就是"流形幂迭代"这个名字的来源。

关于超参数C应该取多大,研究团队也给出了一个有数学依据的设计原则。路由器的输出(logits)应该保持在一个稳定的量级,不能随着专家数量N的增加而爆炸。经过推导,C应该与$\frac{1}{\sqrt{N}}$成正比——专家越多,每个代理向量的"音量"就越小,这样所有专家叠加起来的总"噪音"才能保持平稳。具体实现中,定义$C = \frac{C'}{\sqrt{N}}$,其中$C'$是一个与专家数量无关的全局超参数,方便跨规模迁移使用。

**三、这套方案的数学灵魂:它在优化什么?**

研究团队不仅给出了操作方法,还从优化理论的角度,对这套方案的本质做了深入的数学解析。这部分内容乍看晦涩,但其核心思想其实颇为直观。

他们证明了:MPI的每一步更新,等价于在一个特殊约束下的"最速上升"优化。所谓约束,就是代理向量必须始终保持在一个固定大小的球面上(这正是回缩操作所保证的)。所谓"最速上升",就是每一步都朝着最大化"代理向量在专家矩阵行空间上的投影"这个目标,迈出最大可能的步伐。

在数学上,这个优化目标可以写成最大化瑞利商(Rayleigh Quotient):

$\max_{R_{[i]}} \phi(W_*^i, R_{[i]}) = \frac{\|R_{[i]} W_*^i\|_2^2}{\|R_{[i]}\|_2^2}$

这个式子的含义是:让代理向量在专家矩阵上的"投影面积"最大。当这个值达到最大时,代理向量恰好与专家矩阵的主奇异方向对齐。

更有趣的是,MPI的更新方式是一种"自适应步长"的优化。当代理向量还距离主奇异方向很远时,每步更新的步伐很大,更新很"积极";当代理向量已经接近对齐状态时,步伐会自动变小,更新变得更加"谨慎"。这种自适应机制保证了整个对齐过程既高效又稳健,不会因为步子迈得太大而越过目标。

研究团队还从SVD的角度给出了补充解释:经过足够多轮的幂迭代之后,向量会趋向专家矩阵的主奇异向量,而每次更新的方向则指向"当前代理向量与主奇异向量之间的残差"——也就是说,每一步都在修正代理向量的偏差,逐步把它旋转到正确的方向上。

**四、实验怎么做的:从1B到11B的全面检验**

任何理论上的优雅,都需要经过实验的检验。研究团队设计了一系列由小到大的预训练实验,来验证MPI在实践中的效果。

第一组实验在1B参数规模的混合专家模型上进行,目的是验证MPI是否是一种与优化器无关的通用改进。研究团队使用了四种不同的优化器:AdamW(最经典的大模型训练优化器)、Muon(一种较新的、基于动量正交化的优化器)、以及它们各自对应的"超球面"变体AdamH和MuonH。这四种优化器在参数更新的哲学上有显著差异,是很好的对照组。

结果是,在所有四种优化器下,加入MPI的模型相比不加MPI的基线模型,都取得了更低的训练损失和更好的下游任务表现。以MuonH为例,MPI带来了0.013的训练损失降低,在涵盖25个基准测试的平均准确率上,从42.78%提升到43.98%。这种一致性表明,MPI是路由器设计层面的本质改进,而不是依赖某种特定优化器的技巧。

基于1B规模的验证结果,研究团队进一步将实验扩展到3B和11B两个更大规模。所有模型在FineWeb-Edu数据集上预训练3500亿个token,再在Olmo-3的数据集上进行100亿token的中期训练。

在11B规模的收敛曲线对比中,加入MPI的模型始终保持训练损失的优势,并且这种优势随着训练进行没有消失——事实上,MPI模型实现了约1.04倍的等效训练加速,也就是说,用更少的数据就能达到基线模型需要更多数据才能达到的性能水平。

在下游任务的评测中,结果同样令人信服。以3B规模为例,在ARC-Challenge(科学推理)、MMLU(多领域知识)、TriviaQA(问答)、NaturalQuestions(开放问答)、BBH(逻辑推理)、GSM8K(数学应用题)、MBPP(代码生成)等多个具有代表性的测试上,MPI版本都超过了基线版本,综合平均准确率从36.37%提升到38.70%。11B规模下,平均准确率从40.92%提升到42.76%。

在语言建模的困惑度(PPL,越低越好)指标上,无论是通用验证集、数学专项集还是代码专项集,MPI版本都取得了更低的困惑度,说明它的改进是全面的,并非专注于某类任务而牺牲另一类。

**五、意外的惊喜:负载均衡也变好了**

除了预期的性能提升,研究团队还发现了一个意外的收获:MPI对模型的"负载均衡"有积极影响。

在混合专家系统里,负载均衡是一个长期令工程师头疼的问题。理想状态下,所有专家应该被大致均等地使用——每个专家都有事做,没有人被过度使用或闲置。但在实际训练中,路由器往往会形成"偏好",把大量任务集中分配给少数几位专家,导致负载不均,既浪费了其他专家的能力,也可能让热门专家过载。

研究人员观察到,在引入MPI之后,模型的负载均衡损失(一种专门衡量分配均匀程度的指标)在训练早期急剧下降,并在此后一直保持在较低水平。更严格的衡量指标MaxVio(最大违规量,衡量最不均衡的极端情况)同样显示,MPI版本的负载分布更加均匀:批次内最大违规量从1.133降至1.024,全局最大违规量从0.964降至0.711。

研究团队推测,这种负载均衡的改善,可能与回缩操作有关——将每个代理向量的范数归一化到同一量级,消除了不同专家之间因向量"音量"不同而产生的天然偏好。当所有专家的代理向量都处于同一"音量"时,路由器对不同专家的偏爱程度就更加公平,分配也就更加均衡。不过研究团队也坦承,这背后的机制还需要更深入的研究,留作未来工作。

**六、拆解设计:每个零件都不可或缺**

任何一套方案里都可能有"关键零件"和"可有可无的零件"。研究团队通过消融实验(系统性地移除某个组件,观察性能变化),验证了MPI两个核心设计的必要性。

第一组对照:只保留回缩,去掉幂迭代。也就是说,只对路由器的原始权重做行归一化,而不做幂迭代。结果是,这个变体的性能与原始的基线模型几乎没有区别,说明单纯的归一化并不能带来性能提升——性能的提升来自幂迭代带来的方向对齐,而不是归一化本身。

第二组对照:只保留幂迭代,去掉回缩。这个变体在使用AdamW和Muon优化器时会出现明显的训练不稳定现象——损失出现尖峰波动,梯度出现异常。即使换用具有内置权重约束的超球面优化器(AdamH和MuonH),训练虽然可以进行,但相比完整的MPI方案,预训练损失也会升高约0.003。这说明回缩操作不只是"锦上添花",而是维持训练稳定性的必要保障,尤其对于缺乏权重约束的优化器来说更是不可或缺。

研究团队还验证了超参数C'的敏感性。在一组使用256个专家的小规模模型上,对C'取1、2、4、8进行了网格搜索,发现验证集困惑度在C'=4时最优(0.8533),但即便是最差的C'=1(0.8896),也比不使用MPI的基线(0.8884)好。这说明MPI的改进效果对超参数的选择相当稳健,不需要精确调参就能发挥作用。

此外,研究团队还探索了对哪个专家子矩阵做幂迭代的效果最好。混合专家模块的每个专家由三个子矩阵组成($W_g$、$W_p$、$W_o$),研究发现三者之间没有显著差异,最终选用$W_g$作为默认,因为它在当前实验设置下有轻微优势。

**七、与其他技术的兼容性:一个好配角**

MPI的一个重要特性是,它修改的只是路由器权重的计算方式,而不改变路由器的基本接口(输入输出格式不变)。这意味着它理论上可以与大多数其他路由器改进方案并行使用。

研究团队验证了两种典型的兼容性场景。一是与辅助损失函数的兼容性——在标准混合专家训练中,通常会额外加入"负载均衡损失"和"路由器z-loss"等辅助项来引导路由行为。实验表明,MPI与这些辅助损失兼容良好,加入z-loss后下游任务平均准确率还额外提升了0.68个百分点。二是与不同激活函数的兼容性——默认使用Softmax激活,切换为Sigmoid激活后,训练损失优势有所收窄,但下游性能仍然改善(从41.64%到42.05%),说明MPI在不同激活函数下均有效。

**八、验证对齐效果:数字说话**

既然MPI的核心主张是提高路由器与专家之间的对齐程度,研究团队自然也需要直接测量这种对齐是否真的发生了。

他们定义了一个叫做λ的指标,衡量代理向量投影到专家矩阵上的归一化得分——λ越接近1,说明代理向量与专家矩阵的主奇异方向越对齐;λ越接近0,说明两者几乎无关。

对比结果非常清晰。在普通混合专家模型中,从第1层到第12层,λ的均值大约在0.22到0.37之间——代理向量与专家矩阵的主奇异方向几乎没有特别的关联。而在MPI版本中,λ的均值大约在0.62到0.70之间,几乎是基线模型的两倍多。这直接证实了MPI确实有效地将路由器代理向量导向了专家矩阵的主奇异方向。

研究团队还测试了"如果把幂迭代次数从1次增加到10次,会不会更好?"的问题。答案是否定的:10次幂迭代让吞吐量下降了5%,但既没有带来更好的训练收敛,下游平均准确率反而下降了1.39个百分点。这表明,单次幂迭代所带来的方向引导已经足够,而过于激进的对齐反而会干扰路由器优化的稳定性。

**九、效率:几乎免费的性能提升**

对于工业界来说,任何方法能否落地,效率是绕不开的话题。研究团队对MPI的计算开销进行了细致分析。

在11B规模的预训练实验中,原始混合专家模型的吞吐量是每天349.7亿个token,而加入MPI后,吞吐量下降幅度仅为0.2%——几乎可以忽略不计。从直觉上理解,MPI在每个训练步骤里额外计算的工作量,相当于处理N个额外的token,而实际训练中每批次包含的token数量远远多于这个量。MPI不引入任何额外的通信开销,也不与现有的训练框架产生冲突。

更重要的是,在推理阶段,MPI的代理向量可以在模型加载时一次性计算完成,存储下来直接使用,推理期间完全没有额外开销。这意味着已经部署好的推理引擎无需任何修改,就可以直接运行MPI训练出的模型。

归根结底,MPI提供的是一种几乎不需要付出额外代价的系统性改进。它不改变模型的基本结构,不增加推理复杂度,只是在训练中加入了一个轻量级的方向修正机制,却带来了可观的性能提升、更好的负载均衡,以及更稳定的训练过程。

这背后的道理其实朴实:当你给系统中一个长期被忽视的组件——调度员——配上了更准确的专家简历,整个系统的协作自然会变得更高效。专家被派去做他们真正擅长的事情,任务完成的质量也就随之提升。

当然,研究团队也诚实地指出了一些尚未解答的问题:回缩操作改善负载均衡的深层机制还需要探索;多个专家子矩阵组合用于幂迭代的潜力还没有被充分挖掘;在更大规模(比如数千亿参数)上的表现还有待验证。这些都是值得继续深入研究的方向。

对大型语言模型感兴趣的读者,无论是研究者还是工程师,都可以通过arXiv编号2606.12397找到完整论文,查阅详细的推导过程、实验配置和扩展结果。

---

Q&A

Q1:混合专家模型里的路由器具体是什么,它为什么重要?

A:混合专家模型里包含多个功能各异的"专家"子网络,路由器的作用是决定每段输入文字应该交给哪几位专家处理。路由器本质上是一个矩阵,它的每一行代表一位专家的"特征向量",通过计算输入与每行的相似度来判断分配方向。路由器的判断质量直接影响整个模型的效率和能力——如果路由器的专家简介不准确,分配就会出现偏差,专家的能力也就无法被充分发挥。

Q2:流形幂迭代为什么只做一次幂迭代而不是多次?

A:研究团队实验发现,把幂迭代次数从1次增加到10次,吞吐量下降5%,但预训练损失反而上升了0.002到0.003,下游平均准确率也下降了约1.39个百分点。原因在于,单次幂迭代提供的方向引导已经足够推动代理向量朝着主奇异方向收敛,而过于频繁的强制对齐会破坏路由器优化的自由度,干扰训练的整体稳定性。一次迭代是效率与稳健性之间的最优平衡点。

Q3:MPI方案对推理阶段有没有速度影响?

A:完全没有推理开销。MPI修改的代理向量(即经过幂迭代和回缩处理的路由器权重)可以在模型加载到内存时一次性计算好并直接存储,推理过程中直接使用预计算的结果,和普通路由器的推理流程完全相同。现有的任何推理引擎不需要做任何修改,就可以直接运行使用MPI训练出来的混合专家模型。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-