微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

普林斯顿大学找到了让AI大脑"专注工作"的方法——告别每秒换专家的混乱状态

大型语言模型混合专家模型专家路由优化

普林斯顿大学找到了让AI大脑"专注工作"的方法——告别每秒换专家的混乱状态

作者：科技行者

2026-05-04 14:47

分享至：

这项由普林斯顿大学发布于2026年4月（arXiv:2604.20156）的研究，针对混合专家模型（MoE）中专家切换过于频繁的问题，提出了"时序扩展混合专家模型"方案。研究借鉴强化学习中的选项框架与考量成本机制，为每个MoE层添加轻量级控制器，让模型学会在一段时间内坚持使用同一批专家，只在必要时才切换。在gpt-oss-20b上的实验表明，切换率可从约58%降至4%以下，同时保留约90%的原始能力，显著优于各类专家剪枝基线方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 14:47 • 科技行者

这项由普林斯顿大学领导的研究发表于2026年4月，论文编号为arXiv:2604.20156v1，有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**AI也有"注意力不集中"的毛病**

你有没有见过那种做事特别没效率的员工？每隔几秒钟就换一个工作方式，刚拿起锤子又放下去，转头用螺丝刀，再换成扳手——尽管一直在"工作"，却因为频繁切换工具而耗费了大量时间和精力。现代最先进的人工智能模型，也有类似的问题。

今天我们要聊的，正是普林斯顿大学两位研究者发现并解决这个问题的方法。他们的核心思路来自强化学习领域一个有趣的概念，最终让AI模型的"专家切换频率"从超过50%骤降至不足5%，同时几乎不损失原有能力。

**一、为什么AI需要那么多"专家"？**

要理解这项研究，先从头说起。现代大型语言模型（也就是那种能聊天、写代码、解数学题的AI）的规模已经大到令人咋舌。以GPT系列和DeepSeek等为代表的前沿模型，参数量动辄数百亿甚至上千亿。但问题来了：这么大的模型，每次回答问题都要把所有参数全部运转一遍，那计算量和内存消耗将是灾难性的。

为了解决这个矛盾，工程师们想出了一个聪明办法，叫做"混合专家模型"，英文缩写是MoE（Mixture of Experts）。核心思路是：把模型里的一大块计算能力分成许多个"专家"模块，每次处理一个词（token）时，不需要动用所有专家，只需激活其中一小部分就够了。

可以把这个机制类比成一家超级大的医院。医院里有成百上千名专科医生，但每个病人来看病时，只需要挂两三个科，不必把全院医生都叫来会诊。这样一来，医院接诊能力（相当于模型参数总量）可以很大，而每次真正出力工作的医生数量（相当于激活参数量）却很少，效率大幅提升。

举个实际数字的例子：GPT系列的gpt-oss-120b模型总参数量高达120亿，但每次处理一个词时，只激活其中约51亿参数。而Qwen3-Next-80B这个模型更夸张，总共有512个专家，但每次只激活10个。这种稀疏激活的设计，让模型在保持巨大容量的同时，大幅降低了计算开销。

**二、问题出在哪里：每次都换一批医生的混乱局面**

回到医院的比喻。现在的混合专家模型有个严重的习惯问题：病人每说一个字，系统就重新挑一批医生来处理。说完"我"，换一批医生；说"最"，又换一批；说"近"，再换一批。整个会诊团队几乎每个字都在轮换。

研究团队测量了三个主流开源混合专家模型的"切换频率"，结果令人吃惊。在gpt-oss-20b上，平均每处理两个词就要换一次专家组合，切换率高达94%到95%；gpt-oss-120b的切换率更高，接近99%；而Qwen3-Next-80B几乎是100%，也就是说，几乎每个词都要换一批全新的专家。

为什么这是个大问题？在理想情况下，如果你的电脑内存足够大，把所有专家都放在GPU上，随时取用，这倒也无所谓。但现实是，随着AI模型规模不断膨胀，专家数量越来越多，GPU内存根本放不下。一旦放不下，系统就必须把不用的专家"存到别处"（比如普通内存或硬盘），用到时再临时搬回来。

频繁切换专家，意味着系统需要不断地"搬来搬去"，这个过程会产生大量的时间延迟，就像你每隔几秒钟就要去仓库换一套工具，效率自然很低。更糟糕的是，因为你不知道下一秒需要哪套工具，很难提前预备，"预取"优化几乎无从下手。

研究团队还指出，这个问题不仅仅影响推理（即AI回答问题时），在训练阶段同样棘手。训练时，每个词都可能路由到任意一个专家，所有专家的参数在前向和后向传播中都必须可访问，内存压力极大。此外，如果未来想要给模型持续扩充新的专家（以便学习新领域知识），频繁切换的设计也让这种扩展极为困难。

**三、解决思路：从强化学习里借来一把"定力钥匙"**

面对这个问题，普通的工程解决方案通常有两条路：一是"剪掉"一些专家，减少总数；二是设计更智能的缓存和预取策略，减少搬运的延迟。这两条路都有效，但都是在现有问题上打补丁，治标不治本。

普林斯顿的研究团队换了一个角度：能不能让AI模型自己学会"专心"——即在一段时间内坚持用同一批专家，不要那么频繁地换？

这个想法让他们联想到强化学习领域里一个叫做"选项框架"（Options Framework）的理论。在强化学习中，智能体（可以理解为学习做决策的AI）通常每走一步就做一个决策。但"选项框架"说：何不让智能体选择一个更高层次的"选项"，然后在这个选项下持续行动好几步？只有当效果变差，或者切换的收益明显大于代价时，才切换到新的选项。

这就好比司机开车。一般的驾驶决策是每秒都在调整方向盘，但在高速公路直道行驶时，完全可以保持同一个方向盘角度开好几分钟，不需要每秒都重新决定"该打多少方向"。只有在弯道或者遇到特殊情况时，才需要真正切换状态。

在这个框架里，还有一个关键机制叫做"考量成本"（deliberation cost），可以理解为切换的"惩罚"。每次切换选项，都要支付一个固定的惩罚分数，这就迫使智能体只有在切换带来的收益能弥补惩罚时，才会选择切换。考量成本越高，AI就越倾向于坚持用同一批专家，切换频率就越低。

**四、把理论变成现实：控制器的设计**

理论很美好，但要真正把它塞进一个正在运行的大型语言模型里，需要一番工程设计。研究团队提出了"时序扩展混合专家模型"（Temporally Extended Mixture-of-Experts），并为此设计了一套轻量级的控制器系统。

整个机制的运作方式如下。对于模型里的每一层MoE层（混合专家层），系统为其单独配置一个小小的控制器模块。这个控制器就像一个"调度员"，它的任务只有两件事：第一，判断当前激活的这批专家还能不能继续用；第二，如果不能继续用，应该换哪批新专家。

调度员做决策时需要参考两类信息。一类是"当前局面"——也就是模型在处理这个词之前，内部产生的一种高维表示（即隐藏状态，Hidden State），可以理解为模型对当前语境的"理解状态"；另一类是"现在在用哪批专家"，这用一个集合嵌入来表达，通过一种叫做DeepSets的编码器将当前专家组合映射成一个固定长度的向量。

将这两类信息拼接在一起，控制器里的"终止头"（Termination Head）就会输出一个0到1之间的数字，表示"现在该换专家了"的概率。系统随机采样，决定要不要真的换。如果决定换，另一个模块"选择头"（Selection Head）就会根据当前状态，从所有专家中挑选一批新的候选专家，挑选方式采用一种叫做Plackett-Luce分布的概率模型，确保挑选过程是可微分的（即可以用梯度反向传播来优化）。

整个控制器加上来的参数量很少，相对于整个大模型而言微乎其微，不会显著增加模型的计算量和内存占用。此外，为了确保模型原有的参数也能适应新的路由约束，研究团队还给模型的专家层和注意力层加了LoRA适配器——这是一种非常轻量的微调方式，只需要在原有参数旁边附加一小块低秩矩阵，参数量极少但效果显著。

**五、怎么训练这个控制器？**

设计好了控制器，下一步是训练它。这里有个核心问题：训练的目标是什么？

研究团队的目标很明确：在尽量减少专家切换的同时，让模型输出的质量尽可能接近原始没有任何约束的模型。换句话说，他们希望把原始的gpt-oss-20b"改造"成一个时序扩展版本，但不希望它因此变蠢。

为此，他们用原始模型作为"老师"，把改造后的模型作为"学生"，让学生尽量模仿老师的输出概率分布。具体来说，每个词的奖励信号是：如果学生的输出分布接近老师，就给正奖励；反之就给负奖励。这个奖励在数学上等价于反向KL散度（一种衡量两个概率分布相似程度的指标）的负值。

为了防止学生模型走捷径——比如一直重复输出少数几个词来降低损失——研究团队在采样时将学生模型和老师模型的分布按一定比例混合（混合比例τ=0.2，即80%来自学生，20%来自老师），并通过重要性权重来纠正采样偏差。

在梯度更新上，研究团队遵循了"选项-批评家"（Option-Critic）框架的A2OC算法，同时更新三类参数：批评家网络（负责评估当前局面和选项的价值）、控制器的终止头和选择头、以及模型本身的LoRA参数。考量成本η作为一个显式的惩罚项出现在终止梯度中，推动系统学会"忍住不换"。

**六、实验结果：真的有效，而且相当惊艳**

研究团队在4块NVIDIA H200 GPU（每块140GB显存）上展开了实验，训练数据使用了Nemotron后训练数据集v2，涵盖对话、代码、数学、理工科以及多语言等十个类别。

评估时，他们测试了三个代表性的基准：MATH（数学推理题集，每道题只有正确或错误两种结果）、MMLU（覆盖广泛知识领域的多项选择题）、以及MMMLU（MMLU的多语言版本，包括德语、西班牙语、法语、意大利语、日语等）。

当允许保留16个候选专家（即每次从32个专家中划定16个可用区间）、考量成本η=0.02时，改造后的模型在MATH上得到64.0%的正确率，而原始基础模型是71.5%。换句话说，牺牲了约7.5个百分点的数学能力，换来的是切换率从58.6%骤降至4.1%。在MMLU上，改造后得72.5%对比原始79.5%，损失约7个百分点；MMMLU得59.5%对比67.5%，损失约8个百分点。

相比之下，所有对照方法都表现极差。频率剪枝（保留最常被用到的专家）在MATH上只有53.5%；重建损失最小化（保留让输出最接近原始模型的专家组合）在MATH上只有51.5%；随机选择专家只有15%；结构化权重剪枝（Wanda方法）则只剩3.5%，几乎完全失去数学能力。而这些对照方法连切换率的概念都不存在，因为它们直接使用固定的专家子集，切换率本身无从比较。

当候选专家数量缩小到8个（从32个中只选8个可用）时，任务变得更困难，但改造后的模型依然显著优于所有对照方法。在η=0.02时，MATH得27.5%，MMLU得48.5%，MMMLU得39.0%；而所有剪枝对照方法在这个更严格设定下几乎全军覆没，Wanda方法三个基准全部得0分。

切换率的下降也随着考量成本η的增大而更加明显。η=0.02时，16专家设定的切换率约为4.1%；η=0.03时降至约1.3%；η=0.04时更低至约1.2%。这意味着模型可以在几乎不切换的状态下持续生成数十个词，才偶尔更新一次专家组合。

训练过程也表现出良好的稳定性。奖励曲线（衡量模型输出接近原始模型的程度）在训练过程中稳步上升，困惑度（衡量模型语言流畅程度的指标）也稳步下降，没有出现常见的崩溃或者输出退化问题。此外，研究团队还专门监测了"重复率"——即模型是否会陷入无休止地重复同一个词或句子的怪圈——结果显示，改造后的模型在整个训练过程中重复率保持稳定，没有出现这种失控情况。

相比之下，频率剪枝、重建损失最小化和随机选择等方法的模型输出，在给出的示例中呈现出大量乱码（整段整段的省略号和问号）或者无限重复同一个数学表达式的惨烈景象，显然已经完全失去正常语言能力。

**七、这个发现意味着什么？三大应用场景**

研究团队特别强调了这项技术在三个方向上的实际价值。

第一个是节省显存的推理服务。由于每次只需要在GPU上保留正在使用的那批候选专家，不需要随时待命所有专家，显存需求可以大幅缩减。以gpt-oss-20b为例，如果从32个专家缩减到只在GPU上保留16个，可以节省约4.7GB的显存（降低约37%）；如果只保留8个，节省约7.1GB（降低约55%）。对于显存资源日益紧张的现实情况，这是非常实质性的改善。

第二个是训练时的分块策略。由于同一批专家在连续若干词之间保持不变，训练时可以把一个长序列切成若干"块"，每块内部只需要激活该块对应的专家子集。不用的专家在这个块的前向和后向传播过程中可以暂时卸载，减少峰值显存占用。这对于在有限资源下训练大规模MoE模型，具有直接意义。

第三个是持续学习。当未来需要让模型适应新领域或新任务时，可以在不增加每次激活专家数量的前提下，往模型里添加新的专家模块。控制器会自然地学习在适当的时候路由到这些新专家。由于推理时的计算量（取决于激活专家数量）不变，整个系统可以持续扩充能力而不牺牲速度。

**八、研究局限与未来方向**

研究团队也坦诚地列举了这项工作的局限性。

目前的实验只是验证了"时序扩展路由是可以学习的，并且损失是可接受的"，但并没有真正构建一个端到端的、能够真正省钱省时的推理系统。把理论潜力转化为实际的显存和延迟节省，需要大量的系统工程工作，这超出了当前研究的范围。

另外，控制器的设计是"每层独立运作"的，即每一个MoE层的控制器独立决定是否切换专家，不同层可能在不同的词位置切换。理想的显存优化场景是所有层同步切换，这样每次只需要一次性卸载和加载整个模型的专家组合，但这会让选项空间指数级膨胀，学习难度大幅提升。这个问题留给未来工作去解决。

此外，研究目前只在gpt-oss-20b这一个模型上进行了实验，且评估只覆盖了200道测试题的MATH、MMLU和MMMLU，没有涵盖代码生成、长篇指令跟随等其他重要能力维度。更全面的评估是未来工作的自然延伸。

还有一个有趣的开放问题：现在的控制器是通过后训练加上去的，如果在预训练阶段就把时序扩展性作为目标之一，从一开始就让模型学会"专注"，会不会效果更好？自然语言本身天然有时序结构——话题、论点、推理链都会在一段时间内保持连贯——或许这种结构本来就和时序扩展的专家路由有内在的对应关系。

归根结底，这项研究做了一件很有价值的事：它指出了一个大家都忽视的问题（专家切换太频繁），找到了一个优雅的理论框架来建模和解决它（选项框架+考量成本），并在真实的大型模型上跑通了整套流程，给出了可量化的结果。这不是最终答案，但提供了一个清晰的方向和有力的初步证据。随着AI模型规模继续膨胀，这个问题只会变得越来越重要，这项工作的价值也会越来越凸显。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.20156v1找到完整论文，或者关注论文作者在普林斯顿大学的项目主页和代码仓库。

---

Q&A

Q1：混合专家模型（MoE）的专家切换频繁为什么会是个问题？

A：当模型规模超过GPU内存上限时，频繁切换专家意味着系统需要不断把不同批次的专家参数在GPU和普通内存之间来回搬运。这个搬运过程会产生显著的延迟，而且由于切换几乎无规律，系统无法提前预判下一步需要哪些专家，传统的"预取"优化手段几乎失效。频繁切换还让训练时的显存管理更加困难，所有专家参数必须随时可访问，峰值显存压力极大。

Q2：时序扩展混合专家模型训练时用的是什么奖励信号？

A：研究团队采用的是"自我蒸馏"方式。具体做法是把原始的、没有任何约束的gpt-oss-20b作为老师，改造后的模型作为学生，每个词的奖励信号是老师和学生输出概率的对数差值。当学生输出分布接近老师时，奖励为正；偏离越大，奖励越低。这个奖励在期望意义上等价于反向KL散度的负值，迫使学生模型尽量模仿老师的行为，从而在减少切换的同时保留原有能力。

Q3：考量成本参数η的大小对模型有什么影响？

A：η是调节切换频率和能力保留之间权衡的关键旋钮。η越大，控制器切换专家的"惩罚"越重，模型越倾向于坚持使用同一批专家，切换率越低，但同时也因为路由约束更严格，能力损失更大。在论文实验中，η=0.02对应切换率约4.1%、MATH准确率64.0%；η=0.04对应切换率约1.2%、MATH准确率降至55.0%。模型部署者可以根据具体的显存约束和性能要求来调整这个参数，找到合适的平衡点。

大型语言模型混合专家模型专家路由优化

分享至