微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 普林斯顿大学找到了让AI大脑"专注工作"的方法——告别每秒换专家的混乱状态

普林斯顿大学找到了让AI大脑"专注工作"的方法——告别每秒换专家的混乱状态

2026-05-04 14:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-04 14:47 科技行者

这项由普林斯顿大学领导的研究发表于2026年4月,论文编号为arXiv:2604.20156v1,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**AI也有"注意力不集中"的毛病**

你有没有见过那种做事特别没效率的员工?每隔几秒钟就换一个工作方式,刚拿起锤子又放下去,转头用螺丝刀,再换成扳手——尽管一直在"工作",却因为频繁切换工具而耗费了大量时间和精力。现代最先进的人工智能模型,也有类似的问题。

今天我们要聊的,正是普林斯顿大学两位研究者发现并解决这个问题的方法。他们的核心思路来自强化学习领域一个有趣的概念,最终让AI模型的"专家切换频率"从超过50%骤降至不足5%,同时几乎不损失原有能力。

**一、为什么AI需要那么多"专家"?**

要理解这项研究,先从头说起。现代大型语言模型(也就是那种能聊天、写代码、解数学题的AI)的规模已经大到令人咋舌。以GPT系列和DeepSeek等为代表的前沿模型,参数量动辄数百亿甚至上千亿。但问题来了:这么大的模型,每次回答问题都要把所有参数全部运转一遍,那计算量和内存消耗将是灾难性的。

为了解决这个矛盾,工程师们想出了一个聪明办法,叫做"混合专家模型",英文缩写是MoE(Mixture of Experts)。核心思路是:把模型里的一大块计算能力分成许多个"专家"模块,每次处理一个词(token)时,不需要动用所有专家,只需激活其中一小部分就够了。

可以把这个机制类比成一家超级大的医院。医院里有成百上千名专科医生,但每个病人来看病时,只需要挂两三个科,不必把全院医生都叫来会诊。这样一来,医院接诊能力(相当于模型参数总量)可以很大,而每次真正出力工作的医生数量(相当于激活参数量)却很少,效率大幅提升。

举个实际数字的例子:GPT系列的gpt-oss-120b模型总参数量高达120亿,但每次处理一个词时,只激活其中约51亿参数。而Qwen3-Next-80B这个模型更夸张,总共有512个专家,但每次只激活10个。这种稀疏激活的设计,让模型在保持巨大容量的同时,大幅降低了计算开销。

**二、问题出在哪里:每次都换一批医生的混乱局面**

回到医院的比喻。现在的混合专家模型有个严重的习惯问题:病人每说一个字,系统就重新挑一批医生来处理。说完"我",换一批医生;说"最",又换一批;说"近",再换一批。整个会诊团队几乎每个字都在轮换。

研究团队测量了三个主流开源混合专家模型的"切换频率",结果令人吃惊。在gpt-oss-20b上,平均每处理两个词就要换一次专家组合,切换率高达94%到95%;gpt-oss-120b的切换率更高,接近99%;而Qwen3-Next-80B几乎是100%,也就是说,几乎每个词都要换一批全新的专家。

为什么这是个大问题?在理想情况下,如果你的电脑内存足够大,把所有专家都放在GPU上,随时取用,这倒也无所谓。但现实是,随着AI模型规模不断膨胀,专家数量越来越多,GPU内存根本放不下。一旦放不下,系统就必须把不用的专家"存到别处"(比如普通内存或硬盘),用到时再临时搬回来。

频繁切换专家,意味着系统需要不断地"搬来搬去",这个过程会产生大量的时间延迟,就像你每隔几秒钟就要去仓库换一套工具,效率自然很低。更糟糕的是,因为你不知道下一秒需要哪套工具,很难提前预备,"预取"优化几乎无从下手。

研究团队还指出,这个问题不仅仅影响推理(即AI回答问题时),在训练阶段同样棘手。训练时,每个词都可能路由到任意一个专家,所有专家的参数在前向和后向传播中都必须可访问,内存压力极大。此外,如果未来想要给模型持续扩充新的专家(以便学习新领域知识),频繁切换的设计也让这种扩展极为困难。

**三、解决思路:从强化学习里借来一把"定力钥匙"**

面对这个问题,普通的工程解决方案通常有两条路:一是"剪掉"一些专家,减少总数;二是设计更智能的缓存和预取策略,减少搬运的延迟。这两条路都有效,但都是在现有问题上打补丁,治标不治本。

普林斯顿的研究团队换了一个角度:能不能让AI模型自己学会"专心"——即在一段时间内坚持用同一批专家,不要那么频繁地换?

这个想法让他们联想到强化学习领域里一个叫做"选项框架"(Options Framework)的理论。在强化学习中,智能体(可以理解为学习做决策的AI)通常每走一步就做一个决策。但"选项框架"说:何不让智能体选择一个更高层次的"选项",然后在这个选项下持续行动好几步?只有当效果变差,或者切换的收益明显大于代价时,才切换到新的选项。

这就好比司机开车。一般的驾驶决策是每秒都在调整方向盘,但在高速公路直道行驶时,完全可以保持同一个方向盘角度开好几分钟,不需要每秒都重新决定"该打多少方向"。只有在弯道或者遇到特殊情况时,才需要真正切换状态。

在这个框架里,还有一个关键机制叫做"考量成本"(deliberation cost),可以理解为切换的"惩罚"。每次切换选项,都要支付一个固定的惩罚分数,这就迫使智能体只有在切换带来的收益能弥补惩罚时,才会选择切换。考量成本越高,AI就越倾向于坚持用同一批专家,切换频率就越低。

**四、把理论变成现实:控制器的设计**

理论很美好,但要真正把它塞进一个正在运行的大型语言模型里,需要一番工程设计。研究团队提出了"时序扩展混合专家模型"(Temporally Extended Mixture-of-Experts),并为此设计了一套轻量级的控制器系统。

整个机制的运作方式如下。对于模型里的每一层MoE层(混合专家层),系统为其单独配置一个小小的控制器模块。这个控制器就像一个"调度员",它的任务只有两件事:第一,判断当前激活的这批专家还能不能继续用;第二,如果不能继续用,应该换哪批新专家。

调度员做决策时需要参考两类信息。一类是"当前局面"——也就是模型在处理这个词之前,内部产生的一种高维表示(即隐藏状态,Hidden State),可以理解为模型对当前语境的"理解状态";另一类是"现在在用哪批专家",这用一个集合嵌入来表达,通过一种叫做DeepSets的编码器将当前专家组合映射成一个固定长度的向量。

将这两类信息拼接在一起,控制器里的"终止头"(Termination Head)就会输出一个0到1之间的数字,表示"现在该换专家了"的概率。系统随机采样,决定要不要真的换。如果决定换,另一个模块"选择头"(Selection Head)就会根据当前状态,从所有专家中挑选一批新的候选专家,挑选方式采用一种叫做Plackett-Luce分布的概率模型,确保挑选过程是可微分的(即可以用梯度反向传播来优化)。

整个控制器加上来的参数量很少,相对于整个大模型而言微乎其微,不会显著增加模型的计算量和内存占用。此外,为了确保模型原有的参数也能适应新的路由约束,研究团队还给模型的专家层和注意力层加了LoRA适配器——这是一种非常轻量的微调方式,只需要在原有参数旁边附加一小块低秩矩阵,参数量极少但效果显著。

**五、怎么训练这个控制器?**

设计好了控制器,下一步是训练它。这里有个核心问题:训练的目标是什么?

研究团队的目标很明确:在尽量减少专家切换的同时,让模型输出的质量尽可能接近原始没有任何约束的模型。换句话说,他们希望把原始的gpt-oss-20b"改造"成一个时序扩展版本,但不希望它因此变蠢。

为此,他们用原始模型作为"老师",把改造后的模型作为"学生",让学生尽量模仿老师的输出概率分布。具体来说,每个词的奖励信号是:如果学生的输出分布接近老师,就给正奖励;反之就给负奖励。这个奖励在数学上等价于反向KL散度(一种衡量两个概率分布相似程度的指标)的负值。

为了防止学生模型走捷径——比如一直重复输出少数几个词来降低损失——研究团队在采样时将学生模型和老师模型的分布按一定比例混合(混合比例τ=0.2,即80%来自学生,20%来自老师),并通过重要性权重来纠正采样偏差。

在梯度更新上,研究团队遵循了"选项-批评家"(Option-Critic)框架的A2OC算法,同时更新三类参数:批评家网络(负责评估当前局面和选项的价值)、控制器的终止头和选择头、以及模型本身的LoRA参数。考量成本η作为一个显式的惩罚项出现在终止梯度中,推动系统学会"忍住不换"。

**六、实验结果:真的有效,而且相当惊艳**

研究团队在4块NVIDIA H200 GPU(每块140GB显存)上展开了实验,训练数据使用了Nemotron后训练数据集v2,涵盖对话、代码、数学、理工科以及多语言等十个类别。

评估时,他们测试了三个代表性的基准:MATH(数学推理题集,每道题只有正确或错误两种结果)、MMLU(覆盖广泛知识领域的多项选择题)、以及MMMLU(MMLU的多语言版本,包括德语、西班牙语、法语、意大利语、日语等)。

当允许保留16个候选专家(即每次从32个专家中划定16个可用区间)、考量成本η=0.02时,改造后的模型在MATH上得到64.0%的正确率,而原始基础模型是71.5%。换句话说,牺牲了约7.5个百分点的数学能力,换来的是切换率从58.6%骤降至4.1%。在MMLU上,改造后得72.5%对比原始79.5%,损失约7个百分点;MMMLU得59.5%对比67.5%,损失约8个百分点。

相比之下,所有对照方法都表现极差。频率剪枝(保留最常被用到的专家)在MATH上只有53.5%;重建损失最小化(保留让输出最接近原始模型的专家组合)在MATH上只有51.5%;随机选择专家只有15%;结构化权重剪枝(Wanda方法)则只剩3.5%,几乎完全失去数学能力。而这些对照方法连切换率的概念都不存在,因为它们直接使用固定的专家子集,切换率本身无从比较。

当候选专家数量缩小到8个(从32个中只选8个可用)时,任务变得更困难,但改造后的模型依然显著优于所有对照方法。在η=0.02时,MATH得27.5%,MMLU得48.5%,MMMLU得39.0%;而所有剪枝对照方法在这个更严格设定下几乎全军覆没,Wanda方法三个基准全部得0分。

切换率的下降也随着考量成本η的增大而更加明显。η=0.02时,16专家设定的切换率约为4.1%;η=0.03时降至约1.3%;η=0.04时更低至约1.2%。这意味着模型可以在几乎不切换的状态下持续生成数十个词,才偶尔更新一次专家组合。

训练过程也表现出良好的稳定性。奖励曲线(衡量模型输出接近原始模型的程度)在训练过程中稳步上升,困惑度(衡量模型语言流畅程度的指标)也稳步下降,没有出现常见的崩溃或者输出退化问题。此外,研究团队还专门监测了"重复率"——即模型是否会陷入无休止地重复同一个词或句子的怪圈——结果显示,改造后的模型在整个训练过程中重复率保持稳定,没有出现这种失控情况。

相比之下,频率剪枝、重建损失最小化和随机选择等方法的模型输出,在给出的示例中呈现出大量乱码(整段整段的省略号和问号)或者无限重复同一个数学表达式的惨烈景象,显然已经完全失去正常语言能力。

**七、这个发现意味着什么?三大应用场景**

研究团队特别强调了这项技术在三个方向上的实际价值。

第一个是节省显存的推理服务。由于每次只需要在GPU上保留正在使用的那批候选专家,不需要随时待命所有专家,显存需求可以大幅缩减。以gpt-oss-20b为例,如果从32个专家缩减到只在GPU上保留16个,可以节省约4.7GB的显存(降低约37%);如果只保留8个,节省约7.1GB(降低约55%)。对于显存资源日益紧张的现实情况,这是非常实质性的改善。

第二个是训练时的分块策略。由于同一批专家在连续若干词之间保持不变,训练时可以把一个长序列切成若干"块",每块内部只需要激活该块对应的专家子集。不用的专家在这个块的前向和后向传播过程中可以暂时卸载,减少峰值显存占用。这对于在有限资源下训练大规模MoE模型,具有直接意义。

第三个是持续学习。当未来需要让模型适应新领域或新任务时,可以在不增加每次激活专家数量的前提下,往模型里添加新的专家模块。控制器会自然地学习在适当的时候路由到这些新专家。由于推理时的计算量(取决于激活专家数量)不变,整个系统可以持续扩充能力而不牺牲速度。

**八、研究局限与未来方向**

研究团队也坦诚地列举了这项工作的局限性。

目前的实验只是验证了"时序扩展路由是可以学习的,并且损失是可接受的",但并没有真正构建一个端到端的、能够真正省钱省时的推理系统。把理论潜力转化为实际的显存和延迟节省,需要大量的系统工程工作,这超出了当前研究的范围。

另外,控制器的设计是"每层独立运作"的,即每一个MoE层的控制器独立决定是否切换专家,不同层可能在不同的词位置切换。理想的显存优化场景是所有层同步切换,这样每次只需要一次性卸载和加载整个模型的专家组合,但这会让选项空间指数级膨胀,学习难度大幅提升。这个问题留给未来工作去解决。

此外,研究目前只在gpt-oss-20b这一个模型上进行了实验,且评估只覆盖了200道测试题的MATH、MMLU和MMMLU,没有涵盖代码生成、长篇指令跟随等其他重要能力维度。更全面的评估是未来工作的自然延伸。

还有一个有趣的开放问题:现在的控制器是通过后训练加上去的,如果在预训练阶段就把时序扩展性作为目标之一,从一开始就让模型学会"专注",会不会效果更好?自然语言本身天然有时序结构——话题、论点、推理链都会在一段时间内保持连贯——或许这种结构本来就和时序扩展的专家路由有内在的对应关系。

归根结底,这项研究做了一件很有价值的事:它指出了一个大家都忽视的问题(专家切换太频繁),找到了一个优雅的理论框架来建模和解决它(选项框架+考量成本),并在真实的大型模型上跑通了整套流程,给出了可量化的结果。这不是最终答案,但提供了一个清晰的方向和有力的初步证据。随着AI模型规模继续膨胀,这个问题只会变得越来越重要,这项工作的价值也会越来越凸显。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.20156v1找到完整论文,或者关注论文作者在普林斯顿大学的项目主页和代码仓库。

---

Q&A

Q1:混合专家模型(MoE)的专家切换频繁为什么会是个问题?

A:当模型规模超过GPU内存上限时,频繁切换专家意味着系统需要不断把不同批次的专家参数在GPU和普通内存之间来回搬运。这个搬运过程会产生显著的延迟,而且由于切换几乎无规律,系统无法提前预判下一步需要哪些专家,传统的"预取"优化手段几乎失效。频繁切换还让训练时的显存管理更加困难,所有专家参数必须随时可访问,峰值显存压力极大。

Q2:时序扩展混合专家模型训练时用的是什么奖励信号?

A:研究团队采用的是"自我蒸馏"方式。具体做法是把原始的、没有任何约束的gpt-oss-20b作为老师,改造后的模型作为学生,每个词的奖励信号是老师和学生输出概率的对数差值。当学生输出分布接近老师时,奖励为正;偏离越大,奖励越低。这个奖励在期望意义上等价于反向KL散度的负值,迫使学生模型尽量模仿老师的行为,从而在减少切换的同时保留原有能力。

Q3:考量成本参数η的大小对模型有什么影响?

A:η是调节切换频率和能力保留之间权衡的关键旋钮。η越大,控制器切换专家的"惩罚"越重,模型越倾向于坚持使用同一批专家,切换率越低,但同时也因为路由约束更严格,能力损失更大。在论文实验中,η=0.02对应切换率约4.1%、MATH准确率64.0%;η=0.04对应切换率约1.2%、MATH准确率降至55.0%。模型部署者可以根据具体的显存约束和性能要求来调整这个参数,找到合适的平衡点。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-