微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学联手上海AI Lab:让大模型"聪明地偷懒",推理速度提升20%

清华大学联手上海AI Lab:让大模型"聪明地偷懒",推理速度提升20%

2026-05-25 13:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-25 13:46 科技行者

这项由清华大学、上海人工智能实验室、微信AI、快手科技和Frontis.AI联合完成的研究,于2026年5月发表在预印本平台arXiv上,论文编号为arXiv:2605.18643。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你打开手机上的AI助手,问它一道简单的数学题,和让它帮你写一篇复杂的技术报告,背后消耗的计算资源其实可以差异巨大。然而,现有的大多数AI系统并不懂得"量力而行"——无论多简单的问题,它都会调动全部"大脑"来处理,这就好比每次你想切一个苹果,都要把厨房里所有的刀具、砧板、厨师全部叫来待命,不仅浪费,还占据了别人使用厨房的机会。

这正是研究团队想要解决的核心问题:如何让已经训练完毕的AI模型学会"看情况出力",对简单的任务少调用一些计算资源,对复杂的任务再全力以赴?他们给出的方案叫做**ZEDA**,全称"零专家自蒸馏适配"(Zero-Expert Self-Distillation Adaptation)。这个方案让参与测试的两款大模型在处理任务时跳过了超过一半的计算步骤,推理速度提升约20%,而回答质量几乎没有下降。

要理解这项研究究竟做了什么,需要先了解现代大模型内部的一种特殊结构,以及研究团队如何在不重新"从头培训"模型的前提下,给它装上了一套"智能节能开关"。

---

一、大模型内部的"专家会议室"

现代顶尖的AI语言模型,比如你可能听说过的DeepSeek、Qwen(通义千问)或GLM,内部并非铁板一块。它们普遍采用一种叫做"专家混合"(Mixture of Experts,简称MoE)的架构。可以把这种架构想象成一家大型咨询公司,公司里有很多专业方向各异的顾问——有擅长数学的、有精通代码的、有熟悉语言翻译的。每次接到一个任务,公司的"前台调度员"(路由器,Router)会迅速判断,从所有顾问里挑出最合适的几位来参与这个项目,其他人则继续待命不参与。

这种安排的好处显而易见:模型整体的"知识储备"可以做得非常庞大(公司里可以养很多顾问),但每次处理一个具体请求时,实际动用的计算资源却相对有限(只需要少数几位顾问开会)。以本文研究的Qwen3-30B-A3B模型为例,它内部有128位"正式顾问"(专家),每次处理一个词元(token,可以理解为一个词或一个字)时,只会叫出其中8位来参与计算。

然而,这套"固定叫8位顾问"的规则是死板的。无论你问的是"1+1等于几"还是"请帮我推导广义相对论的场方程",模型都会不偏不倚地叫出8位顾问。这就是"静态MoE"的局限——它无法根据任务的难易程度灵活调整投入的计算量。

研究者们一直在思考:能不能让模型学会"偷懒"?遇到简单的词,比如代码里重复出现的括号、数学公式里的等号,能不能叫5位顾问甚至3位顾问就搞定,把节省出来的资源留给真正需要动脑筋的地方?这就是"动态MoE"的思路。

以往实现动态MoE的方法,要么需要从零开始重新训练一个全新的模型(成本极高),要么只能针对特定任务做有限调整,没办法直接作用于那些已经经过完整训练的、能力成熟的商用级模型。而工业界真正在用的,恰恰都是那些经历了"预训练+微调+强化学习"全套流程、花费大量资源才训练好的成熟模型。如何低成本地让这些模型也具备动态调整能力,就是这项研究的出发点。

---

二、"零专家":一个优雅到近乎无耻的设计

研究团队的核心创意,是向每个"专家会议室"里塞入若干个特殊的"摆设顾问"——它们坐在会议室里占据一个席位,但开口什么都不说,输出永远是零,故而得名"零专家"(Zero Expert)。

具体来说,以Qwen3-30B-A3B为例,原本每个MoE层有128位正式顾问,研究团队向其中注入了64位"零专家"。现在,会议室里坐了192位顾问,但调度员每次开会依然只叫8位来参与——这个规则没有变。关键的变化是:调度员的候选名单从128人扩展到了192人,当它叫的8个席位里有"零专家"占据时,这位"摆设"不做任何计算,直接让出资源。于是,实际参与计算的"正式顾问"数量就自然降低了。

这个设计的精妙之处在于:调度员(路由器)的工作机制根本不需要改变,它依然按照自己熟悉的方式选择最高分的8位候选人,只不过候选人里多了一批"躺平选手"。如果这批躺平选手的评分足够高、经常被选中,整个模型的计算量就会显著下降。

与此同时,团队还对比了另一种类似方案——"复制专家"(Copy Expert),这种"占位顾问"不说话,但会把传递给它的内容原封不动地传出去,相当于做了一次无效的传递。实验结果表明,复制专家会造成严重的"规模失配"和"方向失配":它传出的内容在量级和指向上都与原本正式顾问的输出不协调,像是一个不说话但会随意干扰讨论方向的人。通过对比48个模型层的隐藏状态输出,研究发现零专家的输出与原始模型高度一致,而复制专家则带来了持续偏离。最终数据触目惊心——使用复制专家后,模型在AIME 2024数学竞赛上的得分从80.9分跌至1.0分,几乎完全崩溃;而零专家则能保持78.1分,与原模型基本持平。

---

三、"自蒸馏":用旧版自己来教新版自己

仅仅注入零专家还不够。向一个精心训练好的模型里强行插入新角色,必然会扰乱原来运转良好的调度秩序。这就好比一家高效运转的公司突然增加了几十个什么都不做的员工,前台调度员起初根本不知道该怎么对待他们——是经常叫他们来开会凑数,还是永远无视他们?没有额外的培训,模型很可能要么继续忽视零专家(达不到节能效果),要么混乱地频繁叫用零专家(导致计算质量下降)。

为此,研究团队设计了一个两阶段的"自蒸馏"训练流程,让注入零专家后的新模型快速适应新状态。"蒸馏"这个词来自知识蒸馏(Knowledge Distillation)的概念——就像把一大瓶浓汤的精华提炼进一小瓶浓缩液一样,用一个"老师模型"的输出来指导"学生模型"的学习。这里特别的地方在于,老师和学生用的是同一个模型——原始的、未修改的成熟模型作为老师,注入零专家后的新模型作为学生,因而称为"自蒸馏"。

第一阶段是监督微调(SFT)。研究团队准备了6万条覆盖数学、编程和通用对话的训练提示词,让老师模型(原始模型)生成回答,然后用这些回答来训练学生模型(新模型)。学生要学习:在老师的答案质量标准下,如何合理地安排零专家的使用频率。这个阶段相当于让新员工通过观摩前辈的工作方式来快速入门,建立起初步稳定的"叫不叫零专家"的判断习惯。

第二阶段是在线策略蒸馏(OPD)。这一阶段更进一步:不再由老师生成答案让学生模仿,而是让学生自己先生成回答,然后老师来评判学生的回答质量,计算两者输出分布之间的差距,并以此差距作为训练信号。换句话说,学生开始在"真实上班"的状态下接受督导,而不是仅仅模仿前辈的样本。这个过程使用了反向KL散度作为优化目标,确保学生的输出分布尽可能贴近老师。研究结果表明,单独使用SFT或单独使用OPD,效果都不如两者结合——SFT先建立稳定的路由模式,OPD再在学生自身的生成情境下进一步拉近师生差距,两个阶段缺一不可。

---

四、"小组平衡罚则":既要节能,又别打乱原有秩序

自蒸馏训练还需要一个额外的机制来控制零专家的使用频率,否则模型可能过于保守(几乎不用零专家,节能效果有限)或过于激进(太频繁用零专家,回答质量下降)。

通常,MoE模型会使用一种叫"辅助负载均衡损失"的机制,强迫所有专家被均等地叫用,防止某几个专家被过度使用而其他专家被冷落。但这个机制用在这里会带来麻烦:一个经过充分训练的模型,其正式专家的调用分布是高度定制化、非均匀的——某些专家天生就更擅长处理特定类型的词元,被更频繁调用是合理的。如果强行让所有专家均等出场,就会破坏这种精心养成的专业化分工,进而损害模型能力。实验数据也证实了这一点:使用标准均衡损失后,模型平均准确率从82.8分骤降至59.5分。

研究团队因此设计了一种"小组平衡罚则"(Group Auxiliary Loss,LGA)。这个机制只在两个大组之间施加均衡约束:一组是所有正式专家,另一组是所有零专家。罚则的目标是让两个大组各自被叫用的总频率达到预设的比例,但对于正式专家组内部各个成员之间的分工,完全不加干涉。

可以用一个管理类比来理解:公司HR希望正式员工和临时工的出勤时长达到某个比例,但完全不干涉各位正式员工之间的具体分工——张工负责技术、李工负责设计,这是他们自己商量好的,HR不管。这样既达到了控制临时工(零专家)使用量的目的,又保护了原有的专业分工格局。

这个机制还有一个调节旋钮,叫做零专家组权重"w"。当w=2时,模型会被推动去让约50%的计算由零专家"承担"(即跳过);w越大,节省的比例越高,但回答质量也越容易受影响。实验发现w=2是最优的平衡点——既能跳过超过50%的专家计算,又能保持竞争力的回答质量。

---

五、实测结果:数字会说话

研究团队在两款代表性的开源后训练MoE模型上验证了ZEDA:一款是阿里巴巴的Qwen3-30B-A3B,另一款是清华大学的GLM-4.7-Flash,并在11个涵盖数学推理、代码生成和指令遵循的基准测试上进行了评估。

原始的Qwen3-30B-A3B在11个基准上的平均得分为74.9分。经过ZEDA处理后,平均得分为74.2分,只下降了0.7分,而零专家激活比例(即计算被跳过的比例)达到了51.2%,实质上跳过了超过一半的专家计算。对比现有的两个动态MoE方法,AdaMoE的得分骤降至54.8分,动态跳跃法的得分为68.1分,ZEDA分别领先约19分和6分。GLM-4.7-Flash上的表现类似:原始模型72.5分,ZEDA后71.8分,跳过53.0%的计算,同样大幅领先竞争方案。

在实际推理速度测试中,使用SGLang推理框架、在单张H200 GPU上、8192词元序列长度下,Qwen3-30B-A3B的预填充(Prefill,处理输入)阶段吞吐量从43920提升至51630个词元/秒,提速约18%;解码(Decode,生成输出)阶段从每秒1740个词元提升至2070个,提速约19%。GLM-4.7-Flash的提升更为明显,预填充阶段提速达26%。

更令人放心的是,ZEDA不仅在训练数据覆盖的数学、代码、指令领域效果良好,在训练时根本没见过的"超纲题"上也表现稳健。在MMLU-Redux(知识密集型问答)和GPQA-Diamond(研究生级科学推理)上,经过ZEDA处理的Qwen模型平均得分为76.2分,原始模型为76.7分,差距微乎其微,而零专家跳过率依然维持在47.2%的高水平。

整个ZEDA适配过程在8张NVIDIA H200 GPU上,Qwen3-30B-A3B只需约30小时,GLM-4.7-Flash约62小时。考虑到原始模型的训练往往需要数周乃至数月、耗费数千张GPU,这点代价几乎可以忽略不计。

---

六、模型到底在"偷懒"还是在"聪明地偷懒"?

这是最耐人寻味的一部分:零专家被跳过的时机,并非随机,而是表现出高度规律性的内在逻辑。

研究团队对110个样本(每个基准各取10个)的所有生成词元进行了精细分析,将每个词元的零专家激活比例(rZE)与多个可解释指标对比。结果显示,零专家使用率与"老师-学生对数概率差"之间存在明显的负相关:当学生模型对某个词元的预测与老师模型差距越大时,零专家使用率越低(即模型更努力地调用更多正式专家来处理);差距越小,零专家使用率越高(模型越放松)。与此同时,词元的信息熵(可以理解为模型对这个词元"有多拿不准")也与零专家使用率负相关——越拿不准,越不敢偷懒。

从文本类型来看,规律同样清晰。数学公式中的符号(等号、括号等)和代码中的语法结构(缩进、关键字),都会触发较高的零专家使用率——因为这些结构性内容具有高度确定性,模型不需要费力就能预测出正确的下一个词元。相比之下,自然语言的叙述性段落、推理过程中的关键转折语句,则会让模型调低零专家使用率、投入更多计算资源。

然而,零专家的使用率与任务的整体难度关系并不大。研究团队对比了MATH-500中5个难度级别的题目,从最简单的一级到最难的五级,各级别的平均零专家使用率分别约为51.1%、51.8%、52.2%、52.5%、52.5%,差异极小。换句话说,模型并不是遇到"难题就全力以赴、遇到简单题就偷懒"——它的计算分配是在单个词元层面做精细判断的,看的是"这个词元本身好不好预测",而不是"这道题整体难不难"。

从层级分布来看,零专家的激活比例在48个MoE层之间分布相当均匀,没有明显的"浅层爱偷懒、深层爱干活"之类的系统性规律。

---

七、适配代价越少越好?效率拐点的发现

研究团队还专门考察了训练数据量对最终效果的影响。随着SFT阶段喂入的提示词从0增加到约6万条,模型的平均得分和零专家使用率同步快速攀升,但在大约6万条附近双双趋于平稳,之后再增加数据几乎没有边际收益。这意味着ZEDA的适配效果在相对少量的数据下就能饱和,额外的训练代价不再带来实质提升。

这种"快速饱和"的特性印证了ZEDA的高效率:在最初几轮训练里,路由器快速学会了如何合理对待新来的零专家,建立起稳定的调度习惯;一旦这种习惯形成,模型便进入了新的平衡状态,不再需要更多的示范样本。

---

八、与现有方案的对比:同类不同命

为了更清晰地呈现ZEDA的优势,研究团队设计了多个对比实验。除了前面提到的AdaMoE和动态跳跃法(Dynamic Skipping)两个竞品,团队还设计了几个"降格版"的自家方案做内部对照。

其中一个叫"朴素截断"(Naive Expert Truncation,NET),思路极其直接:不注入零专家,直接把调用专家的数量从8个减半至4个,强行让模型用一半的计算量工作。配合SFT训练后(NETSFT),Qwen模型平均得分为72.3分;再加上OPD(NETSFT→OPD),提升至73.0分。相比之下,ZEDA的74.2分均高于这两者,说明通过注入零专家、让路由器自主决定在哪些词元上偷懒,比强行统一减少计算更有效——动态的灵活性胜过了静态的机械减少。

另一个对照实验考察了路由权重的处理方式。在零专家被选中、没有参与计算的情况下,原本分配给它的路由权重该如何处理?一种做法是保持不变,让剩余正式专家仍然用原来的权重加权求和;另一种做法是对剩余专家的权重重新归一化,使其总和重新等于1。实验结果表明,归一化反而会导致性能下降(从73.3分降至71.6分)。原因在于:原始模型在训练时,其路由权重的总和天然被校准到一个特定量级,重新归一化会人为放大剩余专家的权重,导致整个MoE模块的输出被异常放大,扰乱了后续层的正常工作。

---

说到底,ZEDA做的事情,是在不颠覆模型既有能力的前提下,给它装上了一套"按需省力"的开关。这套开关的设计有三个关键要素彼此咬合:零专家让路由器有了"不出力"的合法选项,自蒸馏训练让模型快速学会何时该用这个选项,而小组平衡罚则则精准控制了"偷懒"的频率,既不过于保守也不过于放纵。

对于普通用户而言,这项研究意味着:在同样的硬件上,未来AI助手可以更快地回答你的问题;或者说,在同样的速度下,服务商可以用更少的服务器成本来支撑同样多的用户请求。当然,目前ZEDA只在约30亿活跃参数规模的模型上得到了验证,更大规模模型的效果以及在代理类复杂任务上的表现,还有待未来探索。

关于这项研究背后的机制,有一个耐人寻味的推论:模型并非在"根据题目难度"分配计算力,而是在更细粒度地根据每个词元的"预测难度"来调配资源。这提示我们,AI模型的内部工作方式比我们通常想象的要更加精细和局部化。也许在不久的将来,真正"按需计算"的AI系统将成为常态,而不是一种昂贵的特权。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.18643查阅完整原文。

---

Q&A

Q1:MoE(专家混合)架构的"专家"指的是什么?

A:MoE中的"专家"是神经网络中的一组参数模块,可以理解为模型内部的若干个"专业处理单元"。每次处理一个词元时,路由器会从所有专家中挑选得分最高的几个参与计算,其余专家不参与,从而在保持大模型整体容量的同时控制每次推理的计算成本。

Q2:ZEDA方法适配完成后,原始模型的能力会损失多少?

A:损失极小。在Qwen3-30B-A3B上,原始模型平均得分74.9分,经ZEDA适配后为74.2分,差距仅0.7分;GLM-4.7-Flash从72.5分降至71.8分。在超纲的MMLU-Redux和GPQA-Diamond测试中,差距同样在1分以内,同时推理速度提升约20%,专家计算量减少超过50%。

Q3:ZEDA的自蒸馏训练需要多少资源?

A:ZEDA的适配成本相当低廉。以8张NVIDIA H200 GPU为基准,Qwen3-30B-A3B的全流程(数据准备、SFT阶段、OPD阶段)约需30小时,GLM-4.7-Flash约需62小时。相比原始模型动辄数周的训练周期,这点代价几乎可以忽略不计,体现了该方法的实用性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-