
这项由苹果公司研究团队完成的研究,以预印本形式发布于2026年5月12日,论文编号为arXiv:2605.10889,感兴趣的读者可通过该编号查阅完整原文。
训练一个会推理的AI,有点像培养一个解题能手。你不仅要给它奖励——"这道题答对了,很好!"——还希望有一位更有经验的"老师"在旁边,在它每写下一个字的时候都悄悄提示它应该往哪个方向走。这种"老师时刻在旁边指点"的训练方式,就是研究者们所说的"在线策略蒸馏"(on-policy distillation),它已经成为当下训练推理型AI的标配手段,阿里巴巴的Qwen3、MiMo、GLM-5等主流大模型都在使用它。
然而,苹果的研究团队发现了一个让人意外的问题:这位"老师"的指点,并不总是有用的,有时候甚至会帮倒忙。更麻烦的是,以往我们根本无法在不花大量时间实际训练的情况下判断"老师的话"到底是好建议还是坏建议。团队于是做了一件很有意思的事:他们设计了一套"不用真正训练,就能诊断老师好不好"的方法,并用它来系统地研究在什么情况下"老师的指导"是有帮助的、在什么情况下是有害的。
一、为什么老师说的话不一定对学生有用
要理解这个研究,先得搞清楚"蒸馏"这件事的本质是什么。
在AI训练中,"蒸馏"就是让一个小模型(学生)去模仿一个大模型(老师)的输出方式。举个更直观的例子:假设你在学做菜,你旁边站了一位厨师,他在你切每一刀、放每一勺盐的时候都告诉你"应该这样做"。听起来很完美,但问题是——厨师告诉你"放少一点盐",这究竟是因为你真的放多了影响了口感,还是只是因为他个人口味比较淡?如果是后者,你照着他说的改,菜可能反而不好吃了。
AI训练中的情形完全一样。AI在生成回答时,每次输出一个词(token),而老师模型会对每个词给出自己的"偏好"——它觉得这里应该用"因此"还是"所以",应该先算加法还是先算乘法。但这些偏好有些是关键的推理判断,有些只是风格习惯,两者混在一起,学生模型根本分不清哪个建议应该认真听,哪个可以忽略。
研究团队在论文开头给出了一个绝妙的例子。一道书架问题:书架有3层,每层4本书,拿走5本还剩多少?正确答案是7。AI学生在推理过程中走了弯路,最终还是答对了。而老师模型在整个过程中有四处与学生的想法不同:有的是把"4"改成"四"(纯粹是文字风格差异),有的是把"所以"改成"因此"(同样是风格),有的是在学生算错的那个关键步骤给出了正确引导(真正有用),还有一处是在学生已经自己纠错之后又来"补刀"(画蛇添足)。
标准的蒸馏训练方法会把这四处信号一视同仁地都学进去,结果就是真正有用的信号被大量噪音稀释。苹果团队的核心问题就是:有没有办法在训练之前,就精确判断出老师的每一个建议到底是不是好建议?
二、用"理想梯度"作为标尺来打分
研究团队引入了一个听起来有点抽象但其实很直觉的概念:理想梯度(ideal gradient)。
梯度,可以理解为训练AI时告诉它"应该往哪个方向调整参数"的指针。如果梯度指对了,模型会越来越好;如果指错了,模型反而退步。而"理想梯度"就是一个完美的指针——它指向的方向,能够最大化AI答题成功的概率。
怎么估算这个理想梯度呢?团队的做法是让AI学生对同一道题生成大量不同的解题路径(就像让同一个学生做同一道题做200次,看看他会走出多少种不同路线)。然后,在每一个决策点上,他们观察:走某条路的学生,最终答对的概率是多少?走另一条路的呢?这样就能估算出每个词、每个选择对于最终答对的"贡献值"——贡献值高的词,理想梯度应该鼓励多用;贡献值低的词,应该减少使用。
有了这个理想梯度之后,他们就可以计算老师给出的"教学信号"(即蒸馏梯度)和这个理想梯度之间的对齐程度——用数学上的余弦相似度来衡量,这个分数被称为"梯度对齐分数"(gradient alignment score)。分数为正,说明老师的指导在推着学生走向正确答案;分数为零,说明老师在谈一些无关紧要的风格问题;分数为负,说明老师的指导反而在把学生往错误答案方向推。
这套诊断工具有一个重要特性:它完全不需要真正训练模型,只需要分析已有的推理路径数据,就能对每一个词、每一道题、每一种老师配置打出一个诊断分数。
三、原来流行的训练算法,本质上都在做同一件事
在深入实验之前,研究团队还做了一项理论分析,发现了一个很有意思的规律。
当前流行的几种AI训练方法,表面上看起来各不相同——有基于强化学习奖励的Dr. GRPO、有基于知识蒸馏的GKD、有用单样本估计的Thinking Lab方法、还有MiniLLM——但研究团队推导出,它们在每一个词的位置上产生的梯度,其实有着完全相同的数学结构。具体来说,这些方法在每个词上的训练信号,都可以写成:当前词的概率,乘以(这个词的"分值"减去所有词分值的平均值)。
区别只在于"分值"的来源不同:在强化学习方法中,分值来自于这个词通向正确答案的成功概率;在蒸馏方法中,分值来自于老师对这个词的偏好程度。正因为结构相同,才可以用同一把尺子——梯度对齐分数——来评估所有这些方法的质量。
这个发现还揭示了一个训练上的内在限制:无论哪种方法,对某个词的更新力度,都受到学生模型当前对这个词的置信度约束。如果学生对某个词的概率本来就很低,即使老师强烈建议这个词,训练信号也会很弱。老师能够加强学生已经有点相信的方向,却很难凭空注入完全陌生的思路。
四、最核心发现:走错路时老师的话更有用
研究团队在苹果的算力支持下,对Qwen3-0.6B和Qwen3-1.7B两个模型,使用8种不同的老师配置,在BoolQ(是非判断题)和MMLU(多选知识题)两个数据集上,分析了总计约二十多万个决策点。整个实验消耗了约72个A100-天的算力。
最突出、最一致的发现是:当AI学生走在一条最终答错的路径上时,老师的指导与理想梯度的对齐程度,显著高于走在答对路径上的情况。
这个发现其实很符合直觉。当学生正在走向错误答案时,老师(通常更倾向于正确答案)的建议方向,和"应该纠正错误"的理想方向是一致的;而当学生已经走在正确路径上时,老师还在不停建议这建议那,这些建议就变成了噪音,有时甚至会干扰学生原本良好的思路。
用数字来说:在BoolQ数据集上,0.6B模型走错路时的平均对齐分数是0.044,而走对路时只有0.011,差异在统计上高度显著(p值约为七千万分之一)。1.7B模型的差距更大,走错路时0.058,走对路时接近于零。这个规律在所有模型规模、所有数据集、所有8种老师配置下都成立,没有例外。
这意味着,现有的蒸馏训练方式在"学生答对的题"上浪费了大量训练资源,而这些资源本可以集中用在"学生答错的题"上,从而更高效地提升推理能力。
五、小学生和中学生需要的老师不一样
第二个重要发现涉及"什么样的老师最适合什么样的学生"。
研究团队测试了两类老师:一类是"外部老师",也就是更大的模型(Qwen3-4B、8B、14B);另一类是"自我蒸馏"老师,也就是学生模型自己——但在做老师时,它能看到额外的参考信息,比如一道题的正确解法。
对于0.6B这个更小的模型,结果出乎意料地清晰:自我蒸馏老师(给它看一个正确解题过程)的效果,比外部大模型老师高出2到3倍的对齐分数。而对于1.7B这个更大的模型,情况反转了——在BoolQ任务上,外部老师Qwen3-8B的对齐分数最高,超过了所有自我蒸馏变体。
研究团队用"可理解性"来解释这个现象。0.6B的模型能力有限,如果让它去"听"一个8B模型的推理分布,就好比让一个小学生去理解大学教授的讲课逻辑——即使教授说的是对的,小学生也根本消化不了,老师说的话对它来说就是噪音。但如果让这个小学生看一个用自己的语言风格写的正确解题过程,它就能理解并从中获益。1.7B模型能力更强,和8B模型之间的"认知差距"缩小了,所以它能真正吸收来自更大模型的额外知识。
还有一个关于"摘要"的发现同样很有启发性。研究者测试了把正确解题过程先用Qwen3-32B压缩成摘要,然后再作为老师上下文的做法。对1.7B模型来说,这种压缩摘要几乎把对齐分数翻了一倍(BoolQ上从0.028提升到0.050);但对0.6B模型来说,摘要反而有轻微的负面效果。原因同样是理解能力的差异:更大的模型能从精炼的摘要中抓住关键,更小的模型则需要完整的逐步推理来理解发生了什么。
六、给错误示范竟然时而有用、时而有害
研究还测试了一种很有意思的配置:同时给老师看一个正确解法和一个错误解法(Self-1C1W)。
在BoolQ和MMLU这两个相对简单的推理任务上,这种"正确加错误"的组合一致地比只给正确示范的效果差,有时甚至不如没有示范。错误示范引入的噪音超过了它可能带来的"对照学习"价值。
然而,当研究团队把同样的实验搬到AIME 2025数学竞赛题上——这是一种需要几千甚至三万个词来完成推理的超长解题链——结论完全颠倒了。在较难的数学题上,加入错误示范的配置反而成为表现最好的老师。研究者的解释是:对于复杂数学,看到一个典型错误路径具有真正的学习价值,就像"看看这个错误,你应该避开它";而在简单题上,错误示范只是一堆没有意义的噪音,学生模型无法从中提取有价值的对比信息。
同样,在AIME这类超长推理链上,摘要版本反而比完整版本差——0.6B模型面对一道复杂数学题,即使对正确解法的压缩摘要也看不懂,需要完整的逐步推导才能理解。但在较简单的题目上,摘要就足够清晰,压缩不会损失关键信息。
七、"分歧"能预测对齐,但预测得不太准
研究团队还探索了一个实用问题:有没有什么简单的指标,能在不计算完整对齐分数的情况下,快速判断"这个词上老师的建议是否有用"?
他们发现,学生和老师在某个词上的"分歧程度"(用KL散度、JS散度、L2距离等衡量)和对齐分数之间确实存在正相关关系——老师跟学生意见差异越大的地方,往往也是对齐分数更高的地方。这很直觉:如果老师和学生对某个词的看法完全一致,老师就没什么新东西可教;只有在它们有分歧的地方,老师才可能提供有价值的纠正信号。
但这个相关关系很弱,Spearman相关系数的绝对值大多在0.02到0.04之间,远谈不上可靠的预测。高分歧是有用信号的必要条件,却不是充分条件——很多高分歧的词,对齐分数依然是负的,因为老师的建议虽然和学生不同,却是在把学生往错误方向推。所以分歧程度可以作为一个廉价的"初步筛选"指标,但不能替代完整的对齐分数计算。
八、如果只在"有用的词"上训练会怎样
作为一个假想实验,研究团队还分析了一种"理想化的选择性蒸馏":如果我们已经知道每个词的对齐分数,只在分数为正的词上进行蒸馏训练,会有多大提升?
结果相当惊人。只保留约52%的词(对齐分数大于零的词)进行训练,平均有效信号强度提升了10到15倍,而且所有路径无一例外地都比全量训练更好。这个发现是一个"理论上界"——现实中我们事先不知道真实对齐分数,无法直接实现这个效果——但它强烈表明,现有蒸馏训练中至少有一半的训练资源被浪费在了无用甚至有害的信号上。
这也是研究团队提出的未来方向之一:结合分歧程度等可观测的代理指标,开发近似的选择性蒸馏策略,在不需要完整诊断的情况下尽量过滤掉无用信号。
归根结底,这项研究告诉我们的核心道理是:不是所有老师的话都值得听,不是所有时候老师的话都有同等价值。当学生走在错误的路上,老师的纠正最有效;当学生已经走对了,老师再说什么反而可能干扰。更小的学生需要跟自己风格相近的老师;更大的学生才能从强大的外部老师那里受益。简单题和难题需要截然不同的示范策略,没有一种放之四海而皆准的做法。
这对AI训练的启示是具体而实际的:应该把蒸馏资源集中在那些答错的推理路径上,而不是均匀分配给所有路径;选择老师配置时,应该考虑学生模型的实际理解能力,而不是简单地认为"老师越大越好";在不同难度的任务上,应该采用不同的上下文格式。
当然,这套诊断工具本身的局限也是真实存在的。它只能评估学生实际走过的路径上的词,那些学生从未尝试过的词无从分析;而且每道题都需要大量的计算资源(45,000到200,000次专项采样),这使得它更适合作为离线分析工具,而不是实时训练辅助。
不过,这套工具的价值在于它提供了一种"在烧钱训练之前就能诊断的视角",这在AI训练领域是相当新颖的思路。如果你想了解完整的技术细节和所有实验数据,可以通过arXiv编号2605.10889查阅原论文。
Q&A
Q1:为什么AI训练中老师模型的指导有时会适得其反?
A:老师模型在每个词上给出的建议有不同类型:有些是关键的推理纠正,有些只是文字风格偏好,还有些在学生已经自我纠错后仍然重复建议。标准蒸馏训练会把这些信号全部混在一起学习,导致有用的纠正信号被大量风格噪音稀释,甚至在学生推理正确时收到不必要的干扰。研究发现,只在对齐分数为正的词上训练,信号强度可以提升10到15倍。
Q2:为什么小模型从自我蒸馏受益更多,而大模型更适合跟外部大模型学习?
A:研究团队用"可理解性"来解释这个差异。0.6B的小模型能力有限,面对更大外部模型的推理分布时,就像小学生听大学教授讲课,信息太陌生无法消化;而用自己风格写出的正确解法它能理解并从中获益。1.7B的模型能力更强,与8B模型之间的认知差距缩小,所以能真正吸收来自更大模型的额外知识。
Q3:梯度对齐分数是怎么计算的,需要实际训练模型吗?
A:不需要实际训练。首先让AI学生对同一道题生成大量不同路径,估算每个词对最终答题成功的贡献概率,由此算出"理想梯度"。然后对老师模型做一次前向推理,得到老师的建议方向。最后计算这两个方向之间的余弦相似度,就得到对齐分数。整个过程是纯分析性的,不涉及参数更新,可以完全离线完成。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。