
这项由清华大学、上海科技大学、伊利诺伊大学香槟分校和中国人民大学联合开展的研究,于2026年4月14日以预印本形式发布在arXiv上,论文编号为arXiv:2604.13016v1。感兴趣的读者可通过该编号查阅原文,论文代码也已在GitHub公开。
---
教AI"学艺",并不是找个最厉害的师傅就完事了
假设你是一名刚入门的厨师,你的目标是提升厨艺。现在摆在你面前有两个选择:一位是你认识的、在同一家餐厅里工作多年、风格与你极为相似的前辈师傅;另一位是法国米其林三星大厨,技艺精湛,但他只做法式料理,而你一直在学川菜。
你会选谁来带你?
直觉上,大多数人可能会觉得选米其林大厨嘛,毕竟他更厉害。但实际上,如果你的目标是短期内提高川菜手艺,那个熟悉你的前辈师傅反而可能更有用——因为你们做的是同一类菜,他的经验你能直接消化吸收,而大厨的那套法式技巧你根本不知道从哪里下手学起。
这个直觉,恰恰是清华大学这支研究团队在AI领域里发现的核心问题。他们用大量实验证明:给AI模型找一个"更强"的老师,并不等于这个AI就能学得更好。老师和学生之间的"默契",才是决定学习效果的关键。
---
一、AI的"拜师学艺":什么是在线蒸馏?
在深入了解这项研究之前,先来搞清楚这整件事究竟在讲什么。
现代大型语言模型(也就是GPT、DeepSeek这类能聊天、能写作、能解题的AI)的训练,本质上是一个不断"学规律"的过程。训练完成后,一个大模型通常比小模型表现更好,原因是大模型里存储了更多的知识和推理模式。
那么问题来了:我们能不能让小模型向大模型"学习",从而让小模型也拥有大模型的一些能力?这个过程在AI领域里叫做"知识蒸馏",你可以把它理解成:把大厨(大模型,也叫"老师")的手艺传授给学徒(小模型,也叫"学生")。
传统的蒸馏方式是"离线"的——老师事先写好一堆食谱(固定的示范答案),学徒死记硬背。这种方式的缺点是,学徒练习时用的是老师的操作步骤,但真正上灶台时用的是自己的方式,两者存在差距,就像只背过食谱但从未动手炒过菜一样。
而这篇论文研究的是更先进的"在线蒸馏"——学徒先自己动手炒菜,老师在旁边实时对每一个操作步骤提供反馈,指出"这里火候大了""那里盐放少了"。这样学到的东西更贴近学徒自身的操作习惯,也就更有用。这个过程在论文里的正式名称是"在线蒸馏"(On-Policy Distillation,简称OPD)。
近年来,Qwen3、DeepSeek等知名AI系统都在训练流程中采用了这种方式,并且效果显著。然而,这套机制为什么有时会成功、有时会彻底失败,却一直没有人说得清楚。这正是清华大学这支团队要解决的核心谜题。
---
二、从现象入手:什么时候在线蒸馏会"翻车"?
研究团队发现了一个令人困惑的现象:一个更强的老师,有时候反而比一个更弱的老师教出更差的学生。
以他们研究中的具体案例为例。他们有一个叫做"JustRL-1.5B"的小模型,它是通过强化学习(一种靠自己摸索来提升能力的训练方式)从一个基础版1.5B模型成长起来的。研究团队拿这个小模型做老师,去教另一个基础版1.5B模型(学生)——结果学生的数学水平大幅提升,恢复了超过80%的与老师之间的性能差距。
然后他们换了一个老师:DeepSeek的7B模型,这个模型在数学题上的表现比JustRL-1.5B还要略强一点。结果呢?学生的水平几乎没有任何改变,完全没学到东西。
这就很奇怪了——按道理,更厉害的老师应该教出更好的学生。但事实并非如此。研究团队花了大量时间去找原因,最终归纳出两个决定在线蒸馏成败的核心条件。
第一个条件,是"思维模式的兼容性"。这个概念可以用做菜的风格来理解。川菜厨师和法式大厨,对于"好的料理"有不同的理解——一个追求麻辣鲜香,一个追求精致酱汁。如果你是学川菜的,让法式大厨来指导你每一个切菜手势、每一次翻炒动作,他的很多反馈对你来说可能根本不适用,因为你们做的根本不是同一道菜。
在AI的世界里,"思维模式"体现在模型推理时的风格上。有的模型习惯用一种特定的思考路径来解题,有的则完全不同。研究团队用一种叫做"重叠比例"的指标来量化这种相似度——简单来说,就是看老师和学生在同一道题上,最倾向于选择的下一个词(或下一步推理)有多少是相同的。重叠比例越高,说明两者的思维风格越接近,蒸馏也就越顺畅。
他们拿Qwen3-1.7B基础版(学生)做了一个对比实验。一个老师是经过强化学习训练、思维风格与学生接近的GRPO版模型;另一个老师是Qwen3-4B的非思考版,虽然参数量更大,但思维风格与学生差异较大。结果,思维风格更匹配的那个老师,从训练一开始重叠比例就更高,最终教出来的学生也表现更好——即便这个老师在某些数学测评上的绝对分数并不占优势。
第二个条件,是"老师要带来真正新的知识"。这里有个微妙但重要的区分:一个老师分数更高,不代表他掌握了学生不知道的东西。
研究团队用DeepSeek家族的模型做了验证。DeepSeek的1.5B模型和7B模型,都是在同一套数据和同一套方法上训练出来的,只是大小不同。从这两个模型的角度来看,它们本质上是"同门师兄弟",只是一个学得更扎实一点。当研究团队让7B模型去教1.5B模型时,发现学生的进步幅度极为有限,远不如另一个同样基于DeepSeek7B、但经过了额外强化学习(获得了新能力)的模型来教效果好。
简单说,7B虽然更强,但它的优势只是"量"上的积累,而不是"质"上的突破。对于学生来说,7B所知道的东西,1.5B在自己的训练过程中基本上都已经见识过了,老师并没有带来真正新鲜的知识。
---
三、反向实验:让学生来当老师会发生什么?
为了同时验证上述两个条件,研究团队设计了一个别出心裁的"反向实验"。
他们取了通过强化学习变强的JustRL-1.5B模型,让它扮演"学生",然后让它原来的"基础版本"(R1-Distill-1.5B,一个更弱的模型)来充当老师,反过来教它。这有点像是让一个已经出师的厨师回到新手班,让自己的启蒙老师重新教自己。
结果非常有戏剧性:JustRL-1.5B的数学能力迅速退步,几乎回到了它还没经过强化学习时的水平。换句话说,在线蒸馏的威力之强,强到能把这个模型通过强化学习获得的所有进步都"洗掉",让它变回了老师的样子。
更耐人寻味的是第二个比较:当他们把老师换成R1-Distill-7B(一个更大、在数学测评上比JustRL-1.5B还略强的模型)时,会发生什么?答案是:结果几乎一模一样。无论是弱一些的1.5B老师,还是强一些的7B老师,最终都把这个学生带到了相同的退步水平。
这个结论非常关键。它说明,R1-Distill-7B和R1-Distill-1.5B在学生的眼中,本质上是"分不清楚"的——因为它们来自同一个训练体系,思维模式几乎相同。所以对于学生来说,无论跟哪个学,都是在被拉向同一个"磁场方向",而这个方向恰好与强化学习给它建立的新能力相悖。
这个实验也从根本上证明了:在线蒸馏的核心,是在传递思维模式,而不仅仅是在传递分数高低。老师的测评成绩和蒸馏效果之间,可以完全脱钩。
---
四、深入机制:在线蒸馏到底在做什么?
明白了什么情况下蒸馏会成功或失败,研究团队进一步追问:成功的蒸馏,在每一个词、每一步推理的层面上,究竟发生了什么?
为了回答这个问题,他们引入了三个"仪表盘指标"来实时监测训练过程。第一个是"重叠比例",也就是老师和学生各自最倾向于选择的前16个词,有多少是相同的。第二个是"重叠词优势",衡量在这些共同选择的词上,学生和老师的概率分配是否越来越接近。第三个是"熵差",衡量老师和学生在同一道题上的"犹豫程度"是否趋于一致。
对比成功和失败的蒸馏案例,这三个仪表盘呈现出截然不同的曲线。在成功的案例里,重叠比例从起初约72%稳步爬升到91%,重叠词优势逐渐向零靠拢(代表两者分配越来越接近),熵差也在不断缩小。在失败的案例里,这三条曲线从一开始就几乎纹丝不动。
这幅画面告诉我们:成功的在线蒸馏,本质上是学生在逐渐"进入老师的频道"——先找到老师认为重要的那些词,然后逐渐调整自己在这些词上的把握度,最终与老师的思维节奏趋于同步。
还有一个非常关键的发现:这些共同选中的词,虽然数量只是全体词汇的一小部分,却承载了老师和学生各自约97%到99%的概率质量。换句话说,整个推理过程中最核心的信息,几乎都集中在这个小小的"共同关注区域"里。蒸馏的有效信号,正是集中于此。
研究团队还专门做了一个切割实验来验证这一点。他们把训练信号分成两部分:只用老师和学生都认为重要的那些词来训练("重叠词"),以及只用其中一方关注、另一方忽视的词来训练("非重叠词")。结果,只用重叠词训练的效果几乎与完整训练相同;只用非重叠词训练的效果则明显更差。这直接证明了:整个在线蒸馏的优化引擎,运转的核心燃料就是这些共同关注的词。
此外,研究团队还观察到一种"滚雪球效应":一旦某个词进入重叠区域并被强化,后续训练就会把更多概率质量推向这个词,同时把竞争词从学生的关注区域里挤出去。重叠区域越来越大,优化越来越稳定,形成正向循环。相反,如果一开始重叠比例就很低,这个滚雪球根本滚不起来,训练就会停滞不前。
---
五、实用对策:蒸馏失败了怎么办?
找到了问题所在,下一步自然是想办法解决。研究团队提出了两种补救策略,对应"思维模式不兼容"这个核心问题。
第一种策略叫做"离线冷启动"。思路很直接:既然老师和学生之间思维模式差距太大、在线蒸馏启动不了,那就先让学生做一个"预习"阶段。具体做法是先让老师生成大量示范答案,然后让学生像普通学习一样把这些答案背下来(监督微调),以此来拉近两者的思维模式。等学生"预习"完成、初始重叠比例提高之后,再正式开始在线蒸馏。
研究团队用Qwen3-1.7B(基础版)作为学生、Qwen3-4B(非思考版)作为老师来测试这个策略。他们先让老师生成了20万条数学题解答,用这些解答对学生进行了一轮预学习,得到了一个"SFT初始化"的学生版本,然后再进行在线蒸馏。
对比结果非常明显。从预学习版本出发的学生,在训练一开始重叠比例就高出许多,整个训练曲线也更稳定流畅;而从基础版直接开始在线蒸馏的学生,则在很长一段时间里剧烈震荡,效果也持续偏弱。最终的数学成绩,预学习版本也显著更高,并且这个性能差距在整个训练过程中都保持稳定,没有被追上。
第二种策略叫做"使用老师的训练题目"。这个策略则是从数据角度入手。由于老师的思维风格是在特定的题目集上塑造出来的,如果在线蒸馏时也使用同一批题目,老师的反馈信号会更精准、更集中在那些高概率共识词上。
研究团队测试了两个维度:使用与老师训练风格一致的"题目格式",以及使用与老师训练集重叠的"题目内容"。两个实验都证实了这个策略的有效性——使用老师熟悉的题目,能让双方的重叠比例更高,优化信号更强。
不过,这个策略有一个需要警惕的副作用:当学生的训练题目与老师高度重叠时,学生的"探索多样性"(在AI术语中叫做"策略熵")会大幅下降,变得过于保守,只愿意按老师的套路出牌。为了防止这种过度收窄,研究团队建议把老师题目与其他领域的题目混合使用,保持学生一定程度的灵活性。
---
六、密集反馈的代价:在线蒸馏能走多远?
在线蒸馏的一大卖点,是它能在每一个词上都给出反馈,远比只在最终答案对错上打分的传统强化学习更密集。然而,研究团队也发现,这种密集反馈并非没有代价。
他们测试了在不同的回答长度限制下训练的效果。结果发现,太短(500词或1000词)的回答让训练信号过于稀少,效果差;中等长度(3000词到7000词)的效果最好;但当允许的回答长度超过10000词时,训练效果反而开始下滑,到15000词时甚至出现了崩溃性的失败。
更深入的分析揭示了崩溃的起点:问题并不是在整个回答里均匀出现的,而是从回答的末尾开始蔓延,然后逐步向前扩散,最终波及到整个回答。通过热力图可以清晰看到这个"从尾到头"的蔓延过程。
原因并不难理解:在线蒸馏的逻辑,是老师基于学生的已有内容来给出下一步的指导。但当学生的回答已经写了七八千词,进入到非常深的推理阶段时,老师可能从来没有在如此深度的同类上下文里出现过——它进入了"陌生领域",给出的指导就变得随机而嘈杂,这种噪音反过来又扰乱了学生后续的学习。
研究团队还做了一个有趣的测试来量化这种退化:他们让学生先写一段话,然后让老师从这段话继续写下去,看老师写出来的答案是否比学生原来写的更好。当学生只写了1000词时,老师的续写正确率比学生高出了37个百分点;但当学生已经写了16000词时,老师的续写优势缩减到只剩2个百分点,几乎没有任何指导价值了。
这一发现给出了一个重要的实践上限:在线蒸馏非常适合中等长度的推理任务,但在需要超长推理链的任务上(比如极复杂的数学证明或多轮对话代理),它的效果会大打折扣。
研究团队还追问了一个更深的问题:在失败的蒸馏案例里,老师的反馈信号是真的没用吗?他们发现,即使在蒸馏失败的情况下,老师给出的"整体信号"仍然是有意义的——正确的回答确实会得到比错误回答更高的评分(两种情况下的AUROC指标分别为0.73和0.75,基本相当)。
那失败的根源在哪里?研究团队提出了一个假说:问题可能不在于信号的全局质量,而在于信号的"方向一致性"。当老师与学生思维模式差异过大时,在不同位置给出的反馈信号可能互相抵消,导致整体梯度(可以理解为学习的"推力方向")极弱,即便每个位置的信号都不算差,加在一起却推不动学生改变。相比之下,一个与学生思维模式相近的老师,即便每个位置的信号不那么强烈,却指向一致,形成的合力能有效推动学生进步。这个假说尚待未来研究验证,但提供了一个颇具启发性的思考框架。
---
七、关于"支持大小":用多少词来计算反馈信号才够?
研究团队还测试了另一个技术细节:在计算每个词的反馈信号时,应该考虑老师最重视的前几个词?
他们对比了四个版本:只考虑最高概率的1个词(Top-1)、前4个词、前16个词、前64个词,以及随机采样一个词(Sampled-token)。结果令人意外:随机采样一个词的效果,与前4个、前16个、前64个词的效果基本相当,差别微乎其微。唯一明显更差的是只考虑最高概率1个词的版本。
为什么随机采样反而有效?原理在于,随机采样每次选的词不同,在整个训练过程中会覆盖到所有高概率词,积累起来相当于获得了完整的信号覆盖。而只选最高概率1个词(Top-1)的问题,不在于信号太少,而在于它是一种"偏向性"选择——某个词只要概率稍微高一点就会被一直选,哪怕学生参数稍有变化,最高概率词也可能切换,导致训练信号不稳定。
这对工程实践很有参考价值:在线蒸馏不需要消耗大量计算资源来考虑几十个候选词,用随机采样的方式就能获得几乎同等效果,同时节省大量内存。
---
说到底,这项研究告诉我们一个非常违反直觉但仔细想来完全合理的道理:让AI学习进步,找的老师不是越强越好,而是要找对的老师。对的老师,是那个思维风格与你相近、同时又掌握了你还不知道的东西的人。一个思维方式与你截然不同的顶级大师,反而可能让你的学习彻底陷入僵局。
这对未来AI的训练方式有很直接的启示。在设计AI训练流程时,简单地堆砌更大的模型来当老师,不一定是最高效的路径。如何挑选与学生"频道对上"的老师,如何通过预学习弥合两者的思维差距,如何选择最合适的训练题目,这些细节都会深刻影响最终结果。
当然,这项研究也坦诚地指出了自己的局限性:所有实验都在数学推理任务上进行,这套结论在写代码、写文章等其他任务上是否同样成立,还需要进一步探索。此外,超长推理链上的在线蒸馏如何克服深度退化问题,也是一个尚未解决的开放难题。
如果你对这些问题感兴趣,可以通过arXiv:2604.13016v1找到原始论文,代码也已在清华大学的GitHub仓库公开,方便有技术背景的读者复现和拓展。
---
Q&A
Q1:在线蒸馏和普通的AI模型训练有什么区别?
A:普通的监督微调是让模型去模仿事先准备好的示范答案,而在线蒸馏是让学生模型先自己生成回答,然后老师模型针对学生自己写的内容逐词给出反馈。这种方式能让学生直接在自己"真实的操作场景"下接受指导,避免了只学食谱却不会动手炒菜的问题,在实践中通常效果更好。
Q2:为什么更强的老师模型反而会让学生模型学不好?
A:关键在于老师和学生的"思维模式"是否兼容。如果老师的推理习惯和学生差异太大,老师在每个位置给出的指导信号方向各不相同,互相抵消之后形成的合力很弱,学生几乎感受不到有用的推力。这就好比一个法式大厨来教川菜学徒,每个具体动作的建议都不符合学徒的操作逻辑,学徒完全不知道如何下手。
Q3:离线冷启动策略在实际操作中需要多少数据才够用?
A:根据研究团队的实验,他们使用了约20万条老师生成的示范答案来进行预学习,之后大约3万条题目的在线蒸馏训练就能产生显著的性能提升。当然实际需求会因模型大小和任务难度而变化,但这个量级可以作为参考起点。预学习阶段的核心目的是拉近思维风格差距,不需要追求完美的性能,能让初始重叠比例明显提升就算成功。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。