
这项由普林斯顿大学数学系、中国科学院、Meta等机构联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.12483,感兴趣的读者可通过该编号查阅完整原文。研究的核心问题听起来非常直接:当你手头只有有限的"答案已知的训练题目"时,应该拿去训练哪个模型?
这个问题乍听之下好像很简单,但研究团队发现,业界长期以来的惯常做法其实在浪费资源——他们把宝贵的训练数据直接喂给最小、最弱的那个模型,而不是先让一个聪明的大模型从中学习,再把学到的东西传授下去。这就像一所学校只有有限数量的高质量练习题,老师却把这些题直接发给刚入门的差生练习,而不是先让优等生做一遍,整理出详细解题思路,再把这份思路传授给差生。
研究团队通过在数学竞赛题目上进行大量实验,验证了一个反直觉的发现:同样一批训练数据,先用在大模型("好学生")身上,再通过一种特殊的"知识传递桥梁"传给小模型("部署学生"),最终效果要比直接在小模型上训练好得多。具体数字上,Qwen3-1.7B这个小模型在数学测试集MATH上的得分从75.9%跳升到79.3%,而在更难的AIME 2024竞赛题上,得分更是从19.8分飙升到25.2分——提升幅度相当可观。
---
一、为什么"标准做法"实际上很浪费
要理解这项研究解决的问题,先来想这样一个场景:你是一家餐厅的大厨,手里有10道从未公开的秘方菜谱,你需要培训一名刚入职的新厨师。有两种方案——方案一,直接把10道秘方菜谱交给新厨师,让他一道道自己摸索;方案二,先让你们餐厅最厉害的大厨照着秘方做一遍,把每个步骤的要点、注意事项、以及每道步骤完成后应该是什么样子都详细记录下来,再用这份"手把手指南"来培训新厨师。哪种方案培训出来的新厨师更好?
这项研究的核心主张就是:在AI语言模型的训练中,"方案二"往往远胜于"方案一",而业界长期以来一直在用方案一。
在AI领域,让语言模型学会做对某类任务(比如解数学题),需要用到"可验证的标注训练数据"——也就是既有问题、又有标准答案、还能自动判断对错的题目。这类数据的收集和制作代价很高,不像普通文本那样可以从互联网上随意爬取。实验中使用的是一个叫DAPO-Math-17K的数据集,里面有约1.7万道数学题。
目前业界的标准做法叫做"GRPO",大意是直接在需要部署的那个模型(比如Qwen3-1.7B这个相对较小的模型)上做强化学习训练:让模型做题,答对了给奖励,答错了没奖励,慢慢调整模型参数,使其越来越擅长做题。这个过程中,稀缺的标注数据就被"消耗"在了这个小模型上。
研究团队指出,这种做法存在一个根本性的低效:小模型一开始解题能力太弱,大部分题目根本答不对,奖励信号几乎为零。没有有效的奖励信号,训练就是在原地打转。就好比你把那10道秘方菜谱给了一个连基础刀工都不会的新人,他大概率做出来的全是"失败品",从失败中学习的效率极低。
---
二、核心原理:奖励信号的"密度"决定训练效率
这项研究提出了一个核心概念,研究团队称之为"奖励密度原则"。这个原则说的是:不同类型的奖励信号,适合用在不同准备程度的模型上。
所谓"稀疏奖励",就是前面说的那种——做完一整道题,最后才知道对还是错,一个时间步只有一个奖励信号,中间的每一步推理过程都没有反馈。这就像考完试才知道总分,却不知道哪道题是在哪个步骤出了问题。稀疏奖励的优点是客观、无偏差,但只有当模型已经能经常答对题目时,这个奖励才有用武之地——如果答对率接近零,那这个奖励信号几乎传达不了任何有用的信息。
与之相对的是"稠密奖励"——在解题过程的每一个词语(每个token)上都有反馈信号。这种反馈是怎么来的呢?答案是来自于一个已经很厉害的大模型("教师模型")。具体来说,在模型生成回答的每一步,都可以问大模型:"如果是你来接着写,你会写哪些词,各自的概率是多少?"这个概率分布本身就是一种极其细密的反馈——它告诉正在训练的小模型,在每一个时间步上,更好的选择应该是什么。
研究团队发现,这两种奖励信号在数学上是同一个优化目标的两个极端。稀疏奖励训练(GRPO)和基于大模型的稠密知识传递(OPD,即"在线策略蒸馏"),本质上都是在做带有KL散度约束的策略优化,只不过一个奖励只在最后给出,另一个在每步都给出。
正因如此,这两种训练方式不是相互竞争的技术,而是可以被统一理解为"奖励密度"轴上的两个端点。关键结论由此而来:稀疏奖励应该给到那些本身已经有一定实力、做题能有一定成功率的大模型去做探索;而稠密的教师信号,则应该用于把大模型学到的本领压缩传递给小模型。
---
三、三阶段流水线:先让大厨做菜,再让大厨手把手教
基于上述原理,研究团队设计了一套三阶段的训练流水线,每个阶段各司其职,共同解决"如何高效利用稀缺训练数据"的问题。
**第一阶段:让"大厨"用训练数据磨练自己**
在这个阶段,标注训练数据被分配给较大的"教师模型"(比如Qwen3-8B,有80亿参数,比部署用的1.7B模型大约大5倍),在教师模型上运行GRPO这类稀疏奖励强化学习。为什么大模型更适合消化稀疏奖励?因为大模型本身的基础能力更强,在数学题上的初始答对率更高,稀疏奖励能产生更有意义的梯度信号,让模型真正学到东西。
研究中给出了一组直观的数字来说明这一点:对Qwen3-1.7B直接做GRPO,MATH测试集上达到75.9%;对Qwen3-8B做GRPO,能达到88.4%;对更大的Qwen3-14B做GRPO,能达到89.5%。同样一批训练数据,大模型能从中获得更多提升,产生更强的"经过奖励塑形的"行为能力。
**第二阶段:两步"知识传递桥梁"——先"模式覆盖"再"在线精进"**
有了经过强化学习磨练过的强大教师模型,接下来的任务就是把这种能力传递给小模型。这里研究团队设计了一个关键的"两步桥梁",而不是直接做知识传递。
第一步叫"前向KL预热"。KL散度是一种衡量两个概率分布有多不同的指标。"前向KL"的意思是,用教师模型生成的解题过程来训练小模型,目标是让小模型在这些由教师生成的解题轨迹上,能够大致复现教师的每步选词概率。这一步是"被动学习"——小模型像一个勤奋的学生,看着教师的示范解题过程,逐字逐句学习教师的思路。这步骤的好处是稳定、有效,能把小模型"拉进"教师模型思考方式的领域范围内。但它的缺限在于,小模型只是在"教师走过的路上"学习,没有机会面对自己容易犯错的那些独特情况。
第二步叫"OPD(在线策略蒸馏)"。这一步让小模型自己去做题,在自己的解题过程中,实时询问教师模型:"在这个步骤,你会怎么选词?"然后用教师的答案来调整小模型的参数。这是"主动纠错"——小模型在自己会犯错的地方,得到了教师的即时指导。这种方式能覆盖到小模型的"独特弱点",但如果一开始小模型和教师差距太大,小模型的解题轨迹质量太差,这种纠错也会陷入混乱。
这正是为什么"两步桥梁"比单独使用任何一步都更有效——前向KL预热先把小模型拉到一个和教师思路接近的起点,再让OPD在这个良好起点上做精细的在线纠正。实验结果清晰地证实了这一点:在使用了RL强化的8B教师模型时,单用"教师样本SFT"(只有前向学习)能达到76.0%的MATH得分,单用OPD能达到77.6%,而两步组合的桥梁能达到79.3%,是最高的。
**第三阶段:对"已经开窍了的"小模型再做稀疏强化学习**
经过两步桥梁之后,小模型已经被"激活"了,它的解题能力有了显著提升,面对稀疏奖励时成功率更高。此时,如果还有剩余的标注数据没用完,把它们用于在小模型上做GRPO,效果会比一开始直接在小模型上做GRPO好得多。研究把没有经过上述流水线、直接在小模型上做强化学习称为"冷启动RL",以区分经过桥梁后再做强化学习的情况。
---
四、实验数据说了什么
研究团队在两个模型家族上进行了实验,分别是Qwen3系列和Llama系列,所有评测结果采用"平均16次采样正确率"(avg@16)——对每道题独立生成16个答案,取平均正确率,以减少随机性。
在Qwen3实验中,部署学生模型固定为Qwen3-1.7B,教师模型分别是Qwen3-8B和Qwen3-14B,以及对照用的Qwen3-1.7B(同尺寸教师)。训练数据使用DAPO-Math-17K,评测基准是MATH-500、AIME 2024和AIME 2025三个测试集。
直接在小模型上做GRPO的基线结果是:MATH 75.9%,AIME 2024 19.8分,AIME 2025 17.1分。
当使用"原始"未经强化学习的8B教师模型,通过两步桥梁传递给小模型时,MATH得分反而降到了71.5%,比直接GRPO还差4.4个百分点。14B原始教师的结果是72.8%,同样不如直接GRPO。这个结果非常关键——它证明了"更大的模型"本身不是优势,关键在于大模型是否经过了奖励塑形。
当教师模型先经过强化学习训练,再通过两步桥梁传递时,结果发生了根本性转变。RL训练后的8B教师加两步桥梁,让小模型达到MATH 79.3%、AIME 2024 25.2分;14B教师的结果分别是78.6%和24.6分。相比直接GRPO,MATH提升了3-4个百分点,AIME 2024提升了约5分。
为了控制变量,研究团队还用"SFT训练过的"教师(不是强化学习,而是监督微调)做了对照实验。SFT训练的8B教师加桥梁得到76.9%的MATH,14B教师得到77.6%——介于原始教师和RL教师之间。这说明"监督学习对教师的提升"有帮助,但不如"强化学习对教师的塑形"效果强。奖励塑形确实是核心关键。
还有一个有趣的"同尺寸"对照实验:用经过RL训练的1.7B模型作为教师,通过桥梁传递给另一个全新的1.7B小模型,结果是MATH 76.5%、AIME 2024 20.6分,同样优于直接GRPO(75.9%和19.8分)。这排除了"尺寸差异"作为主要解释的可能性——即使教师和学生同样大小,只要教师经过奖励塑形,密集传递也能带来提升。
关于数据如何分配,研究团队做了一个精巧的"半分实验":把DAPO数据集随机分成两半(1H和2H)。用1H训练教师和走完两步桥梁,再用2H对桥梁后的小模型做第三阶段的GRPO,最终MATH达到78.5%。与之对比的是:用完整数据集(1H+2H)全部用于训练教师和桥梁(没有第三阶段GRPO),MATH达到79.3%。两种方案使用了相同数量的训练数据,差距仅有0.8个百分点,而且AIME上的差距在误差范围内。这说明:在教师端多用数据略微更好,但在桥梁后补充小模型端的强化学习也能找回大部分差距。
另一个关键对照是"重播控制":同样用1H训练教师和桥梁,但第三阶段不用新的2H数据,而是重新用旧的1H数据再做一轮强化学习。结果是MATH 75.7%,几乎没有提升。这直接证明了:第三阶段的提升来自于"新的未见数据",而不是"多做了几轮训练"。桥梁让小模型变得"可训练",而新数据则真正提供了额外的学习信息。
在Llama家族的验证实验中,以Llama-3.1-8B-Instruct为学生,Llama-3.3-70B-Instruct(比学生大约大9倍)为教师,复现了同样的规律:原始70B教师加两步桥梁的MATH得分是55.4%,低于直接GRPO的59.8%;但RL训练后的70B教师加桥梁得到62.1%,超过了直接GRPO。"原始大教师不如直接RL,RL教师胜过直接RL"的排序在Llama家族同样成立,说明这个发现不是Qwen家族特有的现象。
---
五、为什么不能直接跳过前向KL预热
细心的读者可能会问:既然OPD(在线策略蒸馏)才是真正"主动纠错"的那步,为什么不直接从OPD开始,省掉前向KL预热这一步?
这里有一个微妙但重要的技术问题,可以用一个类比来理解。假设你要学打网球,教练是世界顶级球员。在线策略蒸馏相当于:你打出一个球,教练在旁边实时告诉你"这个球你应该往左打,力度要减30%,手腕要这样转"。这种实时纠错非常有价值,前提是你打出的球至少像模像样,能让教练有话可说。如果你连拍子都拿不稳,每次挥空拍,教练的所有指导都落空了——你们互动的基础太差,学习效率极低。
前向KL预热就是"让你先看录像、跟着练习基本动作"的阶段。通过模仿教师模型的示范解题过程,小模型先学会了教师的基本思路和表达方式,进入了教师的"思维领域"。这样,当第二步OPD开始时,小模型自己生成的解题过程已经有一定质量,教师模型的在线纠正才能发挥真正的价值。
从数学上讲,OPD是在"学生自己的解题轨迹上"做反向KL优化,这要求学生的轨迹覆盖到教师认为重要的状态。如果学生轨迹质量太差,那些关键状态根本不会出现在学生的轨迹中,梯度信号就会被低质量的前缀主导,训练效果大打折扣。前向KL预热正是通过"在教师轨迹上训练",把学生推进到教师思维空间的邻域,为后续OPD创造了良好的初始条件。
---
六、对AI模型开发的实际意义
这项研究对于任何需要训练或微调语言模型的团队都有直接的实践启示。
对于一个同时维护大型和小型模型的AI团队来说,传统思路是"用同样的训练数据分别训练大模型和小模型",而这项研究提出的思路是"优先把标注数据投入大模型,让大模型产生奖励塑形的行为,再通过桥梁把这种行为压缩到小模型中"。数据利用效率的提升相当明显。
这项研究还隐含了一个对"知识蒸馏"认知的修正。业界长期以来有一种做法,就是让大模型生成大量解题过程,然后直接用这些过程对小模型做监督微调(DeepSeek-R1就用了类似方法)。这项研究表明,这种"教师样本SFT"的效果不如"两步桥梁"——只有前向学习,没有让小模型面对自己的解题轨迹、在自己的弱点上得到反馈。最有效的知识传递,既要让小模型学习教师的示范,也要让小模型在自己的思考过程中得到教师的在线指导。
与此同时,研究也明确指出,这不是"永远不要在小模型上做强化学习"的结论。正确的解读是"先通过桥梁让小模型变得可训练,然后用剩余的新数据在小模型上补充强化学习"。小模型"冷启动"直接做强化学习效果差,但经过桥梁激活之后,它对稀疏奖励的响应能力大幅提升,同样的数据可以产生更好的效果。
---
七、研究的局限性与未来方向
研究团队对自己工作的边界条件相当坦诚。目前的实验全部集中在数学题这个领域,这类任务有天然的优势:答案对错容易自动判断,奖励信号清晰可靠。至于代码生成、指令遵循或者开放式问答这类任务,是否适用同样的原则,还需要进一步验证。
另一个重要限制是:OPD(在线策略蒸馏)需要教师模型和学生模型使用"共享词表"(相同的tokenizer),因为它的核心机制是让教师在学生的每个生成步骤上提供词语级别的概率分布。如果两个模型来自不同家族,词表不同,这个机制就无法直接使用。这就是为什么实验中Qwen家族内部的实验和Llama家族内部的实验是分开跑的,而不是把Qwen当教师传给Llama。
在规模方面,目前最大的学生模型是8B,教师最大是70B。当学生规模增大到70B、教师需要用400B以上的模型时,这套方法的优势是否依然显著,还是会随着学生本身能力的提升而减弱,目前尚不清楚。研究团队的理论预测是"优势会持续",因为奖励密度的逻辑本身不依赖于绝对规模,但具体的"临界点"在哪里,是一个值得未来深入探索的问题。
---
归根结底,这项研究提出的观点非常简洁:不要把稀缺的、精心制作的训练数据直接喂给最小最弱的那个模型。先让最聪明的大模型从中充分学习,产生高质量的行为,然后通过一个"两步桥梁"把这种行为有效传递给小模型,最后再把余下的数据用于强化小模型。顺序至关重要,稀缺资源应该先流向最能利用它的地方。
这个道理在日常生活中其实随处可见——好厨师的食谱应该先由顶级厨师烹饪成功,再形成可复制的标准流程,而不是直接丢给新厨师自己摸索。只不过在AI训练这个领域,这个常识长期以来被默默忽视了。感兴趣探索更多技术细节的读者,可以通过arXiv编号2605.12483找到完整原文。
---
Q&A
Q1:为什么原始大模型当教师反而比直接强化学习效果差?
A:原始大模型虽然参数多、基础能力强,但它的"行为方式"没有被答题奖励塑形过,传递给小模型的是通用的语言生成模式,而不是专门针对数学解题的推理风格。小模型模仿这样的教师,相当于在学习一种不够专注于解题的思维方式。实验中,原始8B教师传递后小模型MATH得分71.5%,反而比直接强化学习的75.9%低。只有当大模型先经过强化学习、行为被奖励充分塑形之后,它传递给小模型的东西才真正有价值。
Q2:两步桥梁中的前向KL预热和OPD能不能只选一种?
A:两步桥梁中的前向KL预热和OPD各自有不可替代的作用,单用一个效果都会下降。前向KL预热让小模型通过模仿教师的解题示范,进入教师的思维范围,解决"起点太差"的问题;OPD让小模型在自己的解题过程中得到教师的在线纠正,解决"只会照搬示范"的问题。实验显示,单用OPD得MATH 77.6%,单用教师样本SFT得76.0%,两步组合得79.3%,两步组合始终最优。
Q3:强化学习训练阶段一定要放在桥梁之后吗?
A:对于学生模型(小模型)的强化学习,确实建议在桥梁之后再做,因为"冷启动"的小模型初始解题能力弱,强化学习产生的奖励信号几乎无效。而经过两步桥梁激活后,小模型解题能力提升,强化学习才能真正发挥作用。实验证明,桥梁后做强化学习能把MATH从75.4%提升到78.5%,而把同样的训练步数用于"重播"旧数据,几乎没有提升(75.7%),说明是新数据加上"已被激活的小模型"共同带来了增益。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。