微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI学生遇上AI老师:UIUC、人民大学与北京大学揭示大模型"以政策蒸馏教学"的成败密码

当AI学生遇上AI老师:UIUC、人民大学与北京大学揭示大模型"以政策蒸馏教学"的成败密码

2026-05-18 14:17
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-18 14:17 科技行者

这项由美国伊利诺伊大学厄巴纳-香槟分校(UIUC)、中国人民大学和北京大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.11182。研究聚焦于一种被称为"在线策略蒸馏"的大语言模型训练方法,系统性地探究了它在什么情况下能让AI进步、在什么情况下反而会让AI崩溃,以及背后的根本原因。

要理解这项研究,不妨把训练大语言模型的过程想象成一种特殊的学徒制教学。在这个课堂里,有一位经验丰富的"老师"(较强的AI模型),和一位正在学习的"学生"(较弱的AI模型)。老师的任务不是直接给出参考答案让学生背诵,而是站在学生身边,随时观察学生的思考过程,在每一个关键节点上给出逐字逐句的指导。学生写一个词,老师就评价这个词选得好不好;学生写一句话,老师就给出对下一句话的概率分布建议。这种教学方式被称为"在线策略蒸馏(On-Policy Distillation,OPD)",其中"在线策略"的意思是老师始终是在看着学生自己产出的内容来给建议,而不是拿着一份提前写好的标准答案。

还有一种更奇特的变体,叫做"在线自蒸馏(On-Policy Self-Distillation,OPSD)"。这种情况下,老师和学生其实是同一个模型,只不过老师版本比学生版本多了一些"特权信息"——比如题目的答案、解题思路、或者特定的行为风格指令。这就好像同一个学生,一个版本拿着参考书在做题,另一个版本只凭脑子里的知识做题,有参考书的版本来指导没有参考书的版本。

这套教学方法听起来很美妙,但实际表现却参差不齐——有时效果惊人,有时却让学生退步甚至崩溃。正是这种令人困惑的不一致性,促使研究团队展开了这次全面的调查。他们想弄清楚:这套方法到底在什么情况下管用,在什么情况下会失败,以及失败的根本原因是什么。

一、两种截然不同的教学结果:数学推理与风格内化的巨大反差

研究团队首先观察了这套方法在不同任务上的表现,发现了一个非常鲜明的分裂:同样的教学框架,用在数学推理上往往以失败告终,用在风格内化上却能取得不错的效果。

在数学推理任务上,研究团队用Qwen3-1.7B作为学生模型,在OpenThoughts数据集上进行训练,并在Math500、AIME24、AIME25三个数学测评集上检验效果。无论给老师提供什么样的特权信息——只提供最终答案,还是提供完整的解题过程——学生的表现都没有稳定提升。更麻烦的是,提供越多的特权信息,往往反而让学习效果越差。完整解题过程的版本比只提供答案的版本表现更糟糕。研究团队甚至专门训练了一个用强化学习优化过的教师模型,结果这个"更强"的老师教出来的学生反而更差,这说明光靠提升老师的能力并不能解决根本问题。

在风格内化和系统提示词内化任务上,结果却是另一番景象。研究团队在CharacterBench(角色扮演一致性测评)和EmotionBench(情绪表达测评)上做了实验。老师版本的模型被提供了包含目标角色个性、说话风格、情感倾向的详细指令,而学生版本在推理时完全没有这些指令,只能靠训练时学到的知识来模仿这种风格。实验结果显示,自蒸馏方法在相同的样本量下,比基于奖励的强化学习方法(GRPO和PPO)收敛更快、效果更好。在安全对齐(safety alignment)任务中,自蒸馏在训练初期进步非常迅速,但最终效果受限于教师模型的上限,而强化学习方法则能持续缓慢提升并最终超越自蒸馏的天花板。

这种鲜明的对比引出了一个核心问题:为什么同样的框架在不同任务上表现如此迥异?这正是这项研究最有价值的部分——系统性地揭开了三个主要的失败机制。

二、第一个失败机制:老师被学生的作文"带跑偏了"

第一个导致失败的原因,被研究团队称为"前缀扰动"问题,说白了就是学生写的半段文章会把老师的判断力搞乱。

在这套逐字指导的教学机制中,每当学生写出一段文字,老师都需要基于这段文字来预测下一个词该怎么写。问题在于,学生写的这半段文章,可能走向了一条老师完全不熟悉、或者认为是错误的路径。当老师被迫站在这条陌生的路口上时,它的判断力就会大打折扣。

为了量化这个问题,研究团队做了一个直接的实验:用Qwen3-1.7B(学生模型)生成的回答前半段,让Qwen3-14B(教师模型)继续完成,然后检验最终答案的正确率。结果让人印象深刻:当Qwen3-14B独立解题时,它在GPQA-Diamond(研究生级别科学题)上的正确率是62.1%;但当它被强制从学生写的前半段继续写时,正确率直接跌落至46.0%,足足下降了16.16个百分点。

更能说明问题的是方向性统计:在这个实验里,有40道题原本是教师独立做对的,但从学生前缀继续后变成了错误;而原本教师做错的题,经过学生前缀的"帮助"后变成正确的只有8道。也就是说,学生的前缀"帮了倒忙"的情况是"真正帮到忙"的5倍。连答案格式的正确率也从98.48%跌到了78.79%,说明学生写的前缀不仅影响了老师的判断,甚至影响了老师按规定格式输出的能力。

研究团队在词汇层面也观察到了具体的表现:当学生已经走上了某个推理路径后,老师往往会给"wait"(等等)、"but"(但是)这类转折性词汇赋予很高的概率,因为老师觉得这条路走错了,需要纠偏。这就造成了一种奇特的局面:老师不是在帮学生走得更稳,而是一直在拉着学生掉头,结果导致学生的回答越来越冗长、越来越犹豫,充斥着各种"等等,也许……但是……"的反复修改。

三、第二个失败机制:一个数学小陷阱引发的训练崩溃

第二个失败机制藏在一个看似无关紧要的技术细节里:TopK截断反向KL散度的梯度偏差问题。这个名字听起来很绕,但核心思想其实可以用调音台来理解。

在这套学徒教学中,老师评估学生选词的方式,是比较"学生认为某个词好"和"老师认为某个词好"之间的差距。全词汇表反向KL散度(Full-vocabulary Reverse KL)是理论上最完整的评估方式,它会比较所有几万个可能的词,逐一打分。但这样做非常消耗计算资源,于是实际操作中通常只取概率最高的前K个词(TopK截断)来近似计算。

这个截断看起来无伤大雅,但数学上却埋了一个陷阱。在完整词汇表上,有一个常数项"+1"在计算梯度时会完美抵消掉,因为所有词的概率之和始终等于1,对应的梯度贡献之和等于0。但是,当只保留TopK词汇时,这K个词的概率之和不再等于1(因为被截断了),于是那个原本应该消失的"+1"项就残留在了梯度里,产生了偏差。

这个偏差的后果是什么?它改变了梯度更新规则,使得只有当老师对某个词的喜好远远高于学生时,这个词才会被"推动";而那些老师比学生稍微更喜欢一点的词,反而会被压制。这相当于调音台的某些旋钮被歪曲了,导致学生不是在逐渐靠近老师的分布,而是被推向一些奇怪的低概率词汇选择。

研究团队在实验中清晰地记录了这种崩溃的全过程:训练大约到700步时,模型的回答开始急剧变长,充满"wait"(等等)和"maybe"(也许)这样的犹豫词;到了1000步,模型几乎只会产出无限重复的"maybe maybe maybe maybe…",在Math500、AIME24、AIME25三个测评集上的准确率直接跌落到接近零。词云图非常直观地展示了这个过程:从步骤0的正常数学符号,到步骤700开始出现大量"maybe"和"wait",到步骤1000完全被"maybe"淹没。

四、第三个失败机制:自蒸馏让学生学了一个"平均老师"

第三个失败机制专属于自蒸馏(OPSD),并且有着严密的数学推导。

在自蒸馏中,老师版本的模型看到了特权信息(比如解题答案),而学生版本在推理时没有这个信息。自蒸馏的目标是让学生在没有特权信息的情况下,尽可能模仿有特权信息的老师的行为。数学上可以严格证明,自蒸馏最终学到的学生策略,是所有不同特权信息对应的老师策略的"归一化几何平均"——简单来说,就是各种情况下老师行为的一种综合折中版本。

这种折中在某些情况下很有用,在另一些情况下则是致命缺陷。关键区别在于特权信息的性质。

当特权信息是一种跨样本共享的统一规则时,折中是有意义的。比如,系统提示词(System Prompt)"用简洁的语言回答"这个指令对所有问题都适用,所有问题对应的"有提示词的老师"和"没有提示词的学生"之间的差异,都是朝着同一个方向的——让语言更简洁。学生把这个方向学进去,就真的学会了"更简洁"这种行为模式。情绪风格、角色性格这类特权信息也属于这种情况。

但当特权信息是每道题各自特有的、不可迁移的信息时,折中就没有意义了。对于数学题来说,每道题的答案是各不相同的,题目A的答案是3,题目B的答案是127。老师看着答案3来解题,和老师看着答案127来解题,走的是两条完全不同的路。把这两条路"平均"一下,得到的不是一个更聪明的解题策略,而是一个模糊的、没有方向的乱七八糟。学生从这种"平均信号"中几乎学不到任何有用的解题方法。

研究团队用实验进一步排除了"是不是因为教师模型本身不够强"的疑虑:他们换了一个经过强化学习专门优化的更强教师模型来做数学自蒸馏,结果更差。这证明问题不在于老师够不够强,而在于特权信息的结构本身。

五、三种修复方案:让教学重回正轨

理解了失败的原因,研究团队随即提出了三种对应的修复策略,每种针对一个失败机制。

针对TopK梯度偏差问题,最简洁的解决方案是在计算梯度时对概率项施加"停止梯度"操作,具体来说就是在求导时不让学生概率的对数项参与微分(Stop-Gradient TopK)。这样做虽然不是从数学上完美等价于完整词汇表反向KL,但它移除了那个导致偏差的"+1"残留项,使梯度方向回归正确。还有一种替代方案是对TopK内的概率进行重新归一化(Renormalized TopK),让截断后的K个词的概率重新加和为1,这样"+1"项就能再次自然消失。第三种方案是把蒸馏信号移入策略梯度形式,只用学生实际采样到的那个词的老师-学生概率差作为奖励信号,完全绕开了词汇表截断的问题,但代价是只能获取稀疏的逐词信号而非完整分布。研究团队比较了这三种修复方案(以K=5为例),发现未修复的版本在训练中崩溃,而三种修复版本都能稳定训练并取得相近的效果。

针对教师-学生分布失配问题,一个有效策略是先用强化学习(RLVR)微调教师模型,让它的分布更贴近学生的分布,再进行蒸馏。研究团队用DAPO(一种强化学习方法)训练了一个Qwen3-1.7B-GRPO教师模型,使其在Math500、AIME24和AIME25上的表现与原本的Qwen3-8B相当。然而,用这个经过RL训练的1.7B教师来指导1.7B学生,效果显著优于用8B教师直接指导1.7B学生,尽管两者的数学能力几乎相同。原因在于,1.7B的RL教师在词汇层面上与1.7B学生有更高的分布重叠——实验数据显示,1.7B-GRPO教师与学生的Top20词汇重叠率远高于8B教师与学生的重叠率。这说明了一个反直觉的结论:教师模型的绝对能力不是决定蒸馏效果的唯一因素,老师和学生的"思维方式"是否相近同样至关重要。

针对学生初始状态不稳定的问题,研究团队发现当学生是一个完全未经微调的基础模型时,它偶尔会产出非英语的乱码、毫无语义结构的输出。这种情况下,老师给出的词汇级别建议完全没有意义,因为学生根本不在正常的语言空间里。解决方案是先用教师生成的高质量回答对学生进行一轮监督微调(SFT),把学生的输出"规范化"到合理的语言空间,再开始在线蒸馏训练。实验显示,这个SFT热身步骤能让后续的蒸馏训练保持稳定,而且OPD损失的曲线也更加平滑可控。

六、藏在细节里的更多发现

除了上述三个核心失败机制和修复方案,研究团队还记录了若干值得关注的附加发现。

在教师信号的分布特征上,研究团队发现老师给出的词汇级别建议存在两个系统性偏差:一是早期词汇(回答开始时)的信号更强,越往后信号越弱;二是学生答错的回答会收到更强的老师纠正信号,而学生已经答对的回答反而收到的信号很弱。这意味着,这套逐字教学方法其实主要在"纠错",对已经走对路的回答帮助有限。这解释了为什么这种方法在推理任务上的提升空间有限——当模型偶尔答对时,它得不到什么强化;只有答错时才会被"大力纠正",但纠正的方向也可能因为前缀扰动问题而走偏。

关于TopK实现的工程细节,论文还记录了一个实际系统中的挑战:理想状态下应该针对每个词汇位置分别选取K个最高概率的词汇,但SGLang推理引擎的接口不支持这种逐位置的TopK查询,只支持全局统一的词汇集合。研究团队的解决方案是取所有位置的TopK词汇集合的并集作为统一查询集合,并只在老师和学生共同出现在TopK集合中的词汇上反向传播梯度。

研究团队还观察到了一种有趣的"思考模式泄露"现象(Thinking Mode Hacking):当学生模型被训练为不进行显式推理过程(no-thinking mode),但老师模型是打开了推理过程的(thinking mode)时,学生在训练过程中会逐渐学会模仿老师的推理控制符号,产出类似"<think>…</think>…<think>"的畸形输出,在本不应该出现推理过程的回答里自发触发推理模式。这说明蒸馏不仅会迁移目标行为,还可能迁移老师使用的控制信号,导致学生模型在测试时产出意料之外的格式问题。

与此同时,自蒸馏在推理压缩任务上展现了一个有趣的实用价值:通过把"请用简洁方式回答"的系统提示词作为特权信息,用8B量级的模型进行自蒸馏,可以在不损失准确率的前提下显著压缩回答长度。与用强化学习配合长度惩罚来实现同样效果相比,自蒸馏的样本效率更高。而且自蒸馏还有一个实际的工程优势:在线蒸馏不需要等待模型生成完整回答再计算奖励,而是逐词给出信号,因此可以使用更短的生成长度,节省计算资源。不过这种压缩效果只在规模较大的模型(如8B)上稳定出现,在1.7B的小模型上并不明显。

从更宏观的角度看,这项研究提炼出了一个核心判断:自蒸馏方法是否有效,关键在于"特权信息是个人秘密还是公共规律"。如果特权信息是每个样本各自独有的、不可迁移的(比如每道数学题的具体答案),那么自蒸馏只会让学生学到一个"各种情况的模糊折中",远不如有特权信息的老师。但如果特权信息代表了一种所有样本共同遵循的潜在规律(比如某种说话风格、某种安全行为准则),那么这种折中恰好就是学生需要内化的规律,自蒸馏就能发挥显著效果。

说到底,这项研究的最大贡献是把"在线策略蒸馏到底在什么条件下有用"这个模糊的问题,拆解成了三个具体的可以检验和修复的机制问题。它告诉研究者和从业者:在使用这套方法之前,先问三个问题——老师和学生的分布是否足够接近?所用的TopK目标函数是否存在梯度偏差?特权信息是各样本独有的还是跨样本共享的规律?如果第一个问题的答案是否定的,考虑先用RL适配教师;如果第二个问题的答案是肯定的,换用停止梯度或归一化版本;如果第三个问题的答案是前者,那么自蒸馏路线从根本上就不适合这个任务。

这不是一个关于"哪种方法最好"的研究,而是一个关于"为什么某种方法在某些情况下失败"的深度调查报告。它的价值在于提供了一个思考框架,而不是一个通用解方。对于正在大规模部署和微调大语言模型的团队来说,这种诊断性的洞见或许比任何单一的性能提升数字都更有实用价值。有兴趣深入了解全部实验细节和数学推导的读者,可以通过arXiv编号2605.11182查询完整论文。

Q&A

Q1:在线策略蒸馏(OPD)和普通知识蒸馏有什么区别?

A:普通知识蒸馏通常是用老师模型生成一批固定的答案,然后让学生去模仿这些固定答案。在线策略蒸馏的不同之处在于,学生每次训练时都先自己生成回答,老师实时观察学生写的内容,针对学生自己的回答逐词给出建议。这样做的好处是老师的反馈总是针对学生当前的实际状态,而不是针对一个预设的标准答案;坏处则是学生写的内容可能把老师"带跑偏",使老师自身的判断力下降。

Q2:为什么自蒸馏(OPSD)在数学推理任务上会失败?

A:从数学上可以证明,自蒸馏训练出的学生学到的是所有不同特权信息(如不同题目的答案)条件下老师行为的一种折中平均。对于数学题来说,每道题的答案是各不相同的独特信息,题A的解题路径和题B的解题路径没有共同规律可言。把这些完全不同的路径"平均"后,学生学到的不是真正的解题能力,而是一个模糊无用的混合物。这与系统提示词内化任务形成鲜明对比——系统提示词是所有题目共享的同一规律,折中后学生能真正内化这个规律。

Q3:TopK反向KL的梯度偏差为什么会导致训练崩溃?

A:完整词汇表反向KL在计算梯度时有一个"+1"的常数项,由于所有词的概率加和为1,这个常数项的贡献会被完全抵消,不影响梯度方向。但当只保留前K个高概率词做近似计算时,这K个词的概率之和不再等于1,那个"+1"项就无法被抵消,残留在梯度里并产生系统性偏差。这个偏差会导致学生被推向一些边缘的低概率词汇,训练逐渐失去稳定性,最终出现模型只会重复输出"maybe maybe maybe"这样的退化现象。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-