微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

三星研究院提出"信任区域"策略，让小型AI推理模型的学习过程更加稳定可靠

大语言模型知识蒸馏优化模型

三星研究院提出"信任区域"策略，让小型AI推理模型的学习过程更加稳定可靠

作者：科技行者

2026-06-09 09:33

分享至：

三星研究院提出TrOPD方法，通过动态划定"信任区域"解决小型AI推理模型在线蒸馏中的梯度不稳定问题，在数学、代码、科学推理等多项任务上超越现有方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-09 09:33 • 科技行者

这项由三星研究院（北京）、牛津大学和北京大学联合完成的研究，发表于2026年5月，论文编号为arXiv:2606.01249v1，收录于cs.LG（机器学习）领域。有兴趣深入了解的读者可以通过该编号查询完整论文。

**背景：大模型很强，但用起来太贵了**

近年来，像DeepSeek、Claude这样的大型AI推理模型在数学、编程、科学问答等方面的表现越来越令人瞩目，已经接近甚至超过专家水平。然而，这些强大的模型有一个明显的缺点——运行成本高昂，需要大量算力支撑，普通设备根本跑不动。正因如此，研究人员开始探索如何让小型模型也具备类似的推理能力，让AI能在手机、平板等资源有限的设备上高效运行。

这个目标听起来简单，但实现起来却充满挑战。研究团队采用的主要方法叫做"知识蒸馏"——通俗地说，就是让一个大而强的"老师模型"来指导一个小而弱的"学生模型"学习，就像让一位经验丰富的老厨师手把手教一位新手学徒一样。然而，当学生和老师的水平差距太大时，这种教学方式就会出问题，本文正是针对这一根本性困难提出了解决方案。

**一、学生和老师差距太大，会发生什么？**

先来理解一下"知识蒸馏"的基本逻辑。老师模型会给出自己的回答，学生模型不断模仿老师的风格和内容，逐渐提升自己的能力。这种方式被称为"离线蒸馏"——因为学生看的全是老师事先写好的答案，就像学生对着参考答案练习题目，这会导致一个经典问题：学生在考试时遇到老师没讲过的题型，就会手足无措，因为平时只背答案，没有真正学会独立解题的能力。

为了解决这个问题，研究人员发展出了"在线蒸馏"（On-Policy Distillation，OPD）——让学生模型自己先尝试作答，再由老师批改，这样学生就能从自己犯的错误中学习，更接近真实考试的状态。道理上，这种方式更能锻炼学生的实战能力。

但问题来了：当学生的水平和老师差距悬殊时，学生自己写出的答案可能在老师眼中完全是"异端"——老师认为这种回答出现的可能性接近于零，完全超出了自己的认知范围。这时候，老师给出的批改意见就会极度不可靠，用数学语言描述就是"策略梯度极度发散"，简单说就是学生收到了一个极端错误的反馈信号，反而越学越偏。这就好比一位顶级芭蕾舞老师看到一个从未跳过舞的学生做出一个奇怪动作，老师完全无法理解这个动作，强行打分反而会误导学生往更怪异的方向发展。

此外，还有另一个难题：让模型进行复杂推理时，需要生成很长的回答（比如一道数学题要一步步推导几千个字），这会消耗大量内存。如果还要同时计算老师和学生在所有词汇上的概率分布，内存开销会大到不可接受。所以研究人员不得不使用一种近似估算方法——K1估算器，但这种估算本身也会引入额外的不稳定性。

**二、现有方法的局限：简单的止痛药治不了根本病**

在这篇研究之前，学术界已有一些应对上述问题的方法，但效果都有其局限性。研究团队在统一的实验框架下系统地测试了这些方法，发现了共同的短板。

其中一类方法叫"奖励裁剪"，代表工作是REOPOLD——当学生某个词的回答偏差太大（老师给出极端负面评分）时，直接把这个评分截断，不让它超过一个上限值。这就像在考卷上规定"最低不得低于20分"，防止极端低分误导学生。这个方法有一定效果，但问题在于：那个截断阈值需要人工设定，而且在不同任务、不同训练阶段，合适的阈值都不一样，设置不当就会同时把有价值的学习信号也截掉，导致模型进入一个"学习瓶颈"，后期提升空间受限。

另一类方法叫"基于熵的词元筛选"——只对那些老师自己也拿不准的词（即老师的概率分布比较分散、"熵"较高的词）进行训练，理由是这些词是真正难以预测的地方，值得重点学习。然而实验发现，这个策略并不稳定：很多普通词（老师概率分布很集中、"熵"较低）同样包含重要的学习信号，把它们排除在外反而会损害模型性能。

还有一种方法叫"前向KL散度"（FKL），它从老师的视角来衡量学生和老师的差距，而非从学生视角出发，理论上对于差距较大的情况更加温和稳定。但实验发现，如果单独使用这种方法，而且只在词汇表的一小部分（前k个高概率词）上计算，会产生有偏的估算，反而把学习信号扭曲得面目全非，最终在数学推理任务上几乎学不到任何东西，成绩接近零分。

这些实验揭示了一个核心问题：现有方法要么治标不治本，要么副作用太大。研究团队决定从根本上重新思考：能否精确识别出"老师的批改意见可靠在哪、不可靠在哪"，然后分别对待？

**三、核心创新：划定"信任区域"，分区施策**

研究团队由此提出了"信任区域在线蒸馏"方法，英文缩写为TrOPD。整个方法的核心思想可以用一个贴切的比喻来理解：把学生写的每一个词想象成一步棋，老师会判断"这步棋我看得懂"还是"这步棋完全超出我的理解范围"。只有在老师"看得懂"的区域，才使用老师的直接点评来指导学生；对于老师"看不懂"的区域，则换一种间接但更稳妥的方式来给学生提供帮助。

具体来说，对于学生自己生成的每一个词，方法会计算一个"被老师接受的概率"，公式非常直观：如果老师觉得这个词出现的可能性（πT(x)）比学生自己觉得的可能性（πS(x)）还大，那说明这个词在老师的认知范围内，属于"信任区域"；反之，如果老师给这个词的概率远低于学生，那就说明这个词对老师来说很陌生，属于"离群区域"。这个判断标准借鉴了一种叫做"推测解码"的技术——它原本用来加速大模型推理，核心思想也是判断一个词是否被老师认可。

在"信任区域"内，方法使用传统的"反向KL散度"（RKL）来训练学生，也就是让学生尽量生成老师认为高概率的词，直接利用老师的权威指导，效果可靠而高效。

在"离群区域"，方法则切换到"前向KL散度"（FKL）——不再强迫学生模型从自己的视角去估算和老师的差距，而是从老师的视角出发，看看老师认为哪些词是好词，然后鼓励学生的概率分布往这些词靠拢。这种方式规避了离群区域反向KL估算不可靠的问题，同时也没有简单粗暴地把离群词的学习信号直接丢弃——毕竟这些区域虽然老师看不懂，但并不代表完全没有学习价值，只要老师词汇表中有相关词，学生依然能从中获益。更巧妙的是，当学生的概率分布和老师相差极远（前向KL趋近于零）时，这部分的梯度信号会自动消失，不会干扰信任区域内的正常训练。

这种"分区治理"的设计，相比简单的裁剪或遮蔽，既保留了更多有价值的学习信号，又避免了极端错误梯度的干扰，两全其美。

**四、另一个妙招：让老师带着走一段路**

除了上述"在线分区"策略，TrOPD还引入了一个叫做"离线指导"的辅助机制，来解决另一个问题：学生模型能力太差时，自己独立生成的答案质量极低，老师根本无从批改，学习就此陷入僵局。

解决方案是：让老师先写一个开头（前缀），然后让学生接着续写下去。这样，学生起码有了一个质量较高的起点，不至于从一开始就完全跑偏，后续生成的内容也更有可能落在老师能够理解和批改的范围内。这就像一位有经验的作文老师不直接给你批改，而是先帮你把开头几句话写好，你再接着往下写，这样你写出来的东西就不会太离谱，老师也能给出更有价值的反馈。

在处理这段老师写的前缀时，方法采用前向KL来做"模仿学习"——让学生学习老师已经写好的部分，用的是一个权重极小的系数（β=0.001），所以这部分的影响很轻微，主要作用是引导，而不是强制同化。对于学生自己续写的后半段，则正常应用前面说的信任区域分区策略。

在训练过程中，这个老师前缀的长度会逐渐缩短，遵循余弦退火的节奏——训练初期老师帮学生写很长的开头，随着学生能力逐渐提升，老师的帮扶越来越少，直到训练结束时学生完全独立生成答案。这个设计确保了学生在训练后期能够真正实现完全在线的独立推理，而不是始终依赖老师的"脚手架"。

**五、实验证明：在多个领域全面超越竞争对手**

研究团队在多个维度上对TrOPD进行了系统验证，与多种现有方法进行了对比，实验规模相当全面。

在以数学推理为核心的单领域实验中，研究团队使用DeepSeek-Distilled-Qwen-1.5B作为学生模型，以Skywork-OR1-Math-7B作为老师模型，在AIME（美国数学邀请赛）2024年题、AIME 2025年题和AMC（美国数学竞赛）2023年题上进行测试，每道题反复测试32次取平均值以确保可靠性。结果显示，TrOPD在三道测试的平均分上达到49.85分，明显高于普通在线蒸馏方法OPD的46.79分，也高于加入奖励裁剪的REOPOLD的47.86分。值得注意的是，使用纯前向KL的方法在这里完全失效，得分仅有1.40分，印证了研究团队关于"前向KL单独使用会引入严重偏差"的分析。

在多领域同时训练的实验中，学生模型不仅要学数学，还要同时学习编程和科学问答，任务难度更高。使用同一个学生模型DeepSeek-Distilled-Qwen-1.5B时，TrOPD的综合平均分达到37.61分，比OPD的32.99分提升了约4.6分，比REOPOLD的35.58分提升了约2分，在数学、代码和通用能力上均有提升。

在另一组使用Qwen3-SFT-1.7B作为学生、Qwen3-Nemotron-4B作为老师的多领域实验中，TrOPD的综合平均分达到51.73分，相比OPD的48.29分提升了3.44分，相比REOPOLD的48.56分提升了3.17分。在具体子任务上，TrOPD在数学推理（AIME 2025）上提升了约3.3分，在代码生成（LiveCodeBench）上提升了约4分，在指令遵循（IFBench）上提升了约5.1分，在STEM科学推理（GPQA钻石题）上提升了约6.2分。尤其是指令遵循和科学推理的提升幅度最为明显，说明TrOPD在处理难以量化、回答风格差异较大的任务时优势更为突出。

在消融实验中，研究团队逐步拆解TrOPD的各个组件，验证每个设计的贡献。结果表明，仅将离群词的学习信号遮蔽（Mask Outlier）比普通OPD提升了约0.93分，仅做裁剪（Clip Outlier）提升约1.07分，而将离群词改用前向KL处理（FKL Outlier）则大幅提升到约2.21分，说明前向KL在离群区域的应用确实比简单遮蔽或裁剪更有效。在此基础上再加入离线指导，三种变体（TrOPD Mask、TrOPD Clip、TrOPD FKL）相比OPD分别提升了约2.00分、1.94分和3.06分，证明离线指导带来了额外的稳定性和性能提升。

研究团队还注意到一个同期发表的方法AOPD（非对称在线蒸馏），它从不同的角度处理在线蒸馏中正负样本的不对称问题。实验发现，TrOPD以40.63分优于AOPD的39.79分；而将两者结合使用时，综合得分进一步提升到41.67分，说明这两种方法在思路上互补，可以叠加使用，为未来研究提供了一个有趣的方向。

从训练过程中的动态指标来看，TrOPD在训练过程中保持了更高的策略熵（模型输出的多样性更好，更有探索空间），梯度范数也更低更稳定，这意味着训练过程更加平稳，不容易出现突然崩溃或训练曲线剧烈抖动的情况。

**六、这项研究的意义与局限**

说到底，这项研究的核心贡献在于精确回答了一个问题："在学生和老师差距较大时，老师的哪些批改意见可以信，哪些不能信，不能信的时候该怎么办？"。通过基于概率接受率的动态信任区域划分、离群区域的前向KL替代估算，以及从老师前缀出发的渐进式离线引导，TrOPD构建了一套比现有方法更加精细、更加自适应的在线蒸馏框架，在数学、编程、科学推理、指令遵循四个领域均取得了全面提升。

这对普通人来说意味着什么？更有效的知识蒸馏方法，意味着未来小型AI模型（比如手机上运行的助手）能够具备更强的推理和解题能力，而不需要依赖庞大的云端算力。你向手机上的AI提问一道复杂的物理题，或者让它帮你写一段复杂的代码，它的回答质量可能会因为这类技术的进步而明显提升。

当然，研究团队也坦诚地指出了本文的局限：目前的实验主要集中在两个具体的学生模型上进行后训练阶段的验证，并未涉及更大规模的预训练或中间训练阶段。在真实部署场景中，训练一个高性能小型推理模型往往还需要这些前置阶段的配合，单靠后训练阶段的在线蒸馏，最终性能的上限仍然受到初始基础模型能力的制约。未来如果能将TrOPD的思想延伸到更早的训练阶段，或许能解锁更大的性能潜力。

归根结底，TrOPD提供了一个更加精细的视角来看待在线蒸馏问题——不是简单地"信任或不信任老师"，而是"在哪些具体位置信任老师、以何种方式信任老师"。这个思路本身就是对该领域认知的一次实质性推进。有兴趣深入钻研技术细节的读者，可以通过论文编号arXiv:2606.01249v1获取完整论文，里面还包含了教师模型Qwen3-Nemotron-4B的完整训练配方等丰富的实验细节。

Q&A

Q1：在线蒸馏（OPD）和传统知识蒸馏有什么区别？

A：传统知识蒸馏让学生模型直接模仿老师生成的答案，学生只见过老师的标准答案。在线蒸馏则让学生先自己作答，再由老师批改，学生能从自己的错误中学习，避免了"只会背答案、遇到新题就懵"的问题，特别适合需要复杂推理的任务。

Q2：TrOPD的信任区域是怎么判断的？

A：对于学生生成的每一个词，TrOPD会比较老师和学生对这个词的概率估计。如果老师认为这个词出现的概率不低于学生自己的估计，说明这个词在老师的认知范围内，属于"信任区域"，可以用老师的直接反馈来训练；否则就属于"离群区域"，改用更稳妥的方式处理。

Q3：TrOPD在代码生成上提升了多少？

A：在LiveCodeBench v6代码生成测试中，以Qwen3-SFT-1.7B为学生模型时，TrOPD达到36.00分，相比普通在线蒸馏OPD的32.00分提升了4分，也优于REOPOLD的35.43分，是参与对比的方法中得分最高的。

大语言模型知识蒸馏优化模型

分享至