
这项由T-Tech研究院完成的研究成果以arXiv预印本形式发布于2026年5月29日,论文编号为arXiv:2605.31159,感兴趣的读者可通过该编号查阅完整原文。
一个优秀的老师,面对基础薄弱的学生时,该怎么教?这个问题不只困扰着现实中的教育者,也同样困扰着人工智能领域的研究者。T-Tech研究院的团队正是从这个角度出发,提出了一套名为"信任域行为混合"(Trust-Region behavior Blending,简称TRB)的训练方法,并在数学推理任务上取得了同类方法中最优的平均表现。
**一、从"照本宣科"到"因材施教":AI模型的知识传授难题**
在AI的世界里,有一种常见的培养方法叫做"知识蒸馏"——就是让一个小而高效的"学生模型"去模仿一个更大、更强的"教师模型"的行为。这个过程可以粗略理解为:教师模型做题,写下详细解题过程,然后让学生模型照着这份"标准答案"反复练习,直到学生也能做出类似的回答。
然而这里有个根本性的问题。当学生模型按照教师的"标准答案"学习时,它所接触到的语境——也就是每道题前面的"开头"——始终是教师写出来的那种流畅开头。但真正考试的时候,学生模型要靠自己从零开始写,它自己写出来的开头可能歪歪扭扭、词不达意。这种"训练时的语境"和"实际使用时的语境"之间的落差,在AI研究中被称为"前缀不匹配"或"曝光偏差"问题。
为了解决这个问题,研究者们发展出了"在策略蒸馏"(On-Policy Distillation,简称OPD)这套方法。简单说,就是让学生模型自己先写一段开头,然后再让教师模型对这段开头后面的内容进行指导和监督。这样,学生练习的语境就和它实际使用时的语境一致了,不再是"温室里长大却要在野外生存"的困境。
但这套方法又带来了新的麻烦。刚开始训练的时候,学生模型非常弱,它自己写出来的开头可能乱七八糟、驴唇不对马嘴。在这种糟糕的开头基础上,教师模型的指导也就失去了意义——就像一个学生在黑板上随手乱写了一通,老师就算想纠正也不知道从哪里下手。T-Tech的研究团队把这个阶段形象地描述为:早期的学生自我生成轨迹,往往无法承载有效的教师监督信号。
**二、"信任域行为混合":在学生和教师之间找到最佳站位**
TRB的核心思路,可以用一个"导航辅助"的比喻来理解。
假设你是一个刚拿到驾照的新手司机,独自上路行驶。旁边坐着一位经验丰富的老驾驶员。如果老驾驶员完全接管方向盘,你就什么都学不到;但如果老驾驶员完全不管,任由你横冲直撞,你可能出事故也可能走弯路。最好的方案是:老驾驶员在你偏离方向的时候,轻轻给你一个提示或者小小地修正一下,但整体上还是你在开车,让你保持对方向盘的掌控感。
TRB做的就是这件事。在每一个生成位置(相当于驾驶途中的每一个路口),它都会在"学生自己会怎么走"和"教师会怎么走"之间,寻找一个既靠近教师方向、又不会偏离学生太远的中间点。这个"不会偏离太远"就是所谓的"信任域"——一个以学生当前位置为中心画出的安全圈。只要行为策略落在这个圈内,就被认为是可接受的。
从数学角度来说,这个过程被表述为一个优化问题:找到一个采样策略,让它尽量接近教师(用KL散度来度量距离,KL散度可以理解为两个概率分布之间的"差异程度"),同时与学生的距离不超过一个给定的预算值。这个优化问题有一个漂亮的闭合解,即对学生和教师的下一词概率分布做加权几何平均:混合策略的每个词的概率,正比于学生概率的(1-β)次方乘以教师概率的β次方,β就是那个控制"向教师靠拢程度"的参数,取值在0到1之间。当β等于0时,混合策略就等于学生自己;当β等于1时,就等于教师。
找到正确的β值需要一个额外的步骤:对给定的信任域预算ε,用二分法搜索最大的β,使得混合策略和学生之间的差异恰好等于ε。研究团队在论文附录中严格证明了"混合策略与学生之间的差异随β单调不减"这一数学性质,从而保证了二分法的合法性。这个过程可以理解为:导航系统在安全圈内尽量往教师方向拉,拉到圈的边界为止。
值得特别说明的是,TRB只改变了"用谁来走这段路"(行为策略),而没有改变"走完这段路之后怎么学习"(训练目标)。训练目标始终是标准的逆向KL散度,衡量学生预测和教师预测之间的差距。这种"只动采样策略、不动学习目标"的设计,让TRB可以像一个插件一样,叠加在任何标准的OPD流程上。
**三、渐进退出:信任域预算的线性消退计划**
TRB还有一个关键设计:它只在训练的早期阶段发挥作用,然后逐渐退出,把控制权完全交还给学生。
研究团队为信任域预算设计了一个线性消退计划:在第0步时,预算从初始值ε?开始;随着训练步数的增加,预算线性降低;到预设的"热身结束步骤"K时,预算降为零,此后完全回到纯学生采样。这个设计背后的逻辑是:在学生最弱的时候,给它最多的导航辅助;随着学生越来越强,辅助越来越少,最终完全自立。
这就像骑自行车时父母扶着后座的辅助轮——开始时完全依赖,之后逐渐放手,最后完全靠自己平衡。整个TRB方法因此引入了两个超参数:初始信任域预算ε?和热身步数K。在实验中,研究团队对ε?在0.001到0.05之间的五个值、K在15、25、50三个值进行了系统性搜索。
**四、和其他"助教方案"的比较:TRB究竟好在哪里?**
T-Tech的研究团队不只是提出了TRB,他们还认真地和一系列其他方案进行了对比,让读者能够清楚地看到TRB的相对优势和适用场景。
研究中对比的方案包括以下几类。基础参照是"纯OPD",也就是完全不加任何干预,直接让学生自己滚动生成,贯穿整个训练过程。另一种是"Veto"方法,它的思路是在学生走完一段路之后,修改"教师的预期目标",在学生的预测和教师的预测之间构建一个桥梁,调整训练时的目标分布。还有"熵感知OPD"方法,它不改变行为策略,而是在计算训练损失时,对教师不确定性高的地方同时施加额外的正向KL压力,以保持多样性。"TIP"方法则专注于选择哪些词的位置对训练更有帮助,通过学生熵和师生分歧来挑选重要的监督位置。
与上述方法不同,"SKD"(推测性知识蒸馏,又称交错教师注入)直接在生成时替换词元:学生先采样一个词,如果这个词不在教师的前K高概率词里,就用教师重新采样一个词来替换。这个方法相当于偶尔强制性地把学生的笔从错误轨道上拉回来,用教师的手写上一笔。
此外,研究团队还测试了"温度热身"(在热身阶段降低学生的采样温度,让学生保守一些,之后恢复到正常温度)和"SFT热身"(先用教师生成的数据做监督微调,再切换到OPD)这两种简单基线。
"固定ε混合"是TRB的一个变体,使用同样的逐前缀信任域求解器,但不做消退,整个训练过程中信任域预算保持不变。这个变体的存在非常关键,因为它能帮助区分"信任域混合本身的作用"和"消退机制的额外贡献"。
**五、数学推理的考场:两组实验给出的成绩单**
研究团队在两组模型配对上进行了实验。第一组是Qwen3-1.7B-Base(学生)从Qwen3-8B(教师)蒸馏,第二组是Qwen3-0.6B-Base(学生)从Qwen3-4B(教师)蒸馏。评估使用的是数学推理能力,包括MATH500(一个覆盖竞赛数学难题的标准测试集)、AIME24和AIME25(美国数学邀请赛真题)、AMC(美国数学竞赛)和Olympiad(奥数题库)等多个维度。评估指标是pass@1,即模型一次生成就给出正确答案的概率,对每道题采样多次取平均(GSM8K用32次,MATH500和Olympiad用64次,AIME和AMC用512次)。
在1.7B学生的实验中,TRB的平均分是33.2,高于纯OPD的32.3,也高于Veto的32.6、SKD的32.7、温度热身的32.8、SFT热身的32.2和固定ε混合的32.6。在0.6B学生的实验中,TRB的平均分是44.4,同样高于纯OPD的44.0,以及其他所有方法。虽然某些基线在个别测试集上会超过TRB,但没有任何一个方法能在两组实验的整体平均上超越TRB。
特别值得关注的是TRB和固定ε混合的对比:两者使用完全相同的逐前缀求解器,区别仅在于TRB会把信任域预算消退到零,而固定ε混合不会。TRB在两组实验中都超过了固定ε混合,这说明"把老师的辅助逐渐撤走"这个设计确实有独立的价值——教师导航在早期很有用,但如果一直保持,反而会妨碍学生建立自己的能力。
**六、训练过程的内部观察:信号究竟在哪里起作用?**
研究团队不满足于只看最终成绩,他们还深入观察了训练过程中发生了什么。
其中一个有意思的分析是追踪"教师在学生访问的前缀上的词元级平均熵"。熵可以理解为教师对下一步该写什么的"犹豫程度"——熵越低,教师越确定,监督信号越清晰。观察发现,在TRB的热身阶段,学生访问的前缀上的教师熵明显低于纯OPD。这意味着TRB引导学生走到了一些教师更有把握的路径上,因此教师的指导也更清晰有效。一旦热身结束,两者的熵曲线趋于一致,说明主要的差异发生在热身窗口内,而不是热身之后。
另一个有趣的分析是"步骤0的前缀探针实验":在训练刚开始的第一步,从TRB采样得到的前缀和从纯学生采样得到的前缀,分别在固定长度处截断,然后用同一个教师或同一个学生续写,看哪个前缀能续写出更多正确答案。结果发现,无论用教师续写还是用学生续写,TRB的前缀都比纯学生的前缀更容易得到正确答案,而且在不同截断长度(64、128、256、512词元)下都是如此。对于教师续写,最短截断时TRB的相对增益高达50%;对于学生续写,最短截断时也有22%的增益。
这个结果说明,TRB在最开始的时候就把学生引导到了更"肥沃"的语境上——这些语境无论对教师还是对学生本身,都更容易触发正确的推理路径。这和李等人在2026年提出的理论框架相互印证:OPD成功的关键在于学生访问的状态是否能承载来自教师的有效信号。
研究团队还展示了一个具体的例子:给定一道"b进制下112的立方等于23632,求b"的数学题,纯学生在第一步就开始胡言乱语("我们需要了解COVID-19时代的日常生活……"),而TRB引导下的学生,虽然开头也有些噪声,但很快就抓住了题目核心,开始进行正确的进制转换推导。这个例子虽然只是单个案例,研究团队也明确声明它只是定性验证而非统计证据,但它直观地展示了TRB改善早期生成质量的机制。
**七、实验背后的工程细节:一个严谨的实验框架**
为了让比较尽可能公平,研究团队为所有方法设置了完全相同的基础训练配置。所有实验在8块NVIDIA H100显卡上运行,使用verl训练框架和SGLang生成框架。学生模型用AdamW优化器,学习率1e-5,梯度裁剪上限1.0,批量大小64,每个问题生成4条回答,训练目标是逆向KL散度,在学生的前16个高概率词的支撑上估算。奖励信号来自math-verify工具,正确答案得1分,错误答案得0分。训练数据来自OpenThoughts3-1.2M语料库,采样25600条训练提示。
每隔20个训练步就进行一次完整评估,因此每条训练曲线都包含大量评估点,而非只有少数孤立的检查点。对于每个方法族,从所有检查点中选取在该设置专属基准测试套件上平均分最高的检查点,作为最终报告值。这种"选最优检查点"的协议对所有方法一视同仁,避免了因训练步数选择不同而带来的偏差。
此外,研究团队还专门处理了一个技术细节:Qwen3系列的学生和教师模型使用了不同的EOS(句子结束标记)词元ID。如果不加处理,直接计算KL散度时,同一个"停止生成"的语义事件会被拆分到两个不同的维度上,导致计算偏差。团队的解决方案是把两者的EOS都映射到一个共享的统一标记,在此基础上进行采样和KL计算,从而确保停止事件在比较时是对齐的。
**八、理论保证:为什么这套方法在数学上是有底气的?**
TRB的有效性不只依赖实验数据,研究团队还从理论层面给出了两个重要保证。
第一个保证是"信任域解的单调性"。他们严格证明了,混合系数β从0增加到1时,混合策略与学生策略之间的KL散度是单调不减的。证明过程利用了对数配分函数的凸性:KL散度对β的导数等于β乘以对数比率的方差,而方差总是非负的,因此导数也是非负的。这个性质保证了二分法搜索β的合法性,也保证了信任域约束的可解性。
第二个保证是"小预算下的效率优势"。研究团队通过对β=0处的泰勒展开证明:当信任域预算ε很小时,混合策略相对于学生的KL代价是ε的二阶量,而混合策略相对于教师的KL改善是√ε的一阶量。这意味着,在信任域边界上,"花费很小的学生偏差代价"换来的是"相对较大的教师接近收益"。换用日常语言说:每一点点偏离学生的代价,都能换来比这点点代价更值得的教师方向进展,而且在预算越小的时候这个比例越有利。
第三个方面是"词元级约束对序列级分布的控制"。研究团队还在附录中证明了,如果在每一个前缀位置上,混合策略和学生策略的词元级KL散度不超过ε,那么在整条序列上,两者的KL散度不超过所有位置的ε之和(等长序列时不超过T乘以ε)。这意味着词元级的约束可以自然地上升为序列级的控制,从而确保TRB不会在整体上产生太大的偏离。
**九、局限与边界:研究团队的坦诚说明**
T-Tech的团队在论文中也坦率地说明了这项工作的边界。
研究范围仅限于两组数学推理的OPD设定,使用的是Qwen3-Base系列的师生对,评估也是基于正确性的。他们明确指出,不能保证相同的热身配置会在其他领域(如代码生成、对话、文本摘要)或不同师生能力差距下产生同样的效果。
从计算开销的角度来看,TRB在热身阶段需要同时在线加载学生和教师两个模型,并在每个生成步骤都同步查询教师的概率分布。这使得热身期间的显存需求大约增加了教师模型权重加上教师KV缓存的额外量。在运算量(FLOP)方面,教师的计算次数和标准OPD相当(每个词元评估一次教师),但必须在生成时串行进行,而不是在生成完成后并行批处理,所以墙钟时间可能比纯OPD的后验教师批处理更慢。不过,这个额外开销只在热身窗口内存在,热身结束后就恢复到标准OPD的计算配置。
归根结底,TRB的核心贡献在于揭示了一个被之前研究忽视的阶段:训练的最开始,学生自己生成的语境质量太低,无法有效承接教师的指导。在这个关键阶段,用一种有理论依据、有闭合解、可以自动退出的方式提供导航辅助,就能帮助整个训练过程站在一个更好的起点上。就算导航辅助本身的作用很短暂,起点的差异也会在整个训练过程中持续累积,最终体现为更好的结果。
这一发现对于未来设计大模型蒸馏方案具有明确的实用价值:当你用在策略蒸馏训练一个弱学生模型时,与其让它在最初一段时间内靠自己摸爬滚打,不如给它一个有时限的、有约束的、可自动退出的导航辅助,让它在最关键的早期阶段能够走到更有价值的语境上,从而让教师的每一分监督都花在刀刃上。
Q&A
Q1:在策略蒸馏(OPD)为什么在训练早期容易出问题?
A:OPD要求学生自己先生成一段开头,然后教师在这段开头基础上提供监督。但在训练刚开始时,学生模型非常弱,生成的开头往往混乱无意义。在这种糟糕的语境上,教师的指导也就失去了意义,就好比学生在黑板上随手乱写,老师根本不知道从哪里纠正。TRB方法正是为了解决这个早期弱质量前缀问题而设计的。
Q2:TRB中的"信任域"具体限制了什么?
A:信任域限制的是采样策略(行为策略)偏离学生当前状态的程度。具体来说,混合策略与学生策略之间的KL散度(一种衡量两个概率分布差异程度的指标)必须不超过预设的预算值ε。在这个圈内,混合策略会尽量靠近教师。这样既能引入教师的正向影响,又不会让训练数据跑得离学生太远。
Q3:TRB和直接用教师替换部分生成词元的SKD方法有什么区别?
A:SKD是在生成时,当学生采样的词不在教师前K个高概率词里时,直接用教师重新采样一个词替换。这是一种硬性的词元级干预,没有明确的约束框架。TRB则是在每个前缀位置上,通过优化求解出一个整体上最接近教师、同时满足学生中心信任域约束的混合分布,是一种有闭合解的软性混合,并且设计了自动消退机制,训练后期完全还原为纯学生采样。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。