在人工智能研究的最前沿,一项创新研究正在改变我们训练大语言模型(LLM)推理能力的方式。来自国立新加坡大学和上海英飞睿(INFLY TECH)的研究团队于2025年5月30日在arXiv预印本平台发表了一篇题为《从负面信号中获益:利用教师数据的强化蒸馏提升LLM推理能力》(Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning)的研究论文。这项由Shuyao Xu、Cheng Peng、Jiangxuan Long、Weidi Xu、Wei Chu和Yuan Qi领导的工作,提出了一种名为"强化蒸馏"(REDI)的创新方法,使小型语言模型能够更高效地学习复杂推理能力。有兴趣深入了解的读者可以通过GitHub(https://github.com/Tim-Siu/reinforcement-distillation)获取代码和模型。
一、为什么我们需要更高效的语言模型训练方法?
想象一下,你有一位数学天才朋友和一位普通的学生。这位天才能够解决复杂的数学问题,而学生则希望学习这些技能。传统的教学方法是:天才解决一系列问题,只把正确的解答过程教给学生,丢弃所有错误的尝试。但我们知道,在现实学习中,了解"为什么某种方法行不通"和"哪里容易出错"同样重要。
这正是当前大语言模型训练中面临的情况。像DeepSeek-R1和OpenAI的o1这样的先进推理模型展示了令人印象深刻的推理能力,尤其是在数学等领域。但如何将这些能力高效地传递给更小、更经济的模型呢?
目前有两种主要方法:一种是大规模强化学习,直接对基础模型应用强化学习算法,通过在线探索不断优化。但这种方法通常需要强大的基础模型才能发挥全部潜力,而且计算成本高昂。另一种方法是知识蒸馏——从大型"教师"模型生成的推理过程(如思维链)中学习,这为更小、更高效的"学生"模型提供了一条实用且经济的路径。
然而,标准的蒸馏实践通常采用拒绝采样,只保留正确的推理示例,丢弃不正确的示例。这些被丢弃的示例实际上包含了宝贵的信息!这就像只告诉学生正确答案,而不告诉他们常见的陷阱和细微的错误。这引出了本研究的核心问题:
**如何在离线环境中有效利用正面和负面的蒸馏推理轨迹,最大化LLM的推理性能?**
二、强化蒸馏:一种两阶段的创新方法
研究团队提出的强化蒸馏(REDI)框架像是给语言模型设计了一套更全面的学习课程。这个课程分为两个阶段:
**第一阶段:监督微调(SFT)**
想象一个学生先观看教师成功解题的视频。在这个阶段,模型通过标准的监督微调(SFT)学习正确的推理轨迹。这就像打下良好的基础,学习"正确的做法是什么"。模型学习如何从问题到解决方案,掌握基本的推理模式和格式。
**第二阶段:利用正负样本的强化**
这是REDI方法的核心创新。在建立了基础之后,模型现在不仅学习成功案例,还学习失败案例中的教训。这就像学生不仅学习正确答案,还特别分析错误解法中的陷阱和缺陷。
研究团队首先探索了现有的离线偏好优化方法,如直接偏好优化(DPO)和简单偏好优化(SimPO)。他们发现这些方法中的正则化参数β虽然有助于稳定离线训练并允许更大的梯度步长,但往往会限制测试时的性能。
基于这一发现,团队探索了替代训练目标,消除了这些正则化项。他们发现一个简单的、无参考的目标函数——类似于β→0极限下的DPO/SimPO目标——可以在这种蒸馏环境中优于已建立的方法。这个函数直接最大化正面轨迹的似然度,同时最小化负面轨迹的似然度。
然而,平衡性能和稳定性的挑战依然存在。为解决这一问题,REDI引入了一种非对称加权策略:通过降低负面样本的梯度贡献,框架实现了增强的稳定性和优越的测试时性能。
REDI的目标函数可以表达为:
``` LREDI(θ) = E_(x,yw,yl)~DPref [ -(log πθ(yw|x))/|yw| + α·(log πθ(yl|x))/|yl| ] ```
其中α∈[0,1]控制对负面轨迹的惩罚强度: - 当α=0时,相当于只对正面轨迹进行SFT(忽略负面样本) - 当α=1时,恢复对称目标
研究表明,设置α=0.8提供了最佳平衡,实现了强大的测试时性能,同时保持训练稳定性。
三、实验设置:如何评估REDI的有效性?
研究团队像科学实验一样严谨地设计了评估方法。他们从OpenR1-Math-Raw语料库中提取数据,并构建了两个数据集:
1. **正面轨迹数据集(DSFT)**:包含78k个问题-解决方案对,每对由问题和相应的正确推理轨迹组成。这用于第一阶段的SFT训练。
2. **偏好对数据集(DPref)**:包含53k个三元组,每个三元组由问题、正确轨迹和不正确轨迹组成。这用于第二阶段的训练。
在训练配置方面,团队使用了Qwen2.5-Math-1.5B模型作为基础模型,并建立了两个SFT基线:
- **Qwen-SFT-1.5B-3ep**:在DSFT上训练3个轮次。作为DPO、SimPO和各种REDI配置的起点。 - **Qwen-SFT-1.5B-5ep**:在DSFT上训练5个轮次。作为最终Qwen-REDI-1.5B模型的起点。
所有评估都采用温度为0.6的解码策略,使用Top P采样(p=0.95),最大生成长度为32,768个标记。评估在多个数学推理基准上进行,包括MATH-500、AIME24、AMC23、Minerva和OlympiadBench。
四、研究结果:强化蒸馏的惊人效果
研究结果就像一次成功的教学实验,证明了从错误中学习的价值。
**SFT基线的性能极限**
首先,团队确定了仅使用正面蒸馏数据通过监督微调(SFT)可达到的性能。如图2所示,性能在大约5个轮次后达到平台期。这一观察突显了仅从正面轨迹学习的局限性,并激发了利用负面信号的动力。
**DPO中的性能-稳定性权衡**
研究团队发现,DPO的β参数(控制KL正则化)呈现出一个关键的权衡。更高的β值增强了训练稳定性,通常允许更激进的学习率。然而,即使使用调整过的学习率,较高的β可能会限制峰值性能。相反,较低的β值可以释放更高的峰值准确性。
这就像教师在指导学生时面临的权衡:过于严格的框架(高β)可能会限制创新思维,而过于宽松的指导(低β)可能导致方向不明确。
**通过非对称加权实现稳定性和性能**
REDI方法直接优化对数似然,而不依赖于KL正则化,而是通过非对称加权来管理稳定性。研究表明,REDI与α=0.8和学习率1×10^-6的配置实现了快速学习,类似于对称α=1.0高学习率配置,但关键的是,它不会崩溃。它达到了高峰值性能并保持这一水平,证明了非对称加权策略的效果。
**最终模型性能的比较**
表1展示了这些努力的最终成果。Qwen-REDI-1.5B模型,仅在131k个开放数据点上训练,实现了83.1%的MATH-500分数(pass@1)。这一性能与在800k专有数据上训练的DeepSeek-R1-Distill-Qwen-1.5B相当或超过,在各种数学推理基准测试中取得了优异成绩,为使用公开可用数据离线后训练的1.5B模型树立了新的标准。
值得注意的是,REDI不仅提高了pass@1性能,还维持或提高了多个基准测试的pass@16分数。这表明REDI的离线优化并不仅仅过度优化一组高概率解决方案,而是真正提高了模型的整体问题解决能力。
五、REDI如何改变游戏规则?
强化蒸馏(REDI)方法就像给语言模型提供了一个更全面的学习课程,不仅教它"正确的做法",还教它"避免常见错误"。这种方法的创新之处在于:
1. **高效利用数据**:REDI充分利用了传统方法中被丢弃的负面示例,从教师模型生成的每一条数据中提取价值。
2. **平衡性能与稳定性**:通过非对称加权(α<1.0),REDI找到了一种在保持训练稳定性的同时提高峰值性能的方法。
3. **无需在线交互**:与需要昂贵在线交互的强化学习方法不同,REDI在离线环境中工作,使其更经济且易于实施。
4. **更小模型的强大性能**:研究表明,即使是较小的1.5B参数模型,通过REDI也能实现与更大模型相当的推理能力。
5. **更好的未来在线RL准备**:通过保持或提高pass@16分数,REDI训练的模型似乎更适合后续通过在线强化学习获得性能提升。
这种方法不仅提高了模型性能,还可能影响我们对知识传递的思考方式。就像在人类教育中,了解常见错误和失败案例可以深化理解,REDI展示了在AI训练中负面例子的教育价值。
六、未来展望与结论
强化蒸馏(REDI)为训练更小、更高效的语言模型开辟了一条新路径。通过有效利用正面和负面蒸馏推理轨迹,REDI使小型模型能够更接近大型推理模型的能力,但计算需求显著降低。
虽然本研究主要集中在数学推理上,但REDI框架可能适用于更广泛的推理任务,如科学问题解决、逻辑推理或复杂决策制定。未来的研究可能会探索REDI在其他领域的应用,以及与在线RL方法的结合可能性。
这项研究的关键贡献在于揭示了失败案例中蕴含的价值。通过将曾经被丢弃的"错误"转化为有价值的学习信号,REDI框架提供了一种更高效、更全面的知识传递方法。这不仅是一项技术创新,也是对教与学本质的深刻洞察——有时,知道"为什么不行"与知道"怎样做对"同样重要。
对于AI研究社区和更广泛的科技领域,这一发现提示我们重新思考如何看待失败和错误。也许,就像REDI所证明的那样,我们最大的进步可能来自于我们如何处理和学习失败的经验。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。