微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 数学推理的新突破:NVIDIA与清华大学联手打造的"负例感知微调"如何弥合监督学习与强化学习的鸿沟

数学推理的新突破:NVIDIA与清华大学联手打造的"负例感知微调"如何弥合监督学习与强化学习的鸿沟

2025-05-30 14:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 14:41 科技行者

如今,大语言模型(LLM)在数学推理能力上的突飞猛进,主要得益于学习范式的根本转变——从模仿学习转向自我提升。这项由清华大学和NVIDIA研究团队共同完成的研究发表于2025年5月的arXiv预印本平台,论文题为《Bridging Supervised Learning and Reinforcement Learning in Math Reasoning》(在数学推理中弥合监督学习与强化学习),研究链接为https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning。

近年来,大语言模型不再依赖人类标注者或更强大模型提供的标准答案,而是通过一个简单的二元验证器(判断答案正确与否的工具)来评判自身生成答案的正确性,从而实现自主学习。这种方法不仅省去了昂贵的数据标注成本,还消除了外部教师设置的能力上限,为通用智能开辟了一条充满希望的道路。

强化学习(RL)自然成为这种验证驱动训练的理想选择。像PPO(近端策略优化)和GRPO(分组规范化策略优化)这样的算法专门设计用来最大化奖励信号,而这种奖励信号可以方便地采用二元验证器的结果形式。相比之下,监督学习(SL)在这种自我提升学习中很少被考虑。普遍观点认为,SL本质上是通过记忆正面训练数据来模仿外部教师,使其不适合从负面错误中进行自我反思学习。

这项研究挑战了"自我提升仅限于强化学习"的流行观念,研究团队证明了类似的自我提升也可以在监督学习范式内实现。研究以一个简单的SL基线开始:拒绝采样微调(RFT)。在每次迭代中,模型为问题生成答案,验证器帮助拒绝所有错误答案,剩下的正确答案被编译成数据集,以监督方式微调模型本身。虽然RFT被多项研究证明有效,但它阻止了从负面反馈中学习任何东西。模型被鼓励强化它已经表现良好的内容,而非反思自己的错误——研究团队认为,这种反思能力对实现通用智能至关重要。

为了克服这一局限,研究团队提出了"负例感知微调"(NFT)——一种使模型能够从负面生成中学习的在线学习算法。就像RFT一样,NFT通过监督方式在正确答案上微调模型。关键的不同是,NFT不会丢弃错误答案,而是构建一个隐式负面策略来对它们建模。这个隐式策略与我们在正面数据上优化的正面模型使用相同的参数,从而实现对所有模型生成内容的直接策略优化。NFT内存开销极小,因为整个训练过程中只需维护一个模型。

为了理解NFT与强化学习方法之间的联系,研究团队进行了深入比较,特别是与GRPO算法的对比。令人惊讶的是,他们发现两种方法在严格的同策略训练中实际上是等价的,尽管它们源自完全不同的理论框架。值得注意的是,GRPO特有的"优势归一化"特性已经隐含在NFT的损失函数中。它们的主要区别在于离策略设置中,当学习的策略偏离旧策略时,对模型梯度采取不同的裁剪策略。这些观察表明,在二元反馈学习系统中,监督学习和强化学习之间存在强烈的联系。

研究团队在7B和32B的Qwen模型上评估了NFT,报告了两个关键发现:第一,监督学习单独就能显著增强LLM的数学推理能力,无需外部教师。NFT能够匹配甚至超过像GRPO和DAPO这样的最先进强化学习算法。第二,监督学习和强化学习在在线训练中的性能差距主要源于监督学习过去无法利用负面反馈,而非强化学习的任何内在优势。通过额外利用负面数据,NFT大大缩小了监督学习和领先强化学习算法之间的性能差距。

在具体实验中,研究团队在7B和32B模型上进行了约5000步梯度更新,批量大小为512。他们在六个验证基准上评估模型,包括AIME 2024、AIME 2025、AMC 2023、MATH500、OlympiadBench和Minerva Math。验证使用top-p值为0.7,7B模型的验证温度为1.0,32B模型为0.6。

实验结果表明,NFT算法在几乎所有基准上都表现卓越。通过应用NFT到Qwen2.5-Math-7B,研究团队发布了NFT-7B-Zero,在所有基准测试中与其他零样式7B数学模型相比表现优异。这提供了NFT算法有效性的有力实证证据,并表明仅凭监督学习就能在数学任务中实现有效的自我提升。

研究还发现,负面反馈增强了性能和探索。NFT在训练过程中保持了更高的熵(一种测量生成多样性的指标),而RFT则倾向于随时间减少熵。这种行为表明NFT能够进行更积极的探索,这可能是NFT和RFT之间性能差距的原因。

更有趣的是,负面反馈在更大模型中变得愈发重要。在32B实验中,RFT和NFT之间的性能差距随着训练而扩大,而这种趋势在7B模型中不太明显。这与其他研究的观察一致,即强化学习在更大模型中比起监督微调提供更大的收益。

尽管被许多算法超越,RFT因其极端简单性仍然值得关注。在32B设置中,从正面数据学习(RFT)贡献了最佳表现模型总增益的80%,而负面数据仅占剩余20%。这些发现呼应了最近的研究,表明强化学习主要是放大大型模型中已有的能力,而非培养新技能。如何更好地利用负面反馈仍然是一个充满潜力的开放挑战。

研究团队还探讨了NFT有效性背后的关键设计选择。首先,他们发现对低正确率的困难问题赋予更高权重可以增强模型性能。其次,避免过度惩罚错误也很重要——NFT的裁剪值设置了对错误答案似然比增加时的惩罚权重上限。当裁剪值过小(接近零)时,算法会对错误答案的上升似然赋予高惩罚,但实验表明过于激进的惩罚会降低整体性能。

这项研究不仅展示了监督学习在验证驱动的自我提升中的有效性,更重要的是,它弥合了监督学习和强化学习之间的理论和实践差距。通过证明NFT和GRPO在严格同策略训练中的等价性,研究揭示了这两种学习范式之间存在深层联系,尽管它们源自完全不同的理论基础。这一发现为理解和改进二元反馈学习系统中的各种学习方法提供了新的视角。

总的来说,这项研究表明,通过巧妙设计,监督学习可以像强化学习一样实现自我反思和自我提升,挑战了传统认知,并为大语言模型训练提供了一种更简单、更直接的方法。NFT的成功表明,在追求通用人工智能的道路上,我们或许不需要完全依赖复杂的强化学习框架,而可以依靠更简单、更易于实现的监督学习方法,只要它们能够有效利用所有可用的反馈信号。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-