微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

数学推理的新突破：NVIDIA与清华大学联手打造的"负例感知微调"如何弥合监督学习与强化学习的鸿沟

人工智能数学推理语言模型优化

数学推理的新突破：NVIDIA与清华大学联手打造的"负例感知微调"如何弥合监督学习与强化学习的鸿沟

作者：科技行者

2025-05-30 14:41

分享至：

这项由清华大学与NVIDIA合作的研究提出了"负例感知微调"（NFT）算法，挑战了"自我提升仅适用于强化学习"的传统观念。通过构建隐式负面策略处理错误答案，NFT在数学推理任务上匹配甚至超越了顶尖强化学习算法的表现。研究不仅证明了监督学习与强化学习在特定条件下的等价性，还展示了如何利用负面反馈显著提升大语言模型的数学能力，为AI训练方法论开辟了新视角。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 14:41 • 科技行者

如今，大语言模型（LLM）在数学推理能力上的突飞猛进，主要得益于学习范式的根本转变——从模仿学习转向自我提升。这项由清华大学和NVIDIA研究团队共同完成的研究发表于2025年5月的arXiv预印本平台，论文题为《Bridging Supervised Learning and Reinforcement Learning in Math Reasoning》（在数学推理中弥合监督学习与强化学习），研究链接为https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning。

近年来，大语言模型不再依赖人类标注者或更强大模型提供的标准答案，而是通过一个简单的二元验证器（判断答案正确与否的工具）来评判自身生成答案的正确性，从而实现自主学习。这种方法不仅省去了昂贵的数据标注成本，还消除了外部教师设置的能力上限，为通用智能开辟了一条充满希望的道路。

强化学习（RL）自然成为这种验证驱动训练的理想选择。像PPO（近端策略优化）和GRPO（分组规范化策略优化）这样的算法专门设计用来最大化奖励信号，而这种奖励信号可以方便地采用二元验证器的结果形式。相比之下，监督学习（SL）在这种自我提升学习中很少被考虑。普遍观点认为，SL本质上是通过记忆正面训练数据来模仿外部教师，使其不适合从负面错误中进行自我反思学习。

这项研究挑战了"自我提升仅限于强化学习"的流行观念，研究团队证明了类似的自我提升也可以在监督学习范式内实现。研究以一个简单的SL基线开始：拒绝采样微调（RFT）。在每次迭代中，模型为问题生成答案，验证器帮助拒绝所有错误答案，剩下的正确答案被编译成数据集，以监督方式微调模型本身。虽然RFT被多项研究证明有效，但它阻止了从负面反馈中学习任何东西。模型被鼓励强化它已经表现良好的内容，而非反思自己的错误——研究团队认为，这种反思能力对实现通用智能至关重要。

为了克服这一局限，研究团队提出了"负例感知微调"（NFT）——一种使模型能够从负面生成中学习的在线学习算法。就像RFT一样，NFT通过监督方式在正确答案上微调模型。关键的不同是，NFT不会丢弃错误答案，而是构建一个隐式负面策略来对它们建模。这个隐式策略与我们在正面数据上优化的正面模型使用相同的参数，从而实现对所有模型生成内容的直接策略优化。NFT内存开销极小，因为整个训练过程中只需维护一个模型。

为了理解NFT与强化学习方法之间的联系，研究团队进行了深入比较，特别是与GRPO算法的对比。令人惊讶的是，他们发现两种方法在严格的同策略训练中实际上是等价的，尽管它们源自完全不同的理论框架。值得注意的是，GRPO特有的"优势归一化"特性已经隐含在NFT的损失函数中。它们的主要区别在于离策略设置中，当学习的策略偏离旧策略时，对模型梯度采取不同的裁剪策略。这些观察表明，在二元反馈学习系统中，监督学习和强化学习之间存在强烈的联系。

研究团队在7B和32B的Qwen模型上评估了NFT，报告了两个关键发现：第一，监督学习单独就能显著增强LLM的数学推理能力，无需外部教师。NFT能够匹配甚至超过像GRPO和DAPO这样的最先进强化学习算法。第二，监督学习和强化学习在在线训练中的性能差距主要源于监督学习过去无法利用负面反馈，而非强化学习的任何内在优势。通过额外利用负面数据，NFT大大缩小了监督学习和领先强化学习算法之间的性能差距。

在具体实验中，研究团队在7B和32B模型上进行了约5000步梯度更新，批量大小为512。他们在六个验证基准上评估模型，包括AIME 2024、AIME 2025、AMC 2023、MATH500、OlympiadBench和Minerva Math。验证使用top-p值为0.7，7B模型的验证温度为1.0，32B模型为0.6。

实验结果表明，NFT算法在几乎所有基准上都表现卓越。通过应用NFT到Qwen2.5-Math-7B，研究团队发布了NFT-7B-Zero，在所有基准测试中与其他零样式7B数学模型相比表现优异。这提供了NFT算法有效性的有力实证证据，并表明仅凭监督学习就能在数学任务中实现有效的自我提升。

研究还发现，负面反馈增强了性能和探索。NFT在训练过程中保持了更高的熵（一种测量生成多样性的指标），而RFT则倾向于随时间减少熵。这种行为表明NFT能够进行更积极的探索，这可能是NFT和RFT之间性能差距的原因。

更有趣的是，负面反馈在更大模型中变得愈发重要。在32B实验中，RFT和NFT之间的性能差距随着训练而扩大，而这种趋势在7B模型中不太明显。这与其他研究的观察一致，即强化学习在更大模型中比起监督微调提供更大的收益。

尽管被许多算法超越，RFT因其极端简单性仍然值得关注。在32B设置中，从正面数据学习（RFT）贡献了最佳表现模型总增益的80%，而负面数据仅占剩余20%。这些发现呼应了最近的研究，表明强化学习主要是放大大型模型中已有的能力，而非培养新技能。如何更好地利用负面反馈仍然是一个充满潜力的开放挑战。

研究团队还探讨了NFT有效性背后的关键设计选择。首先，他们发现对低正确率的困难问题赋予更高权重可以增强模型性能。其次，避免过度惩罚错误也很重要——NFT的裁剪值设置了对错误答案似然比增加时的惩罚权重上限。当裁剪值过小（接近零）时，算法会对错误答案的上升似然赋予高惩罚，但实验表明过于激进的惩罚会降低整体性能。

这项研究不仅展示了监督学习在验证驱动的自我提升中的有效性，更重要的是，它弥合了监督学习和强化学习之间的理论和实践差距。通过证明NFT和GRPO在严格同策略训练中的等价性，研究揭示了这两种学习范式之间存在深层联系，尽管它们源自完全不同的理论基础。这一发现为理解和改进二元反馈学习系统中的各种学习方法提供了新的视角。

总的来说，这项研究表明，通过巧妙设计，监督学习可以像强化学习一样实现自我反思和自我提升，挑战了传统认知，并为大语言模型训练提供了一种更简单、更直接的方法。NFT的成功表明，在追求通用人工智能的道路上，我们或许不需要完全依赖复杂的强化学习框架，而可以依靠更简单、更易于实现的监督学习方法，只要它们能够有效利用所有可用的反馈信号。

人工智能数学推理语言模型优化

分享至

0赞

好文章，需要你的鼓励

推荐文章

人工智能
AI安全防护
自适应攻击

2025-11-19 16:15

谷歌DeepMind等顶级机构联合揭秘：为什么所有AI安全防护都是纸老虎？

谷歌DeepMind等顶级机构联合研究揭示，当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效，成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法，系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术，暴露了AI安全评估的根本缺陷。
视频生成
多模态控制
Diffusion Transformer

2025-11-19 16:15

西蒙弗雷泽大学和Adobe研究院联手打造视频制作新神器：让静态图片学会"按剧本演戏"

西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术，能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式，可单独或组合使用。采用双分支架构和分阶段训练策略，在运动控制精度上比现有技术提升53%以上，为视频制作提供了前所未有的灵活性和精确度。
人工智能
扩散语言模型
并行文本生成

2025-11-19 16:14

英国国王学院突破传统：让AI像人类思考一样"反复斟酌"，生成速度飞跃10倍

英国国王学院研究团队开发了潜在精炼解码（LRD）技术，解决了AI文本生成中的速度与准确性平衡难题。该方法通过两阶段设计模仿人类思考过程：先让AI在连续空间中"深思熟虑"，保持多种可能性的混合状态，然后"果断行动"，逐步确定答案。实验显示，LRD在编程和数学推理任务中准确性提升最高6.3个百分点，生成速度提升最高10.6倍，为AI并行文本生成开辟了新路径。
人工智能
强化学习
模型训练优化

2025-11-19 16:14

清华大学团队发布ViSurf：让AI视觉模型学习更聪明的新方法

清华大学团队开发的ViSurf是一种创新的大型视觉语言模型训练方法，巧妙融合了督导式学习和强化学习的优势。该方法通过将标准答案整合到强化学习过程中，让AI既能从正确答案中学习又能保持自主推理能力。实验显示ViSurf在多个视觉任务上显著超越传统方法，特别是在处理模型知识盲区时表现突出，同时有效避免了灾难性遗忘问题，为AI训练提供了更高效稳定的新范式。