微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

复旦大学这么训练AI：让它从"错误答案"里学会纠错，效果出奇地好

大语言模型强化学习去噪训练

复旦大学这么训练AI：让它从"错误答案"里学会纠错，效果出奇地好

作者：科技行者

2026-06-02 17:16

分享至：

复旦大学提出DenoiseRL，通过让AI从弱模型的错误推理前缀中恢复来训练推理能力，无需更强教师模型即可提升数学推理表现。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 17:16 • 科技行者

这项由复旦大学与上海创新研究院联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.28421，感兴趣的读者可通过该编号查阅完整论文。

当你还是学生的时候，老师一定告诉过你：做错了题不可怕，关键是要从错误中学习。然而，现在的AI训练恰恰反过来——大多数训练方法都在拼命给AI喂"正确答案"，或者找更聪明的AI来当老师。复旦大学的研究团队提出了一个反直觉的新思路：与其花大力气找正确示范，不如直接拿错误的解题过程来练兵。这个叫做DenoiseRL的训练框架，核心思想就是把AI同伴的"败笔"变成磨刀石，让被训练的AI学会从泥潭里爬出来，最终走向正确答案。

一、AI学习的"天花板"困境

要理解为什么这项研究值得关注，先得明白当前AI训练面临的一个根本性麻烦。

现在大家耳熟能详的ChatGPT、DeepSeek这类能做数学题、能写代码的AI，背后都用到了一种叫"强化学习"的训练方法。这种方法的原理有点像驯狗——AI给出一个回答，如果答对了就给奖励，答错了就扣分，慢慢地AI就学会了怎么做对。

但问题来了。这种训练方法有个隐藏的瓶颈：当AI越来越聪明，大多数题目都能答对的时候，它反而学不到什么新东西了。因为它的"对手"只有它自己，而它自己生成的答案越来越趋于正确，几乎看不到有价值的失败案例，就像一个学生做题总做对，永远不知道自己哪里还有盲区。

为了突破这个瓶颈，研究者们通常有两条路可走。一条路是找一个更聪明的AI来当老师，让强的AI教弱的AI——但这就要求市场上得有一个"更聪明的AI"随时可用，而当你的AI本身已经是顶尖水平时，这条路就走不通了。另一条路是人工构造更难的题目，比如专门设计一些刁钻的问题来考验AI——但这需要大量人力和精巧的设计工作，成本极高。

复旦大学的研究团队在这个困境面前换了一个视角：既然难以获得更强的老师，既然构造难题成本太高，那何不利用手边随手可得的东西——弱小AI的错误解题过程？

二、"去噪"的灵感：从收音机杂音到推理训练

研究团队把这套方法命名为DenoiseRL，这个名字来自"去噪"这个概念。去噪在计算机领域本是一个经典的技术思路——给机器看一张模糊的、有噪点的照片，让它学会还原出清晰的原图；或者给机器看一段被破坏的句子，让它学会补全成正确的句子。

DenoiseRL把这个思路搬到了AI的推理训练里。具体来说，它的工作方式可以用一个"救援训练"的比喻来理解。

假设你要训练一批消防员。常规训练是直接模拟火场，让他们练习扑火。DenoiseRL的方式则是：先让一个经验不足的消防员在模拟火场里搞得一塌糊涂，把火势弄得更乱、把逃生通道堵死——然后让真正要训练的消防员接手这个烂摊子，从这个糟糕的局面里想办法把火扑灭。这种训练要比从零开始扑火难得多，但也更能磨练实战能力。

在DenoiseRL里，这个"经验不足的消防员"就是一个较弱的AI模型（论文中使用了Qwen2.5-1.5B-Instruct，这是一个参数量较小、能力相对有限的语言模型）。研究团队先让这个弱模型对数学题给出一段解题过程，然后故意截取其中的错误部分，把这段错误的推理过程塞到被训练AI的"视野"里，告诉它："你现在已经走到这一步了，而且这一步是错的，请你从这里开始继续，想办法把题做对。"

被训练的AI必须做到的，是识别出已有推理中的错误，及时调整方向，绕过这个错误的死胡同，最终找到正确答案。这个过程，就是"去噪"——把混入了错误的推理过程"清洗干净"，还原成正确的解题路径。

三、具体操作：一个精心设计的训练流程

理解了核心思想之后，再来看看研究团队是怎么把这个想法变成可以实际运行的训练系统的。

整个流程分为两个阶段。第一个阶段在正式训练开始之前就完成了：研究团队用弱模型对训练题库中的每道题各做8次解题，然后把其中错误的解题过程保存下来，形成一个"错误解题库"。这个步骤只做一次，之后训练过程中直接从这个库里取材，不需要反复让弱模型重新作答，节省了计算资源。

第二个阶段是正式的强化学习训练。在每一轮训练中，被训练的AI面对同一道题，要做两种不同类型的解题练习。第一种是常规练习，AI从头开始自己解题，这和普通的强化学习训练没什么两样。第二种是"去噪"练习，研究团队从错误解题库里取出一段错误的解题过程，截取其中前面一部分（具体截取多少，由一个叫做"前缀比例"的参数控制，比如设置为0.2就表示截取错误解题过程的前20%），然后把这段残缺的错误推理拼接到题目后面，要求AI从这个错误的中间状态继续往下写，直到得出最终答案。

在评分方面，不管是常规练习还是去噪练习，判断AI表现好坏的标准都只有一个：最终答案对不对。如果AI成功从错误状态里挣脱出来，最终给出了正确答案，就获得奖励；反之则受到惩罚。这样的评分机制直接激励AI学会"纠偏"的能力。

值得一提的是，研究团队在设计这套流程时考虑了一个细节：公平性。去噪练习因为前面已经有一段现成的错误推理文本占着篇幅，如果允许AI在此基础上无限续写，相当于给了它比常规练习更多的"写字空间"，这对比较两种训练方式的效果并不公平。因此，研究团队规定：错误前缀占了多少篇幅，AI后续能续写的内容就相应压缩多少，总长度始终保持和常规练习一致。实验结果显示，这个"公平预算"的设计确实很重要——去掉这个限制后，整体表现下降了近2个百分点。

此外，还有一个关于"谁该被优化"的重要设计：在去噪练习里，那段错误的前缀文本虽然AI能看见，但训练时不对这段文本计算梯度（梯度是AI学习的驱动力，通俗来说就是"反馈信号"）。只有AI自己续写的那部分，才会被用来计算学习信号。这样设计是因为那段错误前缀是由另一个弱模型生成的，强行让当前AI"为别人的错误负责"会引入混乱的训练信号，导致整个训练崩溃——实验也验证了这一点：一旦把错误前缀也纳入优化范围，训练会在几百步之后彻底失控，模型输出质量急剧下降。

四、测试结果：在多个数学竞赛题上表现更好

研究团队在一系列数学推理基准测试上验证了DenoiseRL的效果，被训练的模型是Qwen3-4B-Base和Qwen3-8B-Base，分别代表40亿和80亿参数规模的语言模型。

测试题目涵盖了从高中数学到竞赛级别的不同难度，包括MATH500（500道数学题）、AMC23（美国数学竞赛2023年题目）、AIME2024和AIME2025（美国邀请数学考试，难度更高）以及BBEH（一个综合推理能力测试集）。

在较小的4B模型上，使用DenoiseRL结合GRPO（一种强化学习方法）训练后，平均得分从39.6%提升到了42.0%，其中AIME2024的成绩提升尤为明显，从22.1%跳到了24.8%。结合另一种训练方法DAPO时，平均得分也从39.8%提升到了41.5%，在综合推理测试BBEH上的提升更是从10.4%跃升至15.7%，涨幅相当可观。

在较大的8B模型上，效果更为突出。DenoiseRL结合DAPO的组合将平均得分从42.8%提升到了44.8%，在每一项单独测试上都达到了最优或次优水平。具体来看，AIME2024从23.8%提升到27.0%，AIME2025从21.7%提升到24.8%，这些都是竞赛级别的难题，哪怕提升几个百分点也需要付出相当的努力。

换算成相对于未经任何强化学习训练的基础模型的提升幅度来看，DenoiseRL在4B模型上带来了平均约16.3%的增益，其中在AMC23这种中等难度竞赛题上提升幅度高达23.1%。

五、"噪声"的度：不是越强越好

既然用错误案例来练兵效果不错，那是不是应该尽可能多地注入错误，用最长的错误推理来折磨AI？研究团队专门做了实验来回答这个问题，结论是：适度才是关键，过犹不及。

研究团队测试了三种不同的"前缀比例"参数，分别截取错误解题过程的前20%、50%和80%作为注入的错误前缀。结果发现，只用20%的短错误前缀时，训练整体最为稳定，模型生成的回答平均长度约为1380个词；用50%的中等长度前缀时，训练过程变得波动明显，平均生成长度飙升到3870个词；而用80%的长错误前缀时，同样有明显的不稳定迹象，平均生成长度也达到2260个词，且多次触及最大允许长度的上限。

研究团队发现了一个有趣的现象：当错误前缀太长，AI陷得太深时，它会开始反复怀疑自己，不断重新核验已经得出的答案，进入一种"过度思考"的循环——哪怕已经得出了一个正确答案，它也不相信，还要再验证、再推翻、再重算，直到把允许的回答空间全部填满。论文中提供了一个典型案例：面对一道关于三位数回文乘积的题目，在80%长前缀条件下，AI虽然推导出了正确的解题路线，却开始不停地说"让我重新检查一遍"、"让我再核实一下这个方法是否准确"，最终把整个回答长度撑满还没停下来。

另外，研究团队还测试了不同数量的去噪练习题数量对训练效果的影响。在每道题配置1个、4个和8个去噪练习的三种方案中，4个去噪练习的配置表现最好，带来了16.3%的平均增益；只用1个去噪练习时效果偏弱，因为出现错误并需要纠偏的案例太少，学习信号不够充分；而用8个去噪练习时，去噪练习占据了总练习量的一半，反而分散了AI学习"从头解题"这项基本技能的资源，整体效果最差，平均增益只有11.9%。

六、实际案例：AI是如何"纠偏"的

纸面上的数字好看，但AI到底有没有真正学会识别错误、主动纠正？研究团队提供了几个真实案例来展示这一点。

其中一个案例来自一道枚举问题：一所学校的学生人数在150到200之间，如果有一名学生缺席，剩下的学生正好能平均分成6组，求所有可能的学生总数之和。弱模型生成的错误前缀犯了一个典型错误——在计算哪些数值符合条件时，把数字算错了，给出了一些实际不在150到200区间内的数值（比如103、109），却误称它们满足条件，最终得出了错误的答案392。

被DenoiseRL训练后的AI接手了这段错误推理，并没有顺着错误继续往下走，而是重新从条件出发，明确写道"让我一步一步重新分析这道题"，然后正确计算出满足条件的k的范围是25到33，对应了9个有效的学生总数，求和得出正确答案1575。

另一个案例涉及概率题：一档真人秀节目有16位选手分为两个部落，每个部落8人，两人同时退出，求两人来自同一部落的概率。错误前缀试图从"某个具体人退出的概率是1/15"这个角度入手，这是一个站不住脚的局部概率计算。AI的续写部分没有沿用这个思路，而是直接转换策略，从"从16人中选2人共有多少种选法"出发，计算出了正确答案7/15。

还有一道代数题，涉及求两条曲线交点坐标之和。错误前缀正确地建立了方程，却陷入了"逐一试验可能的有理数根"的笨方法，而这道题根本不需要算出具体的根，只需要用代数定理（韦达定理，即根据多项式系数直接计算所有根之和）就能直接得出答案。AI的续写部分认识到了这个方向的低效，写道"用有理根定理好像不太容易找到根，换一个方法"，随即应用韦达定理，一步得出了答案。

这些案例表明，DenoiseRL确实在一定程度上让AI学会了识别推理中的问题并主动切换到更合适的解题路径，而不是简单地在错误基础上继续叠加错误。

七、训练成本：只贵了一点点

这套方法当然不是免费的午餐，引入去噪练习会增加一些计算开销。研究团队在4块H100显卡上测试了训练效率，普通GRPO训练每步大约需要43.8秒，DenoiseRL-GRPO每步大约需要49.7秒，大约慢了14%。

这个额外开销的来源很自然：去噪练习让AI生成了更长的续写内容（平均比普通训练多生成约27%的词），更长的内容意味着更多的计算量。但考虑到两种方法使用了相同数量的总练习次数（16次），额外的时间开销完全来自内容本身的增长，而非方法设计上的低效。用略多一点的时间，换来了更好的推理能力，研究团队认为这个代价是值得的。

说到底，DenoiseRL做了一件很有意思的事情：它把通常被视为"废料"的错误解题过程，变成了一种廉价但有效的训练素材。与其花大钱请一个更强的AI来当老师，不如用随手可得的失败案例来设置一道道"救援任务"，让被训练的AI在不断脱困的过程中，磨炼出识别错误、修正方向的能力。

当然，这套方法并不是万能的。研究团队也坦诚地指出了它的局限：如果弱模型犯的错误太过低级、重复，或者完全脱离现实，那么这些"错误素材"的训练价值就会大打折扣。另外，去噪练习虽然增强了AI的自我纠正能力，但过度训练这种能力会让AI习惯于怀疑自己，反而在推理时拖泥带水、篇幅膨胀。如何在"敢于纠错"和"不过度疑虑"之间找到平衡，仍然是未来需要继续探索的方向。

这项研究的意义或许不止于数学题的几个百分点提升。它指向了一种更广泛的可能性：AI的进步未必总要依赖更大、更强的外部资源，有时候，从自身的失败和错误中汲取养分，同样是一条可以走得很远的路。有兴趣深入了解的读者，可通过论文编号arXiv:2605.28421查阅完整研究报告。

Q&A

Q1：DenoiseRL和普通的强化学习训练有什么区别？

A：普通强化学习让AI从零开始自己解题来学习，而DenoiseRL在此基础上额外加入了一种"去噪练习"——把弱模型的错误解题过程截取一段，塞给AI当开头，要求AI从这个错误状态里挣脱出来并最终答对。这样AI不只是学"怎么答对"，还学会了"发现错误后怎么纠正"。

Q2：DenoiseRL训练时用的弱模型是什么，和被训练的模型有什么关系？

A：论文中用的弱模型是Qwen2.5-1.5B-Instruct，这是一个参数量只有15亿的较小模型，而被训练的主模型是40亿或80亿参数的Qwen3系列。弱模型只负责在训练前一次性生成错误解题案例，保存成"错误库"，正式训练时直接从库里取材，弱模型本身不参与后续训练过程。

Q3：DenoiseRL的前缀比例参数设成多少效果最好？

A：实验结果显示，截取错误解题过程的前20%作为注入前缀时效果最稳定、性能最好。截取50%或80%时，AI会因为陷入错误太深而进入"过度思考"状态，不断重复验证自己的答案，生成内容长度大幅膨胀，整体表现反而变差。

大语言模型强化学习去噪训练

分享至