在人工智能的发展历程中,我们常常关注模型最终是否能解决问题,却很少思考模型是如何一步步学会思考的。2025年5月,来自腾讯大语言模型部门和中国人民大学的研究团队联合发表了一篇引人深思的研究论文《爬山过程铭刻的智慧远超登顶:关于学习推理中的噪声奖励》(The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason)。这篇发表于arXiv(arXiv:2505.22653v1)的论文由人民大学的吕昂和阎瑞,以及腾讯的谢若冰、孙兴武和康展辉共同完成。他们的研究带来了一个令人惊讶的发现:在训练AI模型学习推理的过程中,"爬山的过程"比"到达山顶"更为重要,即使是在充满噪声和错误的环境中,模型也能找到通往正确答案的路径。
想象一下,如果你正在教一个孩子解数学题,传统观念认为你必须始终给他们准确的反馈——告诉他们答案对还是错。但这项研究发现,即使你偶尔给出错误的反馈(比如告诉他们错误的答案是对的),只要孩子自己的思考过程是有条理的,他仍然能够逐渐掌握解题能力!这简直颠覆了我们对学习过程的理解。
研究团队专注于探索大语言模型(LLMs)在通过强化学习(RL)进行后期训练时,如何应对奖励信号中存在的噪声。与以往那些专注于可以准确验证答案(如数学问题)的研究不同,他们更关注现实世界中普遍存在的"噪声奖励"情况,即当我们无法100%确定某个答案是对是错时,AI模型如何仍能学会正确推理。
研究中最令人惊讶的发现是:即使在高达40%的反馈被人为"颠倒"的情况下(即将正确答案标记为错误,或将错误答案标记为正确),Qwen-2.5-7B模型仍然能够从最初仅5%的数学题准确率提升到惊人的72%!相比之下,使用完全准确反馈训练的模型只比它高出约4个百分点,达到了75.85%的准确率。这就像一个学生即使收到了大量错误的考试评分,依然能够自我纠正并掌握知识!
更令人惊讶的是,研究人员发现,仅仅奖励模型在推理过程中使用的关键词组(如"首先,我需要..."),而完全不考虑最终答案的正确性,模型也能达到超过70%的准确率!这一发现证明了模型在预训练阶段已经学到了大量知识,强化学习的作用主要是帮助它探索有效的推理模式,而不是教它新知识。
这就像是教一个已经掌握了各种烹饪技巧的厨师做一道特定的菜——你不需要教他原料的性质或基本烹饪方法,只需要引导他按照正确的步骤思考即可。
研究团队将这种只关注推理过程而非结果的奖励方式称为"推理模式奖励"(Reasoning Pattern Reward,简称RPR)。在开放式问答任务中,他们发现RPR不仅能提高模型表现,还能校准那些不够准确的奖励模型,减少潜在的错误惩罚,并增强模型在开放性任务上的表现,甚至让较小规模的模型(如Qwen-2.5-3B)也能展示出强大的推理能力。
接下来,让我们深入了解这项研究的详细内容和令人惊叹的发现。
一、研究背景:AI推理中的噪声奖励难题
在我们日常生活中,学习过程往往伴随着不完美的反馈。想象一下,当你学习一门新语言时,有时你可能会收到错误的纠正,或者当你学习烹饪时,可能会遵循一个有些许错误的食谱。尽管如此,人类仍然能够从这些不完美的学习经历中进步。那么,人工智能是否也具备类似的能力呢?
传统观念认为,训练AI模型需要极其精确的反馈信号。特别是在训练大语言模型进行推理任务时,研究人员通常关注那些可以被准确验证的任务,如数学问题求解。例如,2+2=4可以被明确判定为正确,而2+2=5则是错误的。这种清晰的判断为模型提供了无噪声的学习环境。
然而,现实世界中的许多任务并非如此清晰。比如当我们评估一个AI助手回答开放性问题的质量,或者判断其回应是否符合人类偏好时,很难有一个绝对正确的标准。在这些情况下,我们通常依赖于另一个神经网络模型(称为奖励模型)来评估回应的质量。但这些奖励模型本身并不完美,它们的判断可能包含错误,有时甚至会给出与实际情况相反的评价。
腾讯和人民大学的研究团队正是聚焦于这一现实挑战:当奖励信号中存在噪声时,大语言模型是否仍然能够学会推理?这种情况可能出现在奖励模型不够准确的场景中,也可能出现在规则型评估函数存在缺陷的情况下。
研究团队选择了Qwen-2.5-7B作为主要实验对象,这是一个已经在预训练阶段展示出强大推理潜力的模型。他们的研究问题非常直接:如果我们在训练过程中故意引入噪声(例如,随机将一些正确答案标记为错误,或将错误答案标记为正确),模型的学习效果会受到多大影响?
二、实验设计:如何在数学问题中引入"噪声奖励"
为了系统地研究噪声奖励对大语言模型学习推理能力的影响,研究团队设计了一系列精巧的实验。他们首先选择了数学问题作为切入点,因为这类问题通常有明确的正确答案,便于研究者控制反馈的准确性。
研究使用了包含57,000个高质量数学问题的数据集进行训练,并选择了三个具有挑战性的测试集来评估模型性能:MATH-500、GPQA和AIME 2024。这些测试集代表了不同难度和类型的数学问题,能够全面检验模型的推理能力。
在第一个实验中,研究团队采用了一种简单而巧妙的方法来引入噪声:他们以不同的概率(从0%到50%,步长为10%)随机"翻转"奖励信号。具体来说,对于某些问题,如果模型给出了正确答案,研究者会告诉它"这是错的";如果模型给出了错误答案,研究者则会告诉它"这是对的"。这种翻转是按问题进行的,也就是说,如果一个问题的奖励被翻转,那么该问题下所有输出的奖励都会被翻转。
想象一下,这就像是一个老师在批改学生的作业时,随机地将一些正确答案标记为错误,将一些错误答案标记为正确。按照常理,这种做法应该会严重干扰学生的学习过程。然而,研究结果却出人意料。
在MATH-500测试集上,即使40%的奖励信号被翻转(一个相当高的噪声水平),Qwen-2.5-7B模型仍然能够从初始的5%准确率提高到令人印象深刻的72.02%!相比之下,使用完全准确奖励训练的模型达到了75.85%的准确率。仅仅4个百分点的差距,在如此高的噪声水平下,这一结果实在令人惊讶。
只有当噪声水平达到50%时(相当于完全随机的反馈),模型的训练才会彻底崩溃。这一现象表明,大语言模型对奖励噪声具有惊人的鲁棒性。研究者将这种现象归因于模型在预训练阶段已经学到的知识和推理能力。即使被错误地奖励,包含错误答案的输出仍然可能展示有价值的逻辑推理过程,而这些推理模式本身就具有学习价值。
三、惊人发现:推理过程比最终答案更重要
基于第一个实验的启发,研究团队提出了一个大胆的假设:也许在强化学习训练中,推理过程本身比最终答案更为重要。为了验证这一假设,他们设计了第二个实验,引入了一种全新的奖励机制——"推理模式奖励"(Reasoning Pattern Reward,简称RPR)。
在这个实验中,研究者不再关注模型给出的最终答案是否正确,而是专注于模型在推理过程中使用的表达方式。他们识别了约40个表示有效推理的关键词组,如"首先,我需要..."、"让我先..."、"我们知道..."等。每当模型的输出中出现这些关键词组,就会获得一定的奖励,而不管最终答案是否正确。
这就像是在教一个孩子解题时,不是根据最终答案给予表扬,而是当孩子展示出清晰的思考过程时就给予鼓励。例如,当孩子说"首先,我需要理解问题要求..."、"让我先算出这部分..."时,无论最终答案是否正确,都会得到正面反馈。
实验结果再次令人惊讶:仅使用RPR训练的Qwen-2.5-7B模型在MATH-500测试集上达到了70.21%的准确率!这一结果与使用严格答案验证的模型(75.85%)相差无几,而且远高于模型的初始准确率(5%)。
这一发现提供了强有力的证据,表明大语言模型在预训练阶段已经学会了推理,只是需要通过适当的提示来激活这些能力。强化学习的作用不是教会模型新知识,而是帮助它探索能够导致正确答案的有效推理模式。
研究者发现,随着RPR训练的进行,模型最初表现出强大的推理能力,但随后性能会有所下降。分析输出内容后,他们发现这种下降是由于"过度思考"造成的——模型开始生成过长的推理链,甚至在找到正确答案后仍继续推理,导致最终答案无法被提取出来。
四、从数学到开放性任务:噪声奖励的普遍性
在确立了大语言模型对数学问题中噪声奖励的鲁棒性后,研究团队将目光转向更具挑战性的开放性自然语言处理任务。与数学问题不同,这类任务通常没有明确的正确答案,需要依赖奖励模型来评估回应的质量。
研究团队使用了NVIDIA HelpSteer3数据集,这是一个包含40,500个多领域开放性问题的数据集,这些问题需要AI提供有帮助的回答。他们首先训练了不同准确度的奖励模型(从65%到85%的准确率),然后使用这些奖励模型来训练Qwen-2.5-7B模型。
实验结果显示,使用准确率为85%和75%的奖励模型训练的Qwen-2.5-7B模型表现相似,只有约4%的性能差距。这表明,即使在开放性任务中,大语言模型也对奖励噪声展现出一定程度的鲁棒性。
然而,当奖励模型的准确率降至65%时,模型的表现显著下降。研究者分析,这可能是因为低准确率奖励模型不仅错误率高,而且输出的奖励分数方差较小,缺乏明确的信号来指导模型学习。
基于对推理模式重要性的认识,研究团队提出了一种简单而有效的方法来校准噪声奖励模型:将RPR与奖励模型结合使用。具体来说,当奖励模型给出低分时,他们会计算模型思考过程(标签内的文本)中的RPR分数,并将其添加到奖励模型的输出中。
这种校准方法取得了显著成效:校准后的65%准确率奖励模型训练出的Qwen-2.5-7B模型,性能仅比使用85%准确率奖励模型训练的模型低8%,远好于未校准前的25%差距。更令人惊喜的是,即使是准确率为85%的奖励模型,经过RPR校准后也能获得进一步性能提升。
此外,研究者还发现,RPR校准不仅能提高大型模型的性能,还能使较小的模型(如Qwen-2.5-3B)在复杂任务上展示出强大的推理能力,而这在使用原始奖励模型时是无法实现的。
五、研究启示:预训练奠定基础,强化学习引导探索
这项研究为我们理解大语言模型如何学习推理提供了全新视角,也为未来的研究和应用提供了宝贵的启示。
首先,研究结果强调了预训练阶段的重要性。大语言模型在预训练过程中已经学到了丰富的知识和基本的推理能力,这使得它们能够在后续训练中展现出对噪声奖励的鲁棒性。对于具有强大预训练基础的模型(如Qwen系列),即使在高噪声环境下也能有效学习;而对于预训练基础较弱的模型(如研究中的Llama-3.1-8B),即使在无噪声环境下表现也相对较差。
其次,研究揭示了强化学习在后期训练中的真正作用:不是教会模型新知识,而是帮助模型探索有效的推理模式,从而更好地利用预训练阶段已经学到的知识。这就像是教导一个已经掌握各种技能的学生如何在特定情境下组织思路和应用这些技能。
第三,研究提出的RPR方法为处理实际应用中不可避免的奖励噪声提供了一种简单而有效的解决方案。通过关注推理过程而不仅仅是最终结果,我们可以更好地引导模型发展强大的推理能力,即使在奖励不够准确的情况下也是如此。
最后,这项研究也启示我们,在评估和改进大语言模型时,不应仅关注最终的任务性能,还应关注模型如何推理和解决问题的过程。正如论文标题所暗示的:"爬山过程铭刻的智慧远超登顶"——模型在探索解决方案的过程中学到的东西,往往比简单地获得正确答案更为重要和深刻。
六、总结与未来展望
这项由腾讯大语言模型部门和中国人民大学联合完成的研究,为我们理解大语言模型的学习过程提供了新的视角。研究表明,具有强大推理潜力的大语言模型对奖励噪声具有惊人的鲁棒性,即使在40%的奖励被错误翻转的情况下,模型仍能有效学习并提高性能。
更令人惊讶的是,仅通过奖励推理过程中的关键表达模式,而不验证最终答案的正确性,模型也能达到与严格验证训练相当的性能。这一发现直接证明了模型在预训练阶段已经学会了推理,强化学习主要是帮助它探索能够导致正确答案的输出模式。
研究还提出了一种简单而有效的方法——推理模式奖励(RPR)校准,用于改善带有噪声的奖励模型。这种方法不仅能提高模型在开放性任务上的表现,还能使较小规模的模型展示出强大的推理能力。
展望未来,研究团队的发现提示我们应该更加重视预训练阶段模型基础能力的培养,同时改进后期训练技术。在现实应用中,我们不可能总是提供完美无噪声的奖励信号,因此理解和利用模型对噪声的鲁棒性将是至关重要的。
正如研究标题所暗示的,在人工智能的学习过程中,"爬山的过程"往往比"到达山顶"更加重要——模型在探索解决方案的旅程中获得的智慧,远比简单地找到正确答案更为深刻和有价值。
这项研究的代码和脚本已在GitHub上公开(https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason),有兴趣的读者可以进一步探索。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。