微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 超越数字反馈:Critique-GRPO如何帮助大语言模型通过自然语言批评提升推理能力

超越数字反馈:Critique-GRPO如何帮助大语言模型通过自然语言批评提升推理能力

2025-06-07 17:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:00 科技行者

在大型语言模型(LLM)的发展历程中,如何让它们具备更强的推理能力一直是研究者们孜孜不倦的目标。近日,来自香港中文大学HCCL实验室、剑桥大学、香港中文大学MMLab以及上海人工智能实验室的研究团队带来了一项突破性研究。该研究由张晓颖领导,团队成员包括孙浩、张一鹏、冯凯拓、吕超超、杨超和孟博等,他们在2025年6月4日发布的论文《Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback》(《批评-GRPO:通过自然语言和数字反馈提升大语言模型推理能力》)中,提出了一种创新的强化学习框架,有望从根本上改变大语言模型的训练方式。论文已提交至arXiv平台(arXiv:2506.03106v2),感兴趣的读者可以通过GitHub(https://github.com/zhangxy-2019/critique-GRPO)了解更多细节。

想象一下,当你小时候学习解数学题时,老师不仅会告诉你答案对错(数字反馈),还会具体指出错在哪里,应该如何改正(自然语言反馈)。而目前主流的大语言模型训练方法却主要依赖"对/错"这样的简单数字反馈,就像只告诉学生"答案错了",却不指导如何改进。这种方式在提升模型能力上明显存在瓶颈。

研究团队敏锐地发现了仅依靠数字反馈进行强化学习的三大局限:首先,模型性能会遇到"天花板",即使增加八倍的训练样本也难以取得突破;其次,模型的自我反思能力帮助有限,无法像人类那样通过反思突破认知瓶颈;最后,模型在某些问题上会出现"顽固性失败",即使经过大量尝试仍无法解决。

基于这些发现,研究团队提出了"Critique-GRPO"方法,这是一种融合了自然语言反馈(批评意见)和数字反馈的在线强化学习框架。简单来说,这就像给模型配备了一位耐心的导师,不仅告诉它"答案错了",还会详细解释"错在哪里"以及"如何改正"。

在多项实验中,研究团队使用智谱AI的Qwen2.5-7B-Base和Qwen3-8B-Base模型进行测试,结果表明,Critique-GRPO在八项具有挑战性的数学、科学和通用推理任务中,分别将平均通过率提高了约4.5%和5%。更重要的是,这种方法甚至超越了那些在强化学习中引入专家示范的方法,证明了"自我改进"比"模仿专家"更有效。

接下来,让我们深入了解这项研究的细节,看看研究团队是如何让大语言模型学会从批评中进步的,以及这一突破可能对人工智能的未来发展带来什么样的影响。

一、数字反馈的局限性:大语言模型为何难以突破性能瓶颈

想象一下,如果你在学习一门新技能时,教练只告诉你"做得对"或"做得不对",却从不解释为什么对或错,也不指导你如何改进,你可能会在一定水平上停滞不前。大语言模型在仅使用数字反馈的强化学习过程中,正面临着类似的困境。

研究团队首先对Qwen2.5-7B-Base和Qwen3-8B-Base模型进行了深入分析,发现了三个关键问题。第一个问题是"性能平台期"。研究人员发现,即使将训练样本从4,000个增加到32,000个(增加了8倍),模型的性能也没有显著提升。这就像一个学生已经掌握了基础知识,但由于缺乏具体指导,难以突破到更高水平。

研究者通过一系列实验展示了这一现象。在验证集上,Qwen2.5-7B模型在经过约80步训练后,准确率就停留在了40%左右;而Qwen3-8B模型在约250步训练后,准确率也止步于52%左右。这种性能平台现象表明,仅靠"对/错"的简单反馈,模型很难持续进步。

第二个问题是"自我反思的有限效果"。研究者分析了模型在强化学习过程中展现的六种认知行为:目标设定、总结、验证、回溯、逆向推理和预测。他们发现,虽然强化学习确实增强了模型的一些认知能力,但其中的"自我反思"行为(如验证、回溯、预测)对成功解决问题的贡献却相对有限。相比之下,"规划"行为(如目标设定和总结)对问题解决的贡献更大。

简单来说,模型可以学会更好地规划解决问题的步骤,但在遇到困难时,仅靠自我反思很难突破瓶颈。这就像一个学生可以学会如何组织解题思路,但在遇到真正难题时,如果没有老师的具体指导,很难仅通过自我反思找到突破口。

第三个也是最严重的问题是"顽固性失败"。研究团队发现,即使经过充分的强化学习训练,Qwen2.5-7B模型仍有约29%的问题完全无法解决(在四次尝试中全部失败),而Qwen3-8B模型也有约17%的问题无法解决。这些"顽固性失败"表明,仅靠试错学习,模型无法克服某些认知障碍。

这三个问题的根本原因在于数字反馈(如+1表示正确,0表示错误)包含的信息量太少。这种反馈只能告诉模型"答案是否正确",但无法提供"为什么错误"以及"如何改正"的指导。此外,模型内部生成的自我反思效果有限,难以替代外部的具体指导。这些局限性凸显了需要更丰富的反馈机制来支持模型的有效学习。

二、自然语言反馈的力量:批评如何指导大语言模型改进

既然知道了数字反馈的局限性,研究团队开始探索一个有趣的问题:如果给模型提供更丰富的自然语言反馈(如文本形式的批评意见),模型能否有效利用这些信息来改进自己的回答?

想象一个学生解答数学题目后,老师不仅告诉他"答案错了",还详细分析了"错在哪里",并给出了"正确的思路"。这种批评式反馈包含了丰富的信息,可以帮助学生理解错误并改进解题方法。研究团队希望大语言模型也能从类似的批评中学习。

为了验证这一想法,研究者设计了三种类型的批评反馈:一是"思维链批评"(CoT Critique),它提供了步骤式的推理分析,指出正确或错误的原因;二是"含标准答案的批评"(Critique with Ground Truth),它不仅指出对错,还提供了正确答案;三是"指示性批评"(Indicative Critique),它仅简单指出生成的解答是否正确。

研究团队使用经过强化学习微调的Qwen2.5-7B和Qwen3-8B模型进行测试。这些模型在某些问题上表现出"顽固性失败",研究者希望了解它们是否能利用批评来改进这些失败的回答。

结果令人惊喜:当使用思维链批评(CoT Critique)时,Qwen2.5-7B模型成功改进了36.47%的错误回答,而Qwen3-8B模型成功改进了44.71%的错误回答。这意味着,通过提供详细的推理分析和指导,模型能够有效地修正自己此前无法解决的问题。从问题层面看,Qwen2.5-7B模型通过批评成功解决了55.37%的持续失败问题,而Qwen3-8B模型则解决了66.96%的持续失败问题。

相比之下,仅提供简单的二元对错信息(指示性批评)或者对错信息加标准答案(含标准答案的批评)的效果要差得多,成功改进率仅为2%-4%。这表明,批评的质量和内容至关重要。简单告诉模型"你错了"或者"正确答案是什么"的帮助有限,而详细分析错误原因并指导如何思考的批评则能带来显著改进。

这一发现揭示了自然语言反馈的巨大潜力。大语言模型不仅能理解"对/错"的简单反馈,还能从详细的批评中学习,并利用这些批评来改进自己的回答。这就像一个学生从老师的详细点评中获得了宝贵的指导,能够突破自己的认知瓶颈。

三、Critique-GRPO:融合自然语言和数字反馈的创新框架

基于对自然语言批评有效性的发现,研究团队提出了一个名为"Critique-GRPO"的创新框架,旨在让大语言模型同时从自然语言反馈和数字反馈中学习,实现更有效的策略优化。

要理解Critique-GRPO,我们可以把它想象成一个特殊的学习环境,在这个环境中,模型不仅能从"对/错"的简单判断中学习,还能从详细的批评中获得指导,并据此改进自己的解题方法。这就像一个学生在课堂上不仅能知道答案正确与否,还能得到老师的详细点评,并有机会根据点评修改答案,最终掌握更好的解题技巧。

Critique-GRPO的工作流程主要包含三个步骤:

首先是"初始回答采样"。给定一个问题,模型会生成多个可能的回答。这就像学生在面对一道题目时,尝试不同的解题思路。

接下来是"批评与改进"。系统会使用一个基于推理的评价模型(本研究中使用了GPT-4o)为每个回答生成详细的思维链批评,指出它们的优缺点和改进方向。然后,原模型会根据这些批评生成改进后的回答。这就像老师批改学生的作业,指出问题并建议改进方法,然后学生根据这些反馈修改答案。

最后是"在线策略优化"。模型会同时从初始回答和改进后的回答中学习。这个过程使用了一种名为"策略塑形"(policy shaping)的技术,它会特别强调对正确改进的学习,并严厉惩罚失败的改进(那些尽管有批评指导但仍然错误的回答)。这就像学生在学习过程中,不仅记住了正确的解题方法,还特别注意自己经常犯错的地方,避免再次犯同样的错误。

与传统的强化学习方法(如GRPO)相比,Critique-GRPO的独特之处在于它能够同时利用自然语言反馈和数字反馈。传统方法主要依赖数字反馈(如对/错的二元判断),而Critique-GRPO则同时利用详细的批评指导(自然语言反馈)和最终的正确性判断(数字反馈)。

更重要的是,Critique-GRPO是一个在线学习框架,它允许模型在训练过程中不断探索新的解题方法,同时利用批评来改进现有方法。这种平衡探索与改进的能力是该框架的核心优势。

研究团队还特别设计了一个"塑形函数",用于调整模型对改进后回答的学习权重。这个函数会根据模型对改进回答的当前概率进行调整,鼓励模型学习那些它原本认为不太可能但实际正确的改进,同时避免过度依赖那些失败的改进。这就像教导学生特别关注那些意想不到但实际有效的解题方法,拓展思维的多样性。

总的来说,Critique-GRPO创造了一个更接近人类学习方式的环境。在这个环境中,模型不仅能知道自己的回答是对是错,还能理解为什么对或错,以及如何改进。这种学习方式有望帮助模型突破性能瓶颈,实现更强的推理能力。

四、实验设计与评估:Critique-GRPO的全面测试

为了验证Critique-GRPO的有效性,研究团队设计了一系列严谨的实验,覆盖了多种任务场景和基线方法的比较。

研究团队选用了智谱AI的Qwen2.5-7B-Base和Qwen3-8B-Base作为测试模型,并使用了从OpenR1-Math-220k数据集中随机采样的4,000个训练样本。为了全面评估模型性能,他们选择了八个具有挑战性的任务:

前五个任务集中在数学推理能力上,包括MATH-500、Minerva-Math、OlympiadBench、MATH以及AIME 2024和AMC 2023。这些任务涵盖了从基础数学到奥赛级别的各种难度。

后三个任务则测试模型在科学和通用推理方面的泛化能力,包括TheoremQA(测试数学、物理、电子工程和金融领域的定理应用能力)、GPQA-Diamond(测试物理、化学和生物学领域的研究生水平问题)以及MMLU-Pro(测试商业、计算机科学、法律等领域的知识)。

在基线方法方面,研究团队选择了两大类比较对象:

一类是基于监督学习的微调方法,包括传统的监督微调(SFT)、基于奖励排序的微调(RAFT)、基于改进的微调(Refinement FT)、基于批评的微调(Critique FT)以及在循环中使用批评的微调(CITL-FT)。

另一类是基于强化学习的微调方法,包括R1-GRPO(使用数字反馈的GRPO)和LUFFY(在R1-GRPO中引入专家示范的方法)。此外,研究团队还测试了Critique-GRPO的一个简化变体,它使用简单批评和标准答案而非详细的思维链批评。

为了确保公平比较,所有实验都在相同的硬件环境(40台NVIDIA A800 85G GPU)上进行,并采用相同的评估标准。对于监督学习方法,模型被训练至收敛并报告最佳性能;对于强化学习方法,模型被训练400步并报告最佳性能。

评估结果令人印象深刻。在Qwen2.5-7B-Base模型上,Critique-GRPO将平均通过率从41.66%(R1-GRPO)和43.48%(LUFFY)提高到了48.07%,相比基线方法提升了约4.5个百分点。在Qwen3-8B-Base模型上,Critique-GRPO将平均通过率从60.68%(R1-GRPO)和60.91%(LUFFY)提高到了65.86%,提升了约5个百分点。

更值得注意的是,Critique-GRPO在所有八个任务上都显著优于基线方法,不仅在数学推理任务上表现出色,在科学和通用推理任务上也展现了强大的泛化能力。这表明,通过结合自然语言批评和数字反馈,模型能够更有效地学习复杂的推理能力,并将这些能力泛化到不同领域。

特别值得一提的是,Critique-GRPO甚至超越了LUFFY,后者是一种在强化学习中引入专家示范的方法。这一结果表明,从自我生成的改进中学习比模仿专家示范更有效。换句话说,让模型学会如何根据批评改进自己的回答,比直接给它提供完美答案更有价值。

五、策略探索的深入分析:更多或更长不一定更好

除了验证Critique-GRPO的整体性能,研究团队还对策略探索的过程进行了深入分析,揭示了两个关于有效探索的重要见解。

在强化学习中,策略探索指的是模型尝试不同解题方法的过程。一个常见的衡量指标是"熵",它反映了模型生成回答的多样性和不确定性。熵越高,意味着模型探索的范围越广。

研究团队分析了Critique-GRPO、R1-GRPO和LUFFY在训练过程中的熵动态变化。结果显示,Critique-GRPO的熵通常高于R1-GRPO,表明它保持了更一致的探索。特别是在训练前200步,Critique-GRPO的熵出现了明显的峰值,这可能是因为自生成的改进与初始回答存在差异,导致模型在不同解题思路之间进行探索。

然而,一个有趣的发现是,尽管LUFFY的熵高于Critique-GRPO,但它的性能却不如Critique-GRPO。这表明,熵高(即探索范围广)并不一定意味着学习效率高。真正重要的是探索信号的质量和可学习性,而不仅仅是探索的广度。

想象一下两种学习方式:一种是随机尝试各种完全不同的解法(高熵但可能缺乏方向性);另一种是在当前理解的基础上有针对性地探索改进方法(熵可能较低但更有方向性)。研究结果表明,后者可能更有效。

Critique-GRPO的自生成改进,由于更接近模型当前的能力范围,可能比LUFFY提供的专家示范(可能过于先进而难以立即掌握)更容易被模型有效学习。这就像学生学习新知识时,相比直接学习专家级的解法,从略高于自己当前水平的方法入手可能更容易取得进步。

另一个有趣的发现是关于回答长度的。研究团队发现,LUFFY由于模仿长篇专家示范,会生成明显更长的回答(甚至超过6000个词元)。然而,尽管回答更长,LUFFY的性能仍不如Critique-GRPO,后者生成的回答要短得多。

这表明,更长的回答并不一定意味着更有效的探索或更好的性能。Critique-GRPO通过批评机制,能够帮助模型高效地识别错误并进行有针对性的改进,而不需要生成冗长的回答。这种高效性在实际应用中尤为重要,因为它可以节省计算资源并提高用户体验。

另一个值得注意的发现是,在Qwen3-8B模型上,所有评估的方法都倾向于减少回答长度,而在Qwen2.5-7B模型上则倾向于增加回答长度。研究团队认为,这可能是因为基础的Qwen2.5-7B模型倾向于产生冗余且无效的自我反思,而更先进的方法帮助它学会了更简洁有效的推理。

研究团队还分析了"策略塑形"(policy shaping)的影响。通过在Qwen2.5-7B模型上进行对比实验,他们发现使用策略塑形的Critique-GRPO比不使用策略塑形的变体在几乎所有任务上都表现更好,平均通过率提高了约4%。这表明,调整模型对改进回答的学习权重是Critique-GRPO框架中的一个重要组成部分。

六、定性分析:从错误到正确的变化历程

为了更直观地理解Critique-GRPO的效果,研究团队对比分析了基础模型和使用Critique-GRPO微调后的模型在解决同一问题时的回答差异。他们选择了一个计算三角函数表达式的问题:计算sin(arcsin 0.4 + arcsin 0.5)与sin(arcsin 0.5 - arcsin 0.4)的乘积。

基础的Qwen3-8B模型在解答这个问题时,由于对表达式的错误理解,将其错误地表述为sin(A + B) · sin(A - B)的形式,导致最终得出错误答案。更值得注意的是,该模型在解答过程中展现了大量冗余且无效的自我反思(如多次使用"等等..."重新考虑),最终生成了一个超过6000个词元的冗长回答,却仍然无法得出正确结论。

相比之下,使用Critique-GRPO微调后的Qwen3-8B模型展示了简洁而有效的推理过程。它正确地理解了问题,设置了适当的变量(α = arcsin 0.4, β = arcsin 0.5),应用了正确的三角函数公式,并通过清晰的步骤最终得出了正确答案(9/100)。这个模型还展示了有效的自我验证,通过近似值计算来确认结果的合理性。

这个例子生动地展示了Critique-GRPO的效果:它不仅帮助模型纠正了推理错误,还促使模型学会了更简洁、更有效的推理方式,减少了无效的自我反思,增强了有效的验证。这种变化不仅提高了模型的准确率,还提升了其回答的质量和效率。

七、结论与未来展望:批评引导下的自我提升之路

通过对Critique-GRPO的全面研究,研究团队不仅提出了一种新的训练框架,还揭示了大语言模型学习过程中的重要见解。

首先,研究确认了仅依靠数字反馈的强化学习面临三大挑战:性能瓶颈、自我反思的有限效果以及顽固性失败。这些挑战的根本原因在于数字反馈提供的信息太少,无法指导模型如何改进推理过程。

其次,研究证明了自然语言批评(特别是思维链批评)在指导模型改进方面的巨大潜力。通过提供详细的推理分析和改进建议,批评能够帮助模型突破之前无法解决的问题。

基于这些发现,Critique-GRPO框架通过同时利用自然语言批评和数字反馈,创造了一个更接近人类学习方式的环境。在这个环境中,模型不仅能知道自己的回答是对是错,还能理解为什么对或错以及如何改进。

实验结果证明,Critique-GRPO在多种推理任务上显著优于传统方法,不仅提高了模型的准确率,还促使模型学会了更简洁、更有效的推理方式。特别值得注意的是,Critique-GRPO甚至超越了那些引入专家示范的方法,表明从自我改进中学习比模仿专家更有效。

此外,研究团队关于策略探索的分析揭示了两个重要见解:更高的熵不一定意味着更有效的探索;更长的回答不一定带来更好的性能。真正重要的是探索信号的质量和可学习性,以及推理过程的效率和针对性。

展望未来,Critique-GRPO为大语言模型的训练开辟了一条新路径。研究团队提出,未来可以将这一方法应用到多模态推理任务中,加强视觉理解与文本推理之间的联系,或者将其与新知识注入相结合,实现持续学习。

总的来说,Critique-GRPO代表了一种更接近人类学习方式的人工智能训练范式。通过结合自然语言批评和数字反馈,它不仅提高了模型的推理能力,还促使模型学会了如何从错误中学习和改进。这种自我提升的能力可能是通向更强大、更通用人工智能的关键一步。

正如研究团队在论文结尾所感谢的那样,这项工作得到了多位研究者的贡献和反馈。随着这一研究的深入和应用,我们可以期待大语言模型在复杂推理任务上取得更加显著的进步,最终实现更接近人类水平的推理能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-