微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 无需验证师:如何让大型语言模型在没有答案检查者的情况下进行更好的推理

无需验证师:如何让大型语言模型在没有答案检查者的情况下进行更好的推理

2025-06-01 16:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-01 16:36 科技行者

在人工智能研究的前沿,来自多家顶尖研究机构的科研团队近日发表了一项突破性的研究。这项名为"Reinforcing General Reasoning without Verifiers"(无需验证器的通用推理增强)的论文由谢上鑫(中国科学院大学、中国科学院自动化研究所)、刘子辰(新加坡海洋人工智能实验室、新加坡国立大学)、Anya Sims(新加坡海洋人工智能实验室、牛津大学)、王浩南(新加坡海洋人工智能实验室、新加坡国立大学)、庞天宇(新加坡海洋人工智能实验室)、李冲宣(中国人民大学)、王亮(中国科学院大学、中国科学院自动化研究所)、林闵(新加坡海洋人工智能实验室)以及杜超(新加坡海洋人工智能实验室)共同完成,于2025年5月27日发表在arXiv预印本平台(arXiv:2505.21493v1)。

想象一下,当你在学习解决复杂问题时,通常需要有人告诉你答案是否正确。但如果没有这样的指导,你该如何提高自己的解题能力呢?这正是大型语言模型(LLMs)面临的挑战。近期,DeepSeek-R1-Zero等研究表明,通过强化学习方法,可以显著提高模型在代码和数学推理方面的能力。但这种方法有个限制:它需要一个"验证器"来判断模型给出的答案是否正确。

这就像是一个老师必须在场检查每道题的答案。在数学和编程领域,这种验证相对容易实现——答案要么对要么错。但在化学、医疗、工程、法律、生物学、商业和经济学等广泛领域,判断答案正确性往往需要专业知识,无法简单地通过规则来验证。

一些研究者试图用另一个大型语言模型作为验证器,但这引入了新的问题:你需要依赖一个强大的验证模型,可能会面临"奖励黑客"问题(模型学会欺骗验证系统而非真正解决问题),并且在训练过程中需要在内存中维护额外的验证模型,增加了计算成本。

本研究提出了一种名为"VeriFree"的方法,巧妙地绕过了对验证器的需求。这就像是教一个学生不仅要给出答案,还要详细解释思考过程,然后根据这个思考过程的质量来评估学习效果。具体来说,研究团队设计了一种新的训练方式:模型生成推理过程,然后计算正确答案(已知的参考答案)在该推理过程基础上出现的概率。这个概率既作为对推理过程的奖励信号,也作为对参考答案进行监督学习的权重。

简单地说,如果模型的推理过程能自然地引导出正确答案,那么这个推理过程就是好的;如果推理过程与正确答案相去甚远,那么模型就会得到较低的奖励。这个方法不需要额外的验证器,既节省计算资源,又能有效提高模型的推理能力。

研究团队在多个通用推理基准测试上评估了VeriFree的性能,包括MMLU-Pro、GPQA、SuperGPQA以及数学相关基准测试。结果表明,VeriFree不仅能匹配,甚至在某些情况下超越了基于验证器的方法,同时具有更简单、更快速、更节省内存和更稳健的特点。

一、方法原理:无需验证器的强化学习

传统的基于验证器的强化学习方法(如DeepSeek-R1-Zero)工作流程是这样的:语言模型生成一个包含推理过程和最终答案的回答,然后验证器检查答案是否正确,给出1分(正确)或0分(错误)的奖励。模型通过最大化这个奖励来学习。

这就像是一个学生做题,老师只看最终答案是否正确,不管解题过程如何。这种方法在数学和编程领域效果很好,因为答案容易验证。但在许多其他领域,验证答案正确性可能非常困难。

研究团队从数学角度深入分析了这一问题,发现在假设只有一个正确答案的情况下,可以推导出一个等价的优化目标:不是验证模型生成的答案是否正确,而是计算正确答案在模型的推理过程后出现的概率。

具体来说,假设我们有一个问题x和参考答案y*,传统方法会让模型生成推理过程z和答案y,然后根据y是否等于y*给予奖励。而VeriFree方法则只让模型生成推理过程z,然后计算πθ(y*|x,z),即给定问题x和推理过程z,模型生成参考答案y*的概率。这个概率既作为对推理过程z的奖励,也作为对参考答案y*的监督学习权重。

这就像是教学生解题时,不只关注最终答案,而是看学生的思考过程是否能自然地引导出正确答案。如果学生的推理逻辑能够合理地支持正确答案,那么这个推理过程就是好的;反之则需要改进。

研究团队证明,在理论上,VeriFree的优化目标与传统的基于验证器的方法是等价的。更重要的是,VeriFree方法具有方差更小的梯度估计器,这意味着它在训练过程中能够更稳定、更高效地学习。

二、实现细节:如何在实践中应用VeriFree

将VeriFree从理论转化为实践需要解决几个关键问题。其中最重要的是如何准确地处理推理过程z和参考答案y*之间的连接点。

在大型语言模型中,文本是被分割成一系列"token"(标记)进行处理的。当我们从模型生成的回答中提取推理过程z,并将其与参考答案y*拼接时,需要确保在token层面的一致性。

研究团队发现,如果简单地在文本层面进行拼接(例如在""处分割),可能会导致token化不一致的问题。例如,">"字符在不同上下文中可能被分割成不同的token。这会导致训练不稳定。

为了解决这个问题,研究团队定义了推理过程z的结束点为"<answer"(不包括">"),利用了"r>"模式在标准分词器词汇表中不会出现的特性。这确保了在采样和优化过程中token空间的一致性,避免了由于离策略不匹配导致的不稳定性。

这就像是确保拼图的两个部分能够精确对接,而不是强行拼凑导致变形。通过这种精确的处理,VeriFree方法在实践中能够稳定有效地工作。

三、实验设置:全面评估VeriFree的性能

为了验证VeriFree的有效性,研究团队设计了一系列实验。他们使用了Qwen3系列的基础模型,包括1.7B、4B和8B参数的版本,并采用了与DeepSeek-R1-Zero类似的"零"设置,即直接微调基础模型而不经过中间的监督微调阶段。

训练数据来自WebInstruct,经过筛选和质量控制后得到约61,000个样本,涵盖多个领域。为了评估模型的通用推理能力,研究团队使用了MMLU-Pro(多任务语言理解基准测试)、SuperGPQA(285个不同学科的研究生级问题)和GPQA(研究生级问题回答)等基准测试。此外,虽然研究重点不是数学能力,但团队也评估了模型在多个数学推理基准上的表现。

作为对照,研究团队实现了一个基于验证器的基线方法。该验证器由Qwen2.5-Math-1.5B初始化,并在Gemini 2.0 Flash生成的数据上微调,用于评估预测答案与参考答案的等价性。

在训练过程中,VeriFree和基于验证器的方法使用相同的优化算法和超参数设置,以确保公平比较。

四、实验结果:VeriFree的优势

实验结果令人振奋。在MMLU-Pro和SuperGPQA这两个通用推理基准上,VeriFree显著提升了基础模型的性能。例如,对于Qwen3-8B基础模型,应用VeriFree后,MMLU-Pro的准确率从59.8%提高到67.2%,SuperGPQA的准确率从31.0%提高到38.0%。

更令人惊喜的是,VeriFree不仅与基于验证器的方法相当,在许多情况下甚至表现更好。以Qwen3-8B为例,在MMLU-Pro上,VeriFree的准确率为67.2%,而基于验证器的方法为65.9%;在SuperGPQA上,VeriFree为38.0%,基于验证器的方法为37.1%。

研究团队还发现,VeriFree具有更好的学习效率。在相同的训练步数下,VeriFree通常能够达到更高的准确率。这归功于VeriFree的连续奖励信号和RLOO目标函数,它们提供了更稳定和信息丰富的策略梯度,加速了收敛并导致更好的最终性能。

有趣的是,研究团队还发现,模型对正确答案的自信度(πθ(y*|x,z))与MMLU-Pro准确率之间存在强烈的正相关(ρ = 0.82)。这表明模型的自我估计置信度可以作为量化LLM推理能力的有效指标。

为了测试VeriFree学到的推理能力是否可以迁移到其他领域,研究团队在完全不包含数学相关样本的数据集上训练了一个模型。结果显示,即使没有数学监督,该模型不仅在通用推理任务上表现良好,而且在数学特定任务上也展示了强大的迁移能力。这表明VeriFree能够诱导出跨领域的通用推理能力。

五、深入分析:理解VeriFree的工作原理

为了更全面地理解VeriFree方法,研究团队进行了一系列消融实验,分析了各个组件的影响。

首先,他们比较了不同的推理过程提取策略。结果表明,基于token的分割策略(将z定义为以"<answer"结束,不包括">")比基于文本的分割策略(在""处分割)表现更好,后者会导致优化不稳定,因为它实际上引入了离策略数据。

其次,他们分析了RLOO(留一法回归基线)的影响。实验表明,移除RLOO会导致性能持续下降,最终准确率比完整方法低3%以上。这突显了RLOO在稳定学习和引导模型走向更好泛化方面的重要性。

最后,研究团队探讨了引入"等价类"的潜在优势。在某些领域,如数学,正确答案可能有多种等价表达形式(例如,"8/5"、"1.6"和"\frac{8}{5}"都是正确的)。为了探索这一点,他们在MATH-12k数据集上进行了实验,使用规则验证收集答案,然后使用Math-Verify验证正确性,创建了一个具有等价正确答案集的扩展数据集。结果表明,在VeriFree方法中考虑等价类可以提供轻微的性能改进,与预期一致。

六、VeriFree与其他方法的比较

研究团队将VeriFree与两种相关方法进行了比较:Tang等人(2040)的JLB和Chen等人(2024)的LaTRO。这两种方法也试图在没有显式验证器的情况下改进语言模型的推理能力,但它们从不同的角度出发。

JLB和LaTRO都将推理过程z视为潜在变量,扩展标准的监督学习目标(对数似然)来优化对log(Ez~πθ(·|x)[πθ(y*|x,z)])和log(Ez~πref(·|x)[πθ(y*|x,z)])的下界,分别。主要区别在于JLB从学习的策略πθ中采样z,而LaTRO使用固定的参考策略πref。

尽管这些方法源于不同的视角,但它们最终得到的梯度估计器与VeriFree类似。然而,正如Tang等人(2040)所报告的,这些基于变分推断的方法在性能上一直落后于标准的基于验证器的R1-Zero方法。相比之下,VeriFree方法匹配甚至超过了基于验证器的基线。

一个可能的解释是,VeriFree在单一正确答案假设下精确恢复了原始的基于验证器的目标,而JLB和LaTRO优化的是略微不同的目标。例如,JLB实际上使用了R = log πθ(y*|x,z)作为奖励。另一个区别在于"参考答案项"?θ log πθ(y*|x,z)的权重。在VeriFree中,这一项的权重是πθ(y*|x,z),即给定采样推理过程的参考答案似然。相比之下,JLB和LaTRO使用固定权重1,无论推理过程z的质量如何都增加y*的概率。

研究团队推测,这种行为可能会促进不良推理。例如,假设模型生成了错误的推理过程:"...减去2个苹果,最终得到共7个苹果",而正确答案是"6"。JLB和LaTRO目标仍然会推动模型从这个有缺陷的推理过程中输出"6",从而强化推理和答案之间的不匹配。VeriFree通过对低质量推理过程的贡献进行降权来避免这一问题。

七、VeriFree的价值与影响

VeriFree方法对人工智能研究和应用具有重要意义。它扩展了DeepSeek-R1-Zero等方法的适用范围,使这种强化学习范式可以应用于更广泛的领域,而不仅限于可以通过规则进行验证的任务。

这就像是让学生在没有老师的情况下也能学会解决复杂问题。通过关注推理过程是否自然地导向正确答案,而不是简单地判断答案对错,VeriFree方法更接近人类的学习方式。

此外,VeriFree方法具有多种实际优势:它不需要额外的验证模型,减少了计算资源需求;它避免了"奖励黑客"问题,因为模型无法轻易欺骗自己的推理过程;它还提供了更稳定的训练过程,因为它具有更低的方差梯度估计器。

从理论角度看,VeriFree也提供了多种解释。它可以被视为将策略和隐式验证器训练集成在一个统一模型中的优雅方法,也可以被视为一种变分优化方法。这些不同视角的融合为理解和改进语言模型的推理能力提供了新的思路。

八、案例研究:VeriFree在实际问题上的表现

为了直观地了解VeriFree的效果,让我们看几个实际例子。在一个化学领域的问题中:"带有黑白骷髅图案的标签或标牌属于哪一类?",经过VeriFree训练的模型能够给出详细的推理过程:这种标签表示第6类危险物品,特别是6.1类有毒物质。模型解释了骷髅符号代表毒性,对应于第6类危险物品的6.1小类。

在一个物理学问题中:"周期-光度关系用于确定什么类型物体的距离?",模型提供了全面的解释:这种关系用于确定造父变星的距离。模型详细描述了造父变星的特性、周期-光度关系的发现历史以及如何利用这一关系测量天文距离。

在MMLU-Pro心理学问题中:"在科尔伯格道德发展前约定阶段的第二阶段,儿童遵守规则是因为什么?",模型能够准确分析各个选项,正确选择了"这样做有助于满足他们的个人需求",并解释了这与科尔伯格理论中"个人主义和交换"阶段的特点一致。

这些例子展示了VeriFree训练的模型不仅能够给出正确答案,还能提供合理、详细的推理过程,展示了真正的理解能力而非简单的模式匹配。

九、未来展望与局限性

尽管VeriFree取得了显著成功,但它仍有一些局限性和改进空间。当存在多个等价正确答案时,仅使用一个参考答案可能不够全面。虽然实验表明这种方法仍然有效,但未来的研究可以探索如何更好地处理答案等价性问题。

此外,虽然VeriFree不需要显式验证器,但它仍然需要高质量的参考答案。在某些复杂领域,获取准确的参考答案可能本身就是一个挑战。

未来的研究方向可以包括:将VeriFree扩展到更复杂的任务和领域;探索将VeriFree与其他学习范式(如人类反馈的强化学习)结合的可能性;以及开发更高效的实现方式,进一步减少计算资源需求。

总的来说,VeriFree代表了一种新的思路,为提高大型语言模型的推理能力提供了一种简单、高效且广泛适用的方法。它不仅解决了实际问题,还为我们理解和改进人工智能的学习过程提供了新的视角。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-