微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 NOVER:语言模型的无验证器强化学习激励训练

NOVER:语言模型的无验证器强化学习激励训练

2025-05-29 08:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-29 08:25 科技行者

创新无需验证,让AI自主学习思考

最近,一支来自英国伦敦国王学院和阿兰图灵研究所的研究团队发表了一项突破性的研究成果。这项由Wei Liu、Siya Qi、Xinyu Wang、Chen Qian、Yali Du和Yulan He领导的研究,题为《NOVER: 通过无验证器强化学习实现语言模型的激励训练》,于2025年5月21日发表在arXiv预印本平台(arXiv:2505.16022v1)。这项研究为大型语言模型(LLM)的训练提供了一种全新的范式,使模型能够在没有外部验证器的情况下自主发展推理能力。

一、研究背景:为什么我们需要无验证器的激励训练?

想象一下,你正在教一个孩子解决数学问题。传统的方法是让孩子直接给出答案,然后你检查答案是否正确。但更好的教学方式是鼓励孩子展示解题过程,这样即使答案错了,你也能看出问题出在哪里并给予指导。

在人工智能领域,近期出现了一种称为"激励训练"(incentive training)的方法,它就像这种更好的教学方式。以DeepSeek R1-Zero为代表的研究表明,只需要根据最终答案的正确性来计算奖励,就能鼓励AI模型自发地生成中间推理步骤,这大大提升了模型的推理能力。

然而,这种方法存在一个关键限制:它依赖外部验证器来判断模型输出的正确性。就像需要一位精通各科目的老师来判断学生答案是否正确。这种验证器在数学和编程等领域容易实现,因为有明确的对错标准,但在社会行为分析、创意写作等需要上下文理解和主观判断的领域就难以构建了。

虽然可以训练专门的奖励模型(reward models)作为验证器,但这需要大量高质量的标注数据,成本高昂且应用有限。这就像需要先培训一批专业老师才能评判学生的表现,非常不经济。

二、NOVER方法:无需验证器的激励学习新范式

研究团队提出的NOVER(NO-VERifier Reinforcement Learning,无验证器强化学习)方法巧妙地解决了这一难题。简单来说,NOVER不再依赖外部验证器,而是利用模型自身能力和已有的监督数据来构建奖励信号。

想象一下,现在不需要专业老师来评判学生的解题过程,而是给学生一本有标准答案的习题集。学生可以自己比较自己的答案与标准答案,从而判断自己的解题思路是否正确。这正是NOVER的核心思想。

具体来说,NOVER的工作原理是这样的:

首先,研究人员利用模型自身作为"代理模型"(proxy model)。当模型生成一段推理过程后,系统会计算:基于这段推理过程,生成正确答案的困难程度(即"推理困惑度",reasoning perplexity)。如果一段推理过程能够自然地引导出正确答案,那么它的推理困惑度就会较低;反之则较高。

这就像衡量一条道路通往目的地的直接程度:如果道路平坦直接,那么到达目的地就容易;如果道路崎岖曲折,那么到达目的地就困难。推理困惑度越低,说明推理过程越好。

此外,为了防止模型生成冗长但低效的推理过程,研究人员还设计了"效率奖励"(efficiency reward),鼓励模型生成简洁有效的推理。就像在解题中,我们不仅希望答案正确,还希望解题步骤简洁明了。

NOVER的另一个重要设计是"策略-代理同步"(policy-proxy synchronization)机制。由于策略模型(生成答案的模型)和代理模型(评估推理质量的模型)本质上是同一个模型,随着训练的进行,两者需要定期同步,以确保评估标准与生成能力保持一致。这就像学生在学习过程中不断更新自己的评判标准,以适应自己不断提高的能力。

三、实验设置:如何验证NOVER的有效性?

为了验证NOVER的有效性,研究人员在多种类型的任务上进行了广泛的实验。这些任务涵盖了四个主要领域:

一是一般推理任务,包括自然推理(Natural Reasoning)、通用思维(General Thought)和网页指令(WebInstruct)等数据集,这些任务要求模型生成基于事实的答案,往往涉及多步推理和论证。

二是创意写作任务,使用SS-GEN数据集,这要求模型生成连贯、有社会主题的故事。

三是社会智能任务,使用EmoBench和ToMBench数据集,测试模型在情感识别、社会行为预测和心智理论推理方面的能力。

四是多语言能力任务,使用OPUS图书语料库,包含16种语言和64种语言对的翻译任务。

研究团队使用了Qwen 2.5模型的3B和7B版本作为基础模型,并与多种基线方法进行了比较:原始模型输出、思维链(CoT)提示、监督微调(SFT)以及作为参考的大型推理模型DeepSeek R1 671B蒸馏版本。

在训练过程中,研究人员使用了LoRA适配器进行高效微调,最大生成长度根据任务设置为512至2048个token不等。训练步数最多5000步,但会在验证奖励(特别是标签格式奖励)不再提高时提前停止。

四、实验结果:NOVER的表现如何?

实验结果令人印象深刻。在所有类型的任务上,NOVER都一致地优于所有基线方法。

最引人注目的是,NOVER使3B模型在General Thoughts数据集上达到了近60%的准确率,接近从671B教师模型蒸馏而来的R1-Distill-Qwen-7B模型的性能。这就像一个小学生经过特殊训练后,能够解决接近大学生水平的问题。

在情感和社会智能等预训练数据较少的领域,NOVER的改进尤为明显。例如,在EmoBench和OPUS等数据集上,直接的思维链提示可能会降低准确率,而NOVER则能有效提升模型性能。

研究人员的手动检查发现,基础模型虽然能够生成结构良好、流畅的思维链,但这些推理过程容易出现幻觉(hallucination)——模型看似自信地进行推理,但实际上包含错误或不相关的信息。相比之下,NOVER能有效纠正这种幻觉推理过程。

另一个有趣的发现是,监督微调(SFT)有时甚至不如基础模型,因为它鼓励模型直接将问题映射到答案,而不经过明确的推理过程。相反,思维链、NOVER甚至基础模型都能生成有助于回答问题的中间推理步骤。

五、深入分析:NOVER在何时何地最有效?

研究人员对NOVER在一般推理领域的表现进行了细致分析,发现了几个有趣的模式:

在问题格式方面,多项选择题的准确率始终高于开放式问答。这主要是因为候选选项的存在有效减少了强化学习优化过程中的搜索空间,降低了任务难度。

在问题类型方面,模型在具有明确解决方向的问题(如"查找"、"确定"和"分类")上表现更好,因为相应的推理链更容易在训练中被采样和强化。相比之下,对于要求更灵活、对推理过程约束较少的问题(如"分析"),模型的表现相对较弱。

从长度的角度看,对于问题、参考答案和生成答案,较短的输入或输出通常会导致更高的准确率。而对于模型生成的推理过程,准确率在60到240个token的范围内保持相对稳定。这表明NOVER有效地激励模型根据每个问题的难度自适应地生成适当长度的推理过程。

研究人员还在FANToM(一个心智理论数据集)上进行了假设前提任务的实验,发现NOVER在处理反直觉任务时可能不如SFT。这类任务涉及识别问题中的假设前提(如询问一个角色对某个他们不知道的话题的看法)。SFT能够从训练数据中记忆这种拒绝模式,而NOVER依赖预训练模型首先生成正确答案,然后再强化。如果基础模型难以识别假设前提,NOVER就会受到限制。

六、NOVER如何解决"代理诅咒"问题?

NOVER使用推理困惑度作为理想奖励的代理,这在强化学习中是常见做法。然而,这引入了"代理诅咒"(curse of proxy)问题:不精确的奖励可能导致奖励骇取(reward hacking),即模型利用代理的缺陷而非真正提高性能。

研究人员对NOVER进行了消融实验,跟踪模型训练状态。他们发现,只使用标签格式奖励和推理奖励会导致两种失败模式:推理爆炸(生成过长、混乱且格式错误的输出)和推理崩溃(模型停止思考,只生成最少的推理标记)。这两种失败都源于代理与不断演化的策略之间的不一致,导致奖励骇取。

加入策略-代理同步可以大大缓解这一问题,尽管偶尔仍会出现爆炸。引入效率奖励和条件奖励组合可以实现部分自我恢复,因为无效的完成会得到零奖励,鼓励重新采样。然而,恢复是重复的,这导致训练效率低下。

完整的NOVER集成实现了稳定的训练:模型保持"清醒",只在能够改善结果时才优化推理长度。同步进一步减少了代理偏差,支持稳健的优化。研究人员验证了NOVER可以稳定训练超过200,000步而不出现推理爆炸或崩溃,同时保持高群组多样性。

七、无验证器与模型验证器的比较

为了评估NOVER在难以验证的推理任务上的表现,研究人员将其与替代验证器设计进行了比较:大语言模型作为评判者(LLM-as-a-judge)和一个微调的验证器模型。实验在WebInstruct上进行,该数据集包含一个官方的通用验证器模型(GV)。

结果显示,基于模型的验证器非常不稳定。使用宽松的提示会鼓励奖励骇取,模型生成模糊但表面上有效的输出以获得积极奖励(例如,给出粗略的想法而非精确答案)。相反,严格的提示会产生稀疏奖励和不稳定的训练,导致3B模型训练失败。

专用验证器也被证明不可靠,经常被策略模型误导。例如,策略模型可能只勾勒出初始步骤并提示验证器完成计算,导致验证器放弃判断而转而解决任务,然后分配不应得的积极奖励。

相比之下,NOVER不依赖这些不稳定的验证机制,表现出更稳定、更有效的训练过程。

八、NOVER如何塑造推理模式?

研究人员还调查了NOVER训练过程中推理模式的演变。他们提取了模型在不同训练步骤(包括训练前的思维链提示输出)生成的推理标记,并使用Gemini-2.0-flash将这些推理痕迹分类为几种预定义的推理模式。

分析发现,在训练前,模型主要使用思维链提示典型的任务分解。随着训练的进行,在效率奖励的影响下,模型学会了在能够直接提供中间结论时跳过冗余的推理步骤,导致直接推理模式的比例显著增加。同时,其他推理类型(如因果关系、枚举、反思和假设)开始出现并逐渐稳定,反映了既有效又高效的推理的发展。

九、NOVER的创新应用:反向激励训练

研究团队还探索了NOVER在创意设置中的灵活性,使用SS-GEN创意写作数据集进行了有趣的实验。与传统设置不同,这个实验采用了新的格式,模型在标签内生成故事,然后在标签内进行自我评估。

关键的是,训练数据省略了地面真实故事,只提供了基于量规的叙事标准。研究人员通过将这些量规作为自我评估的指导方针,而故事成为要激励的中间过程,调整了NOVER,称为NOVER_RUBRIC。这种方法颠倒了标准范式,实现了"过程即结果"的策略。

实证结果显示,Qwen2.5-7B的准确率从50.79%(标准NOVER)提高到64.37%。为进一步验证收益,研究人员抽样了100个例子,让人类注释者表达对每个量规的每个故事的偏好。结果一致地支持量规训练的变体,突显了NOVER在经典推理任务之外的创意应用的灵活性。

十、结论与展望

NOVER代表了语言模型训练的一个重要突破,它解决了激励训练对外部验证器的依赖问题,将这种强大的训练范式扩展到了更广泛的文本到文本任务。

从本质上讲,NOVER教会了模型"如何钓鱼",而不仅仅是"给它一条鱼"。通过使用模型自身能力和已有的监督数据构建奖励信号,NOVER实现了自我提升,无需昂贵的验证器训练或复杂的规则设计。

实验结果表明,NOVER在各种任务上都优于基线方法,甚至使较小的模型接近从大型模型蒸馏的版本的表现。特别是在情感理解、社会智能和多语言能力等预训练数据较少的领域,NOVER的改进尤为明显。

此外,NOVER的灵活性也使其能够应用于创意写作等非传统推理任务,通过反向激励训练实现更好的性能。

当然,NOVER也有其限制。研究表明,激励训练要求基础模型具备一定的微调能力,如部分思维链推理和指令遵循能力。此外,一般推理任务的自由形式格式要求比结构化答案任务(如数学或编程)更强的基础模型能力。

尽管如此,随着预训练模型通过多阶段预训练不断加入大量思维链和指令数据,NOVER未来有望适用于更多模型和更广泛的任务。

这项研究不仅提供了一种新的训练范式,也为语言模型的推理能力提升开辟了新的方向。随着技术的不断发展,我们有理由期待语言模型在未来能够具备更强大、更通用的推理能力,为各种领域带来更多价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-