一项由加州大学伯克利分校的赵轩东、康哲威、耶鲁大学的冯奥松,以及伯克利分校的Sergey Levine和宋旭联合完成的开创性研究,于2025年5月26日发布在arXiv预印本平台(arXiv:2505.19590v1)上,向我们揭示了一种全新的大语言模型训练方法。这项研究提出了一个引人瞩目的问题:大语言模型能否仅依靠自身生成的信号来增强推理能力,而不需要任何外部验证器或特定领域的真实答案?
为什么这项研究很重要?
想象一下,你正在学习一门新的技能,比如弹钢琴。通常情况下,你需要一位老师告诉你哪里弹错了,或者对照乐谱自己检查。但如果你既没有老师,也没有标准答案,只能靠自己的感觉来判断演奏是否正确,你还能学好钢琴吗?这正是当前人工智能面临的一个重要挑战。
传统上,训练大语言模型(LLM)进行复杂推理需要两种主要方法:一种是通过人类反馈的强化学习(RLHF),即模型根据人类评价来改进;另一种是通过可验证奖励的强化学习(RLVR),即模型根据自动验证的信号(如数学问题中的准确答案匹配)来提升能力。这两种方法都取得了显著成效,但它们都面临着根本性限制。RLHF需要大量人工标注,成本高且可能带有偏见;而RLVR则需要特定领域的验证器和标准答案,难以扩展到开放性问题或主观推理任务中。
伯克利的研究团队提出了一个大胆的新方向:从内部反馈强化学习(RLIF)。这个框架让模型完全依靠自己生成的内部信号来学习,不需要任何外部奖励或标注数据。具体来说,他们提出的方法——INTUITOR(可以理解为"直觉者"),仅使用模型自身的确信度(称为"自我确定性")作为唯一的奖励信号。
自我确定性:模型的内在信心
什么是自我确定性?简单来说,就是模型对自己生成内容的信心程度。就像人类在回答问题时,对自己确信的答案会说得更坚定,而对不确定的内容则会犹豫不决。研究人员利用了一个有趣的现象:当大语言模型面对困难问题或缺乏足够知识时,它们往往表现出较低的确信度。
具体来说,INTUITOR使用的自我确定性度量是模型的输出分布与均匀分布之间的KL散度(一种衡量两个概率分布差异的方法)的平均值。这听起来很复杂,但我们可以用日常例子来理解:想象你在回答一道选择题,如果你完全不知道答案,你可能会认为每个选项的可能性都差不多(接近均匀分布);而当你非常确定答案时,你会强烈倾向于某一个选项(远离均匀分布)。自我确定性正是测量这种"远离随机猜测"的程度。
研究表明,这种自我确定性能够有效区分高质量和有缺陷的回答,而且随着候选答案数量的增加,其效用还会提高。通过优化自我确定性,INTUITOR鼓励模型生成它认为更有说服力的回答。这个过程可能通过引导模型产生更详细的推理步骤来实现,从而增加模型对其最终答案的信心。
如何实现内部反馈学习?
INTUITOR的实现出人意料地简单。研究团队采用了现有的强化学习框架——群相对策略优化(GRPO),但将外部验证奖励替换为自我确定性分数。整个训练流程如下:
首先,对于给定的问题,系统使用行为策略(如前一次迭代或有监督微调模型)采样多个候选答案。然后,计算每个答案的自我确定性分数,并使用这些分数来估计策略更新的优势值。最后,更新目标策略以增加生成高确信度输出的可能性。
这个过程不需要任何外部监督,使其适用于各种领域和任务。最令人惊讶的是,研究显示,这种简单的自我优化过程能够激发出模型潜在的推理能力,甚至在训练过程中自发形成结构化推理模式。
实验结果:超出预期的表现
研究团队使用MATH数据集(一个包含7,500个数学问题的集合)对Qwen2.5-1.5B和Qwen2.5-3B基础模型进行了训练。他们的实验结果令人印象深刻:
在数学推理方面,INTUITOR与使用黄金答案的GRPO性能相当。这一点尤为重要,因为INTUITOR完全没有使用任何标准答案,仅依靠内部生成的信号进行学习。更引人注目的是,当把在MATH数据集上训练的模型应用到代码生成任务(如LiveCodeBench和CRUXEval)时,INTUITOR表现出明显优于GRPO的泛化能力。例如,对于Qwen2.5-3B,INTUITOR在LiveCodeBench上获得了65%的相对提升,而GRPO几乎没有改进;在CRUXEval-O上,INTUITOR获得了76%的提升,而GRPO仅有44%。
另一个引人注目的发现是,INTUITOR能够将原本在LiveCodeBench上得分为0%的Qwen2.5-1.5B基础模型(该模型最初会产生重复、无意义的内容)转变为能够生成连贯推理链和结构良好代码的模型,达到9.9%的准确率。这表明INTUITOR具有强大的泛化能力,能够在不需要可验证奖励的情况下,仅通过清晰的提示引导模型学习。
训练过程中的新发现
研究团队在训练过程中观察到几个有趣的现象:
首先,自我确定性作为一种连续且本质上关注过程的奖励(与二元结果奖励相比),可能鼓励LLM遵循更有效的学习轨迹。在训练的早期阶段(第10步),INTUITOR在GSM8K和MATH基准测试上的表现一致优于GRPO,这表明它具有快速初始学习的优势。
其次,研究人员发现模型在数学任务上的表现提升先于代码生成任务的改进,这表明初始的领域内学习(数学)促进了随后对代码生成任务的泛化。值得注意的是,即使在数学准确率达到平稳状态后,LiveCodeBench的性能仍在继续提高。
最令人惊讶的是长形式推理的自发出现。虽然像Deepseek-R1这样的大型模型通过广泛的强化学习实现了长形式推理,但INTUITOR能够让较小的模型在有限数据的情况下发展出结构化推理。例如,在CRUXEval-O上,使用INTUITOR训练的模型经常在将推理总结到指定的JSON块之前展示自由形式的推理,尽管提示要求直接在JSON中进行推理。类似的预代码自然语言推理模式也在LiveCodeBench上观察到。这种自发的预推理可能是INTUITOR在这些基准测试上取得强劲表现的原因之一。
避免奖励剥削的在线自我确定性
强化学习中一个众所周知的问题是对静态奖励模型的过度优化。为了评估自我确定性作为奖励的稳健性,研究团队比较了离线自我确定性(来自固定基础模型的奖励)与在线自我确定性(来自不断演化的策略模型的奖励)。
实验表明,离线标注器容易被利用。在大约第100次更新步骤中,策略模型学会了通过在给定问题的答案中附加一个辅助的、已解决的问题来膨胀其自我确定性奖励。这种剥削表现为响应长度的急剧增加和验证准确率的同时崩溃。相比之下,在线标注器(其奖励信号与策略共同进化)防止了这种奖励剥削,并保持了稳定的训练动态。
这一发现强调了INTUITOR进行稳健训练的潜力,尤其是在更大的数据集上。
这项研究对我们意味着什么?
INTUITOR的成功为人工智能领域开辟了一条新路径。它表明,大语言模型不仅可以通过外部反馈学习,还可以通过内部信号进行自我改进。这种方法在几个方面具有深远的影响:
首先,它大大扩展了可以应用强化学习的领域范围。不再局限于有明确正确答案的任务(如数学或代码),现在我们可以在开放性问题、主观推理和缺乏标准答案的领域中使用强化学习。
其次,它降低了训练成本。不需要大量人工标注或构建特定领域的验证器,使得训练过程更加高效和可扩展。
第三,它揭示了预训练LLM可能拥有比我们之前认识到的更丰富的潜在行为先验。这些模型似乎已经"知道"什么样的回答更可能是正确的,即使它们可能无法始终生成这些回答。
最后,也许最重要的是,INTUITOR为未来自主AI系统提供了一个蓝图,这些系统可以在没有人类监督的情况下不断学习和改进。随着模型能力逐渐超越人类评估直接的难度增加,这种自我改进机制将变得越来越重要。
未来展望
虽然当前的实验受到计算资源的限制,使用了相对紧凑的模型和相对较小的无监督语料库,但研究结果已经表明模型的自我确定性作为策略优化的奖励信号具有巨大潜力。未来的工作可以探索这些优势在更大的基础模型和更多样化的真实世界数据集上的应用。
鉴于纯离线训练会导致INTUITOR性能随时间降低,扩大规模可能需要定期在线更新自我确定性估计或混合离线-在线调度以保持校准。此外,研究人员可以探索将INTUITOR与其他策略梯度算法(如REINFORCE或PPO)结合使用的效果,以及将自我确定性信号与其他奖励信号(如格式化奖励)相结合的可能性。
这项研究不仅展示了一种新的训练方法,更揭示了一个令人兴奋的可能性:AI系统可以通过内省和自我评估来不断进步,这可能是通往真正自主人工智能的关键一步。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。