这项由韩国科学技术院(KAIST)的Le Thanh-Long、瑞士洛桑联邦理工学院(EPFL)的Jeon Myeongho、以及Adobe Research的Lai Viet等研究者共同完成的研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.21880v1)。这项工作首次揭示了如何让人工智能从看似"无用"的训练数据中挖掘出宝贵的学习信号,为大语言模型的数学推理能力提升开辟了全新路径。
当前的人工智能训练就像是在教孩子解数学题,传统做法是给孩子看很多对错分明的例子:这道题有人做对了,有人做错了,通过对比让AI学会区分好坏。然而现实中经常出现这样的情况:给AI同一道题,它要么全部做对,要么全部做错,没有对比参照。面对这种情况,以往的训练方法就像遇到了"哑火",直接把这些数据扔掉,认为没有学习价值。这就是研究者们要解决的"零方差提示"问题。
研究团队发现,这些看似"无用"的数据其实蕴含着巨大的学习潜力。当AI对所有答案都做对时,说明它已经掌握了这类问题的解法,应该给它正面鼓励;当AI对所有答案都做错时,说明它在这类问题上还需要改进,应该给它适当的"纠正信号"。关键在于,不能简单粗暴地一刀切,而要根据每个词汇的重要程度来精细调节奖惩力度。
一、揭开传统训练方法的盲点
要理解这项研究的价值,我们先来看看传统的AI训练是如何工作的。目前最流行的方法叫做"群体相对策略优化"(GRPO),就像是在训练一个学生做数学题。老师会给同一道题目让学生做多次,然后根据答案的对错情况来调整教学策略。
具体来说,这个过程就像烹饪一道菜时的调味过程。厨师会先尝试几种不同的调料搭配,如果有些搭配很好吃,有些很难吃,那就可以通过对比来调整:增加好吃搭配中的调料比例,减少难吃搭配中的调料用量。但问题来了,如果所有的调料搭配要么都很好吃,要么都很难吃,厨师就无法通过对比来学习改进了。
在AI训练中也是如此。当研究者给模型同一个数学问题,让它生成多个答案时,经常会遇到这样的情况:要么所有答案都是正确的,要么所有答案都是错误的。这种情况被称为"零方差提示",因为所有答案的得分都相同,没有差异性。
传统的GRPO方法面对这种情况就像是个困惑的厨师,不知道该如何调整。它的核心机制依赖于答案之间的差异来计算"优势值"——本质上就是告诉模型哪些答案更好,哪些更差。当所有答案得分相同时,这个差异值就变成了零,整个学习过程就停滞了。
更糟糕的是,生成这些看似"无用"的答案需要消耗大量计算资源。研究显示,在整个训练过程中,生成答案的步骤通常占用了总时间的50%左右。这意味着,当遇到零方差提示时,系统不仅学不到东西,还白白浪费了一半的计算成本。
研究团队通过实际观察发现,在不同的训练阶段,零方差提示的比例差异很大。在训练初期,模型能力较弱,经常出现所有答案都错误的情况,零方差提示比例可能高达99%。而在训练后期,模型变得更强,可能出现所有答案都正确的情况,零方差提示比例也会显著上升,达到30%到75%不等。
这种现象就像学生学习数学的过程:刚开始时,可能连最基础的题目都做不对,每次练习都是全错;经过一段时间训练后,基础题目都能做对了,但遇到难题又都做不出来;再后来,连难题也基本能解决了,大部分练习都是全对。传统训练方法在这两个阶段都会"罢工",错失了宝贵的学习机会。
二、创新思路:从"废料"中提取黄金
面对这个困境,KAIST研究团队提出了一个颠覆性的观点:零方差提示并不是无用的废料,而是蕴含着丰富学习信号的宝藏,关键在于如何正确地挖掘和利用。
他们的核心理念可以用一个简单的类比来理解:假设你在教一个孩子学骑自行车。传统方法就像只在孩子有时摔倒、有时成功时给予指导。但实际上,即使孩子连续几次都成功骑行,你也可以鼓励他"做得很棒,继续保持";即使连续几次都摔倒,你也可以说"别气馁,我们调整一下姿势再试试"。这些反馈同样有助于学习。
研究团队将这种思路应用到AI训练中,开发出了一种名为"RL-ZVP"(Reinforcement Learning with Zero-Variance Prompts)的新方法。这个方法的核心是为零方差提示设计专门的"优势值"计算公式,让AI即使在没有对比的情况下也能学到东西。
RL-ZVP的工作原理基于两个核心要素:方向和强度。方向很容易理解——当所有答案都正确时,给予正向激励;当所有答案都错误时,给予负向调整信号。但强度的设计才是真正的创新所在。
研究团队发现,不是所有的词汇在推理过程中都同等重要。就像在一篇文章中,有些词汇是关键信息,有些只是连接词。在数学推理中也是如此:有些词汇代表了关键的推理步骤,比如"因此"、"根据"、"假设"等,而有些词汇只是普通的表述,比如"这个"、"我们"、"可以"等。
为了区分这种重要性,研究团队引入了"熵"的概念。熵在这里就像是衡量"意外程度"的指标。当AI在生成某个词汇时很确定(比如在"2+2="后面生成"4"),熵值就很低;当AI在多个选择间犹豫不决(比如在解一道复杂几何题时选择不同的证明路径),熵值就很高。
高熵值的词汇往往代表了重要的推理分歧点或关键决策节点,这些地方对最终结果的影响更大。因此,RL-ZVP在调整时会给这些高熵词汇分配更大的权重。对于正确答案,高熵词汇会得到更多鼓励,让AI学会在关键节点做出正确决策;对于错误答案,高熵词汇会得到相对较轻的惩罚,保持AI在这些关键节点的探索能力。
这种设计就像是在调教一个学徒:当他在关键技巧上表现出色时,给予特别的赞扬;当他在关键技巧上出错时,耐心指正但不严厉批评,避免让他对尝试新方法产生恐惧。
三、实验验证:全面超越传统方法
为了验证RL-ZVP的效果,研究团队设计了一系列全面的实验。他们选择了数学推理作为测试领域,因为数学问题有标准答案,容易验证AI的表现是否真的提升了。
实验涵盖了两种不同规模的模型:17亿参数的Qwen3-1.7B-Base和80亿参数的Qwen3-8B-Base。这就像测试新的教学方法时,既要在小班级也要在大班级中验证效果。研究团队使用了六个不同难度的数学测试集,包括Minerva、AMC23、MATH、AIME24、AIME25和OlympiadBench,覆盖了从中学水平到奥数竞赛的各种难度。
实验结果令人印象深刻。在小模型(1.7B)上,RL-ZVP相比传统GRPO方法平均提升了2.84个准确率点和4.62个通过率点。在大模型(8B)上,提升幅度更加显著,平均提升了5.15个准确率点和3.95个通过率点。最令人瞩目的是,在某些具体测试中,RL-ZVP实现了高达8.61个准确率点和7.77个通过率点的提升。
为了确保对比的公平性,研究团队还与其他试图解决零方差提示问题的方法进行了比较。这些替代方法的思路是直接过滤掉零方差提示,只使用有对比差异的数据进行训练。结果显示,即使在极度不利的对比条件下——让这些过滤方法使用3到5倍的计算资源,RL-ZVP仍然能够取得更好的效果。
这个结果特别重要,因为它说明了利用零方差提示确实比抛弃它们更有价值。就像废物回收利用往往比直接丢弃更环保一样,充分利用训练数据比筛选数据更有效率。
除了最终的准确率提升,研究团队还观察到RL-ZVP在训练过程中表现出更好的稳定性。传统GRPO方法在训练过程中经常出现性能波动,有时甚至会出现明显的性能下降。而RL-ZVP的学习曲线更加平滑,几乎没有出现性能倒退的情况。
这种稳定性来自于RL-ZVP能够从更多的训练数据中提取学习信号。当传统方法因为缺乏对比而"饿肚子"时,RL-ZVP仍然能够从零方差提示中"吃到营养",保持持续的学习进展。
四、深层机制:AI如何变得更善于推理
通过详细分析训练过程中的各种指标,研究团队发现RL-ZVP不仅提升了AI的准确率,还从根本上改变了AI的推理方式。
最明显的变化是AI生成答案的长度显著增加。在训练过程中,使用RL-ZVP的模型逐渐学会了生成更详细、更完整的推理过程。在小模型上,平均答案长度从约750个字符增长到超过1250个字符;在大模型上,从约1000个字符增长到超过3000个字符。
这种变化并不是简单的"话更多了",而是AI学会了进行更深入的思考。就像学生从只会写答案进步到能写出完整解题步骤一样,AI开始展现出更强的推理能力。
另一个重要变化是AI的"确信度"增加了。这通过熵值的变化可以观察到:随着训练进行,AI在生成每个词汇时变得更加确定,熵值稳步下降。但这种确信度的增加是健康的——它来自于对问题的更深理解,而不是盲目的自信。
研究团队通过具体的答案案例分析发现,RL-ZVP训练的模型在解决复杂数学问题时展现出了更加系统化的思维模式。传统GRPO训练的模型往往采用直接了当的解题方式,遇到困难时容易"卡住"或者采用简单的试错策略。
相比之下,RL-ZVP训练的模型学会了更加精细的推理策略。它们会先重新整理问题的关键信息,制定解题计划,分步骤执行,遇到困难时会尝试不同的方法或重新审视前面的假设。这种行为模式更接近人类专家解决复杂问题的方式。
特别令人惊讶的是,即使在相对较小的17亿参数模型上,RL-ZVP也能激发出这种高级推理能力。传统观点认为,只有参数规模极大的模型才能展现出复杂的推理行为,但这项研究显示,正确的训练方法可能比模型规模更重要。
五、技术实现:精巧的数学设计
RL-ZVP的技术实现虽然概念直观,但在数学层面需要精巧的设计。研究团队需要解决的核心问题是:如何为零方差提示设计合理的"优势值"?
传统GRPO方法中,优势值的计算依赖于同一提示下不同答案的得分差异。具体公式是将每个答案的得分减去所有答案得分的平均值,再除以标准差进行标准化。当所有答案得分相同时,标准差为零,整个公式就失效了。
RL-ZVP的解决方案是为零方差提示设计专门的优势值公式。对于所有答案都正确的情况,优势值设为正值,大小等于该词汇的熵值乘以一个缩放因子α。对于所有答案都错误的情况,优势值设为负值,但大小不是简单的熵值,而是用最大熵值减去当前词汇的熵值,然后取负号。
这种设计体现了研究团队的深层思考。对于正确答案,熵值越高的词汇(即越重要的推理节点)得到越多鼓励,这有助于AI在关键决策点形成正确的偏好。对于错误答案,熵值越高的词汇得到相对较轻的惩罚,这保护了AI在重要决策点的探索能力,避免过度保守。
缩放因子α的选择也经过了精心调试。研究团队发现,α=0.1到α=0.2之间效果最好。太小的α会让学习信号过弱,太大的α会导致训练不稳定。这个参数就像调味料的用量,需要恰到好处才能达到最佳效果。
为了确保数值计算的稳定性,研究团队还在实现中采用了一些技术技巧。比如,他们将熵值从计算图中分离出来,确保它只作为标量因子参与计算,而不会产生额外的梯度。这种处理方式既保证了优势值的正确计算,又避免了训练过程中的数值问题。
六、广泛影响:重新定义AI训练范式
这项研究的意义远不止于提升数学推理能力。它从根本上挑战了AI训练领域的一个基本假设:只有具有对比差异的数据才有学习价值。
RL-ZVP的成功证明,现有的AI训练方法可能浪费了大量宝贵的学习机会。在各种AI应用场景中,零方差或低方差的训练数据都很常见。比如在对话系统训练中,可能出现所有回复都被评为适当或都被评为不当的情况;在代码生成任务中,可能出现所有代码都能运行或都无法运行的情况。
如果能将RL-ZVP的思路推广到这些领域,可能会带来普遍的性能提升。这就像发现了一种新的食物保存方法,不仅适用于一种食材,而且可能适用于各种不同类型的食物。
从计算效率的角度看,RL-ZVP也具有重要价值。当前AI训练的计算成本越来越高,任何能够更充分利用训练数据的方法都具有经济意义。RL-ZVP不需要额外的计算资源,但能从相同的数据中提取更多学习信号,这相当于免费提升了训练效率。
对AI安全和可靠性的影响也值得关注。RL-ZVP训练的模型表现出更稳定的学习过程和更系统化的推理模式,这可能有助于提升AI系统的可预测性和可解释性。当AI能够生成更详细的推理过程时,人类就更容易理解和验证其决策逻辑。
七、实际应用与案例展示
为了更直观地展示RL-ZVP的效果,研究团队提供了一些具体的答案案例对比。这些案例清晰地展示了两种训练方法产生的差异。
在一道关于星体视觉亮度的天体物理题目中,传统GRPO训练的模型给出了一个相对简单直接的解答。它正确应用了距离模数公式,但在计算过程中出现了错误,最终得到了错误答案87.95,而正确答案是20.39。
相比之下,RL-ZVP训练的模型展现出了完全不同的解题风格。它首先重新整理了问题陈述,详细解释了绝对星等和视星等的概念,然后系统地介绍了距离模数公式的原理。在计算过程中,它显示出更强的数学处理能力,正确地进行了单位转换和对数计算,最终得到了正确答案20.39。
更重要的是,RL-ZVP模型的解答过程体现了典型的科学思维模式:理解概念、分析问题、制定方案、执行计算、验证结果。这种系统化的方法不仅提高了准确率,也让答案更具教育价值。
在另一道关于几何优化的AIME难题中,两种方法的差异更加明显。传统GRPO模型试图通过假设特殊情况来简化问题,但这种方法导致了错误的假设和计算错误。而RL-ZVP模型采用了更加严谨的数学方法,通过拉格朗日乘数法建立优化问题,系统地求解约束条件下的最值问题,最终得到了正确答案。
这些案例表明,RL-ZVP不仅提升了AI的计算准确性,更重要的是提升了其推理的系统性和可靠性。这种改进对于AI在教育、科研等需要严谨推理的领域的应用具有重要意义。
研究团队还观察到,RL-ZVP训练的模型在面对困难问题时表现出更强的韧性。当遇到复杂情况时,传统模型往往会"放弃"并给出简化的答案,而RL-ZVP模型会尝试多种方法,展现出更强的问题解决能力。
八、局限性与未来发展方向
尽管RL-ZVP取得了显著成果,研究团队也诚实地指出了当前方法的局限性。这种科学诚实的态度反映了研究的严谨性。
首先是计算规模的限制。由于计算资源的约束,当前的实验只覆盖了最大80亿参数的模型。考虑到现在最先进的AI模型往往具有数千亿甚至数万亿参数,RL-ZVP在超大规模模型上的效果还有待验证。不过,从已有结果来看,RL-ZVP在大模型上的提升幅度比在小模型上更明显,这暗示着它可能在超大模型上有更好的表现。
其次是应用领域的限制。目前的验证主要集中在数学推理任务上,这类任务有明确的对错标准,便于评估效果。但现实中很多AI应用场景——比如创意写作、对话生成、内容推荐等——往往没有标准答案,奖励信号更加模糊。RL-ZVP是否能在这些领域发挥同样的作用,还需要进一步研究。
第三个局限性涉及超参数的敏感性。研究发现,缩放因子α的选择对最终效果有显著影响,需要针对不同的任务和模型进行仔细调整。这增加了方法使用的复杂性,可能影响其在实际应用中的推广。
针对这些局限性,研究团队提出了几个有趣的未来研究方向。首先是开发自适应的缩放策略,让α能够根据训练进度和任务特点自动调整,而不需要人工设定。这就像发明自动调温的烤箱,能够根据食物类型自动调节温度。
另一个方向是将RL-ZVP的思路扩展到其他类型的学习信号。研究团队认为,除了熵值,还可能有其他token级别的特征能够指导优势值的分配。比如,可以考虑词汇的语义重要性、句法角色、或者与最终答案的相关程度。
最有趣的可能是将RL-ZVP与其他先进训练技术结合。比如,可以考虑将其与最新的"思维链"推理技术结合,或者与多智能体训练方法结合,创造出更强大的训练范式。
九、理论贡献与学术价值
从学术角度看,这项研究的理论贡献超越了具体的技术改进。它在强化学习理论中提出了一个新的问题视角:如何从看似无信息的数据中提取学习信号。
传统强化学习理论认为,学习需要奖励信号的变化来驱动策略调整。当奖励信号恒定时,常规的策略梯度方法会失效。RL-ZVP的成功挑战了这个假设,证明了即使在奖励恒定的情况下,通过引入合适的偏置(bias),仍然可以实现有效学习。
这种思路与机器学习中的"正则化"概念有某种相似性,但又有本质不同。正则化通常是为了防止过拟合而添加的约束,而RL-ZVP的优势值设计是为了在信息不足的情况下创造学习机会。这可以看作是一种新型的"信息增强"技术。
从信息论的角度看,RL-ZVP的核心创新在于利用了token生成过程中的不确定性信息。这些不确定性信息在传统方法中被忽略了,但实际上它们携带了关于模型内部状态和决策过程的重要信息。通过将这些信息纳入训练目标,RL-ZVP实现了对训练数据信息价值的更充分挖掘。
这种思路可能对整个AI训练领域产生深远影响。它提示研究者们重新审视那些被认为"没有价值"的训练数据,寻找其中可能被忽略的学习信号。这就像重新审视那些被认为是"垃圾"的废料,发现其中可能含有贵重金属。
说到底,这项研究最重要的贡献可能在于改变了我们对AI学习过程的理解。它表明,AI的学习能力可能比我们想象的更强,关键在于为它们设计合适的学习环境和反馈机制。就像一个好老师不仅要在学生表现有差异时给予指导,也要在学生表现一致时给予适当的反馈,帮助学生持续进步。
RL-ZVP的成功也为AI训练的工程实践提供了新的思路。它告诉我们,提升AI性能不一定需要更大的模型或更多的数据,有时候更重要的是更聪明的训练方法。这种观念的转变可能会推动AI研究从"暴力堆叠"向"精巧设计"的方向发展,这对于AI技术的可持续发展具有重要意义。
当研究团队回顾这项工作时,他们可能没有想到,一个看似简单的观察——零方差提示不应该被浪费——会引发如此深入的理论思考和实际改进。这正体现了科学研究的魅力:有时候最大的突破来自于对常见现象的重新思考,而不是复杂技术的堆砌。随着更多研究者开始关注和发展这个方向,我们有理由期待看到更多令人惊喜的成果。有兴趣深入了解技术细节的读者可以通过arXiv:2509.21880v1查找完整论文。
Q&A
Q1:RL-ZVP方法具体是如何工作的?
A:RL-ZVP通过为零方差提示设计专门的优势值来工作。当AI的所有答案都正确时,它给予正向激励;都错误时给予负向调整。关键创新是根据每个词汇的熵值(不确定性程度)来调节激励强度:重要的推理节点(高熵词汇)会得到更多关注,而普通词汇的权重较低。这样AI就能从看似"无用"的一致性答案中学到东西。
Q2:这种方法相比传统训练有多大提升?
A:实验结果显示提升相当显著。在小模型上,RL-ZVP比传统GRPO方法平均提升了2.84个准确率点;在大模型上提升了5.15个准确率点。最突出的案例中,某些测试的准确率提升高达8.61个点。更重要的是,即使与其他改进方法相比,RL-ZVP在使用相同计算资源的情况下仍然表现更优。
Q3:零方差提示问题在实际AI训练中有多常见?
A:这个问题比想象中更普遍。研究显示,在AI训练过程中,零方差提示的比例可能在30%到99%之间变化。训练初期模型较弱时,可能所有答案都错误;训练后期模型变强时,可能所有答案都正确。传统方法会直接丢弃这些数据,但RL-ZVP证明了这些看似"废料"的数据实际上蕴含着宝贵的学习价值。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。