微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI语言模型训练的"激励难题":哥伦比亚大学揭示强化学习的探索与利用悖论

AI语言模型训练的"激励难题":哥伦比亚大学揭示强化学习的探索与利用悖论

2025-12-22 12:10
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-22 12:10 科技行者

这项由哥伦比亚大学的Peter Chen领导,联合香港中文大学(深圳)、阿里巴巴达摩院(美国)以及纽约大学斯特恩商学院的研究团队共同完成的研究,发表于2025年12月。研究团队深入探讨了一个看似矛盾的现象:在训练大语言模型的过程中,两种看似完全对立的策略竟然都能提升模型表现。感兴趣的读者可以通过论文编号arXiv:2512.16912v1查询完整研究内容。

要理解这项研究的意义,我们可以把训练AI模型想象成教导一个学生学会数学解题。传统的教学理论告诉我们,学生需要在"探索新方法"和"巩固已掌握技能"之间找到平衡。探索太多,学生会迷失方向;巩固太多,学生会固步自封。然而,研究团队在AI模型训练中发现了一个令人费解的现象:无论是阻止学生探索新方法,还是阻止学生巩固已有技能,竟然都能让学生的成绩变得更好。

这种看似不合理的现象出现在一种称为"可验证奖励强化学习"的AI训练方法中。这种方法特别适用于数学推理等有明确对错标准的任务。当模型给出答案时,系统能够立即验证答案是否正确,就像老师批改选择题一样直接明确。这种训练方法已经被应用于最新的AI推理模型中,比如OpenAI的o1系列和DeepSeek的R1模型,帮助它们在国际数学奥林匹克竞赛等高难度测试中达到人类水平的表现。

在传统的强化学习框架中,我们通常认为需要鼓励模型探索不同的解题策略,同时奖励那些能够产生正确答案的行为。这就像培养一个学生既要勇于尝试新方法,又要记住有效的解题步骤。然而,可验证奖励强化学习具有三个独特之处,使其完全不同于传统方法。

首先,奖励信号极其稀疏。在传统强化学习中,系统可能在每一个小步骤都给出反馈,就像老师在学生解题过程中不断点头或摇头。但在可验证奖励强化学习中,只有在学生完成整道题目后才能知道答案对错,中间的所有步骤都得不到任何反馈。其次,探索过程发生在整个解题序列的层面上,而不是单个步骤。最后,模型更新依赖于一种叫做"比率裁剪"的技术,这种技术对于答案的相对优劣非常敏感。

正是这些特殊性质让研究团队观察到了两个看似矛盾的现象。第一个现象是"虚假奖励"的积极作用。虚假奖励就像给学生随机发糖果,完全不考虑他们的答题表现。按照常理,这种毫无根据的奖励应该会干扰学习过程,让学生搞不清楚什么是正确的。但令人意外的是,在某些AI模型上,这种随机奖励竟然提升了模型在数学测试中的表现。

第二个现象是"熵最小化"的效果。在这个语境下,熵可以理解为模型输出的随机性程度。高熵意味着模型经常给出不同的答案,就像一个犹豫不决的学生;低熵意味着模型倾向于给出确定性的答案,就像一个非常自信的学生。传统观点认为,适度的随机性有助于探索不同的解题策略。但研究发现,降低这种随机性,让模型变得更加确定和自信,竟然也能提升表现。

这两个现象共同构成了一个令人困惑的悖论:既阻碍"利用"(通过虚假奖励),又阻碍"探索"(通过降低熵),都能改善推理性能。这就像发现无论是禁止学生使用熟悉的解题方法,还是禁止学生尝试新方法,都能让考试成绩变好一样不可思议。

一、裁剪机制的真实作用:并非学习信号而是熵调节器

研究团队首先深入分析了"比率裁剪"这个技术的真实作用机制。比率裁剪最初是为了防止模型在训练过程中发生剧烈变化而设计的稳定性措施,就像汽车的安全带一样,目的是保护而不是推动前进。

通过严格的数学分析,研究团队证明了在虚假奖励条件下,裁剪产生的偏差在数量级上远小于原始的学习信号。具体来说,他们建立了一个理论框架,将裁剪后的目标函数分解为原始项和裁剪修正项两部分。通过推导精确的数学界限,他们发现裁剪修正项的期望值比原始学习信号小约17倍。这意味着,即使裁剪确实会产生某种偏差,这种偏差也微不足道,不足以解释观察到的性能提升。

更重要的是,研究团队发现了裁剪的真正作用机制:它实际上是在调节模型输出的随机性程度。当模型接受虚假奖励训练时,裁剪会系统性地降低输出的熵值,使模型变得更加确定性和自信。这就像原本犹豫不决的学生突然变得非常坚定,虽然判断依据可能不够充分,但表达更加清晰明确。

为了验证这一理论发现,研究团队设计了对比实验。他们使用Qwen2.5-Math-7B模型在DeepScaleR数据集上进行训练,一组实验启用裁剪,另一组完全关闭裁剪功能。结果显示,在启用裁剪的情况下,模型在MATH500验证集上的表现确实有所提升,但关闭裁剪时表现更好。更关键的是,裁剪激活的频率极低,在整个训练过程中从未超过0.2%,这进一步证实了裁剪偏差不是性能提升的主要原因。

研究团队还开发了一个新颖的"一步策略熵变化"理论框架,用数学公式精确描述了裁剪如何影响模型的输出分布。他们证明,在有裁剪的情况下,策略熵会单调递减,而在无裁剪的情况下,根据初始策略的偏斜程度,熵可能增加或减少。这个发现彻底颠覆了之前认为裁剪直接提供学习信号的观点,揭示了其作为熵调节机制的真实身份。

二、策略熵与性能的复杂关系:打破因果联系神话

在深入理解裁剪机制后,研究团队转向探讨第二个核心问题:模型输出的随机性程度是否直接决定了性能表现。这个问题的重要性在于,如果能够建立熵与性能之间的直接因果关系,就可以通过简单调节熵值来优化模型性能。

研究团队设计了多组对照实验来检验这一假设。他们在相同的训练设置下,分别记录有裁剪和无裁剪情况下的策略熵变化和模型性能。结果令人惊讶:在某些情况下,熵的降低确实伴随着性能提升,但在另一些情况下,熵的增加同样带来了性能改善。

具体来说,当使用较难的AIME数据集训练Qwen2.5-Math-7B模型时,无论是有裁剪(熵降低)还是无裁剪(熵增加)的训练方式,部分实验都显示出性能改善。这种现象就像发现不同的学生适合不同的学习风格:有些学生需要变得更加专注和确定,有些学生则需要保持开放和灵活的思维方式。

更有趣的是,研究团队发现了一个重要的调节因素:模型的初始能力和训练数据的难度。对于能力较强的模型(如QwQ-32B和R1-Distill-Llama-8B),即使在困难的训练数据上,它们也能从随机奖励中获益。但对于能力较弱的模型,当面对超出其处理能力的困难任务时,无论采用何种熵调节策略,性能提升都非常有限。

这一发现打破了"低熵必然带来高性能"的简单假设。研究团队进一步分析发现,熵的变化更像是模型适应训练信号的一种表现,而不是性能改善的直接原因。真正的关键在于模型是否能找到适合当前任务复杂度的输出确定性水平。

通过对不同模型族(Qwen-Math、Llama、QwQ)的广泛测试,研究团队验证了这一结论的普遍性。他们发现,性能提升的关键不在于达到特定的熵值,而在于训练过程是否帮助模型找到了更有效的推理策略。这就像不同的学生需要不同程度的自信:有些学生需要变得更加笃定,有些学生则需要保持质疑和探索的态度。

三、奖励错配理论:揭示虚假奖励的积极机制

为了解释为什么看似毫无意义的随机奖励能够提升模型性能,研究团队开发了一个创新的"奖励错配"理论模型。这个模型的核心思想是将训练过程中的奖励分配错误看作一个概率问题,通过分析正确答案和错误答案在随机奖励下的分布特征,来理解性能提升的机制。

研究团队将训练样本分为两类:正确回答的样本和错误回答的样本。在理想情况下,正确答案应该获得奖励,错误答案不应获得奖励。但在随机奖励系统中,会出现两种"标记错误":假阳性错误(错误答案被误奖励)和假阴性错误(正确答案未被奖励)。

通过精确的概率分析,研究团队证明了一个关键结论:当模型的基线准确率较高时,随机奖励造成的"优势损失"会显著减小。具体而言,如果一个模型在测试中有70%的答案是正确的,那么即使采用完全随机的奖励,正确答案仍然有更大概率获得更多的净优势。这就像在一个主要由好学生组成的班级中,即使老师随机发奖,好学生获得奖励的总量仍然会超过差学生。

更深入的分析揭示了一个重要的数学性质:随机奖励损失的期望值和方差都随着正确样本比例的增加而减少。当模型准确率从50%提升到70%时,奖励错配造成的干扰会呈平方级别下降。这解释了为什么较强的模型更容易从随机奖励中受益,而较弱的模型则可能受到更多干扰。

研究团队还发现了一个有趣的现象:当模型处于不同的能力水平时,假阳性错误和假阴性错误的相对影响是不同的。对于高能力模型,假阴性错误(正确答案未获奖励)的负面影响更为显著,而假阳性错误的影响相对较小。这意味着,对于已经表现良好的模型,随机奖励主要是在"惩罚"一些本应被奖励的正确行为,但这种惩罚的整体影响有限。

为了验证这一理论,研究团队测试了不同基线能力的模型。他们使用了能力较弱的Qwen2.5-Math-1.5B模型和能力较强的R1-Distill-Llama-8B模型进行对比实验。结果完全符合理论预测:较强的模型在随机奖励下表现出稳定的改善,而较弱的模型则显示出更大的性能波动和不稳定性。

这一发现还解释了为什么先前的研究中出现了相互矛盾的结果。一些研究报告随机奖励有害,另一些研究则发现其有益。实际上,这些差异很大程度上反映了所测试模型的不同基线能力水平。当研究者使用的是相对较弱的模型时,随机奖励确实可能带来负面影响;但当使用较强的模型时,随机奖励就可能表现出积极作用。

四、模型污染假说的质疑:超越单一解释框架

早期对随机奖励积极效果的解释主要集中在"模型污染"假说上。这个假说认为,某些模型在预训练阶段就已经见过了测试数据,因此具有"作弊"的先天优势。当这些已经"记住答案"的模型接受随机奖励时,它们能够利用内在的记忆来维持性能,而随机性反而帮助它们避免过度拟合到特定的答题模式。

然而,研究团队通过多个角度的实验设计,系统性地质疑了这一单一解释框架的充分性。他们的第一个重要发现是,随机奖励的积极效果并不局限于被怀疑存在污染的Qwen-Math模型族,在其他模型族中同样可以观察到类似现象。

具体来说,研究团队测试了Llama系列和QwQ系列模型,这些模型系列没有被报告存在MATH500数据集的污染问题。令人意外的是,这些"清洁"的模型同样在随机奖励条件下显示出性能提升。这一发现直接挑战了污染假说作为唯一解释机制的合理性。

进一步的分析显示,即使在被怀疑存在污染的模型中,随机奖励的效果也表现出与污染假说预期不符的模式。如果随机奖励的作用确实主要来自于强化已记忆的内容,那么效果应该主要体现在模型已经"知道"答案的问题上。但实验结果显示,改善是相对均匀分布的,包括模型之前表现不佳的问题类型。

研究团队还注意到训练数据集的选择对结果的影响。他们在实验中使用的DeepScaleR训练集包含AMC、AIME、Omni-Math和Still等数据源,这些数据源并未出现在Qwen2.5-Math模型的已知训练语料中。这种训练-测试数据的分离设计进一步削弱了简单污染解释的可信度。

更重要的是,研究团队发现不同强度的模型表现出了系统性的差异模式。如果污染是主要因素,那么污染程度应该是决定性的,但实际观察到的模式更符合基于模型能力的解释:能力越强的模型越能够从随机奖励中受益,无论其是否存在污染。

这些发现并不是要完全否定污染可能产生的影响,而是表明现实情况比单一的污染解释要复杂得多。随机奖励的积极效果可能同时涉及多个机制,包括但不限于:模型的先验知识、训练动态的调整、探索-利用平衡的重新校准,以及模型容量与任务难度的匹配程度。

研究团队的综合分析表明,我们需要一个更加细致和多层面的理解框架,而不能依赖任何单一的解释机制。这种认识对于未来的AI训练方法设计具有重要启示:我们不应该基于简化的假设来制定训练策略,而应该考虑多种因素的交互作用。

五、实验验证与跨模型泛化:从理论到实践的全面检验

为了确保研究结论的可靠性和普适性,研究团队设计了迄今为止最为全面的实验验证方案。这套验证方案不仅覆盖了多个模型族和不同的参数规模,还考虑了不同的训练设置和任务难度。

在模型选择方面,研究涵盖了三个主要的模型族:Qwen-Math系列、Llama系列和QwQ系列。每个模型族都包含了不同参数规模的变体,从7B到32B不等。这种多样化的选择确保了发现的普遍适用性,避免了基于单一模型得出的可能有偏的结论。

实验设置遵循了严格的控制变量原则。所有实验都使用相同的超参数配置:批次大小128,组大小16,解码温度1.0,学习率5×10^-7,KL系数0。唯一变化的参数是裁剪比例和是否启用随机奖励。这种标准化确保了不同实验之间的可比性。

在训练数据方面,研究团队使用了两个不同难度等级的数据集。DeepScaleR数据集代表中等难度,而AIME Past系列则代表高难度。通过这种难度梯度设计,研究者能够观察到模型能力与训练数据难度之间的交互效应。

实验结果展现出了清晰的模式。在中等难度的DeepScaleR数据集上,大多数模型都能从随机奖励中获得一定程度的性能提升。具体表现为,Qwen2.5-Math-7B的准确率从64%提升到70%,R1-Distill-Llama-8B从66%提升到74%。这些改善虽然看似有限,但在AI模型评估中被认为是显著的。

然而,当训练数据难度增加到AIME级别时,模式变得更加复杂。能力较强的QwQ-32B和R1-Distill-Llama-8B模型仍然能够从随机奖励中受益,它们的性能曲线显示出稳定的上升趋势。但能力相对较弱的Qwen2.5-Math-7B模型则表现出明显的挣扎,其性能曲线呈现随机游走状态,几乎没有meaningful的改善。

这种能力依赖性验证了奖励错配理论的预测。理论模型表明,当正确答案的比例较高时,随机奖励造成的干扰相对较小;当正确答案比例较低时,随机奖励的负面影响就会放大。实验结果完美印证了这一预期。

研究团队还进行了细致的裁剪阈值敏感性分析。他们测试了0.1、0.15和0.2三种不同的裁剪阈值,发现虽然具体的收敛速度有所不同,但总体的性能改善模式保持一致。这表明观察到的现象并不依赖于特定的超参数设置。

特别值得注意的是稳定性分析的结果。研究团队为每种设置进行了六次独立的重复实验,记录了性能提升的变异性。结果显示,能力较强的模型不仅平均性能更好,而且表现出更好的稳定性,实验间的标准差明显较小。这进一步支持了"模型能力是关键调节因素"的观点。

在训练动态分析方面,研究团队追踪了整个训练过程中策略熵的演化轨迹。他们发现,无论最终性能如何,所有成功的训练运行都表现出某种形式的熵调节:要么是渐进的熵降低(有裁剪情况),要么是适度的熵增加(无裁剪情况)。这种观察进一步印证了"裁剪作为熵调节机制"的理论发现。

结论

说到底,这项研究为我们揭示了AI模型训练中一个既有趣又实用的现象。研究团队通过严谨的理论分析和大规模实验,证明了在特定条件下,看似有害的随机奖励确实能够改善模型的数学推理能力,但这种改善并不来自于我们之前以为的机制。

归根结底,裁剪技术的作用不是直接提供学习信号,而是在调节模型输出的确定性程度。当模型接受随机奖励训练时,裁剪会让模型变得更加自信和确定,这种变化有时候反而有利于推理表现。同时,模型输出的随机性程度本身并不直接决定性能,真正重要的是这种随机性是否适合当前的任务和模型能力。

这项发现对AI技术的未来发展具有重要启示。它告诉我们,在设计AI训练方法时,不能简单地按照人类学习的直觉来思考。有时候,看似不合理的训练策略可能会产生意想不到的积极效果,但这些效果的机制可能与我们的初始假设完全不同。

对于普通人来说,这项研究最重要的意义在于提醒我们,AI系统的行为往往比我们想象的更加复杂和微妙。当我们听到某种AI训练方法"有效"时,应该保持审慎的态度,深入了解其真实的工作机制,而不是匆忙下结论或盲目应用。

从实际应用角度看,这项研究为AI模型训练提供了新的思路。训练者可以根据模型的能力水平和任务难度,选择合适的训练策略组合。对于能力较强的模型,适度的随机性甚至可能是有益的;对于能力较弱的模型,则需要更加仔细地设计训练信号。

更进一步思考,这项研究也提醒我们注意AI研究中的"表面现象"与"深层机制"的区别。许多看起来神奇的AI现象可能有着出人意料的简单解释,而一些看似简单的现象背后可能隐藏着复杂的机制。这种认识对于推进AI技术的健康发展具有重要价值。

最终,这项研究展示了科学研究的魅力:通过质疑常识,挑战假设,我们能够发现事物运作的真正规律,从而为技术进步开辟新的道路。有兴趣深入了解技术细节的读者可以通过arXiv:2512.16912v1查阅完整的论文内容。

Q&A

Q1:什么是可验证奖励强化学习?

A:可验证奖励强化学习是一种专门用于训练AI模型的方法,特别适用于数学推理等有明确对错标准的任务。系统会在模型完成整个解题过程后验证答案是否正确,就像老师批改作业一样给出明确的对错反馈,这种方法已经被用于训练OpenAI的o1和DeepSeek的R1等先进AI模型。

Q2:为什么随机奖励反而能提升AI模型性能?

A:研究发现这主要与模型的基础能力有关。对于能力较强的模型,即使接受完全随机的奖励,正确答案仍然有更大概率获得更多净优势。同时,随机奖励会通过裁剪机制降低模型输出的随机性,让模型变得更加自信确定,这种变化有时反而有利于推理表现。

Q3:这项研究对AI技术发展有什么实际意义?

A:这项研究揭示了AI模型训练中的一个重要原则:训练策略的效果高度依赖于模型能力和任务难度的匹配。它为AI训练提供了新思路,提醒我们不能简单按照人类学习的直觉来设计AI训练方法,需要深入理解不同训练策略的真实工作机制。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-