微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 CPGD:让语言模型的规则强化学习更稳定可靠

CPGD:让语言模型的规则强化学习更稳定可靠

2025-05-22 08:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-22 08:26 科技行者

在人工智能发展的浪潮中,大型语言模型(LLMs)的推理能力一直是研究热点。近日,由孙中山大学、上海创新研究院、上海人工智能实验室和上海交通大学的研究团队联合发表了一篇题为《CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models》的研究论文,该论文于2025年5月18日在arXiv预印本平台发布(arXiv:2505.12504v1)。这项研究提出了一种名为"带策略漂移的裁剪策略梯度优化"(Clipped Policy Gradient Optimization with Policy Drift,简称CPGD)的新算法,旨在解决语言模型规则强化学习中的训练不稳定问题。研究代码已在GitHub上开源(https://github.com/ModalMinds/MM-EUREKA)。

一、研究背景:规则强化学习的现状与挑战

想象一下,你正在教一个聪明的学生解决复杂的数学问题。你给他提供简单明确的规则(如果答案正确给予奖励,错误则不奖励),希望通过这种方式让他学会正确的推理过程。这正是规则强化学习在语言模型训练中的核心思想——通过简单明确的奖励规则来激发模型的推理能力。

规则强化学习已经成为提升语言模型推理能力的关键方法。它利用源自确定性规则的简单、高效的奖励函数,有效避免了"奖励黑客"(reward hacking,指模型找到取巧方式获取高奖励而不是真正学习)问题,同时激活了模型的推理能力。这一领域的代表性算法包括GRPO、REINFORCE++、RLOO以及GRPO的多个变体,如DAPO、Dr.GRPO和GPG等。

然而,研究团队观察到这些强化学习方法常常面临训练不稳定的问题。就像一个学生在学习过程中因为过度纠正或指导不当而产生混乱一样,语言模型在训练过程中也会遇到类似的"崩溃"现象。研究人员将这一问题归因于这些方法在损失函数中使用了重要性采样比率。

虽然PPO-clip损失(Proximal Policy Optimization with clipping)被广泛用于缓解极端策略更新问题,但其单边裁剪特性在优势为负时无法约束大比率——这可能导致梯度爆炸,进而引起灾难性的训练崩溃。研究团队通过理论分析表明,在损失函数中直接包含重要性采样比率会放大策略偏移,而实证结果也确认这可能导致现有强化学习方法的训练崩溃。

二、CPGD算法:稳定训练的新方案

为了解决上述问题,研究团队提出了CPGD算法。这就像是为学生制定了一个更稳定的学习计划,既不会过度激进也不会过于保守,让学习过程持续稳定进步。

CPGD算法的核心创新在于用策略梯度损失替代PPO-clip损失,避免了直接涉及策略比率可能带来的不稳定性。为了确保近端优化(即保证更新过程中策略不会偏离太远),CPGD引入了两个关键机制:

1. 裁剪机制(Clip Mechanism):这就像是为学习过程设置了一个安全边界。当策略更新过度时,裁剪机制会将其限制在一定范围内,防止学习过程偏离太远。具体来说,CPGD对比率的对数进行裁剪,防止过度的策略更新。

2. 策略漂移正则化(Policy Drift Regularizer):这相当于给学习过程加上了一个"记忆辅助",确保新学到的内容与原来掌握的知识保持连贯性。CPGD基于KL散度(衡量两个概率分布差异的度量)引入策略漂移约束,动态调节策略更新,让学习过程更平稳。

此外,研究团队还开发了一种新型KL估计器,确保梯度方向正确,同时避免与通常使用的k3估计器相关的潜在数值不稳定性。他们还引入了加权优势(weighted advantages)来动态调整每个样本的影响力,进一步增强模型性能。

从理论上讲,CPGD的创新之处在于避免了策略比率在损失函数中的直接参与。研究团队通过命题1(Proposition 1)证明,在策略更新过程中,PPO方法会比CPG(CPGD不带策略漂移项的简化版本)更激进地偏离原策略,这解释了为什么传统的PPO-clip方法可能导致训练不稳定。

此外,通过定理1(Theorem 1),研究人员还证明了CPGD算法具有收敛保证,奠定了其理论合理性的基础。就像确保学生最终能达到稳定的学习状态一样,CPGD算法能够保证语言模型的训练过程最终收敛到一个稳定状态。

三、训练崩溃现象及CPGD的有效性

为了深入理解训练崩溃现象并验证CPGD的有效性,研究团队在MMK12数据集上进行了广泛实验,使用QwenVL2.5-7B作为基础模型。他们比较了多种算法,包括RLOO、REINFORCE++、GRPO、GRPO不带裁剪(GRPO w/o clip)、GRPO带双重裁剪(GRPO w/ dual clip)、GRPO带漂移(GRPO w/ drift)、基础策略梯度(PG)、带裁剪的策略梯度(CPG)、带漂移的策略梯度(PGD)以及完整的CPGD。

这些实验就像是在不同教学方法下观察学生的学习进度,看哪种方法能让学生稳定持续地进步,而不会中途放弃或混乱。实验结果显示,几乎所有基线方法都在中期阶段经历了训练崩溃。

具体来说,REINFORCE++、RLOO、GRPO不带裁剪和普通GRPO展现出高度不稳定的策略比率动态,导致训练中期崩溃。相比之下,GRPO带双重裁剪、GRPO带漂移、PG、CPG、PGD和CPGD保持了稳定的训练曲线。

GRPO带双重裁剪通过全局约束策略比率缓解了不稳定性,而PG系列方法通过避免在损失计算中包含比率规避了比率引起的方差。这些对比表明,在损失中包含策略比率可能在波动期间引入高方差,而简单的单边裁剪无法从极端比率中恢复,最终导致崩溃。虽然双重裁剪机制稳定了训练,但它也引入了新的问题:频繁的零梯度更新和在负优势下因大比率被裁剪为零梯度而无法有效学习。

另一方面,虽然先前的工作认为由于被裁剪比率的比例较低(约1%),裁剪可能是不必要的,但研究团队的发现表明情况并非如此。尽管只有约1%的比率被裁剪,但有无裁剪的训练性能差异显著。特别是,PG和PGD等方法虽然没有比率项而保持稳定,但它们面临响应长度崩溃问题,退化为产生琐碎输出(如只发出""等标记)而不进行有意义的推理。这凸显了模型容易陷入"奖励黑客"的弱点,可能是由于更新过于激进所致。这些结果揭示了近端策略更新的必要性。

四、CPGD的实际实现

在实际应用中,研究团队将CPGD的理论更新公式转化为每个标记的形式,旨在在理论严谨性和实际应用之间取得平衡。这就像将抽象的教学理论转化为具体的课堂教案,确保理论能在实际教学中有效应用。

CPGD的实际损失函数设计简单明了,易于集成到广泛使用的大型模型训练框架中,如OpenRLHF和veRL。以下是实际实现中的几个关键考虑因素:

1. 策略优化项:在理论更新中,策略优化项以联合分布的形式编写,但在实际实现中,它被分解为标记级别,利用对数函数的可分解性。裁剪阈值可以为所有标记设置相同,确保每个标记共享相同的裁剪范围,或者采用从紧到松的调度策略,为通常具有较高方差的早期标记分配较小的阈值。

2. 策略漂移:与策略优化项类似,策略漂移也利用对数函数的可分解性,但应用了进一步的转换。研究团队采用了k3 KL估计器而非k1估计器,因为在使用梯度优化器(如Adam)时,k1无法有效约束策略漂移,而k3的梯度方向会根据当前策略与旧策略之间的相对大小动态调整。然而,为了避免可能导致训练崩溃的问题,他们对策略比率进行裁剪,确保不超过一个常数加1。重要的是,这种裁剪不直接应用于KL散度估计器,而是应用于其梯度,确保当比率超过阈值时,策略漂移项继续提供降低比率的梯度。

3. 加权优势:从响应级别来看,每个提示可被视为一个独特的任务。因此,研究团队引入了每个提示的加权因子,为不同提示分配不同的重要性级别。包括三种权重策略:等权重(所有提示权重相同)、STD权重(基于标准差的权重)和类似裁剪过滤的权重(放大具有非零优势的样本的梯度贡献)。

五、实验结果与性能评估

研究团队在六个广泛使用的多模态数学基准测试上评估了CPGD算法的性能,包括MathVista (testmini)、MathVerse (testmini)、MathVision (test)、OlympiadBench (EN-OE split)、WeMath和MMK12。这些基准测试涵盖了广泛的数学推理任务,从视觉问答到抽象推理、逻辑到高级竞赛问题。

结果令人印象深刻。CPGD在所有基准测试中的表现优于所有类似规模的基线,达到或接近各个基准测试的领先分数。具体来说,与基础模型QwenVL2.5-7B相比,CPGD在所有基准测试中平均提高了+11.0%的整体性能。

特别值得注意的是,CPGD在MMK12领域内基准测试上取得了+21.8%的显著提升,并在领域外分布基准测试MathVista和MathVision上分别提高了+8.5%和+11.4%。这表明CPGD不仅在原始训练数据分布上表现良好,还具有强大的泛化能力。

与其他强化学习算法相比,CPGD也表现优异。在相同的设置下(相同的基础模型、训练数据集和超参数),GRPO在大多数基准测试中优于RLOO和REINFORCE++,特别是在MathVerse (51.4)和MathVision (25.9)上。然而,CPGD方法显著优于所有基线,实现了最佳性能。

CPGD的两个变体(使用类似裁剪过滤的权重或基于STD的权重)都比基础模型QwenVL2.5-7B提高了超过+10%的整体性能,展示了该方法的鲁棒性和有效性。

六、消融研究:理解CPGD的各个组件

为了深入理解CPGD的各个组成部分及其贡献,研究团队进行了详细的消融研究,就像厨师测试一道复杂菜肴中每种调味料的作用一样。

首先,他们通过比较不同变体来研究CPGD核心组件的影响:基础策略梯度(PG)、带策略漂移的策略梯度(PGD)、带裁剪的策略梯度(CPG)以及完整的CPGD。结果显示,裁剪机制起着最关键的作用,从CPG/CPGD到PG/PGD的性能下降在几乎所有基准测试中都很明显。这与他们先前的观察一致,裁剪机制缓解了响应长度崩溃问题,否则会损害测试时的计算和推理能力。相比之下,添加策略漂移的效果相对较小。这是因为CPGD的目标缺少可能不稳定的重要性采样比率,并且已经通过裁剪受益于近端更新,使得策略漂移主要作为防止过度比率偏差的保障。

其次,研究团队测试了不同的加权策略。他们还包括一个使用原始未处理奖励作为优势的基线,这导致了显著的性能下降。这证实了减去组平均值对稳定有效学习至关重要。这种方法防止了在失败案例中过度惩罚所有响应,否则可能触发"挤压效应",即Softmax输出头无意中将概率质量重新分配给意外标记,导致不良行为。类似裁剪过滤的权重和STD权重都优于等权重,这归功于它们能够更加强调具有非零优势的样本,鼓励模型更多关注信息丰富的训练信号。

最后,关于参考约束的消融研究显示,移除参考约束一致地提高了性能,这呼应了最近研究的发现,表明此类约束可能过度限制策略改进,从而阻碍整体优化。

七、讨论:CPGD的深层见解与局限性

在讨论部分,研究团队探讨了重要性采样的适用场景。重要性采样是一种宝贵的技术,用于在学习策略和行为策略显著不同时纠正采样分布,从而提高样本效率。虽然他们在训练中省略了重要性采样比率以减少方差,但这并不意味着完全放弃它。实际上,他们在训练中使用了单个PPO轮次,这是一个广泛推荐的默认设置。

关于前向KL散度与反向KL散度的选择,研究团队的策略漂移采用了前向KL散度DKL(πθold, πθ|x)而非反向KL散度DKL(πθ, πθold|x)。虽然前向KL曾被探索过,但被认为不如PPO-clip有效。相比之下,反向KL在理论上更常用,因为它与镜像下降密切相关,有强大的收敛保证。

尽管这两种KL形式在计算方式上不同,但在实践中它们通常导致类似的结果。这是因为它们都用于控制策略更新。实际上,当策略比率较小时(训练期间通常如此),它们梯度的差异很小。尽管相似,研究团队更倾向于前向KL,主要有两个原因:(1)它避免了反向KL需要的重要性采样;(2)它可以干净地分解为每个标记的项,而反向KL由于重要性权重无法做到这一点。

关于探索与利用的平衡,最近的研究声称模型的性能上限由其基础模型决定,对强化学习的作用持悲观态度。虽然研究团队不完全同意或反对,但他们提供了更微妙的观点:探索能力在很大程度上由基础模型决定。

在语言模型的强化学习训练中,可能的响应集由基础模型能生成的内容约束。强化学习帮助它选择最佳的响应,提升指标如Maj@K。换句话说,预训练和监督微调塑造了模型可以探索的内容,而强化学习增强了模型的利用能力。

该研究的主要目标是提高强化学习的稳定性,但推进语言模型的推理能力需要同时改进强化学习和早期阶段(如监督微调),以扩展模型的探索范围。鼓励主动探索可能是解锁模型性能进一步提升的关键。

八、结论:CPGD的贡献与影响

总结来说,研究团队识别了现有语言模型强化学习方法中的一个关键不稳定源:对重要性采样比率的不对称裁剪,这可能导致训练崩溃。为了解决这一问题,他们提出了CPGD,一种避免直接依赖策略比率的原则性替代方案,同时通过裁剪机制和策略漂移强制近端更新。

CPGD进一步整合了一个稳定的KL估计器和加权优势策略,以提高学习的鲁棒性。通过理论基础和实证验证,CPGD展示了卓越的稳定性和性能,在多模态数学基准测试中优于其他方法,为训练语言模型提供了一个强大且稳定的强化学习解决方案。

这项研究的意义在于它不仅提出了一种新的算法来解决强化学习中的稳定性问题,还深入分析了现有方法失败的原因,为未来的研究提供了宝贵的见解。通过连接理论分析和实际应用,CPGD为语言模型的规则强化学习开辟了一条更可靠、更高效的路径。

尽管取得了显著进展,研究团队也承认CPGD存在一些限制。首先,对于加权优势组件,他们只进行了初步实验,没有完全探索不同加权因子的影响。其次,研究专注于在策略训练,将离策略设置(通常需要重要性采样)留给未来的工作。在存在重要性采样的情况下确保训练稳定性仍然是一个开放问题。最后,所有实验都在标准学术规模的模型(7B参数)上进行,而没有在更大的模型(如100B+)上评估该方法,这将需要大量的计算资源。

总的来说,CPGD为语言模型的规则强化学习提供了一个强大而稳定的框架,有望促进更可靠、更高效的训练流程,并最终提高语言模型的推理能力。这一进步不仅对学术研究具有价值,对于开发更强大、更可靠的人工智能系统也具有广泛的实际意义。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-