微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

快手团队突破大模型训练难题：让AI既会探索又能收敛的全新方法

人工智能强化学习策略优化

快手团队突破大模型训练难题：让AI既会探索又能收敛的全新方法

作者：科技行者

2025-10-15 12:09

分享至：

快手科技团队提出CE-GPPO算法，解决大型语言模型强化学习训练中的探索-利用平衡难题。通过重新利用传统方法丢弃的"越界"词元信息，实现对策略熵的精细控制。在数学推理任务上显著超越现有方法，7B模型性能提升3个百分点，为AI模型训练提供新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-15 12:09 • 科技行者

在人工智能快速发展的今天，大型语言模型的训练就像培养一个既要勇于探索又要善于总结的学生。这项由快手科技Klear团队的苏振鹏、潘磊宇等研究人员联合独立研究者李云涛完成的突破性研究，发表于2025年10月的arXiv预印本平台（论文编号：arXiv:2509.20712v3），为解决这一核心挑战提供了全新的解决方案。

想要理解这项研究的意义，我们可以把大型语言模型的训练过程比作教导一个学生学习数学解题。传统的训练方法就像是给学生设定了一个固定的学习框架：学生只能在规定的范围内探索新的解题思路，超出这个范围的想法都会被直接忽略掉。这种做法虽然能保证学习过程的稳定性，但也限制了学生的创新能力和深度思考。

研究团队发现，在强化学习训练大型语言模型的过程中，存在一个被称为"策略熵"的关键指标，它反映了模型在面对问题时的探索与利用平衡。就像学生解题时，既要尝试新方法（探索），又要使用已掌握的可靠方法（利用）。然而，现有的主流训练算法如PPO（近端策略优化）在处理这个平衡时存在重大缺陷：它们会丢弃那些看似"不合规"但实际上对维持探索能力至关重要的信息。

研究团队深入分析了这个问题的根源，发现传统方法在处理不同概率的输出词元时采用了过于简单粗暴的裁剪机制。他们将所有的词元分为四种类型：正优势高概率词元、负优势低概率词元、正优势低概率词元和负优势高概率词元。前两种类型的词元通常会加速模型收敛，让模型更快地找到看似正确的答案，但也容易导致模型过早失去探索新可能性的能力。后两种类型的词元虽然看起来不太"主流"，但它们对维持模型的探索能力和防止过早收敛起着至关重要的作用。

传统的PPO算法就像一个过度严格的老师，只关注那些符合预期范围的答案，而完全忽视学生提出的创新想法，即使这些想法可能包含有价值的思考过程。这种做法导致了两个严重问题：一是"熵坍塌"，即模型失去探索能力，过快地收敛到次优解；二是"熵爆炸"，即模型过度探索而无法有效利用已学到的知识。

基于这些深刻洞察，研究团队提出了CE-GPPO（通过梯度保持裁剪策略优化协调熵）算法。这个新方法的核心思想是重新利用那些在传统方法中被丢弃的"越界"信息，但以一种更加温和和可控的方式。就像一个智慧的老师，不仅要听取学生的标准答案，也要关注那些看似偏离主题但可能包含创新思维的回答，并给予适当的引导和反馈。

CE-GPPO的巧妙之处在于引入了一个"停梯度"操作，这就像给学生的创新想法设置了一个"缓冲区"。在这个缓冲区内，模型可以学习和借鉴这些创新想法，但不会因此而偏离主要的学习轨道太远。通过两个可调节的参数β1和β2，研究团队可以精确控制模型对不同类型创新想法的重视程度。

具体来说，当模型遇到那些有潜在价值但概率较低的创新答案时，CE-GPPO会给予它们适当的关注权重，鼓励模型保持探索精神。而对于那些可能导致模型偏离正轨的低质量答案，算法会适当降低它们的影响力，确保模型不会因为过度探索而失去方向。

在数学推理基准测试中，CE-GPPO展现了令人瞩目的性能提升。在多个权威测试集上，包括AIME24、AIME25、HMMT25、MATH500和AMC23，新算法都显著超越了现有的强基线方法。特别是在更具挑战性的任务上，CE-GPPO的优势更加明显。更重要的是，这种优势随着模型规模的增大而放大：在1.5B参数的模型上，CE-GPPO比最佳基线方法提升了2.5个百分点，而在7B参数的模型上，这个提升扩大到了3个百分点。

研究团队还深入分析了不同参数设置对模型行为的影响。他们发现，通过调节β1和β2参数，可以实现对模型探索-利用平衡的精细控制。当β1较大或β2较小时，模型倾向于更快收敛，就像一个急于得出结论的学生；当β1较小或β2较大时，模型维持更高的探索能力，像一个愿意深入思考各种可能性的学生。最优的设置通常是β1=0.5或0.75，β2=1，这样的配置能够让模型在保持探索能力的同时，也能有效利用已学到的知识。

更令人惊喜的是，CE-GPPO在训练稳定性方面也表现出色。通过对KL散度和梯度范数的监测，研究团队证明了新算法在整个训练过程中都保持着稳定的趋势，没有出现异常波动或超出合理范围的情况。这意味着CE-GPPO在引入额外的学习信号的同时，并没有牺牲训练的稳定性，这对于实际应用来说至关重要。

研究团队还将CE-GPPO与其他先进的强化学习算法进行了全面比较，包括CISPO和GSPO等方法。结果显示，CE-GPPO在五个测试数据集中的四个上都取得了最佳性能，充分证明了其方法的有效性。特别值得注意的是，一些竞争方法在训练过程中出现了模型崩溃的问题，而CE-GPPO始终保持稳定的改进趋势。

这项研究的理论贡献也不容忽视。研究团队从理论上分析了策略熵变化的机制，证明了被传统方法忽视的"越界"词元对于控制熵动态的重要性。他们推导出的数学公式清晰地展示了这些词元如何影响模型的探索-利用平衡，为算法设计提供了坚实的理论基础。

从实际应用的角度来看，CE-GPPO的成功为大型语言模型的训练提供了新的思路。在数学推理、科学计算、代码生成等需要深度思考和创新的任务中，这种能够平衡探索与利用的训练方法可能会带来显著的性能提升。

当然，这项研究也有其局限性。由于不同模型的参数和特性存在差异，CE-GPPO的最优参数设置可能需要针对具体模型进行调整。虽然研究团队发现β1=0.5、β2=1是一个普遍有效的设置，但为了获得最佳性能，仍然需要一定程度的超参数调优。

回到我们最初的比喻，CE-GPPO就像是培养出了一位既有探索精神又有判断力的优秀学生。这个学生不会因为追求标准答案而放弃创新思考，也不会因为过度探索而失去方向。在人工智能技术日益重要的今天，这种平衡探索与利用的能力对于构建更加智能、更加可靠的AI系统具有重要意义。

这项研究不仅在技术层面取得了重要突破，更为整个人工智能领域提供了新的思考方向。随着大型语言模型在各行各业的应用越来越广泛，如何让这些模型既能保持创新能力又能稳定可靠地工作，将是未来研究的重要课题。CE-GPPO的成功表明，通过巧妙的算法设计，我们可以在这两个看似矛盾的目标之间找到完美的平衡点。

Q&A

Q1：CE-GPPO算法的核心创新是什么？

A：CE-GPPO的核心创新是重新利用传统PPO算法中被丢弃的"越界"词元信息。传统方法会完全忽略那些超出裁剪范围的词元，但CE-GPPO通过停梯度操作和可调参数，以温和可控的方式保留这些信息，从而更好地平衡模型的探索与利用能力。

Q2：为什么传统的PPO算法会导致熵坍塌或熵爆炸？

A：传统PPO算法的裁剪机制过于简单粗暴，会丢弃对维持探索能力重要的低概率词元信息。这导致模型要么过快收敛到次优解（熵坍塌），要么无法有效利用已学知识而过度探索（熵爆炸），无法在探索和利用之间找到合适的平衡。