微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 快手团队突破大模型训练难题:让AI既会探索又能收敛的全新方法

快手团队突破大模型训练难题:让AI既会探索又能收敛的全新方法

2025-10-15 12:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-15 12:09 科技行者

在人工智能快速发展的今天,大型语言模型的训练就像培养一个既要勇于探索又要善于总结的学生。这项由快手科技Klear团队的苏振鹏、潘磊宇等研究人员联合独立研究者李云涛完成的突破性研究,发表于2025年10月的arXiv预印本平台(论文编号:arXiv:2509.20712v3),为解决这一核心挑战提供了全新的解决方案。

想要理解这项研究的意义,我们可以把大型语言模型的训练过程比作教导一个学生学习数学解题。传统的训练方法就像是给学生设定了一个固定的学习框架:学生只能在规定的范围内探索新的解题思路,超出这个范围的想法都会被直接忽略掉。这种做法虽然能保证学习过程的稳定性,但也限制了学生的创新能力和深度思考。

研究团队发现,在强化学习训练大型语言模型的过程中,存在一个被称为"策略熵"的关键指标,它反映了模型在面对问题时的探索与利用平衡。就像学生解题时,既要尝试新方法(探索),又要使用已掌握的可靠方法(利用)。然而,现有的主流训练算法如PPO(近端策略优化)在处理这个平衡时存在重大缺陷:它们会丢弃那些看似"不合规"但实际上对维持探索能力至关重要的信息。

研究团队深入分析了这个问题的根源,发现传统方法在处理不同概率的输出词元时采用了过于简单粗暴的裁剪机制。他们将所有的词元分为四种类型:正优势高概率词元、负优势低概率词元、正优势低概率词元和负优势高概率词元。前两种类型的词元通常会加速模型收敛,让模型更快地找到看似正确的答案,但也容易导致模型过早失去探索新可能性的能力。后两种类型的词元虽然看起来不太"主流",但它们对维持模型的探索能力和防止过早收敛起着至关重要的作用。

传统的PPO算法就像一个过度严格的老师,只关注那些符合预期范围的答案,而完全忽视学生提出的创新想法,即使这些想法可能包含有价值的思考过程。这种做法导致了两个严重问题:一是"熵坍塌",即模型失去探索能力,过快地收敛到次优解;二是"熵爆炸",即模型过度探索而无法有效利用已学到的知识。

基于这些深刻洞察,研究团队提出了CE-GPPO(通过梯度保持裁剪策略优化协调熵)算法。这个新方法的核心思想是重新利用那些在传统方法中被丢弃的"越界"信息,但以一种更加温和和可控的方式。就像一个智慧的老师,不仅要听取学生的标准答案,也要关注那些看似偏离主题但可能包含创新思维的回答,并给予适当的引导和反馈。

CE-GPPO的巧妙之处在于引入了一个"停梯度"操作,这就像给学生的创新想法设置了一个"缓冲区"。在这个缓冲区内,模型可以学习和借鉴这些创新想法,但不会因此而偏离主要的学习轨道太远。通过两个可调节的参数β1和β2,研究团队可以精确控制模型对不同类型创新想法的重视程度。

具体来说,当模型遇到那些有潜在价值但概率较低的创新答案时,CE-GPPO会给予它们适当的关注权重,鼓励模型保持探索精神。而对于那些可能导致模型偏离正轨的低质量答案,算法会适当降低它们的影响力,确保模型不会因为过度探索而失去方向。

在数学推理基准测试中,CE-GPPO展现了令人瞩目的性能提升。在多个权威测试集上,包括AIME24、AIME25、HMMT25、MATH500和AMC23,新算法都显著超越了现有的强基线方法。特别是在更具挑战性的任务上,CE-GPPO的优势更加明显。更重要的是,这种优势随着模型规模的增大而放大:在1.5B参数的模型上,CE-GPPO比最佳基线方法提升了2.5个百分点,而在7B参数的模型上,这个提升扩大到了3个百分点。

研究团队还深入分析了不同参数设置对模型行为的影响。他们发现,通过调节β1和β2参数,可以实现对模型探索-利用平衡的精细控制。当β1较大或β2较小时,模型倾向于更快收敛,就像一个急于得出结论的学生;当β1较小或β2较大时,模型维持更高的探索能力,像一个愿意深入思考各种可能性的学生。最优的设置通常是β1=0.5或0.75,β2=1,这样的配置能够让模型在保持探索能力的同时,也能有效利用已学到的知识。

更令人惊喜的是,CE-GPPO在训练稳定性方面也表现出色。通过对KL散度和梯度范数的监测,研究团队证明了新算法在整个训练过程中都保持着稳定的趋势,没有出现异常波动或超出合理范围的情况。这意味着CE-GPPO在引入额外的学习信号的同时,并没有牺牲训练的稳定性,这对于实际应用来说至关重要。

研究团队还将CE-GPPO与其他先进的强化学习算法进行了全面比较,包括CISPO和GSPO等方法。结果显示,CE-GPPO在五个测试数据集中的四个上都取得了最佳性能,充分证明了其方法的有效性。特别值得注意的是,一些竞争方法在训练过程中出现了模型崩溃的问题,而CE-GPPO始终保持稳定的改进趋势。

这项研究的理论贡献也不容忽视。研究团队从理论上分析了策略熵变化的机制,证明了被传统方法忽视的"越界"词元对于控制熵动态的重要性。他们推导出的数学公式清晰地展示了这些词元如何影响模型的探索-利用平衡,为算法设计提供了坚实的理论基础。

从实际应用的角度来看,CE-GPPO的成功为大型语言模型的训练提供了新的思路。在数学推理、科学计算、代码生成等需要深度思考和创新的任务中,这种能够平衡探索与利用的训练方法可能会带来显著的性能提升。

当然,这项研究也有其局限性。由于不同模型的参数和特性存在差异,CE-GPPO的最优参数设置可能需要针对具体模型进行调整。虽然研究团队发现β1=0.5、β2=1是一个普遍有效的设置,但为了获得最佳性能,仍然需要一定程度的超参数调优。

回到我们最初的比喻,CE-GPPO就像是培养出了一位既有探索精神又有判断力的优秀学生。这个学生不会因为追求标准答案而放弃创新思考,也不会因为过度探索而失去方向。在人工智能技术日益重要的今天,这种平衡探索与利用的能力对于构建更加智能、更加可靠的AI系统具有重要意义。

这项研究不仅在技术层面取得了重要突破,更为整个人工智能领域提供了新的思考方向。随着大型语言模型在各行各业的应用越来越广泛,如何让这些模型既能保持创新能力又能稳定可靠地工作,将是未来研究的重要课题。CE-GPPO的成功表明,通过巧妙的算法设计,我们可以在这两个看似矛盾的目标之间找到完美的平衡点。

Q&A

Q1:CE-GPPO算法的核心创新是什么?

A:CE-GPPO的核心创新是重新利用传统PPO算法中被丢弃的"越界"词元信息。传统方法会完全忽略那些超出裁剪范围的词元,但CE-GPPO通过停梯度操作和可调参数,以温和可控的方式保留这些信息,从而更好地平衡模型的探索与利用能力。

Q2:为什么传统的PPO算法会导致熵坍塌或熵爆炸?

A:传统PPO算法的裁剪机制过于简单粗暴,会丢弃对维持探索能力重要的低概率词元信息。这导致模型要么过快收敛到次优解(熵坍塌),要么无法有效利用已学知识而过度探索(熵爆炸),无法在探索和利用之间找到合适的平衡。

Q3:CE-GPPO在实际性能上有多大提升?

A:在数学推理基准测试中,CE-GPPO显著超越了现有方法。在1.5B参数模型上比最佳基线提升2.5个百分点,在7B参数模型上提升达到3个百分点。在AIME25、HMMT25等挑战性任务上优势更加明显,且这种优势随模型规模增大而放大。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-