微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 腾讯混元AI强化学习新突破:让AI学习时"先想后行",避免越学越偏

腾讯混元AI强化学习新突破:让AI学习时"先想后行",避免越学越偏

2026-06-17 17:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-17 17:36 科技行者

这项由腾讯混元(Tencent Hunyuan)团队完成的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.10968,有兴趣深入了解的读者可通过该编号查询完整论文。

训练一个会推理的AI,本质上就像是教一个孩子做题。你希望孩子在每一步都保持清醒——不要因为前面某步算错了就越走越偏,最后交出一张面目全非的答卷。但问题在于,现有的AI训练方式,恰恰忽略了"一步错、步步错"这个老生常谈的道理。腾讯混元的研究团队就是从这个直觉出发,提出了一种叫做CPPO(Cumulative Prefix-divergence Policy Optimization,累积前缀散度策略优化)的新方法,专门解决AI在强化学习训练过程中"走偏"的问题。

在数学竞赛题目上,CPPO训练出来的模型在多个Qwen3系列模型上均超过了所有对比方法,在最大的30B参数量模型上,平均得分从49.23分跃升至54.79分,提升幅度超过5个百分点。

一、AI是怎么学会解题的?先搞清楚这件事

要理解这项研究解决了什么问题,得先明白现代大语言模型(Large Language Model,也就是GPT这类AI)是怎么"学习推理"的。

研究者们使用的方法叫做强化学习(Reinforcement Learning)。打个比方,这就像训练一只狗:它做对了事情你给零食,做错了就不给。对于AI来说,"做题"就是它的行动,"答对了"就是奖励,模型会慢慢学会往奖励多的方向调整自己的行为。

这类AI生成文字的方式叫"自回归生成"——它一次生成一个词(更精确地说是"token",可以理解为一个词或半个词),每次生成都要参考前面已经写下的所有内容。你写第一个字,它就在第一个字的基础上想第二个字;你有了前两个字,它再想第三个字。这个链条,就是整个生成过程。

在训练过程中,AI不是实时更新的,而是先让一个"旧版AI"(我们叫它"采样策略"μ)跑出一批答案,然后用这批答案来更新"新版AI"(叫做"目标策略"π)。更新的关键是:不能让新版和旧版差太多,否则训练会不稳定、甚至崩掉。这种"不要偏离太远"的约束,学术上叫做"信任域约束"(Trust Region)。

传统的PPO算法(Proximal Policy Optimization,近端策略优化)通过"裁剪"每个词的重要性比值来实现这个约束:如果某个词在新旧版本之间差异太大,就把它的影响力削弱。GRPO是PPO在语言模型上的一个变体,用的是同样的逻辑。

问题来了:这个约束方式有一个根本性的缺陷,而CPPO正是为了修补这个缺陷而生的。

二、旧方法的"公平病":每个位置都一视同仁,但有些位置更关键

以文字接龙来类比整个生成过程。AI写一篇500字的数学解题过程,就像完成一段500步的接龙。每一步都在前面所有步骤的基础上走出去。

旧方法(PPO、GRPO、DPPO等)的做法是:对第1步和第500步,设置完全一样的"允许偏差量"。你在第1步可以偏0.2,在第500步也只能偏0.2,不多不少。

这看起来很公平,但实际上大错特错。

原因在于,第1步的影响是深远的。如果AI在第1步就走偏了方向,后面499步都会在一个错误的基础上继续——整个推理链条都会偏离正轨。而第499步的一点偏差,只影响最后一两个字,无伤大雅。这种"越早的错误越危险"的特性,学术上叫做"自回归不对称性"。

此外,还有另一个被忽视的问题:即使每一步偏差都很小,但如果每一步都在允许的范围内偏,积累到第100步、第200步的时候,整个前缀(AI已经写下的所有内容)可能已经和原本的"采样策略"相差甚远了。旧方法对每个词孤立地打分,根本不管前面已经积累了多少偏差。这就好比一个厨师做菜,每次加盐都说"这点盐不算多",但加了二十次之后,整道菜已经咸得没法吃了。

这两个问题,分别对应了CPPO提出的两种改进机制。

三、CPPO的解决思路:越早越严,且要追踪积累量

腾讯混元团队从一个理论出发点入手。他们在数学上证明了:AI训练中的误差上界,和每个位置的"剩余步骤数"成正比。也就是说,位置越靠前,剩余步骤越多,同样大小的偏差造成的危害就越大。这是一个精确的、可量化的结论,不是模糊的直觉。

基于这个结论,CPPO做了两件事。

第一件事,是引入"位置权重"。对越靠前的词设置越严格的偏差限制,对越靠后的词放宽限制。具体来说,CPPO使用一个从1线性衰减到某个最小值(比如0.8)的权重序列。第一个词的权重是1,意味着约束最严;最后一个词的权重是0.8,意味着约束相对宽松。实际允许的偏差量等于设定的基础阈值除以权重,权重越大,允许的偏差就越小。开头严格,结尾宽松,完全对应了"早期错误危害更大"这一事实。

第二件事,是引入"累积前缀预算"。CPPO会跟踪AI在生成过程中,历史上所有词的加权偏差总和。如果前面已经积累了很多偏差,那么后面的词允许的偏差就要相应缩减。具体的判断规则是:计算从第一个词到当前词之前的加权平均偏差量,如果这个平均值超过了设定的预算阈值,那么当前这一步就要被"限速",不允许继续扩大偏差。

这两个机制合在一起,构成了CPPO完整的训练规则:对于每一个词的更新,要同时满足"当前词的加权偏差不超过阈值"以及"历史加权平均偏差没有超支"这两个条件,才允许执行这次更新;否则,这次更新就被掩掉(称为"token masking",即对该词的更新打上遮罩)。

论文中通过一个定理(Theorem 1)严格证明了:在这两个约束条件下,AI性能的提升下界比传统均匀阈值方法更紧,也就是说理论上能保证更好的训练效果。两种方法的残差常数之比等于"累积预算阈值除以单步阈值",只要累积预算阈值比单步阈值小,CPPO的理论保证就比旧方法更强。

四、CPPO是怎么在实际训练中工作的?一步步来看

在真正训练时,CPPO对每一个生成的词执行以下判断过程,而且这个过程完全可以在现有的训练框架上以极低的额外计算成本运行。

首先,根据词的位置t和总长度T,计算当前位置的权重:权重等于1减去一个随位置线性增大的量,从第一个词的权重1,均匀递减到最后一个词的权重0.8(这个0.8叫做权重下限,是可调的超参数)。

接着,计算当前词在新旧策略之间的"分布距离",也就是衡量AI新旧版本在这个位置的下一词选择上有多大差异。这个距离用的是"全变差距离"(Total Variation Distance)的一个近似计算方法,具体是只考虑概率最高的20个候选词(Top-K近似,K=20),因为考虑整个词汇表太费计算资源。

然后,计算两个判断条件:一是当前词的权重乘以距离是否超过基础阈值δ;二是从头到现在的加权偏差总和是否超过"基础阈值加上当前累积预算"。只要这两个条件都满足(偏差在允许范围内),且这次更新是在把AI往"正确方向"推(即朝着降低偏差的方向),该词的更新就被允许;否则,这次更新就被屏蔽。

值得一提的是,第一个词永远享有完整的基础阈值δ的额度,因为初始状态下还没有任何历史偏差积累。随着生成的进行,如果历史偏差积累越来越大,后续词的有效阈值就会越来越小,训练也就越来越"保守"。

从实现的角度,上述过程本质上只是对一批训练数据做了几次累加操作,对训练速度几乎没有影响,可以直接作为DPPO(Distributional PPO,分布式近端策略优化)的替换模块使用。

五、实验验证:在数学竞赛题上大比拼

研究团队在四个不同规模的Qwen3模型上进行了全面测试,涵盖了1.7亿参数的小模型、8亿参数的中等模型,以及300亿参数(混合专家架构)的大模型,同时区分了"Base"(基础预训练版本)和"post-trained"(经过后训练的版本)两种情况。

训练数据是一个叫DAPO-Math-17k的数学推理数据集,包含约1.7万道可验证的数学题目。验证指标是在2024年、2025年、2026年的美国数学邀请赛(AIME)题目上的平均得分,用Avg@16这种方式衡量(每道题采样16次,取平均正确率)。

对比的方法涵盖了多个主要流派:基于比率裁剪的GRPO和CISPO,基于序列级信任域的TRM-Max和TRM-Avg,基于前缀比率的MinPRO,以及CPPO最直接的前身DPPO。

结果相当清晰。在1.7B后训练模型上,CPPO达到31.88分,超过第二名CISPO的28.82分,领先约3分。在1.7B基础模型上,CPPO达到12.78分,超过第二名CISPO的11.87分,领先近1分。在8B基础模型上,CPPO达到31.11分,超过第二名MinPRO的29.72分,领先约1.4分。在30B混合专家基础模型上,CPPO的优势最为突出,达到54.79分,超过第二名DPPO的49.23分,领先5.56分。此外,CISPO在这个最大模型上训练崩溃,而TRM-Max只有20.27分,训练极不稳定。

特别值得关注的是,CPPO与DPPO的对比是最严格的控制实验——两者使用完全相同的偏差度量方法(Top-K近似全变差距离)和相同的基础阈值,唯一的区别就是CPPO额外加入了位置权重和累积前缀预算两个机制。在这种严格控制下,四个模型上的提升分别是3.69、1.88、2.22和5.56分。这意味着,性能提升完全可以归因于这两个新机制,而不是其他因素。

从训练曲线来看,CPPO在整个训练过程中持续保持优势,而且随着训练深入,与DPPO的差距有扩大的趋势,这与理论预期吻合——累积前缀预算的效果在偏差确实积累之后才会显著体现。

六、消融实验:两个机制缺一不可

为了进一步验证,研究团队做了一系列"拆零件"测试,看看去掉其中某个部分后会发生什么。

第一个测试:去掉位置权重(即令所有位置权重相同,只保留累积前缀预算)。结果显示,这个版本比完整CPPO差,但仍然比DPPO好。说明位置权重有独立贡献。

第二个测试:去掉累积前缀预算(即只保留位置权重,不跟踪历史偏差)。结果同样比完整CPPO差,也仍比DPPO好。说明前缀预算也有独立贡献。完整CPPO叠加了两个效果,表现最好。

第三个测试:把位置权重打乱顺序。研究者保留了整组权重值的集合,但随机分配给各个位置,使得不一定越靠前权重越大。结果比有序版本差。这说明提升来源于"顺序本身",即早期位置确实需要更严格的约束,而不仅仅是"有不同的约束"这件事带来的。

第四个测试:把硬性屏蔽改成软性衰减(Soft Gate)。不是直接把超限的词的更新置零,而是按照超限的程度对更新量做连续衰减。结果显示两者性能接近,说明这两种实现方式都是可行的,研究团队最终保留了更简单直接的硬性版本。

此外,研究者还测试了用KL散度(另一种衡量两个分布差异的方法)替代全变差距离,以及用更简单的"Binary-TV"近似替代Top-K近似,发现性能基本持平。这证明CPPO的提升不依赖于特定的偏差度量工具,核心价值在于前缀预算机制本身。对不同超参数组合(预算阈值δ_b取0.02和0.03,权重下限wmin取0.8和0.6)也进行了测试,结果表明CPPO在相近的参数范围内都能稳定带来提升,对超参数不过于敏感。

七、基础模型训练的特殊处理:冷启动期的预算动态调整

基础模型(Base Model)在训练初期有一个特殊状况:刚开始时,模型还在"乱探索"阶段,每个词的新旧版本偏差可能非常大,在几步更新之后才会迅速稳定下来。如果此时就用一个固定的累积预算阈值,会导致大量更新在训练初期被屏蔽,反而阻碍了探索。

为此,研究团队对基础模型设计了一种自适应的动态预算:对每条训练样本,计算该样本中所有词的偏差的90分位数值(即:排在前10%最大偏差值中最小的那个),将其作为该样本的临时预算阈值,但同时用一个最小值和最大值(最大值等于两倍最小值)来夹住这个临时值,防止极端情况。从实际监控数据来看,这个有效预算值在训练初期会偏大,随着训练稳定后迅速回落到接近最小值的水平,前缀预算机制真正起约束作用的时机大约在训练初始阶段过后。

八、与其他方法的本质区别

论文花了不少篇幅整理了相关方法的谱系,便于读者理解CPPO的准确定位。

最大的一类方法是"比率裁剪"系列,包括PPO、GRPO、CISPO等,它们只看单个词的新旧概率之比,本质上是一个单样本的随机估计,在词汇表极不均匀的大语言模型场景下本身就不够精准。DPPO是这个方向的改进,改用真正的分布距离(而非单个词的比值),但约束方式还是对所有位置一视同仁。

另一类是"序列级信任域"方法,代表是TRM-Max和TRM-Avg,它们不是对单个词打分,而是看整条回答的最大偏差或平均偏差是否超标,一旦超标就把整条回答的更新全部丢弃。这样做虽然避免了累积问题,但太过粗暴——一条回答里只要有一个词偏差大,整条回答就作废,浪费了大量有用的训练信号。

CPPO处于中间地带:以词为单位做判断(比TRM更精细),但判断时参考历史积累(比DPPO更全面)。从理论上,TRM-Max可以看成是CPPO去掉前缀预算后的特殊情形,TRM-Avg可以看成是只在序列末尾检查平均值的弱化版CPPO——数学上可以证明,CPPO的理论保证比TRM-Avg更紧,差距随序列长度增大(差异系数约为2-2/T)。

还有一类方法是"前缀比率"方向,代表是MinPRO,它通过修改训练目标的形式来稳定训练,不像CPPO这样在更新时做动态屏蔽,两者在机制上有本质区别,但在某些场景下都能带来提升,可以视为互补。

说到底,这篇论文的核心洞察可以用一句大白话概括:教AI做题,不能对每个步骤一视同仁,也不能只看当下、忘了历史。前面走的弯路越多,后面就越要谨慎;靠前的步骤比靠后的步骤危险得多——这是自回归生成的天然属性,也是任何理性的训练方法都应该尊重的规律。

CPPO的聪明之处在于,它几乎不增加任何额外的计算开销,只是在现有的训练框架上加了一层动态的"预算管理",就能带来稳定且显著的性能提升。在最大的测试模型上,5.56分的提升幅度相当于模型规模翻倍才能带来的效果。对于关心AI能否真正推理、能否在数学和逻辑上越来越可靠的人来说,这类对训练过程本身的精细化改进,是非常值得关注的技术方向。

当然,目前CPPO还只在数学推理这个特定任务上得到验证,在其他类型的推理或开放式生成上的效果还需要更多探索。另外,如何为不同规模、不同类型的模型确定最优的超参数(基础阈值δ、预算阈值δ_b、权重下限wmin),还需要一定的经验积累。对这些问题感兴趣的读者,可以通过arXiv编号2606.10968查阅完整的原始论文,其中包含了所有的数学证明细节和完整的实验结果。

---

Q&A

Q1:CPPO和PPO、GRPO这些AI训练方法有什么本质区别?

A:PPO和GRPO对每个词的更新约束是"一刀切"的,所有位置允许偏差的量完全相同,也不考虑之前积累了多少偏差。CPPO的区别在于两点:靠前位置的词被设置了更严格的约束(因为早期错误影响更深远),同时还会追踪整个生成过程中的历史偏差累积量,一旦积累超标就收紧后续更新。简单说,CPPO既考虑"现在偏了多少",也考虑"之前已经偏了多少"。

Q2:CPPO在数学竞赛题上提升了多少,是什么规模的模型?

A:CPPO在四个不同规模的Qwen3模型上均优于所有对比方法。提升最显著的是Qwen3-30B-A3B-Base(300亿参数混合专家模型),平均得分从49.23分提升到54.79分,提升5.56分。其他模型上也有1到3.7分不等的提升。这些测试都在AIME(美国数学邀请赛)2024、2025、2026年的题目上进行。

Q3:累积前缀预算在训练中具体是怎么工作的?

A:每次AI生成一个词时,CPPO会计算从第一个词到当前词之前的所有词的加权偏差总和,并与允许的预算上限比较。如果历史累积偏差已经很大,当前这一步就会被限制,不允许再继续扩大偏差;如果历史上偏差很小,当前这一步就有更大的空间。这个过程就像一个"月度消费预算"——花多了就得省,没花多少就可以适当宽松,整体控制总量不超标。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-