微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

伦敦大学学院等多机构联合揭示：AI"调音旋钮"让大模型推理训练不再崩溃

强化学习大语言模型策略优化算法

伦敦大学学院等多机构联合揭示：AI"调音旋钮"让大模型推理训练不再崩溃

作者：科技行者

2026-05-22 17:33

分享至：

HolderPO通过引入可调参数p的霍尔德均值替代固定的算术平均，解决了大模型推理训练中信号放大与稳定性之间的根本矛盾，配合动态退火策略在数学推理和代理任务上均创造了新的最优记录。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-22 17:33 • 科技行者

这项由伦敦大学学院、上海交通大学和香港科技大学（广州）联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.12058，有兴趣深入了解的读者可通过该编号查询完整论文。

研究团队提出了一种名为HolderPO的强化学习训练框架，专门针对大型语言模型在复杂推理任务中的训练稳定性与性能瓶颈问题。通过引入一个可连续调节的参数p，该方法在五项数学推理基准上平均达到54.9%的准确率，在家务任务代理环境中达到93.8%的成功率，均超越了当前最优方法。

---

一、训练大模型就像给乐队调音——旋钮拧错了整首曲子都会跑调

每当我们使用ChatGPT、DeepSeek这类AI助手来解一道复杂数学题或规划多步骤任务时，背后都有一个精心设计的"训练过程"在支撑。这个训练过程就好像是在教一个学生做题：给他一批题目，让他尝试各种解法，然后根据答案是否正确来奖励或惩罚他，让他慢慢学会更好的思路。

目前最流行的一种训练方法叫做GRPO（组相对策略优化），它是推动DeepSeek-R1等顶尖推理模型取得突破的核心技术。GRPO的工作方式是这样的：对于同一道题，AI会同时生成一批不同的答案，然后通过比较这批答案的好坏来判断哪种思路更值得学习。这样做的好处是不需要额外训练一个"评委模型"，大大节省了计算资源。

然而，GRPO内部有一个容易被忽视的关键步骤：AI在回答一道题时，会逐字逐句地生成答案，每一个字词都对应一个"生成概率"。要把这一串概率汇总成一个整体评分，就需要用某种数学方式把它们"平均"起来。GRPO默认使用的是最常见的算术平均——就像把全班同学的分数加起来除以人数一样。

问题就出在这个"平均方式"上。研究团队发现，用固定的平均方式就像给乐队调音时只有一个固定旋钮位置——对某些曲子合适，对另一些曲子就会让整个演奏跑调甚至崩溃。这个看似简单的设计决策，竟然是制约AI训练效果的核心瓶颈之一。

---

二、两种极端都行不通：训练要么崩溃，要么学不到东西

为了具体说明这个问题，研究团队做了一系列对比实验，清晰地展示了两种典型的失败场景。

第一种场景可以用"大海捞针"来比喻。当AI学习AIME这类顶级数学竞赛题时，正确的推理步骤就像散落在大海中的几根针——绝大多数的字词都是普通的过渡性叙述，真正关键的思维跃升只集中在极少数几个位置。如果用算术平均把所有字词的贡献一视同仁地加在一起，那几根关键的"针"就会被淹没在大量普通字词的"海水"中，AI根本无法从中学到真正有价值的推理技巧。

第二种场景则相反，可以用"过于敏感的秤"来比喻。当AI学习MATH500这类题目时，正确与否的信号分布在答案的很多字词上，每个细节都有贡献。如果不加选择地放大某些字词的权重，反而会让训练变得极不稳定——就像一台秤太过敏感，连微小的空气流动都会让指针剧烈抖动，根本无法稳定读数。研究团队观察到，在某些固定平均方式下，训练会直接"崩溃"，模型参数变得混乱无序。

从实验数据来看，这种矛盾非常显著：AIME24测试上，准确率在参数p=3时达到最高的46.7%；而MATH500测试上，准确率却在p=-1时达到最高的85.0%。这两个最优点完全不在同一个方向，说明不存在一个"放之四海而皆准"的固定旋钮位置。

---

三、霍尔德均值：把所有平均方式统一在一个旋钮里

面对这个困境，研究团队从数学领域找到了一个优雅的解决方案——霍尔德均值（Holder Mean）。

霍尔德均值是一种数学工具，它通过一个参数p来连续控制"如何平均"。当p=1时，它就是我们最熟悉的算术平均（把所有数加起来除以个数）；当p趋向于0时，它变成几何平均（把所有数连乘再开根号）；当p趋向正无穷大时，它变成最大值（只关注最大的那个数）；当p趋向负无穷大时，它变成最小值（只关注最小的那个数）。

这就好像是一个音响上的均衡器旋钮，从左拧到右，声音的特性会从强调低音连续变化到强调高音，中间所有的音调都可以精确控制，而不是只有几个固定的预设档位。

研究团队将这个思想引入到AI训练中，把GRPO原本固定的算术平均替换成了可以调节p的霍尔德均值，从而创造了HolderPO框架。这样一来，之前已有的训练方法都成了特殊情况：GRPO对应p=1，GMPO和GSPO对应p趋向0，而整个框架则提供了一条从负无穷到正无穷的连续调节空间。

从数学原理上看，这个p值究竟在控制什么呢？研究团队证明了，p值控制的是"哪些字词对学习的贡献更大"。具体来说，训练时每个字词都有一个"重要性比值"——当前AI生成该字词的概率与参考模型概率的比值。p越大，权重越集中在那些比值最高的字词上；p越接近0，各字词的贡献趋于均等；p越小（负数），权重反而集中在那些比值最低的字词上。

---

四、大p放大信号，小p稳定训练——这个旋钮的物理意义

弄清楚p的数学含义之后，研究团队进一步从理论上证明了它对训练过程的双重影响，而这两个影响恰好是相互制约的。

当p取较大正值时，发生的事情可以用"聚光灯"来理解。在长链推理中，那些真正关键的思维步骤——比如一个复杂证明中关键的代数变换，或者一道竞赛题中灵光一现的洞察——往往对应着极少数几个字词。这些字词在当前AI看来"信心十足"，重要性比值显著高于其他字词。大的p值就像把聚光灯打在这些关键字词上，让它们的学习信号获得指数级的放大，而不是被大量普通字词的平均效应稀释掉。这正是为什么在AIME这类需要"灵感"的难题上，大p值效果更好。

然而，聚光灯也有代价。研究团队从理论上证明，训练梯度（也就是每次更新模型参数的方向和幅度）的方差上界随p单调递增。换句话说，p越大，每次训练更新的随机性和波动就越大，就像一台秤的灵敏度太高——虽然能捕捉到细微信号，但也会被噪声干扰，稳定性变差。

当p取较小值（包括负值）时，情况则反过来。研究团队进一步在一定条件下（假设不同位置字词的梯度方向大致正交，这在参数量高达数十亿的大模型中是合理的近似）证明，梯度方差的最小值存在于某个不大于0的p处。小p值就像给调音台增加了防抖机制，让每次更新更稳定、更可预测，适合训练后期需要"收敛"的阶段。

这个理论结果有一个微妙的细节：方差最小值不在p趋向负无穷处，而是在某个有限的负数处。原因是当p极度为负时，权重会高度集中在重要性比值最低的字词上，这种极端集中本身又会带来新的不稳定性，所以存在一个最优的负值平衡点。这一理论洞察直接指导了后续实验中参数范围的选择。

---

五、动态退火：训练前期"大胆探索"，后期"稳健收敛"

既然大p和小p各有优势，那能不能两者兼得？研究团队给出了一个聪明的方案：动态调整p值。

具体策略是：训练开始时使用较大的p值，随着训练进行，逐渐将p值线性减小到一个较小（可以是负数）的终止值。这种方式被称为"退火"——就像金属加工中先用高温让材料变软便于塑形，再慢慢降温让其变硬固化。

训练早期，模型还没有掌握正确的推理模式，需要放大那些偶尔出现的正确推理步骤的信号，让模型意识到"这个方向是对的，要强化它"。这个阶段就像考古挖掘的初期，需要高灵敏度的探测仪来寻找埋藏的文物线索。

随着训练推进，模型逐渐掌握了基本的推理逻辑，任务本身也从"稀疏信号"逐渐转变为"稠密信号"——正确推理的线索遍布答案的各处。这时候就需要切换到小p值来压缩方差，确保训练稳定收敛，就像考古后期需要精细的毛刷慢慢清理，而不再需要大型挖掘机。

研究团队从理论上也证明了这个动态策略相对于任何固定策略的优越性：在早期阶段，从固定p切换到更大的phigh，能让关键字词的梯度权重获得指数级放大；在后期阶段，终止值plow处的方差上界严格小于任何固定中间值pstat处的方差上界。也就是说，无论把固定p设在哪里，动态策略都能在某个阶段表现得更好，而不需要任何额外的计算开销。

---

六、具体怎么操作：一行代码的改动，却带来巨大提升

在实现层面，HolderPO的核心计算极为简洁。对于一个包含T个字词的答案序列，首先计算每个字词的对数概率比（当前模型概率与参考模型概率之比的对数），然后用霍尔德均值公式将这些比值汇总成一个序列级别的综合比值，最后用这个综合比值按照标准的PPO裁剪机制计算损失并更新模型。

值得一提的是，为了数值稳定性，所有的乘方运算都在对数空间中进行，利用"对数-求和-指数"技巧来避免数值溢出或下溢的问题，这对于p的绝对值较大时尤为重要。整个改动相当于在原有GRPO代码基础上修改了一行核心计算，不引入额外的模型参数，也不增加显著的计算开销。

研究团队还特别分析了"在哪个层级做裁剪"的问题。他们发现，如果在每个字词层面分别做裁剪（即逐字裁剪），会破坏p值对梯度方差单调控制的数学结构，使得不同p值之间的表现差异大幅缩小，动态调度的优势也随之减弱。因此，HolderPO采用序列级别的裁剪——先算出整个序列的综合比值，再对这个综合比值进行裁剪。从实验数据来看，序列级裁剪下不同p值之间的性能差距非常显著（最高与最低相差约7个百分点），而逐字裁剪下这个差距仅约1个百分点，有力地印证了这一设计选择的重要性。

---

七、实验验证：从数学竞赛题到模拟家务，全面碾压现有方法

研究团队在两个截然不同的任务领域进行了系统评估，验证了HolderPO的有效性。

在数学推理方面，他们以Qwen2.5-Math-7B（一个70亿参数的数学专用语言模型）为基础，在包含8523道中高难度数学题的训练集上进行强化学习训练，然后在五个难度各异的基准测试上评估。AIME24包含30道顶级数学竞赛题，是公认的高难度测试；AMC包含83道竞赛题，难度居中；MATH500是500道覆盖代数、几何、数论的综合题；Minerva包含272道需要多步推导的研究生水平题目；OlympiadBench包含675道奥林匹克竞赛题。

静态p值的消融实验清晰地展示了理论预测与实验结果的一致性。在AIME24上，p=3时准确率最高达46.7%，而默认的p=1（标准GRPO）只有40.0%，p=-2则下降到36.7%。在MATH500上，恰好相反，p=-1时最高达85.0%，而p=3时降至81.8%。这种"交叉"的最优点分布，直观地说明了为什么不存在一个适用于所有情况的固定p值。

动态退火策略（p从2线性衰减到-2）在五项基准的平均分上达到54.9%，不仅超过了固定p=0的最优静态配置（52.6%），也超过了同期提出的竞争方法PMPO（54.2%）。在DeepSeek-R1-Distill-Qwen-7B这个更强的基础模型上，HolderPO的平均分达到66.4%，比GMPO高3个百分点，比标准GRPO高约7个百分点。

在1.5B参数的小模型上，HolderPO同样表现出色，AIME24准确率达到30.0%，在同等规模模型中排名最高，这说明该方法的有效性不依赖于模型规模。

在家务代理任务方面，研究团队使用ALFWorld基准——一个模拟家庭环境的文字冒险游戏，AI需要根据文字描述的场景（如"厨房里有一个苹果和一个水杯"）完成多步骤的任务（如"把苹果放进冰箱"）。这类任务的难点在于错误会随时间积累，早期的一个误操作可能导致后续所有步骤都失败，对训练稳定性要求极高。

在这个场景中，使用保守的p从1衰减到-1的策略，HolderPO达到了93.8%的平均任务成功率，远高于标准GRPO的72.8%，也高于专门为代理任务设计的GiGPO方法（86.7%）。在六个子任务类别中，"寻找物品"、"清洁物品"、"加热物品"三个类别的成功率均达到100%。

研究团队特别指出，在家务任务中使用了比数学任务更保守的调节范围（1到-1而非2到-2），原因在于基础模型对家务场景缺乏专门的预训练知识，如果一开始就用过于激进的p=2，会放大早期噪声探索带来的错误信号，反而有害。这说明p的调节范围应根据基础模型的能力和任务的信号密度来适当校准，是一个需要经验判断的超参数。

---

八、为什么偶尔负值的p反而有好处

一个颇为反直觉的发现值得单独解释：负值的p究竟在做什么，为什么有时候有用？

当p取负值时，霍尔德均值会将权重集中到那些重要性比值低于1的字词上——也就是当前模型相比参考模型"更不确定"或"更犹豫"的字词。这些字词代表着模型在面对某种选择时的踌躇和迟疑。

可以用一个打篮球的比喻来理解：大p值就像在训练中强化那些已经打出精彩进球的动作，让运动员把最成功的招式练得更加熟练；而负p值则关注那些平时被忽视的、运动员在比赛中经常犹豫不决的非惯用手上篮——通过练习这些薄弱环节，在成功轨迹中找到多元化的路径，避免过于依赖单一的"杀手锏"而变得可预测。

在实践中，这意味着负p值能在成功的推理轨迹中，强化那些模型尚不够自信的替代推理路径，从而提高推理的多样性和鲁棒性。特别是在密集信号任务（如MATH500）的后期训练阶段，这种"巩固非主流路径"的效果恰好弥补了常规训练容易陷入局部最优的问题。

但负p值也有其局限性：当p趋向负无穷时，权重会极端集中在最不自信的字词上，这种极端集中本身也会带来不稳定性。因此，实验中使用-2而非更极端的负值，是在理论指导下做出的平衡选择。

---

九、与其他方法的横向比较：站在"调音"视角看全局

在理解HolderPO的独特之处时，横向比较几个相关方法非常有帮助。

标准GRPO（p=1）将算术平均固化为唯一选择，在训练后期对密集信号任务会引发较高的梯度方差，在某些情况下导致训练崩溃。

GMPO和GSPO（p趋向0）改用几何平均，相当于把旋钮拨到了0的位置，能在一定程度上减小方差，但牺牲了对稀疏信号任务的学习能力。这两个方法可以看作是把旋钮从1拨到了0，是一种改进但仍然是固定的。

同期的竞争方法PMPO将p的范围限定在0到1之间，通过一种基于"有效样本数"匹配的方式为每条轨迹动态分配p值。HolderPO与PMPO的核心区别有两点：一是范围不同，HolderPO探索了完整的负值域，发现p<0是一个具有独特"逆向集中"特性的质性不同的相位，而PMPO完全没有探索这一区域；二是调整维度不同，PMPO在轨迹维度上调整（同一时刻不同轨迹用不同p），HolderPO在时间维度上调整（训练不同阶段用不同p），这两种维度的动态性是互补而非竞争的关系。

此外，还有一类完全不同思路的方法，通过外部信号来重新加权字词——比如根据字词的熵值、字词的生成概率高低或字词对最终答案置信度的贡献来调整权重。这类方法和HolderPO是正交的，在理论上完全可以叠加使用：先用HolderPO的霍尔德均值方式汇总，再额外引入外部信号调整权重。

---

十、扩展到更大模型：Qwen3系列的验证

为了进一步验证HolderPO不是针对特定模型或特定数据集"过拟合"的技巧，研究团队还在发布时间较新的Qwen3系列基础模型上进行了测试，这批模型代表着更先进的预训练技术。

在Qwen3-4B-Base（40亿参数）上，HolderPO（p从2线性衰减到-2）达到50.9%的五项基准平均准确率，比此前最强的DAPO方法高4.5个百分点，比标准GRPO高7个百分点。在Qwen3-8B-Base（80亿参数）上，HolderPO达到56.9%的平均准确率，比DAPO高4.3个百分点，比GRPO高近9个百分点。

值得注意的是，随着模型规模从4B扩展到8B，HolderPO相对于基线方法的优势没有缩小，反而保持稳定甚至略有扩大。特别是在Minerva（研究生水平题目）上，HolderPO比DAPO高出9.6个百分点，这说明在需要精细多步推理的任务上，动态调控p值的优势更为突出。

这些跨模型的一致性结果有力地说明，HolderPO所捕捉到的问题——训练过程中不同阶段对"信号放大"与"方差控制"有不同需求——是一个具有普遍性的训练规律，而非特定模型或数据的偶然产物。

---

十一、训练过程中实际发生了什么：熵和梯度范数的变化故事

除了最终的测试分数，研究团队还仔细观察了训练过程中模型内部状态的变化，这些动态曲线提供了直观的佐证。

策略熵（Policy Entropy）是衡量模型"有多不确定"的指标——熵高说明模型在很多选择上犹豫不决，熵低说明模型对大多数字词的选择都很有把握。在p=+2的固定配置下，训练初期模型的熵急剧下降，说明AI非常迅速地形成了自信的输出习惯。这在早期阶段有助于强化正确推理，但如果持续下去，可能导致模式过于单一，失去多样性。相比之下，p=-2的固定配置下，熵在整个训练过程中保持较高水平，模型始终保持一定的"多样性"，但这也意味着后期收敛速度较慢。动态退火策略（p从2衰减到-2）的熵曲线则先快速下降，然后在后期回升并稳定，综合了两者的优势。

梯度范数（Gradient Norm）衡量每次参数更新的幅度大小。p=+2时梯度范数较大且波动明显，偶尔出现尖峰，这对应着不稳定的训练动态；p=-2时梯度范数较小且平稳；动态退火策略的梯度范数则保持在一个相对紧凑的区间内，避免了极端的高峰和过于平淡的低谷。

token级别的重要性比值范围（即序列中最大比值与最小比值之间的差距）随p的变化也非常清晰：减小p会系统性地缩小这个范围，上界下降、下界上升，整体分布更加集中。动态退火曲线在早期跟随p=+2的宽范围轨迹，逐渐过渡到接近p=-2的窄范围状态，视觉上形成了一条从"宽"到"窄"平滑收缩的包络线。这些直观的曲线不仅印证了理论，也给了实践者清晰的监控指标。

---

归根结底，HolderPO做的事情其实可以用一句话概括：它把一个原本固定的"平均方式"变成了一个可以调节的旋钮，并在理论指导下给出了一套"先拧大、再拧小"的动态操作策略。

这项研究的意义在于，它揭示了一个此前被忽视的训练瓶颈——代币概率的汇聚方式——并给出了既有理论依据又有实验验证的解决方案。对于普通用户来说，这意味着未来的AI推理助手可能在相同的计算预算下训练得更好、更稳定，特别是在那些需要长链思维、多步推理的复杂任务上，AI出错的概率会进一步降低。

当然，这个方法也有其局限性。调节范围的两个端点（phigh和plow）仍然需要根据具体任务和基础模型的特性来手动设定，目前没有全自动确定最优范围的方法。此外，在早期训练阶段大力放大高比值字词的信号，如果奖励函数本身有缺陷（比如答案检验器有时会给错误推理打高分），这种放大效应也会加剧"奖励欺骗"的风险。研究团队也指出，一个更理想的未来方向是开发能实时读取训练状态（比如当前批次的梯度方差和比值分散程度）并自动调整p值的自适应调度器，彻底消除手动调参的需要。

对于希望了解更多细节的读者，包括完整的数学证明、伪代码实现以及所有实验的详细设置，可以通过arXiv编号2605.12058查阅完整论文。

---

Q&A

Q1：HolderPO和普通GRPO训练方法的主要区别是什么？

A：普通GRPO用固定的算术平均来汇总AI生成每个字词的概率信号，而HolderPO引入了可调节的参数p，通过霍尔德均值来控制"哪些字词的贡献更重要"。p越大，信号越集中在少数关键字词上；p越小甚至为负，权重分布越均匀或向低置信字词集中。这个看似细微的改变，让训练稳定性和推理性能都得到了显著提升。

Q2：HolderPO里的参数p应该怎么设置，有没有通用规则？

A：没有放之四海皆准的固定值。研究团队的发现是：数学竞赛题（稀疏信号任务）适合用较大的正p值，普通数学题（密集信号任务）适合用较小甚至负p值。实践中推荐用动态退火策略，训练开始时用较大p（如2），训练结束时衰减到较小p（如-2），线性下降效果最好。如果基础模型领域知识薄弱，范围应保守一些，比如从1衰减到-1。

Q3：HolderPO训练出来的AI在数学推理上能达到什么水平？

A：在Qwen2.5-Math-7B基础模型上，HolderPO在五项数学基准（AIME、AMC、MATH500、Minerva、OlympiadBench）的平均准确率达到54.9%，比标准GRPO高7.2%。在顶级竞赛题AIME24上单独使用p=3时，准确率达到46.7%，突破了此前43.3%的最高纪录。在更强的DeepSeek-R1-Distill-Qwen-7B基础上，平均准确率进一步提升到66.4%。

强化学习大语言模型策略优化算法

分享至