微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学与腾讯混元联手破解AI训练瓶颈：让大模型在"学习"路上走得更远

大语言模型强化学习策略优化

清华大学与腾讯混元联手破解AI训练瓶颈：让大模型在"学习"路上走得更远

作者：科技行者

2026-06-22 17:35

分享至：

清华大学与腾讯混元研究发现强化学习训练中"熵崩溃"的词级别成因，提出STARE方法，通过对高惊讶度词语轻微调整权重并配合目标熵闭环控制，使AI大模型在数学推理等任务上准确率提升4%至8%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-22 17:35 • 科技行者

这项由清华大学深圳国际研究生院与腾讯混元联合完成的研究，于2026年6月发表在arXiv预印本平台，论文编号为arXiv:2606.19236。感兴趣的读者可以通过这个编号检索到完整论文原文。

当我们谈论今天那些能写作文、解数学题、甚至编程序的AI大模型时，背后有一套至关重要的"训练机制"在默默支撑——强化学习。这套机制的工作方式有点像培训一个棋手：让他不断下棋，赢了就鼓励，输了就惩罚，久而久之他就越来越厉害。DeepSeek-R1、Qwen3这些近年来大放异彩的AI模型，都在很大程度上依赖这套机制。

然而，这个听起来完美的训练流程有一个致命弱点——它会逐渐让AI陷入一种"思维僵化"的状态。用学术语言来说，叫做"策略熵崩溃"。通俗地讲，就是AI在学着学着的过程中，开始固执地只走同一条路，失去了探索新方法的好奇心，最终过早停止进步。清华大学与腾讯的研究团队正是针对这个顽疾，提出了一套名为STARE的解决方案，并在从1.5亿到320亿参数规模的多个主流AI模型上验证了其有效性，在AIME24和AIME25这两项权威数学竞赛基准测试上，相比当时最强的基线方法提升了4%到8%的准确率。

一、AI是怎么"学会思考"的，又是怎么"学偏"的

要理解这项研究解决的问题，先得搞清楚AI是怎么通过强化学习提升能力的。

研究团队使用的核心训练算法叫GRPO（Group Relative Policy Optimization，组相对策略优化）。打个比方，这就像一位老师给学生布置了一道数学题，然后同时让这个学生写出八份不同的解题思路。老师把这八份答案一起批改，打分最高的那些答案会被鼓励"以后多这样做"，打分最低的那些会被告知"别这么做了"。

具体来说，AI会为每道题生成一组答案，然后根据每个答案是否正确来打分，再用这个分数的相对高低（而非绝对数值）来指导模型的调整方向。这种方式的好处是不需要额外训练一个"裁判模型"，直接用答案对不对来奖惩，简单有效。

但问题就出在训练进行了一段时间之后。随着AI越来越熟悉解题模式，它开始在面对同一道题时，八份答案长得越来越像，最终几乎一模一样。这就是"熵崩溃"——熵是衡量多样性或不确定性的指标，熵越低，意味着AI的输出越单一。

这种状态下，老师（算法）给出的奖惩信号就变得毫无意义了，因为所有答案都差不多，区分不出好坏。AI就像一个已经"内卷"到极致的学生，每次考试都用同一个套路，虽然短期内成绩还过得去，但彻底失去了应对新题型的灵活性，也不再进步了。

现有的修复方案各有各的局限性。有的方法是调整"奖惩力度的边界"（比如DAPO的clip-higher机制），相当于告诉学生"写错了也没太大惩罚"，这在一定程度上能保护一些少见的探索性答案，但控制粗糙，效果不稳定。有的方法是在整体层面对表现好和表现差的答案采用不同权重，这相当于"好答案加倍鼓励，坏答案加倍惩罚"，但还是没有细化到每一个具体的词（token）上。还有的方法直接把"多样性奖励"加入训练目标，结果往往矫枉过正，导致AI开始"胡言乱语"以维持多样性。

这些方法的共同问题是：它们都在"轨迹"层面（即整条答案路径）做调整，而没有深入到"词语"层面去分析真正的根源。

二、找到病根：是哪些词在偷偷"压制"AI的探索欲

清华腾讯团队做的第一件重要工作，是从数学上严格推导出熵崩溃的根本原因所在。

这里需要引入一个关键概念：**token（词语单元）**。AI生成文字时，是一个词一个词地往外蹦的，每次输出一个词，都伴随着一次概率分布的选择。"熵"这个指标，就是在衡量这个概率分布有多"均匀"——如果AI觉得下一个词100%是"等于"，这个分布的熵就是零；如果它觉得"等于"和"所以"和"因此"都有可能，熵就比较高。

研究团队推导出一个关键定理（定理3.1，论文中称为"词级别熵变定理"）：在GRPO的训练机制下，每一个词对整体熵的影响，等于该词所在答案的"优劣评分（优势值）"乘以一个与该词本身概率相关的"熵敏感函数"。

这个推导结果揭示了一个此前被忽视的矛盾结构。为了理解这个矛盾，可以考虑这样一个场景：AI在做一道数学推导题，其中大部分词都是"因为"、"所以"、"等于"这类高频词，AI对它们有十足的把握（概率很高，"惊讶度"很低）；而只有少数关键节点，比如"不妨设"、"反设"、"验证"这类词，AI还有些拿不准（概率偏低，"惊讶度"高）。

研究团队发现，这两类词对熵的影响方向是完全相反的。当一个答案被判定为"好答案"（正优势）时，AI会对整条路径上的所有词都加大强化——然而，那些高频低惊讶度的词（如"所以"、"等于"）会让熵下降，而那些低频高惊讶度的词（如"反设"、"验证"）会让熵上升。

麻烦在哪里？麻烦在于，既然这些词都是AI自己生成的，高频词天然就比低频词多得多。在一段数学推导里，"所以"可能出现几十次，而"反设"可能只出现一两次。于是，"让熵下降"的词的总影响力，远远压过了"让熵上升"的词——GRPO给整条答案路径分配同一个评分，完全无法区分这两类词截然相反的效果。

研究团队把这个现象概括为一个"四象限结构"。具体来说，一个词所在答案的评分（正/负）与这个词本身的惊讶度（高/低）组合起来，决定了它对熵的影响方向。正评分遇到低惊讶度，熵下降；正评分遇到高惊讶度，熵上升；负评分遇到低惊讶度，熵上升；负评分遇到高惊讶度，熵下降。

由于高频低惊讶度的词在统计上占绝大多数，整体效果就是持续压低熵，直到AI的输出变得极度单一。这就是熵崩溃的真正根源：不是训练目标有问题，而是词级别的"信用分配"出了偏差。

三、接近临界点：只需轻轻一推，就能改变方向

找到了病根，研究团队接下来证明了另一个关键性质，这个性质直接决定了解决方案需要多大的力度：近临界性（Near-Criticality）。

想象一下用手推一个放在斜坡上的球。如果球已经在斜坡顶端接近临界点的位置，你只需要一点点力，它就会开始滚下来，然后越滚越快。这里的"一点点力"，就是研究团队发现的那个惊人结论：要让熵从"一直在降"变成"开始回升"，所需要的词级别权重调整，在数学上是一个极小的量——大约是训练序列长度的倒数（O(T??)）。

换句话说，你不需要大幅度改变整个训练机制，只需要对少量关键词语轻微调整一下权重，就足以扭转整体熵的演化方向。而且一旦超过这个临界点，具体调整多少其实并不重要，方向已经确定了，幅度只影响"多快回升"而不影响"回不回升"。

这个性质的证明依赖另一个数学定理（定理3.4，"熵中性恒等式"）：对于任何概率分布，所有词语的熵敏感函数的期望值恰好等于零。这意味着在理想状态下（如果每个词都受到公平对待），熵既不会增也不会减。实际中熵之所以会减，完全是因为高频词得到了过多的"话语权"。纠偏这个不均衡，成本极低。

这个发现非常重要，因为它告诉研究者：不需要大动干戈地修改整个训练框架，一个精准、轻量的干预就够了。

四、STARE：一把精准的"调音师"之手

基于上述理论分析，研究团队设计了STARE（Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability，基于惊讶度的词级别优势重加权方法）。

这套方法的核心逻辑可以用"调音"来理解。一首交响乐里有各种乐器，如果小提琴（相当于高频低惊讶度词）的音量盖过了其他所有乐器，整首曲子就会失去层次感。STARE的做法是：识别出那些被淹没的"关键少数乐器"（高惊讶度词），然后有选择地把它们的音量调大一点，让整体音乐恢复平衡。

具体的实现分三个步骤。第一步是识别关键词。STARE在每个训练批次中，分别对"被评为好答案"的那组词语和"被评为差答案"的那组词语，按照惊讶度从高到低排序，取各自前10%的词组成两个"关键词集合"。惊讶度的计算非常直接，就是词语在当前模型下的生成概率取对数后取负值——概率越低，惊讶度越高，说明这个词越出人意料。

第二步是调整权重。对于"好答案中的高惊讶度词"，将其对训练梯度的贡献放大（乘以权重W，默认为1.1）；对于"差答案中的高惊讶度词"，将其贡献缩小（乘以权重M，默认为0.9）。前者的逻辑是：这些词同时具有"来自好答案"和"能提升熵"两个属性，应该被更多鼓励。后者的逻辑是：差答案中的高惊讶度词如果被过度惩罚，会让AI放弃那些原本有探索价值的词语选择，进一步压缩多样性。

第三步是闭环控制。纯粹调大这些词的权重，有可能走向另一个极端——AI开始"乱说话"，为了维持高熵而输出无意义内容。为了避免这种情况，STARE引入了一个"目标熵"（默认设为0.3）作为控制阀门。每个训练批次结束时，算法会检查当前批次的平均熵：如果熵低于目标值，就激活上述权重调整；如果熵已经高于或等于目标值，就自动关闭调整，恢复成普通的GRPO训练。这样一来，熵就像被恒温器控制的室温一样，始终在目标值附近小幅震荡，既不会崩溃，也不会过热。

整套方案的参数非常少，也非常稳健。权重W只需要在1.05到1.5之间，关键词比例P在5%到20%之间，目标熵在0.2到0.4之间，效果都相当好。这与前面提到的"近临界性"完美对应：超过临界点后，具体数值影响不大，方向才是关键。

五、实验验证：从小模型到大模型，从数学到工具调用

为了彻底验证STARE的有效性，研究团队进行了一系列规模可观的实验。

在模型规模方面，实验覆盖了从DeepSeek-R1-Distill-Qwen-1.5B（15亿参数）、Qwen2.5-Math-7B-Base（70亿）、Qwen2.5-14B-Instruct（140亿），一直到Qwen2.5-32B-Base（320亿），跨越了当前主流的几乎所有参数量级。

在任务类型方面，实验分三类场景：短链推理（直接输出答案，无需长篇思考）、长链推理（需要写出完整推导过程，甚至自我反思和纠错）、多轮工具调用（AI需要在对话中反复调用计算器、搜索等工具来解题）。这三类场景覆盖了当前AI应用的主要方向。

训练时长也专门做了压力测试。在70亿参数的短链推理场景下，研究团队进行了整整5000步的训练，是通常实验规模的数倍。结果非常清楚：使用普通GRPO的对照组，在大约前1000步时熵就跌近于零，随后AIME24的准确率在略微上升后完全停滞，不再进步；而使用STARE的实验组，熵始终稳定在0.3左右小幅震荡，准确率则持续爬升，一直到5000步时还在提高，最终比对照组高出了约7个百分点。

在140亿和320亿参数的模型上，研究团队进行了1500步的训练。同样的规律出现了：普通GRPO的熵快速下滑，性能很快饱和；STARE维持了稳定的熵，准确率持续改善，在AIME24上分别高出6.6和4.8个百分点。

在多轮工具调用场景（用Qwen2.5-7B-Base从零开始训练）中，STARE将AIME24的平均准确率从46.8%提升到53.2%，AIME25从32.4%提升到37.5%，平均提升约5.5个百分点，同时超越了SimpleTIR等专门针对工具调用场景设计的方法。

实验结果还揭示了一个有趣的细节：STARE训练出来的模型，在回答问题时会更频繁地出现"等等"、"但是"、"重新验证"这类词语，体现出更活跃的自我检查和纠错行为。研究团队对Qwen2.5-32B-Base的回答进行了分类统计，发现STARE模型在对比、反思、自我纠错、犹豫、回溯、总结修正这六类"反思行为"词语上，全面超过了普通GRPO，尤其是"反思"和"自我纠错"两类差距最为显著。这与STARE保护了高惊讶度词（那些不那么常见但往往承载关键思维转折的词）的设计初衷完全吻合。

研究团队还做了一个精细的消融实验：分别测试了四种"单极性操作"（只调整四个象限之一）和四种"双极性组合操作"，共八种变体。结果发现，所有八种变体都能有效缓解熵崩溃，但表现最佳的是"放大好答案中的高惊讶度词"（O1变体）和"同时放大好答案高惊讶度词、缩小差答案高惊讶度词"（C2变体），两者分别达到AIME24准确率44.2%和42.5%。这个对比证明了理论推导中的四象限分析是实际有效的，每个象限都真实地对应着一类有意义的干预方向。

另一个关键对比是将STARE的动态分位数选词方式，与一种简单替代方案进行比较：简单替代方案是把"概率低于0.1的所有词"全部放大权重。这个方案只能让AIME24提升1.8个百分点，而STARE能提升7.1个百分点。这个差距直观说明了动态、自适应地从当前批次中选取关键词，远胜于用一个固定阈值强行划线。

六、为什么这件事比看起来重要得多

STARE的意义不仅仅在于让几个数学测试分数更高。它指向的是AI训练中一个更基本的问题：长周期训练的可持续性。

目前大多数AI模型的强化学习训练都在几百步到一两千步时就因为熵崩溃而被迫停止，再继续下去性能反而会退步。STARE在实验中证明了，至少在5000步时模型性能还在稳定提升，真正的性能上限究竟在哪里，目前还无法确定。这意味着此前整个领域都可能低估了强化学习训练AI的潜力，以为到了瓶颈，其实只是因为训练方式上存在一个可以修复的缺陷。

从Pass@32这个指标（让AI对同一道题回答32次，只要有一次答对就算通过）来看，STARE训练的模型在整个训练过程中始终保持着比对照组更高的值，说明模型内部保留了更多的多样性和探索能力。这类似于一个学生在考试中不仅知道一种解题方法，而是心中储备了多条备用路径。当遇到新题型时，这种储备的价值就体现出来了。

此外，STARE的介入方式极为轻量。它没有修改GRPO的核心算法，没有增加额外的计算开销（惊讶度是生成文本时顺手就能得到的信息），也没有引入新的超参数组合难题。它只是在原有框架内，对一小部分词语的梯度贡献做了微小调整，就实现了显著的效果改善。这让它在工程实践中非常容易被已有的训练流程采纳。

说到底，STARE这项工作真正的贡献，在于它把一个此前只能模糊感知、难以解释的训练问题（"AI为什么会越训越僵化？"），转化成了一个有明确数学形式的机制分析，然后基于这个分析设计出了一个有针对性的、理论上可证明有效的解决方案。这条从"发现问题"到"分析本质"到"设计方案"再到"实验验证"的完整链条，为AI训练领域提供了一个可以借鉴的研究范式。

归根结底，熵崩溃这个问题就像是训练过程中一块慢慢积累的水垢，堵塞了AI继续学习的管道。STARE做的事情，是找到了水垢积累的化学原理，然后配制了一种精准的清洁剂，只作用于积垢的地方，不伤害管道本身。未来随着AI模型规模越来越大、训练时间越来越长，这样的"管道维护"工具会越来越重要。

有兴趣进一步了解技术细节的读者，可以通过arXiv编号2606.19236查阅完整论文，研究代码也已在GitHub上开源，地址可从论文中获取。

Q&A

Q1：STARE方法是怎么选出那些"关键词"的？

A：STARE在每个训练批次中，分别从"被评为好答案的词组"和"被评为差答案的词组"里，按照每个词被AI生成时的概率高低来排序——概率越低说明AI越"惊讶"，排名越靠前。然后取各自排名前10%的词作为关键词集合。这个方法不需要任何额外计算，因为生成文本时模型自然就会产生这些概率值，非常轻量高效。

Q2：熵崩溃只在数学题训练中才会出现吗？

A：并不是。研究中验证的场景除了数学推理之外，还包括需要写长篇推导过程的"长链推理"场景，以及AI需要在对话中反复调用工具（如计算器）的"多轮工具调用"场景。三类场景中都出现了熵崩溃，并且STARE在三类场景中都有效缓解了这个问题，说明熵崩溃是当前强化学习训练框架中一个相当普遍的现象。

Q3：STARE和DAPO这类方法有什么本质区别？

A：DAPO等方法主要是在答案层面（整条回答路径）做调整，比如改变对低概率词的惩罚力度或调整不同答案之间的权重比例，属于较粗粒度的干预。STARE则深入到了单个词语的层面，基于每个词对熵的影响方向来差异化调整其训练权重，并且有严格的数学推导作为支撑。打个比方，DAPO像是给整道菜调整咸淡，而STARE像是精确地为每种食材单独调味，颗粒度更细、理论基础更扎实。

大语言模型强化学习策略优化

分享至