微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

深度解析：腾讯混元团队《先走后跑》——利用强化学习实现大模型简洁推理的新突破

人工智能强化学习大语言模型

深度解析：腾讯混元团队《先走后跑》——利用强化学习实现大模型简洁推理的新突破

作者：科技行者

2025-05-31 17:26

分享至：

腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则，先确保模型具备准确推理能力，再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力，第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示，该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上)，又保持或提高了准确率，展现出高效率-高准确率的理想平衡。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 17:26 • 科技行者

在人工智能研究领域，一项名为"先走后跑！通过强化学习实现大模型简洁推理"（Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning）的研究近期引发了广泛关注。这项研究由腾讯混元团队的宋明扬（Mingyang Song）和郑茂（Mao Zheng）共同完成，并于2025年5月27日发布在arXiv预印本平台（arXiv:2505.21178v1）。研究团队表示，他们的代码、训练数据集和模型检查点将在GitHub平台（https://github.com/nick7nlp/ConciseR）上公开发布。

目前，大型语言模型（LLMs）的推理能力研究正经历一个转折点。随着测试时扩展（test-time scaling）成为研究前沿，越来越多的研究人员关注如何通过延长思维链（Chain-of-Thought，简称CoT）生成长度来提升模型的推理能力，试图达到DeepSeek R1等模型的表现水平。然而，有个尴尬的问题出现了：最先进的推理模型往往存在"过度思考"现象，表现为冗长重复的思考过程，不仅浪费计算资源，还可能导致推理偏离正确轨道。

想象一下，如果你让一个聪明但啰嗦的朋友解决一道数学题，他可能会不停地重复自己、反复检查每一步、探索不必要的路径，最终虽然得到了正确答案，但花费了太多时间和精力。腾讯混元团队的研究就是要解决这个问题：如何让语言模型既能正确推理，又能简洁高效？

研究团队提出了一个名为"ConciseR"的两阶段强化学习框架，它遵循"先走后跑"的原则——先确保模型能够准确推理（走稳），再优化其简洁性（跑快）。这就像教孩子学习跑步一样，先要确保他能稳稳地走路，然后才能教他如何跑得又快又好。

第一阶段使用较多的训练步骤，通过改进的群体相对策略优化（GRPO++）来提升模型的推理能力。这相当于打好基础，确保模型能够解决问题。第二阶段使用较少的训练步骤，通过长度感知的群体相对策略优化（L-GRPO）明确地强制模型生成更简洁的回答。关键是，模型只有在某个训练样本的所有推理结果都正确的情况下，才会优化该样本的回答长度，这正是"先走后跑"原则的体现。

实验结果令人振奋。ConciseR模型在AIME 2024、MATH-500、AMC 2023、Minerva和Olympiad等基准测试中，不仅生成了更简洁的思维链推理回答，还在准确率上超越了最近的许多最先进模型。这就像是一个学生，不仅能够正确解题，还能用更少的步骤清晰地表达解题思路。

让我们一起深入了解这项研究的细节，看看腾讯混元团队是如何实现这一突破的。

一、研究背景：为什么我们需要简洁推理？

当前的大型语言模型研究中有一个有趣的现象：在使用GRPO等强化学习训练后，模型会经历一个被称为"顿悟时刻"（aha moment）的转折点，此时模型会自发开始自我纠正。在这个时刻之后，研究人员观察到模型的回答长度会显著增加，同时性能也会提升。尽管还不完全清楚为什么会这样，这一现象已经导致许多研究者提倡生成更长的回答，希望进一步提高准确率。

然而，生成过长的思维链推理回答会带来两个显著问题：一是增加了模型训练和部署阶段的计算开销；二是最近的研究表明，推理模型存在内在的"过度思考"现象，表现为包含无关上下文信息和不必要的反思行为。这些不仅浪费计算资源，还可能导致模型偏离有效的逻辑路径，得出错误结论。

举个生活中的例子，这就像是一个本可以直接走捷径的人，却选择了绕远路，不仅耗时更长，还可能在途中迷路。或者，像是一个可以用简单方法解决的数学题，却被用了复杂的方法，不仅浪费时间，还增加了出错的可能性。

最近的一些研究尝试基于GRPO算法训练模型生成更简洁的思维链回答，但发现在大多数情况下，回答长度和模型推理能力之间存在权衡——回答越短，性能往往越差。这很容易理解，因为通过更简洁的思维链实现高效推理，提高能力，本质上比仅仅增加回答长度来提升性能要困难得多。

因此，研究团队强调了使用GRPO类算法训练时优化回答长度的时机至关重要。遵循"先走后跑"原则，他们认为在训练过程中，只有当某个训练样本的所有尝试（rollouts）都正确时，才应该启用回答长度优化。

二、ConciseR：一个两阶段强化学习框架

基于上述考虑，研究团队提出了ConciseR，这是一个简单而有效的两阶段强化学习框架，旨在实现简洁推理。让我们用做饭的比喻来理解这个框架：第一阶段是学习如何做出美味的菜肴（无论过程多么复杂），第二阶段是在不影响美味的前提下，学习如何更高效地做菜（简化流程，减少步骤）。

### 第一阶段：提升推理能力（GRPO++）

在第一阶段，模型通过具有更高剪切边界和动态采样的群体相对策略优化（GRPO++）来提升推理能力。这就像是一位新厨师，先不考虑时间和效率，只专注于学习如何做出美味的菜肴，即使过程复杂也没关系。

具体来说，GRPO++估计相对于群体的优势，并通过以下目标函数优化策略模型：

``` JGRPO++(θ) = E[q~D,{oi}G i=1~πθold(·|q)] 1/G ∑G i=1 {min [τi(θ)Ai, clip(τi(θ), 1-εl, 1+εh)Ai] + αH(πθ)}, s.t. 0 < |{oi|is_equivalent(oi, a)}| < G ```

别被这个公式吓到，它本质上是在说：模型尝试多种回答方式，然后比较哪种方式更好，并朝着好的方向调整。其中，α H(πθ)表示熵奖励，用于鼓励模型在策略梯度中进行更多探索，进一步提升模型的推理能力。这就像鼓励厨师尝试更多的烹饪方法，而不是只拘泥于已知的技巧。

### 第二阶段：优化回答长度（L-GRPO）

研究表明，推理回答的长度与回答的正确性并没有强相关性——长回答不一定代表正确结果，短回答也不一定代表错误结果。相反，正确的推理回答通常更短，而错误的推理回答往往更长。

研究团队首先分析了DeepSeek-R1-Distill-Qwen-1.5B和-7B的回答长度，发现错误回答明显更长，包含更详细的推理过程。更有趣的是，对于同一个问题，正确回答通常更短。此外，他们还发现即使是正确回答也可能包含过度反思，导致思维链过长。

基于这些分析，他们在GRPO中重塑了奖励函数。当模型对某个问题的所有尝试结果都正确时，他们会进一步优化该问题的推理长度，使用剩余的最大回答长度作为奖励（在指定上下文长度下，剩余上下文长度越多，奖励越高）。

这就像是在厨师已经掌握了如何做出美味菜肴的基础上，教他如何更高效地做菜——减少不必要的步骤，简化流程，但不影响最终的美味。

三、训练数据集与奖励模型

### 规则基础的奖励模型

使用训练好的奖励模型通常会引入奖励欺骗（reward hacking）的问题。为了缓解这个问题，研究团队直接采用可验证任务的最终准确率作为结果奖励，根据以下规则计算：

``` ri(oi, a) = {1, 如果is_equivalent(oi, a); 0, 如果不是is_equivalent(oi, a)} ```

这里，a表示真实答案，oi包含预测答案。此外，训练好的模型必须严格遵循训练提示，在标签内生成思维链，然后在标签内呈现最终答案。

这就像是一个烹饪比赛，评判标准很简单：菜肴是否美味（答案是否正确），而不是根据复杂的评分系统来判断。同时，参赛者必须按照规定的步骤进行（遵循特定的输出格式）。

### 训练数据集构建

为了选择和构建高质量的数据用于强化学习，研究团队包含了来自DeepScaleR、DAPO-Math-17K和MATH的具有挑战性的问题，以增强问题的难度和多样性：

1. DeepScaleR，包含约40K个独特的数学特定问题-答案对，收集自AIME（1984-2023）、AMC（2023年之前）、Omni-MATH和Still数据集。 2. DAPO-Math-17K，包含约17K个问题-答案对，每个都配有一个整数作为答案。DAPO-Math-17K是从问题解决艺术网站（AoPS）和官方竞赛网站使用网络抓取和手动注释的组合编译而成。 3. MATH（3-5级），包含约8K个问题-答案对。每个问题都有一个逐步解决方案，可用于教导模型生成解释。

获取上述数据集后，他们使用Math-Verify重新提取提供的文本解决方案中的答案，只选择提取的答案与数据集中相应答案匹配的情况。他们丢弃任何空的、不完整的或重复的样本。最终，他们获得了约59K个推理问题作为训练数据集。

值得注意的是，在第一阶段，他们使用59K数据来激励模型的推理能力。而在第二阶段，他们使用MATH（3-5级）数据作为训练集来优化模型的推理长度。

这就像是一个厨师的训练过程：第一阶段，学习各种各样的菜肴制作（使用全部的59K数据）；第二阶段，专注于提高特定类型菜肴的制作效率（使用MATH 3-5级数据）。

四、实验结果：ConciseR的表现如何？

### 训练细节

研究团队使用verl框架进行模型训练，以Qwen2.5-Math-7B作为基础模型。在训练过程中，他们使用Adam优化器，学习率为1×10^-6。他们使用批量大小为128，每个问题生成32个rollouts，最大回答长度设置为3,072个token，使用大小为128的小批量进行训练。

对于更高的剪切，他们将剪切参数εl设置为0.2，εh设置为0.28，这有效地平衡了强化学习中探索和利用之间的权衡。具体来说，对于GRPO++，他们将熵系数α设置为0.001。对于L-GRPO，他们将KL惩罚系数β设置为0.01，并将λ设置为0.000002。

### 评估基准与设置

他们在多种竞赛级基准测试上评估了模型的性能，包括AIME 2024（包含30个挑战性问题）、AMC 2023（包含40个数学问题，涵盖代数、几何、数论和组合学）、Minerva Math、MATH-500（是一个包含竞赛级问题的具有挑战性的基准）和OlympaidBench。

在评估中，他们采用Pass@k评估指标，报告使用非零采样温度计算的Pass@1准确率。因此，他们将最大回答长度设置为3,072个token。具体来说，他们选择温度为0.6，结合top-p值为0.95，为每个查询生成多个回答（通常是32个样本）。

### 主要结果

实验结果清晰地表明，ConciseR模型在五个广泛认可的推理基准测试中显著优于现有的零强化学习范式基线。具体来说，ConciseR相比基础模型Qwen2.5-Math-7B，平均准确率提高了55.2%。同时，他们的方法GRPO++也始终超越所有基线，显示出在五个基准测试中平均的卓越整体性能。

图3展示了L-GRPO在五个基准测试中训练过程的准确率和回答长度变化。如图所示，每个基准测试的平均准确率在整个训练过程中保持稳定，没有表现出任何明显的退化。有趣的是，每个基准测试的平均回答长度持续减少，分别在AIME 2024、MATH-500、AMC 2023、Minerva和Olympiad基准测试上观察到21%、22%、20%、22%和23%的减少。这表明他们的训练方法成功地在生成更简洁高效的回答的同时保持了模型的准确率。

### 推理模式的变化分析

研究团队通过构建关键词池来观察训练过程中回答的思考模式变化。在他们的实验中，关键词池限制为：check、rethink、reassess、evaluate、re-evaluate、evaluation、examine、however、reconsider、analyze、double-check、check again、recheck、verify和wait。

有趣的是，当比较第一阶段和第二阶段时，模型使用代码验证结果的频率显著增加（反映在关键词"python"的频率中）。模型可能发现通过编写代码验证结果更加高效。同时，像"re-check"这样的关键词相对减少，而其他关键词保持不变。

### 案例研究

一个有趣的观察是，在数学问题解决过程中使用Python代码进行验证。例如，对于一个问题，模型利用程序代码计算答案。对于另一个问题，模型首先通过数学推理呈现解决方案过程，然后自发编写程序代码验证方法的正确性。这类案例说明了模型如何使用程序推理进行自我纠正并进行后续尝试。

### 失败经验

研究团队还讨论了在奖励塑造中的失败经验。在L-GRPO的初始设计中，他们考虑直接比较组内样本的生成长度，为具有相对较短的思维链推理回答的样本分配更高的奖励。然后，他们将长度分数与准确率奖励相结合，鼓励训练好的模型通过更短的思维链推理回答获得正确答案。

然而，他们发现这种直接奖励容易导致模型跳过推理过程，直接开始猜测答案，表现为在标签内的空推理回答，同时直接在标签内输出最终答案。相反，间接使用最大上下文长度设计奖励函数可以在一定程度上避免上述问题。

这就像是试图教一个厨师更快地烹饪，但如果方法不当，厨师可能会跳过重要步骤，直接端出半生不熟的菜肴。正确的方法是，确保厨师掌握了完整的烹饪流程，然后再教他如何在不影响质量的前提下提高效率。

五、结论与未来展望

在这项研究中，腾讯混元团队提出了ConciseR，这是一个简单而有效的两阶段强化学习框架。首先，它通过GRPO++激励模型的推理能力，然后通过L-GRPO减少模型的回答长度，隐式地提高思维链回答的质量。重要的是，他们创新性地提出，在训练过程中，只有当某个训练样本的所有尝试都正确时，才触发回答长度优化。这体现了"先走后跑"的原则。

实验表明，ConciseR始终实现了最佳的效率-准确率协同改进，在五个基准测试中显著优于现有的高效推理方法。这一研究不仅提高了大型语言模型的推理效率，还为未来的模型训练提供了新的思路。

就像一个熟练的厨师，不仅能做出美味的菜肴，还能以最高效的方式完成烹饪过程，ConciseR模型能够既准确又简洁地解决复杂问题。这一突破性的研究为大型语言模型的发展开辟了新的可能性，使其能够更加高效地解决复杂问题，同时减少资源消耗。

未来的研究可能会进一步探索如何在不同类型的任务中应用这一方法，以及如何将其扩展到更大规模的模型和更复杂的应用场景中。随着研究的深入，我们可能会看到更加智能、高效的大型语言模型在各个领域的应用。

人工智能强化学习大语言模型

分享至