微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

干掉完美主义：多轮分解如何让大语言模型推理更高效

人工智能大型推理模型强化学习

干掉完美主义：多轮分解如何让大语言模型推理更高效

作者：科技行者

2025-05-29 14:48

分享至：

这项研究提出了"多轮分解"(MinD)方法，将大型推理模型的冗长思维链重构为结构化的多轮对话形式，每轮包含一个思考单元和一个答案。通过监督微调和强化学习相结合的训练策略，MinD在MATH等基准测试上实现了高达70%的标记使用量和首个标记延迟(TTFT)降低，同时保持了竞争性能。研究表明，传统推理模型中存在大量冗余思考过程，而MinD通过"完成比完美更重要"的理念，使模型学会生成更简洁高效的推理过程。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-29 14:48 • 科技行者

在人工智能快速发展的今天，大型推理模型（Large Reasoning Models，简称LRMs）越来越受到关注。这项由上海交通大学和加州大学圣地亚哥分校的研究团队联合完成的研究于2025年5月26日发布在arXiv预印本平台上（arXiv:2505.19788v1）。研究的主要作者包括曾子豪、黄旭耀、李博修、张浩和邓志杰，他们提出了一个名为"多轮分解"（Multi-Turn Decomposition，简称MinD）的创新方法，旨在解决当前大型推理模型在生成答案过程中效率低下的问题。

想象一下，你请一位朋友帮你解决一道数学题。这位朋友思考了很久，反复检查，考虑了各种可能的解法，最后才给你答案。虽然答案可能是正确的，但等待的过程确实让人心急。现在的大型推理模型就像这样——它们在给出答案之前，会进行漫长的思考过程，这被称为"思维链"（Chain-of-Thought，简称CoT）。这种思维链往往冗长而复杂，导致模型生成第一个答案标记的时间（首个标记延迟，Time to First Token，简称TTFT）以及总体响应时间大大增加。

研究团队发现，这些冗长的思维链中实际包含了多个"思考单元"（thinking units），有些单元以"等等"、"等一下"或"另外"等标记词分隔开。每个单元都试图为原始问题生成一个候选答案。因此，一个自然的提升效率的方法就是减少这些单元的数量。但在传统的CoT中，这些思考单元无法被明确管理，这使得优化变得困难。

研究团队提出的MinD方法巧妙地将传统CoT解码为一系列明确、结构化、轮次式的交互，从而解决了这一问题。在MinD中，模型对查询提供多轮回应，每轮包含一个思考单元和相应的答案。后续轮次可以对前面轮次的思考和答案部分进行反思、验证、修改或探索替代方法。这不仅使答案能够更快地传递，还可以对迭代推理过程进行明确控制（即用户可以在任何轮次选择停止或继续）。

为了实现MinD，研究团队采用了先监督微调（Supervised Fine-Tuning，简称SFT）然后进行强化学习（Reinforcement Learning，简称RL）的范式。他们首先通过提示另一个大语言模型将LRM的输出重新表述为多轮格式，然后用这些数据对LRM进行微调。研究者发现，微调后的模型往往比原始模型消耗更多标记（可能是因为多轮格式引入了额外的答案标记），因此他们建议利用GRPO（Group Relative Policy Optimization）等RL算法优先考虑使用更少轮次生成正确输出。

在MATH数据集上使用R1-Distill模型训练的MinD能够在保持竞争性能的同时，实现输出标记使用量和首个标记延迟（TTFT）最高减少约70%。这一成果在MATH-500、AIME24、AMC23和GPQA-Diamond等推理基准测试中都得到了验证。

让我们深入了解这项研究的细节，看看MinD是如何实现"完成比完美更重要"这一理念的。

一、大型推理模型的效率挑战

大型推理模型（LRMs）如OpenAI-o1、DeepSeek-R1和Kimi-1.5等，因其强大的推理能力而备受关注。这些模型采用"先思考后回答"的范式，在生成最终答案前先产生中间推理链。这种思维链（CoT）通过对潜在解决方案的迭代探索和验证，激活了上下文准确的响应。

然而，这些优势伴随着显著的效率问题。与普通大语言模型相比，LRMs的CoT往往过于冗长，导致计算成本和延迟大幅增加。想象一下，如果你向朋友请教一个简单问题，但他花了20分钟仔细思考每个可能的答案，反复检查，最终才给你一个答案——即使答案是正确的，等待过程也会让人感到沮丧。

研究人员发现，LRMs的CoT推理过程通常由多个思考单元组成——这些单元是离散的认知步骤，如初始尝试、后续验证、反思和策略转变。每个单元都可能产生一个候选答案，而当前的LRMs往往使用冗余单元来确保最终答案尽可能"完美"。

为了直观理解这个问题，研究团队对DeepSeek-R1-Distill-Qwen-1.5B/7B模型进行了详细分析。他们从MATH和GSM8K训练集中提取CoT轨迹，并使用GPT-4o将每个轨迹分割成离散的思考单元。对于每个分割后的轨迹，他们构建了前缀子轨迹，并让模型为每个前缀生成中间答案。

研究团队定义了"单元级冗余率"（Unit-level Redundancy Rate，简称URR）来量化冗余程度。具体来说，URR=(n-n*)/n，其中n是思考单元的总数，n*是产生正确最终答案所需的最小单元数。一个更高的URR表示更大比例的推理步骤是不必要的。

分析结果令人惊讶：1.5B模型的平均单元级冗余率高达69.8%，7B模型为35.8%。这意味着当前LRMs的推理过程中有相当大一部分是冗余的，突显了通过明确减少单元级冗余来提高推理效率的巨大潜力。

这就像一个学生解数学题时，已经找到了正确答案，却仍然尝试多种不同方法，反复验证，最终耗费了大量不必要的时间和精力。MinD的核心理念就是——完成比完美更重要，让模型尽快得出候选答案，而不是过于谨慎地追求完美解答。

二、多轮分解：从思考链到结构化对话

MinD的核心创新在于将传统的"思考然后回答"的CoT推理转变为一系列多轮交互，从而实现对思考单元数量的明确控制。这就像将一个长篇独白转变为一个结构化的对话，每轮对话都包含一个完整的思考-回答对。

在传统的CoT中，LRM的输出形式通常是： ``` 问题 → 输出 = 思考过程答案 ```

这种格式中，思考过程混合了多个思考单元，但这些单元之间的边界并不明确，难以管理和控制。

相比之下，MinD将输出重新格式化为： ``` 单元1 答案1 单元2 答案2 ... 单元n 答案n ```

在这种多轮格式中，原始CoT中的思考单元被分布到一系列推理轮次中。每个轮次包含一个思考单元和一个中间答案。后续轮次可以对前面轮次的思考和答案进行反思、验证、修改或探索替代方法。

为了构建多轮SFT的训练数据，研究团队首先将原始思考过程分割成(单元1, 单元2, ..., 单元n)，然后在每个单元后生成一个中间答案。这个过程通过一个精心设计的管道实现，包括四个步骤： 1. 筛选出具有正确最终答案的响应 2. 使用GPT-4o将CoT分割成离散的推理单元 3. 为每个前缀子轨迹提取答案 4. 使用SFT将LRMs与多轮格式对齐

训练后，学习到的多轮LRM可以灵活管理思考单元，但研究者发现，如果不进行控制，模型往往会生成比原始模型更多的输出标记。这是因为SFT主要重塑了推理格式，而没有直接解决单元级冗余问题，而且答案也会导致进一步的标记使用。为了弥补这一差距，研究团队建议利用GRPO来优先考虑高效的推理轨迹。

三、强化学习优化：让模型学会"适可而止"

为了解决SFT后模型可能产生更多标记的问题，研究团队引入了GRPO（Group Relative Policy Optimization）来鼓励模型生成更简洁的推理过程。GRPO是一种强化学习算法，通过奖励更简洁、更有效的输出来优化模型行为。

研究团队为GRPO定义了一个由三个组件组成的奖励函数： 1. 格式一致性奖励（Rformat）：确保生成的输出遵循多轮结构 2. 答案准确性奖励（Raccuracy）：根据最终答案是否正确来奖励模型 3. 单元紧凑性奖励（Runit）：惩罚包含多个探索轨迹的单个推理单元，鼓励推理单元之间的清晰分离

值得注意的是，研究团队没有引入显式奖励项来限制轮次数量，因为GRPO本身就会引入一种隐式偏好，倾向于生成产生正确答案的更短CoT。具体来说，对于固定的优势值，GRPO中的每标记归一化会导致更短输出的每标记更新更大，从而鼓励模型生成更简洁、更高效的输出。

这种策略就像教导一个学生：不必追求完美的解答过程，只要能够正确解决问题即可。学生逐渐学会了如何在保证答案正确的同时，避免不必要的冗长推理。

四、实验设置与评估方法

研究团队使用DeepSeek-R1-Distill-Qwen-1.5B/7B模型进行实验。训练过程包含两个关键阶段： 1. 监督微调（SFT）阶段：使用LLaMA-Factory代码库，进行2个epoch的全参数微调，学习率为5e-5。 2. GRPO阶段：使用veRL代码库，训练1个epoch，actor学习率为1e-6。每个训练步骤为每个样本生成10个展开完成。

研究团队使用来自GSM8K和MATH训练集的问题作为SFT训练数据，通过拒绝采样保留只有正确答案的模型生成响应。对于GRPO，他们专门使用MATH训练集。

为了评估MinD的效率，研究团队将其与以下基线进行比较： 1. 原始LRM：本研究中使用的基础模型，即DeepSeek-R1-Distill-Qwen-1.5B和7B。 2. ThinkPrune：在GRPO奖励中添加长度裁剪，在标记级别逐渐修剪输出以减少响应长度。 3. DEER：一种无需训练的方法，检测"动作转换点"（如"等等"、"另外"、"嗯"）以触发答案生成，当平均标记概率超过置信度阈值时停止解码。 4. Dynasor：定期插入探针（如每32、64或128个标记）以提取中间答案并评估它们的一致性，从而实现生成的提前终止。

研究团队使用三个主要指标评估MinD：准确率、平均输出标记使用量和首个标记延迟（TTFT）。TTFT衡量从发送提示到模型生成响应的第一个答案标记所需的时间——这是用户体验的关键决定因素。评估使用Open-R1评估脚本进行，最大序列长度为32,768个标记，温度设置为0.6，top-p值为0.95，在四个NVIDIA A100 GPU上运行。

五、实验结果：高效推理的突破

研究团队在多个推理基准测试上评估了MinD的标记效率。结果表明，MinD在保持强大性能的同时，显著减少了输出标记使用量。

在MATH-500（领域内）基准测试上，MinD将1.5B模型的平均标记使用量降至1719个——比原始LRM（5389个标记）减少了68%——同时保持82.8%的准确率。虽然ThinkPrune达到了类似的准确率（83.2%），但它需要更多的标记（1938个）。DEER实现了最低的标记使用量（1118个），但准确率大幅下降至73.2%。对于7B模型，MinD将平均标记使用量减少27%（2859 vs. 3928），准确率高达91.6%，在准确率和效率的平衡方面优于Dynasor和DEER。

MinD的效率在领域外基准测试上也表现良好。例如，在AMC23（1.5B）上，MinD达到了77.5%的准确率，仅使用2384个标记，在准确率和标记减少方面都明显优于ThinkPrune和DEER。在AIME24和GPQA-Diamond上也观察到类似的趋势。这些结果表明，MinD有效地消除了不必要的推理步骤，产生简洁、高效的输出，同时不影响性能。

除了减少标记使用量，MinD还显著降低了TTFT和总响应延迟。对于1.5B配置，原始1.5B模型需要35.4s的TTFT，经过SFT后降至21.8s，使用MinD进一步降至8.4s，实现4.2倍的加速。总延迟同样从35.8s（原始）降至25.8s（SFT）和11.3s（MinD），改进了2.1倍。对于7B模型，TTFT从27.8s（原始）降至21.6s（SFT）和13.2s（MinD），实现2.1倍的加速。总延迟从30.5s降至25.3s和18.9s，提高了1.6倍。这些结果表明，MinD缩短了首个答案标记的时间和整体响应延迟，使模型响应更快。

六、深入分析与消融实验

为了更好地理解MinD的有效性，研究团队进行了几项消融实验和深入分析。

首先，他们比较了仅进行SFT和完整MinD流程的性能。结果显示，仅进行SFT的训练往往会增加相对于原始LRM的平均输出标记使用量。相比之下，应用GRPO进一步导致标记使用量大幅减少，同时保持准确率，突显了GRPO在实现简洁有效推理中的关键作用。

其次，研究团队分析了Runit（单元紧凑性奖励）在维持多轮推理中的作用。如第三节所述，GRPO框架引入了Runit来确保每个推理轮次只包含一个单一、连贯的探索轨迹。这种机制对于防止模型退化为原始单一块状思考然后回答风格至关重要。没有针对多轨迹轮次的特定惩罚，模型可能会跳过中间答案，将多轮推理结构崩溃为单一块状CoT。为了对抗这种情况，Runit惩罚包含多个探索轨迹的推理轮次，鼓励每个轮次只包含一个探索轨迹——特别是在关键的第一轮——从而在整个训练过程中维持多轮范式。Runit的影响通过实验得到证明，结果显示其缺失会导致输出结构和长度的崩溃。

此外，研究团队研究了GRPO在减少冗余方面的有效性。他们绘制了MATH-500数据集上SFT和GRPO模型的推理轮次分布图。结果清楚地表明，GRPO显著减少了推理轮次数量，表明与纯SFT训练模型相比，推理过程更加紧凑和高效。GRPO在MATH-500上将1.5B模型的平均输出标记减少了68.1%，7B模型减少了27.2%，这与这些模型分别报告的69.8%和35.8%的冗余率相符。虽然这些数字不能直接等同，但它们共同表明MinD通过GRPO显著减轻了冗余，产生更简洁、更高效的输出。

最后，研究团队评估了多轮设计的重要性。他们使用原始蒸馏1.5B模型的响应进行SFT，但没有应用任何多轮分割，然后使用仅有格式和结果奖励的GRPO。结果显示，非多轮模型在领域内MATH-500上达到了与MinD相当的结果，但在领域外基准测试上表现出明显的准确率下降和标记使用量减少幅度较小。研究团队假设，在传统CoT格式下，模型缺乏调整思考单元数量的灵活性，使得学习既可控又可泛化的推理过程变得困难。

七、"完成比完美更重要"的哲学

MinD方法的核心哲学是"完成比完美更重要"（Done Is Better than Perfect）。这一理念强调在推理过程中，能够快速提供一个合理的答案，比经过长时间的思考后提供一个"完美"的答案更有价值。

传统的LRMs往往过于谨慎，它们会花费大量时间和计算资源来探索多种解决方案，反复验证，寻找最优答案。这就像一个学生在解答考试题时，反复检查、考虑各种可能的解法，最终耗费了大量时间却没有提高答案质量。

MinD方法鼓励模型采取更加实用的方法——"适可而止"。通过多轮分解，模型可以在每一轮后提供一个候选答案，并在必要时在后续轮次中改进。这使得用户可以更快地获得初步答案，并决定是否需要进一步的推理。

这种方法还使得模型的推理过程更加透明和可控。用户可以看到每一轮思考的具体内容和对应的答案，而不是面对一个黑盒式的长篇思考过程。这种透明度不仅提高了用户体验，还使模型的决策过程更加可解释。

更重要的是，实验结果表明，这种"完成比完美更重要"的方法不仅提高了效率，还在保持准确率的同时，显著减少了资源消耗。这表明，许多传统LRMs中的冗余思考确实是不必要的，一个更加精简的推理过程足以产生同样高质量的答案。

八、结论与未来展望

本研究提出的MinD方法通过将传统CoT重构为多轮交互结构，成功解决了大型推理模型的效率问题。通过实验证明，MinD可以在保持强大性能的同时，显著减少标记使用量和响应延迟。

MinD的核心贡献在于提供了一种灵活、高效的推理框架，使模型能够在必要时提供快速响应，同时允许进一步的推理和改进。这种方法不仅提高了模型的实用性，还增强了用户对推理过程的控制和理解。

研究团队承认，他们的工作仅限于在1.5B和7B模型上进行实验，并主要专注于数学推理。未来的研究方向包括扩展到更大的模型、拓展到其他推理领域，以及开发能够根据问题难度或用户偏好调整轮次数量的自适应多轮策略。

总的来说，MinD展示了一种有效平衡效率和性能的方法，为大型语言模型的推理优化提供了新的思路。通过拥抱"完成比完美更重要"的理念，MinD为构建更加实用、响应更快的AI系统铺平了道路。

人工智能大型推理模型强化学习