微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

别想太多：Meta研究表明大语言模型推理能力通过更短的"思考链"反而更出色

人工智能大语言模型推理效率

别想太多：Meta研究表明大语言模型推理能力通过更短的"思考链"反而更出色

作者：科技行者

2025-05-30 16:19

分享至：

Meta研究团队发现大语言模型在复杂推理任务中，更短的"思考链"反而能带来更高的准确率。研究人员通过三个顶级语言模型的实验证明，选择最短思考链可以比随机选择提高18.8%准确率，比最长思考链提高34.5%准确率，同时显著减少计算资源消耗。基于此，他们提出了"short-m@k"方法，只从最先完成的m个思考中选择答案，既能提高模型表现又能节省高达40%的计算资源。这一发现颠覆了"思考越多越好"的传统观念，为更高效的AI推理开辟了新路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 16:19 • 科技行者

在人工智能发展的当下，大型语言模型（LLM）已经能够处理复杂的推理任务，但这往往需要模型生成冗长的"思考"过程。2025年5月，来自Meta的FAIR团队和耶路撒冷希伯来大学的研究人员Michael Hassid、Gabriel Synnaeve、Yossi Adi和Roy Schwartz发表了一篇挑战传统观念的研究论文："Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning"。这篇发布于arXiv（arXiv:2505.17813v1）的论文对推理型大语言模型的效率提出了全新见解。

想象一下，如果有人告诉你"思考得越多越好"，你可能会不假思索地点头同意。毕竟，深思熟虑通常被认为能带来更好的决策。然而，在大语言模型的世界里，情况似乎恰恰相反。研究人员提出了一个反直觉的发现：当大语言模型在解决复杂问题时，较短的思考过程往往比冗长的推理链更准确，甚至可以提高高达34.5%的准确率！

想象一个学生解数学题的场景。有些学生会写满整页纸的推导过程，而另一些则能简洁地找到解决方案。Meta的这项研究表明，在AI世界中，那些"简洁解题者"往往更准确。这一发现不仅挑战了我们对AI推理的传统认知，还指明了提高AI模型效率和准确性的新方向。

研究团队基于这一发现，提出了名为"short-m@k"的新方法。这就像是在一个考试中，让多个学生同时解答同一道题，但只要前m个学生完成答题，就立即收走所有人的试卷，然后从这m个最快完成的答案中选出最佳答案。令人惊讶的是，这种方法不仅能节省大量计算资源，还能提高模型的准确率。

那么，为什么更短的思考链会更准确？如何利用这一发现来改进大语言模型？这项研究带来了哪些实际应用价值？让我们深入了解这篇论文，探索AI思维效率的秘密。

一、研究背景：思考越多越好？未必如此

在大型语言模型（LLM）的发展历程中，研究人员和开发者们普遍认为，通过增加模型在测试时的计算量，特别是生成更长的"思考链"（chain-of-thought），可以提高模型在复杂推理任务上的表现。想象一个学生在解决复杂数学问题时，会在纸上写下详细的推理步骤，这些步骤就相当于LLM的"思考链"。

OpenAI、Anthropic以及其他研究团队的先前工作表明，更长的模型输出通常意味着更强的推理能力。就像人类在面对棘手问题时，往往会花更多时间细致思考，研究者们自然而然地认为AI也应该遵循相似的模式：思考得越深入，结果应该越准确。

然而，这种做法存在明显的弊端。由于大语言模型的自回归特性（即逐个生成单词的方式），生成长序列会导致高昂的计算成本和漫长的推理时间。就像一个学生花费一个小时来解决一道本可在十分钟内完成的问题，这种效率问题在实际应用中尤为突出。

研究团队首先做了一个简单但惊人的观察。他们选取了三个领先的推理型大语言模型，包括Llama-3.3-Nemotron-Super-49B、R1-Distill-Qwen-32B和QwQ-32B，然后让每个模型对三个复杂的数学基准测试中的每个问题生成多个答案。

令人惊讶的是，当他们分析这些结果时，发现对于每个问题，选择最短答案的策略不仅大幅减少了计算量，而且显著提高了准确率。具体来说，最短的答案比随机选择的答案最多提高了18.8%的准确率，比最长的答案最多提高了34.5%的准确率。这相当于一个考试中，那些写得最简洁的答案反而最可能是正确的！

更令人印象深刻的是，这些最短的答案在长度上也显著减少：比随机选择的答案短50%，比最长的答案短67%。这就像在学校考试中，那些写满整页纸的冗长解答往往不如简洁明了的解答准确。

二、short-m@k方法：让AI少思考，更高效

基于上述发现，研究团队提出了一种名为"short-m@k"的新型推理方法。这个方法的核心思想非常直观：同时执行k个独立的问题生成过程，但一旦前m个思考过程完成，就立即停止所有其他生成过程，然后在这m个最短的思考链中通过多数投票选出最终答案。

想象一个课堂上，老师给学生们一道数学题，让所有学生同时解答。传统方法（majority@k）相当于等待所有学生完成答题，然后统计哪个答案得到的支持最多。而short-m@k方法则是一旦有m个学生交卷，就立即停止考试，只从这些最先完成的学生中选出最常见的答案。

研究者重点研究了两种变体：short-1@k和short-3@k。short-1@k是最极端的情况，只取第一个完成思考的答案；而short-3@k则是等待前三个答案完成后，再从中进行多数投票。

这种方法有什么实际效益呢？研究团队通过大量实验发现，在低计算资源场景下，short-1@k方法不仅表现与传统的多数投票法相当，甚至在某些情况下表现更好，同时可以节省高达40%的计算资源。这就像一个学生只用了一半的时间，却得到了与班上所有人一样好甚至更好的结果。

而short-3@k方法则在各种计算预算下都能持续超越传统的多数投票法，同时仍然显著减少了运行时间（最多减少33%）。这相当于让三个最快的学生决定最终答案，结果却比等待全班所有学生都更准确，同时节省了大量时间。

三、实验验证：短思考链的优势

为了验证他们的方法，研究团队使用了三个具有挑战性的推理基准：AIME 2024、AIME 2025和HMMT February 2025。这些基准来自数学竞赛，涵盖了广泛的数学主题，每个数据集包含30个不同难度的例子。

研究人员首先观察到一个有趣的现象：正如之前的研究所示，更难的问题确实需要更多的思考令牌（token）。例如，使用LN-Super-49B模型，简单问题平均使用约5.7千个思考令牌，而困难问题则需要约16.6千个。这就像学生面对简单问题可以快速解答，而困难问题则需要更多的纸张和时间。

然而，最关键的发现是：在同一个问题中，正确的答案通常比错误的答案使用更少的思考令牌。例如，对于LN-Super-49B模型，在简单问题中，正确答案平均使用5.3千个令牌，而错误答案平均使用11.1千个。这相当于班上解题最快的学生往往也是最准确的！

研究团队进一步比较了在同一问题上不同长度思考链的表现。结果显示，在所有模型和基准测试中，选择最短思考链不仅大幅节省了计算资源，还显著提高了准确率。以LN-Super-49B为例，最短思考链平均准确率为63.4%，而随机选择的思考链准确率为47.7%，最长思考链准确率仅为28.9%。

四、三个维度的评估：样本数量、计算资源和响应时间

研究团队从三个关键维度评估了他们的方法：样本数量（k）、思考计算量和回答时间。

在样本数量方面，所有方法都随着样本数量的增加而表现更好，这意味着生成更多答案通常能提高性能。有趣的是，即使在较大的样本数量下，最短的思考链仍然更可能是正确的。

在思考计算量方面，short-1@k方法在低计算预算场景下表现优异。例如，使用LN-Super-49B模型，short-1@k方法能够使用约60%的计算资源达到与传统方法相同的57%准确率。而short-3@k方法则在所有计算预算下都能持续超越传统方法，仅需略微增加计算量。

在回答时间方面，随着样本数量的增加，传统方法的响应时间会变长，因为出现长思考链的概率增加。相反，short-1@k和short-3@k方法在样本数量增加时实际上会变得更快，因为找到短答案的概率增加了。例如，使用LN-Super-49B模型和5个样本时，short-1@k方法能减少近50%的时间消耗，同时还略微提高了准确率。

五、用短思考链微调模型：意想不到的效果

受到前面发现的启发，研究团队尝试了一个更进一步的实验：使用短思考链来微调语言模型。他们基于S1数据集（一个用于推理微调的数据集）创建了三个变体：S1-short（包含最短思考链的例子）、S1-long（包含最长思考链的例子）和S1-random（包含随机选择思考链的例子）。

研究团队使用这三个数据集微调了Qwen-2.5-32B模型，然后评估其性能。结果令人惊讶：使用S1-short微调的模型不仅生成了更短的思考链，还显著提高了模型的准确率。具体来说，与S1-random基线相比，S1-short模型提高了2.8%的相对性能，同时减少了5.8%的思考令牌。相比之下，S1-long模型虽然使用了更多的令牌，但性能与S1-random基本相同。

这个发现表明，训练模型使用更短的推理序列不仅可以减少计算开销，还能提高性能。这就像教学生用更简洁的方法解题，不仅能让他们更快完成作业，还能提高他们的准确率。

六、研究意义与未来展望

这项研究对AI领域的意义深远。它挑战了我们关于推理型大语言模型的传统认知，证明更长的思考过程并不一定导致更好的性能，相反，在许多情况下可能导致性能下降。

对于AI开发者和研究人员来说，这意味着他们可以重新思考推理型模型的设计和训练方法。通过优先考虑更简洁的推理路径，他们可以同时提高模型的效率和准确性。

对于普通用户来说，这意味着未来的AI系统可能能够更快速、更准确地解决复杂问题，同时消耗更少的能源和计算资源。想象一下，一个AI助手能够在几秒钟内给出准确的数学问题解答，而不是让你等待几分钟。

当然，这项研究也有一定的局限性。short-m@k方法依赖于批量解码，这需要并行生成多个推理轨迹。在推理内存受限的场景中，这可能会限制其应用。虽然short-m@k可以在不使用批量解码的情况下使用，但其效率收益会降低。

此外，虽然研究证明了在特定模型和数据集上进行短推理链微调可以提高性能和效率，但实验仅限于Qwen-2.5-32B-Instruct模型和S1数据集。未来的研究可以探索这种方法在更广泛的模型和数据集上的适用性。

总的来说，这项研究为开发更快速、更准确的推理型大语言模型开辟了新的道路。通过优先考虑简洁性而非冗长性，AI系统可以实现更高的效率和准确性，这对于从教育到医疗再到科学研究的各种应用都具有重要意义。

正如研究团队在论文结论中所说："通过拥抱简洁而非延长计算，这些发现为开发更快速、更高效的推理型LLM指明了一个有前途的方向。"

对于AI领域的未来发展，这项研究提出了一个有趣的问题：在其他类型的AI任务中，是否也存在类似的"少即是多"的现象？这为未来的研究提供了丰富的探索方向。

人工智能大语言模型推理效率

分享至