微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AdaptThink：教会推理模型如何灵活选择思考方式

人工智能强化学习推理模型

AdaptThink：教会推理模型如何灵活选择思考方式

作者：科技行者

2025-05-22 13:58

分享至：

这项由清华大学张嘉杰等人开发的AdaptThink算法，教会了AI推理模型根据问题难度自动选择思考模式。研究发现，对于简单问题，直接给出答案（NoThinking模式）不仅效率高，准确率还可能更好；而复杂问题则需要深入思考（Thinking模式）。通过强化学习技术，AdaptThink实现了智能切换：在三个数学数据集上，模型响应长度减少53%的同时准确率还提高了2.4%。这项研究为AI推理模型开辟了新思路，使它们更接近人类灵活思考的能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-22 13:58 • 科技行者

日常生活中，我们解决问题的方式各不相同。面对简单的计算如2+3，大多数人可以直接得出答案；而解决复杂的数学证明题时，我们往往需要深入思考，推导多个步骤才能得到结果。人工智能领域的大型推理模型（如OpenAI的o1和DeepSeek的R1系列）也是如此——它们通过一种叫做"思考"（Thinking）的过程来解决复杂问题，就像人类一样先进行长篇推理，然后才给出最终答案。

来自清华大学的研究团队（包括张嘉杰、林念一、侯磊、冯玲和李娟子）在2025年5月发布了一项名为"AdaptThink"的研究，探讨了一个有趣的问题：大型推理模型是否需要对每个问题都进行冗长的思考？他们的研究成果发表在arXiv预印本平台（arXiv:2505.13417v1），并在GitHub（https://github.com/THU-KEG/AdaptThink）上开源了代码和模型。

想象一下图书馆里的两种学习者：一位是面对每道题都写满草稿纸的细致型学生，另一位则能够根据题目难度灵活调整——简单题直接写答案，复杂题才详细推导。AdaptThink正是教会AI模型成为后者，让它学会"什么时候该思考，什么时候可以直接给答案"。

研究团队首先发现，当推理模型面对相对简单的问题时，跳过思考过程直接给出答案（称为"NoThinking"模式）不仅能大幅提高效率，有时候准确率反而更高。基于这一发现，他们开发了AdaptThink算法，通过强化学习（RL）技术教会模型根据问题难度自动选择最合适的思考模式。

实验结果令人振奋：经过AdaptThink训练的模型在三个数学数据集上，不仅将平均响应长度减少了53%（意味着处理速度大大提升），准确率还提高了2.4%。这就像教会学生不仅解题更快，而且答得更准确！

为什么这项研究如此重要？想象一下，当你问AI助手一个简单问题时，它不再长篇大论地解释一个显而易见的答案，而是像人类一样，对简单问题直截了当，对复杂问题才深入分析。这不仅提升了用户体验，也大大节省了计算资源和响应时间。接下来，让我们深入了解这项研究的细节，看看研究团队是如何实现这一智能思考转换的。

一、研究背景：AI推理模型的思考困境

现代大型推理模型，例如OpenAI的o1和DeepSeek的R1系列，具有令人印象深刻的推理能力。但你有没有注意到，当你向这些模型提问时，它们总是会生成大量的"思考"文本？这些模型就像一个总是把所有解题过程写下来的学生，即使是回答"1+1=?"这样的简单问题也要详细分析。

研究团队指出，这种长篇思考过程虽然增强了模型的推理能力，但也带来了一个明显的问题：效率低下。想象一下，如果你问AI一个简单问题，希望得到快速回答，但AI却给你生成了一大段不必要的详细分析，用户体验会变得很差。

目前解决这个问题的主流方法主要集中在减少模型响应的长度上，比如通过强化学习中加入基于长度的奖励，或者对长响应进行惩罚。然而，这些方法仍然坚持对所有问题都应用思考过程，无论问题本身是否真的需要思考。

研究人员指出，实际上有一种被称为"NoThinking"的方法（由Ma等人在2025年提出），允许推理模型跳过思考过程，直接生成最终解决方案。他们对这种方法进行了简化，只需在提示中添加一个空的思考段（即""），就能让模型直接给出答案。

研究团队的重要发现是：对于相对简单的问题（高中竞赛水平及以下），NoThinking模式不仅能达到与Thinking模式相当或更好的性能，还能显著减少计算开销；只有当问题难度足够高时，Thinking模式的优势才会变得明显。

这就像我们解决日常问题一样：简单的加减法可以直接心算，而复杂的数学证明则需要一步步推导。那么，能否教会AI模型也具备这种灵活选择思考方式的能力呢？这就是AdaptThink算法要解决的核心问题。

二、NoThinking与Thinking：何时直接给答案，何时深入思考？

在深入了解AdaptThink算法之前，我们先来看看研究团队进行的一项有趣初步研究。他们以MATH500数据集（一个包含不同难度数学问题的测试集）为例，比较了推理模型在使用Thinking模式和NoThinking模式时的表现。

想象一下学校里的数学测试：有些题目非常基础（Level 1），而有些则极其困难（Level 5）。研究人员发现，在最简单的Level 1问题上，NoThinking模式（直接给答案）的准确率达到94.9%，实际上比使用Thinking模式（长篇推理）的94.6%还要高一点点！同时，NoThinking模式的平均响应长度只有300个词，而Thinking模式则需要2033个词，这意味着效率提高了近7倍！

随着问题难度的增加，两种模式的性能差距逐渐显现。在最难的Level 5问题上，Thinking模式的准确率为57.6%，而NoThinking模式则下降到50%。这说明对于复杂问题，深入思考确实是必要的。

有趣的是，即使在较难的级别（如Level 4），仍有近一半（49.2%）的问题使用NoThinking模式就能正确解答。这就像数学天才有时不需要写出所有步骤就能解决看似复杂的问题。

这项发现带来了一个重要启示：如果能让模型根据问题难度自动选择思考模式，就可以在保持准确率的同时大大提高效率。这正是AdaptThink算法的核心理念——教会模型"知道何时需要思考，何时可以直接给答案"。

研究团队据此提出了一个关键问题：能否让推理模型学会根据输入问题的难度自动选择Thinking或NoThinking模式，从而实现更高效的推理，同时不牺牲甚至还能提高性能？

三、AdaptThink算法：教会AI灵活思考的技术方案

AdaptThink算法的目标很清晰：让AI模型学会何时该深入思考，何时可以直接给答案。这就像教一个学生判断题目难度并选择合适的解题策略。不过，要实现这一目标，研究团队面临两个主要挑战：

第一个挑战是如何鼓励模型选择更高效的NoThinking模式，同时又不损害整体性能。想象一个学生总是倾向于写详细步骤（因为这是他习惯的方式），如何让他在保证答案正确的前提下，对简单题尝试直接写答案？

第二个挑战是"冷启动"问题。原始推理模型已经习惯了对所有问题都进行思考，如果一开始就让它尝试NoThinking模式，它可能完全不知道如何操作，就像要求一个从未尝试过心算的学生突然放弃草稿纸一样困难。

为了解决这些挑战，AdaptThink算法设计了两个核心组件：

第一个组件是约束优化目标。这个目标函数鼓励模型尽可能选择NoThinking模式（因为效率更高），但有一个重要前提：整体性能不能下降。用数学语言表达，就是在最大化选择NoThinking的概率的同时，确保新模型的平均准确率不低于原始模型。

这就像给学生设立一个明确目标：尽量减少解题时间，但前提是正确率不能下降。如果学生发现某类题目直接写答案会导致错误率上升，那么他应该继续使用详细推导。

第二个组件是重要性采样策略。在训练过程中，AdaptThink算法不是直接从模型采样（这样一开始几乎不可能得到NoThinking的样本），而是人为设置一个新的分布，使得一半样本是Thinking模式，另一半是NoThinking模式。

这就像强制学生练习两种解题方式：一半题目要求写详细步骤，一半题目要求直接给答案。通过这种"强制平衡"的训练，学生逐渐学会了在两种模式间自由切换，并根据题目难度选择最合适的方式。

从另一个角度理解，AdaptThink算法计算了Thinking和NoThinking模式的平均"优势"，并根据这个优势做出选择。只有当NoThinking模式的准确率与Thinking模式的差距小于设定阈值时，模型才会选择更高效的NoThinking模式；对于那些NoThinking模式表现明显较差的问题，模型会优先考虑性能而选择Thinking模式。

这就像一个聪明的学生，对于自己有把握直接得出答案的题目就不浪费时间写步骤，而对于复杂的题目则谨慎地进行详细推导。

四、实验结果：更快、更准的AI推理模型

AdaptThink算法到底有多有效？研究团队在多个数学数据集上进行了广泛实验，结果令人印象深刻。

他们选择了DeepSeek-R1-Distill-Qwen-1.5B和DeepSeek-R1-Distill-Qwen-7B这两个流行的推理模型作为测试对象，并在三个难度递增的数学数据集上评估了模型表现：GSM8K（小学数学问题）、MATH500（高中竞赛数学问题）和AIME2024（奥赛级数学问题）。

实验结果简直像魔法一样！以DeepSeek-R1-Distill-Qwen-1.5B模型为例，经过AdaptThink训练后，模型在GSM8K、MATH500和AIME2024上的平均响应长度分别减少了50.9%、63.5%和44.7%，而准确率居然还分别提高了4.1%、1.4%和1.6%！

这就像训练出了一个既能更快解题，又更容易得出正确答案的学生。平均来看，响应长度减少了53%（意味着计算资源和时间节省了一半以上），准确率还提高了2.4%。对于DeepSeek-R1-Distill-Qwen-7B模型，效果也同样显著，平均响应长度减少了40.1%，准确率提高了2.3%。

更令人惊讶的是，AdaptThink不仅仅是单纯地减少了模型响应长度，它真的教会了模型根据问题难度自适应地选择思考模式。数据显示，在简单的GSM8K数据集上，模型选择NoThinking模式的比例高达86.9%（对于1.5B模型）和99.6%（对于7B模型）；而在最困难的AIME2024数据集上，这一比例下降到了40.4%和6.3%，说明模型确实学会了"困难问题需要思考"的道理。

在MATH500数据集的不同难度级别上，模型的选择更加明显：对于最简单的Level 1问题，7B模型选择NoThinking的比例高达97.7%；而对于最难的Level 5问题，这一比例降至50.7%。这种自适应选择使得模型在各个难度级别上都能保持较高准确率，有时甚至超过原始的Thinking和NoThinking模式。

研究团队还比较了AdaptThink与多种现有效率优化方法的表现，如DPOShortest、OverThink、DAST、O1-Pruner等。结果表明，AdaptThink在平均准确率提升和响应长度减少方面均优于这些基线方法，证明了自适应思考模式选择是一种有前途的提高推理效率的新范式。

五、AdaptThink的更多分析与应用场景

AdaptThink算法中有一个重要参数δ，它控制着模型选择NoThinking模式的倾向性。研究团队对不同δ值进行了实验，发现随着δ增加，模型选择NoThinking的比例逐渐上升，响应长度相应减少，但准确率提升也逐渐降低。

这就像调整学生的解题策略：较高的δ值相当于鼓励学生更多地尝试心算而不写步骤，这确实能提高解题速度，但可能会导致某些题目的正确率下降。有趣的是，即使δ=0（不特别鼓励NoThinking），模型仍然会在超过一半的GSM8K和MATH500问题上选择NoThinking模式，这说明对于简单问题，直接给答案可能本身就比详细推导更有优势。

研究团队还验证了重要性采样策略的效果。如果不使用这种策略，而是直接从模型采样，那么模型将永远无法尝试NoThinking模式，就像一个从未尝试过心算的学生可能永远不会主动放弃写详细步骤一样。

另外，研究人员也探讨了一个潜在问题：经过AdaptThink训练的模型在选择NoThinking模式时，是否会在答案中潜入"隐式思考"（即不使用标签但仍包含推理过程）？分析表明，AdaptThink产生的NoThinking响应中隐式思考的比例并不高，这意味着模型确实学会了直接给出简洁答案而不是变相地加入思考过程。

更令人惊喜的是，AdaptThink的泛化能力也很强。研究人员在完全不同于训练数据的MMLU测试集（包含多种学科的多选题）上评估了模型表现。结果显示，即使在这种全新场景中，AdaptThink模型也能减少30%以上的响应长度，同时保持或提高准确率，这证明了该方法的广泛适用性。

六、AdaptThink如何改变AI推理的未来

AdaptThink研究为AI推理模型带来了一种全新的思路：不是对所有问题都进行一样的处理，而是像人类一样，根据问题难度自适应地选择最合适的思考模式。这种方法在提高效率的同时还能提升性能，堪称一举两得。

想象未来的AI助手使用了AdaptThink技术：当你问"今天北京的天气如何？"这样的简单问题时，它会直接给你准确答案，不会浪费时间和资源进行冗长的推理；而当你问"如何证明费马大定理？"这样的复杂问题时，它会切换到深度思考模式，展示详细的推导过程。这种智能切换不仅提升了用户体验，也大大节省了计算资源。

从技术角度看，AdaptThink开创了AI推理效率优化的新方向。过去的方法主要关注如何减少Thinking模式下的响应长度，而AdaptThink则从根本上问了一个更深层次的问题：是否所有问题都需要思考？这种"元认知"能力（知道自己何时需要思考）是人类智能的重要特征，让AI模型具备这种能力是迈向更智能系统的关键一步。

虽然当前的AdaptThink算法已经取得了显著成果，但研究还有进一步扩展的空间。例如，除了二元的Thinking/NoThinking选择外，未来可能发展出更多样化的思考模式，适应不同类型和难度的问题；也可以将这种自适应思考能力扩展到更多领域，如自然语言推理、程序合成等。

七、总结与展望

清华大学研究团队开发的AdaptThink算法，成功地教会了推理模型根据问题难度自动选择最佳思考模式，实现了推理效率和性能的双重提升。这项研究不仅在技术上取得了突破，也为我们提供了一个关于AI认知能力的深刻启示：真正的智能不仅在于能够思考，还在于知道何时需要思考，何时可以直接给出答案。

通过在多个数学数据集上的实验，AdaptThink证明了自适应思考模式选择是一种有效的推理优化方法，能够在减少53%响应长度的同时提高2.4%的准确率。这种显著的效率提升和性能增强使得AdaptThink有望成为未来AI推理系统的标准配置。

从更广泛的角度看，AdaptThink代表了AI向更加人类化思维方式迈进的一步。就像人类会根据问题难度灵活调整思考策略一样，具备AdaptThink能力的AI也能做到这一点，这使得人工智能系统更加高效、实用，也更符合人类的交互期望。

随着这项技术的发展和应用，我们可以期待未来的AI助手将更加智能地处理各种问题，无论是日常询问还是复杂推理，都能以最适合的方式给出回应。对普通用户来说，这意味着AI服务将变得更快、更准确、更节省资源，最终带来更好的用户体验。

如果你对AdaptThink的技术细节感兴趣，可以访问GitHub（https://github.com/THU-KEG/AdaptThink）查看开源代码和模型，或阅读完整论文（arXiv:2505.13417v1）了解更多信息。

人工智能强化学习推理模型

分享至