微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

大脑的双模思考：如何让AI像人类一样灵活切换快慢思维模式

人工智能大型推理模型自适应推理

大脑的双模思考：如何让AI像人类一样灵活切换快慢思维模式

作者：科技行者

2025-06-07 08:30

分享至：

这篇研究提出了OThink-R1，一种创新的大型推理模型，能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现，现有推理模型即使面对简单问题也会生成冗长的推理过程，导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理，OThink-R1能根据问题复杂度动态调整思考深度。实验表明，该方法平均减少了23.4%的生成文本量，同时保持或提高了准确率，代表了向更高效、更人性化AI推理系统迈出的重要一步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-07 08:30 • 科技行者

这篇由浙江大学的张胜佳、陈家威、周胜、王灿以及OPPO研究院的吴俊杰、张常旺、娄星宇、周王春舒、王俊等研究人员共同完成的研究成果，发表于2025年6月3日的arXiv预印本平台（arXiv:2506.02397v1），探讨了大型推理模型中的一个关键问题：如何让AI在思考时能够像人类一样灵活地在快速直觉思维和慢速深度推理之间自动切换。

人类的思维过程通常分为两种模式：系统1（快速、直觉式思维）和系统2（慢速、深度推理思维）。当我们面对简单问题时，会自动启用快速思维；而遇到复杂问题时，则会切换到慢速、分析性思维。研究团队发现，目前的大型推理模型（LRMs）如DeepSeek-R1和OpenAI的o1模型虽然在复杂推理任务上表现出色，但它们存在一个明显问题：即使面对简单任务，这些模型也常常使用复杂的思维链（Chain-of-Thought，CoT）推理，生成大量不必要的文本，导致计算资源的浪费。

想象一下，如果你去餐厅点一杯水，服务员不是直接去倒水，而是先详细思考水的分子结构、水杯的材质、倒水的角度、水温的控制等一系列问题，然后才给你端来一杯水。这显然是不必要的"过度思考"。研究团队的数据显示，在同样能正确解决的问题上，大型推理模型比普通语言模型（如Qwen2.5系列）平均多生成9.78倍的文本量！

为了解决这一问题，研究团队提出了一种名为"OThink-R1"的方法，让AI能够根据问题的复杂程度自动切换思考模式。简单来说，这就像教会AI一项人类与生俱来的能力：对于"1+1等于几"这样的简单问题直接给出答案，而对于"如何证明费马大定理"这样的复杂问题才展开详细推理。

研究团队首先系统分析了大型推理模型的推理轨迹，识别出了两类典型模式：一类是"冗余推理"，包括多解探索（即使已经得到正确答案仍继续寻找其他解法）、重复自我验证（过度检查中间步骤）、防御性假设（过于谨慎地考虑各种可能性）；另一类是"必要推理"，包括关键词识别（提取问题的核心元素）、误解预防（消除问题陈述中的歧义）、前提遗漏避免（确保考虑所有给定条件）。

基于这些发现，他们构建了一个"LLM评判员"（使用GPT-4o实现），用于判断模型的推理是否冗余。然后，他们通过有监督微调（SFT）训练模型，使其在简单问题上直接给出答案（快速思维模式），而在复杂问题上展开详细推理（慢速思维模式）。关键创新在于，他们提出了一种"双参考KL散度损失函数"，同时引导模型学习两种思维模式的输出分布，实现动态切换能力。

实验结果令人振奋。在OpenBookQA、CommonsenseQA、ASDIV和GSM8K四个测试数据集上，OThink-R1在保持或提高准确率的同时，平均减少了23.4%的生成文本量。详细分析显示，该模型在超过27.3%的问题上成功采用了快速思维模式，证明了其自动模式切换的能力。

让我们思考一下这项研究的实际意义。首先，它大大提高了AI系统的效率，减少了计算资源消耗和环境影响。其次，它使AI的推理过程更接近人类的自然思维方式，为构建更人性化的AI系统迈出了重要一步。最重要的是，这种方法证明了AI系统不必总是"过度思考"，而可以像人类一样灵活地调整思维深度，这对于未来开发更高效、更自然的AI系统具有重要启示。

如果你有兴趣深入了解这项研究，完整论文已在GitHub上开源，可通过https://github.com/AgenticIR-Lab/OThink-R1获取。

过度思考的陷阱：AI也会"想太多"

想象一下，当你问朋友"如果有人在做早餐，他们可能会把两片面包放在哪里？"这个简单问题时，朋友不是直接回答"烤面包机"，而是开始长篇大论分析面包可能放在厨房橱柜、塑料袋、超市或者监狱里的可能性，最后才告诉你答案。这就是"过度思考"——即使对简单问题也使用复杂推理的现象。

研究团队发现，现代大型推理模型（LRMs）经常陷入这种过度思考的陷阱。他们对比了DeepSeek-R1-Distill-Qwen系列模型与普通的Qwen2.5-Instruct系列模型的表现，结果显示在四个测试数据集上，两类模型有相当大比例的问题都能正确回答（从34.98%到90.10%不等），但令人惊讶的是，推理模型平均生成的文本量是普通模型的9.78倍！

想象一下，如果你雇佣了两位助手完成同样的工作，一位只需10分钟，另一位却要花98分钟，而最终结果相同。很明显，这种效率差异在实际应用中是不可接受的，尤其是在考虑计算资源消耗、响应时间和经济成本的情况下。

这种现象引发了研究团队的思考：难道所有问题都需要复杂的推理过程吗？人类在面对不同复杂度的问题时，会自然地切换思维模式——简单问题快速直觉回答，复杂问题才会展开分析思考。那么，能否让AI也具备这种灵活性呢？

解读AI的思考模式：冗余与必要

为了解决这个问题，研究团队首先需要理解AI"思考"的本质。他们详细分析了大型推理模型的推理轨迹，发现了两种典型的思考模式。

第一种是"冗余推理"，就像一个过度焦虑的学生，即使已经解出答案，还是反复检查、尝试其他解法、考虑各种可能性。具体来说，冗余推理主要表现为三种形式：

首先是"多解探索"。想象一个学生解决了一道数学题后，不满足于已有的正确解法，非要尝试另外两三种方法来验证。例如，在一个关于苹果数量的问题中，模型先正确计算出"玛莎有68个苹果，蒂姆比她少30个，所以有38个，哈里有蒂姆的一半，即19个"，但随后却继续说"让我们用另一种方法尝试"、"或者，我们可以用图表来可视化"等等，这些额外的探索并不增加答案的准确性，只是浪费计算资源。

其次是"重复自我验证"。这就像一个反复检查自己锁门的人，虽然已经确认门锁好了，却还是要再三确认。例如，在解决一个关于阅读速度的问题后，模型会说"我想我已经验证了足够多次。所以，答案是5小时。但为了避免混淆速率和时间概念，让我再次概括一下..."，这种过度的自我验证是不必要的。

最后是"防御性假设"。这就像一个过度谨慎的人，总是假设最坏的情况。例如，在一个关于茶叶用量的问题中，模型会说"或者，也许她是在问需要添加多少茶叶，而不是总共需要多少茶？"，尽管问题已经明确表述。

相比之下，"必要推理"则是高效解决问题的关键。研究团队识别出三种必要的推理原则：

"关键词识别"原则关注问题的核心要素。就像一个优秀的阅读者会迅速抓住文章的关键信息，模型需要识别问题中的关键词和核心要素。例如，在"如果5少于20个啼叫声每分钟从谷仓传出，这噪音来自多少只谷仓猫头鹰？"这个问题中，模型需要正确理解"5少于20"和"一只谷仓猫头鹰每分钟发出5次啼叫"这两个关键信息。

"误解预防"原则确保对问题的准确理解。这就像在听指令时确保自己不会误解对方的意思。例如，当问题要求计算"温度下降了多少"时，模型需要明确这是在问温度变化量，而不是最终温度。

"前提遗漏避免"原则确保考虑问题的所有条件。就像做菜时不能遗漏任何关键食材，解决问题时也不能遗漏任何前提条件。例如，在一个关于洗衣机限重的问题中，模型需要记住每种衣物的重量和洗涤的所有物品。

理解了这些思考模式后，研究团队提出了一个关键问题：能否训练AI自动识别何时需要深度思考，何时可以直接给出答案？

OThink-R1：教会AI灵活思考

基于对AI思考模式的理解，研究团队开发了OThink-R1系统，旨在让AI像人类一样灵活切换思考模式。这个系统的工作原理可以比作教会一个学生何时需要展示完整的解题过程，何时可以直接给出答案。

整个系统分为两个关键步骤：首先是构建训练数据集，然后是训练模型进行动态模式切换。

在第一步中，研究团队使用了一个巧妙的方法来判断哪些推理是冗余的，哪些是必要的。他们首先收集了大型推理模型的回答，然后使用另一个语言模型（称为"LLM评判员"，由GPT-4o实现）来评估这些回答。评判标准基于前面提到的冗余推理和必要推理特征。

简单来说，如果一个问题同时满足两个条件：1）普通语言模型能够正确回答；2）大型推理模型的推理被判断为冗余，那么这个问题就被标记为"可以使用快速思维"。研究团队将这些问题的推理部分（位于标签内的内容）删除，只保留最终答案，用于训练模型的快速思维模式。

对于其他问题，特别是那些普通语言模型无法正确回答的问题，研究团队保留完整的推理过程，用于训练模型的慢速思维模式。

在第二步中，研究团队提出了一种新颖的训练方法，使用"双参考KL散度损失函数"来训练模型。这个函数有点像同时请两位老师指导学生：一位专注于教授深度思考技巧，另一位专注于教授快速直觉反应。通过这种方式，模型学会了在不同场景下灵活切换思考模式。

具体来说，这个损失函数由三部分组成：一部分是标准的监督学习目标（让模型学会正确回答问题），另外两部分是KL散度约束，分别引导模型学习大型推理模型的慢速思维输出分布和普通语言模型的快速思维输出分布。通过调整超参数β1和β2，研究团队可以控制模型对两种思维模式的偏好程度。

这种训练方法的独特之处在于，它不是简单地让模型统一采用某种压缩的推理模式，而是赋予模型根据问题复杂度动态调整思考深度的能力。就像一个聪明的学生，简单的加减法题直接写答案，复杂的微积分题才展示详细步骤。

实验结果：灵活思考的效果如何？

那么，这种灵活思考的方法效果如何呢？研究团队在四个代表性数据集上进行了实验：OpenBookQA和CommonsenseQA用于测试问答能力，ASDIV和GSM8K用于测试数学推理能力。

实验结果令人振奋。在所有测试数据集上，OThink-R1在保持或提高准确率的同时，平均减少了23.4%的生成文本量。具体来看：

在OpenBookQA数据集上，OThink-R1-14B模型的准确率达到93.4%，比基线模型的92.8%还高，同时生成的文本量减少了19.3%。

在CommonsenseQA数据集上，OThink-R1-14B模型的准确率从81.7%微增至81.8%，同时生成的文本量减少了23.6%。

在ASDIV数据集上，OThink-R1-7B模型的准确率从97.0%提高到98.0%，同时生成的文本量减少了23.3%。

在GSM8K数据集上，OThink-R1-7B模型的准确率从86.1%提高到86.7%，同时生成的文本量减少了32.1%。

这些结果清楚地表明，OThink-R1成功实现了效率与准确性的双赢。研究团队进一步分析发现，模型在平均27.3%的测试问题上采用了快速思维模式，这也验证了模型确实学会了根据问题复杂度动态切换思考模式。

对比其他方法，如NoThinking（完全跳过推理过程）和DualFormer（随机删除中间推理步骤），OThink-R1表现出明显优势。NoThinking虽然生成的文本量最少，但准确率大幅下降；DualFormer虽然在某些情况下减少了文本量，但效果不稳定，有时甚至增加了文本量。只有OThink-R1实现了稳定的效率提升，同时保持或提高了准确率。

为了验证系统各组件的必要性，研究团队还进行了消融实验。结果表明，移除LLM评判员（盲目删除推理轨迹）或双参考KL散度约束都会导致性能下降，证明这些组件对于系统的成功至关重要。

案例分析：从混乱思考到清晰回答

为了更直观地理解OThink-R1的工作原理，让我们看一个具体例子。在CommonsenseQA数据集中，有一个问题是："如果有人在做早餐，他们可能会把两片面包放在哪里？(A)塑料袋；(B)食品柜；(C)超市；(D)烤面包机；(E)监狱"

原始的DeepSeek-R1-Distill-Qwen-7B模型给出了长达675个标记的回答，其中包含详细的推理过程：首先考虑选项B（食品柜），认为这是存放早餐食品的常见地方；然后考虑选项D（烤面包机），但纠结于问题是问"他们把面包放在哪里"而不是"他们用什么来使用面包"，最终选择了B（食品柜）作为答案。

而OThink-R1-7B模型则直接给出了简洁的57个标记的回答："正确答案是：(D)烤面包机。解释：当有人在做早餐时，他们通常会用烤面包机烤面包。烤面包机是提供烤面包所需热量的设备，使其成为给定选项中最合适的选择。"

这个例子完美展示了OThink-R1如何避免过度思考。原始模型花费大量文本进行复杂推理，却得出了错误答案；而OThink-R1识别出这是一个可以直接回答的简单问题，采用快速思维模式，不仅节省了计算资源，还给出了正确答案。

未来展望与局限性

尽管OThink-R1在减少冗余推理方面取得了令人印象深刻的成果，研究团队也坦诚承认它的局限性。最明显的一点是，当前系统依赖外部LLM评判员（GPT-4o）来判断推理是否冗余，这增加了系统的复杂性和依赖性。未来的研究方向之一是开发端到端的方法，让模型自主判断何时需要深度推理，何时可以直接回答。

另一个有待探索的方向是将这种思维模式切换能力扩展到多模态推理和更广泛的模型架构中。随着AI技术的发展，我们可以期待看到更加灵活、高效的推理系统。

总的来说，OThink-R1代表了AI思维方式的一个重要进步。它不仅提高了模型的效率，减少了资源消耗，还让AI的思考过程更接近人类的自然思维方式。这种灵活切换快慢思维模式的能力，对于构建更智能、更实用的AI系统具有深远意义。

在人工智能日益融入我们日常生活的今天，像OThink-R1这样能够"知道何时该思考，何时该直接行动"的系统，将帮助AI更好地适应各种场景和任务，成为更加高效、自然的助手。正如研究团队所言，这只是向适应性AI推理迈出的第一步，未来还有更多可能性等待探索。

人工智能大型推理模型自适应推理

分享至