微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ARM：自适应推理模型如何解决大型推理模型的"过度思考"问题

人工智能大型推理模型自适应学习

ARM：自适应推理模型如何解决大型推理模型的"过度思考"问题

作者：科技行者

2025-05-30 07:45

分享至：

自适应推理模型(ARM)解决了大型推理模型的"过度思考"问题，能够根据任务难度自动选择合适的推理格式。研究团队通过创新的Ada-GRPO算法训练，使ARM在保持性能的同时平均减少30%的计算量，并提供自适应、指令引导和共识引导三种工作模式。这一突破使AI更接近人类思维方式，在简单问题上直接作答，复杂问题上才详细推理，极大提升了计算效率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 07:45 • 科技行者

研究团队打造出懂得"量力而行"的人工智能

这项名为"ARM：自适应推理模型"的研究由复旦大学的吴思烨、谢健（项目负责人）、张亦凯、陈爱丽与俄亥俄州立大学的张凯和苏宇共同完成，于2025年5月26日发表在arXiv预印本平台（arXiv:2505.20258v1）。感兴趣的读者可以通过项目官方网站（https://team-arm.github.io/arm）获取更多信息。

想象一下，如果你让一个数学天才回答"汉堡通常在哪里可以找到？"这样的简单问题，而他却开始深入探讨食品分类学、餐饮业的历史发展和消费者行为心理学，最后花了半小时才得出"餐厅"这个显而易见的答案。这种"小题大做"的情况，在人工智能领域被称为"过度思考"（overthinking）问题。

如今，像OpenAI-o1和DeepSeek-R1这样的大型推理模型（Large Reasoning Models，简称LRMs）在解决复杂问题时表现出色，但它们存在一个明显的缺陷：不论问题难易，它们总是倾向于使用冗长的推理链（Long Chain-of-Thought，简称Long CoT）来解决所有问题。这就像派一位数学教授去解决"1+1=？"这样的问题，结果他写了三页纸的证明过程。这种"过度思考"不仅浪费计算资源，有时甚至会引入额外的噪音，反而误导模型得出错误结论。

为了解决这个问题，复旦大学和俄亥俄州立大学的研究团队开发了"自适应推理模型"（Adaptive Reasoning Model，简称ARM）。这个模型最大的特点是能够根据任务难度自动选择最合适的推理方式，就像一个懂得"量力而行"的学生，简单题直接答，难题才详细思考。

ARM：四种推理方式，应对不同难度的任务

ARM模型支持四种不同的推理格式，其中三种是高效的简洁形式，一种是详尽的复杂形式：

首先是"直接回答"（Direct Answer）。这种方式就像我们回答"1+1=？"一样，直接给出答案，不需要任何推理过程，适合非常简单明了的问题。

其次是"简短思维链"（Short CoT）。这种方式会先进行简短的推理，然后给出答案。就像我们解答"15×12=？"时，可能会简单思考："15×10=150，15×2=30，所以15×12=180"。

第三种是"代码推理"（Code）。这种方式使用编程代码进行推理，由于代码结构化的特性，它在处理某些问题时非常高效，就像使用计算器解决数学问题一样。

最后是"长思维链"（Long CoT）。这种方式会进行详细、迭代的推理过程，适合需要高级推理能力的复杂任务，比如需要自我反思和多角度思考的问题。

与传统大型推理模型不同的是，ARM不会对所有问题都使用最复杂的Long CoT方式，而是会根据问题的难度选择最合适的推理格式。就像一个聪明的学生，简单的问题直接答，中等难度的问题用简短思考，只有遇到真正困难的问题才会详细地一步步推导。

如何训练出"懂得轻重"的AI？Ada-GRPO登场

要训练出能够根据任务难度自适应选择推理格式的模型，研究团队采用了两阶段训练框架：

第一阶段是监督微调（Supervised Fine-tuning，简称SFT）。在这个阶段，研究团队使用了大量标注好的问题，每个问题都有四种不同推理格式（直接回答、简短思维链、代码、长思维链）的解答。通过这种方式，模型学会了如何使用这四种不同的推理格式解决问题。

然而，仅仅通过监督微调，模型只是学会了不同的推理格式，却没有学会根据任务难度选择合适的格式。这就像一个学生学会了多种解题方法，但不知道什么时候该用哪种方法最合适。

为了解决这个问题，研究团队在第二阶段引入了"自适应群组相对策略优化"（Adaptive Group Relative Policy Optimization，简称Ada-GRPO）算法。这是对传统GRPO算法的改进版本。

传统的GRPO算法在训练过程中会倾向于选择准确率最高的推理格式（通常是Long CoT），导致"格式崩溃"（format collapse）问题——模型最终几乎只使用一种推理格式，无法根据任务难度进行自适应选择。这就像一个学生被教导"用最严谨的方法解所有题"，结果简单的1+1也要写一页纸证明。

Ada-GRPO通过一个"格式多样性奖励机制"解决了这个问题。具体来说，它会根据推理格式在训练中出现的频率调整奖励值，为使用频率较低的格式提供更高的奖励，以防止它们在训练过程中消失。同时，它还引入了"衰减因子"，确保这种多样性奖励不会过度影响模型的准确性。

这就像教学生学习不同的解题方法时，特意鼓励他们尝试使用多种方法，而不是只用一种。随着学生能力的提升，这种刻意的引导会逐渐减少，最终学生能够自然地根据题目难度选择最合适的解题方法。

ARM的三种工作模式：适应性、指令引导和共识引导

除了默认的"自适应模式"（Adaptive Mode）外，ARM还支持另外两种推理模式：

"指令引导模式"（Instruction-Guided Mode）允许用户通过特殊标记（如）明确指定要使用的推理格式。这在用户已知一批任务适合某种特定推理格式时非常有用，就像告诉学生"这次考试全用公式法解题"一样。

"共识引导模式"（Consensus-Guided Mode）则会先使用三种高效的推理格式（直接回答、简短思维链和代码）生成答案，并检查它们之间是否达成一致。如果三种方法得出相同答案，那么这个答案就被采纳；如果它们之间存在分歧，则模型会切换到更详细的Long CoT格式进行推理。这种模式优先考虑性能，以较高的token使用为代价，就像先让三个助教快速判卷，如果他们意见一致就采纳，意见不一致再请教授详细评阅。

实验结果：效率大幅提升，准确率不减反增

研究团队在多个评估数据集上测试了ARM模型，包括常识推理任务（如CommonsenseQA和OpenBookQA）、数学推理任务（如SVAMP、GSM8K、MATH和AIME'25）以及符号推理任务（如Big-Bench-Hard）。

实验结果令人印象深刻：与仅使用Long CoT的模型相比，ARM在保持相当准确率的同时，平均减少了约30%的token使用量，在某些情况下甚至减少了高达70%。这就像一个聪明的学生，简单题用几秒钟就解决了，而传统方法的学生却对每道题都花费大量时间进行详细推导。

更值得注意的是，相比于传统GRPO算法，Ada-GRPO不仅减少了token使用量，还实现了约2倍的训练速度提升。这是因为在训练过程中，三种高效的推理格式（直接回答、简短思维链和代码）生成的token数量远少于Long CoT，从而加快了训练进度。

研究团队还进行了更深入的分析：

首先，他们发现ARM的自适应模式能够在有效性和token效率之间取得最佳平衡，在不同难度的任务上都表现出色。

其次，不同基础模型对ARM的性能影响有限。无论是使用基础模型还是经过指令微调的模型，都能获得类似的结果。然而，使用DeepSeek-R1-Distill作为基础模型时，ARM在困难任务上表现更好，但在简单任务上表现较差，且token消耗增加。

最后，研究团队将ARM与基于长度惩罚的策略进行比较。他们发现，随着token预算的减少，基于长度惩罚的策略性能会显著下降，而ARM却能保持稳定的性能。

为什么ARM如此重要？

ARM模型的意义远不止于节省计算资源。在人工智能追求完全自主的背景下，它代表了一种更接近人类思维方式的进步。

人类在解决问题时，会根据问题的难度自动调整思考的深度和方法。简单问题可能靠直觉就能解决，而复杂问题则需要深入思考和多角度分析。传统的大型推理模型缺乏这种自适应能力，它们对所有问题都"全力以赴"，这不仅效率低下，有时甚至会适得其反。

ARM模型通过学习何时应该"深思熟虑"，何时可以"直截了当"，迈出了让AI更像人类思维的重要一步。这种能力在实际应用中尤为重要，它可以让AI在保持高性能的同时，大幅降低计算成本和能源消耗，为更广泛的应用场景铺平道路。