微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 ARM:自适应推理模型如何解决大型推理模型的"过度思考"问题

ARM:自适应推理模型如何解决大型推理模型的"过度思考"问题

2025-05-30 07:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 07:45 科技行者

研究团队打造出懂得"量力而行"的人工智能

这项名为"ARM:自适应推理模型"的研究由复旦大学的吴思烨、谢健(项目负责人)、张亦凯、陈爱丽与俄亥俄州立大学的张凯和苏宇共同完成,于2025年5月26日发表在arXiv预印本平台(arXiv:2505.20258v1)。感兴趣的读者可以通过项目官方网站(https://team-arm.github.io/arm)获取更多信息。

想象一下,如果你让一个数学天才回答"汉堡通常在哪里可以找到?"这样的简单问题,而他却开始深入探讨食品分类学、餐饮业的历史发展和消费者行为心理学,最后花了半小时才得出"餐厅"这个显而易见的答案。这种"小题大做"的情况,在人工智能领域被称为"过度思考"(overthinking)问题。

如今,像OpenAI-o1和DeepSeek-R1这样的大型推理模型(Large Reasoning Models,简称LRMs)在解决复杂问题时表现出色,但它们存在一个明显的缺陷:不论问题难易,它们总是倾向于使用冗长的推理链(Long Chain-of-Thought,简称Long CoT)来解决所有问题。这就像派一位数学教授去解决"1+1=?"这样的问题,结果他写了三页纸的证明过程。这种"过度思考"不仅浪费计算资源,有时甚至会引入额外的噪音,反而误导模型得出错误结论。

为了解决这个问题,复旦大学和俄亥俄州立大学的研究团队开发了"自适应推理模型"(Adaptive Reasoning Model,简称ARM)。这个模型最大的特点是能够根据任务难度自动选择最合适的推理方式,就像一个懂得"量力而行"的学生,简单题直接答,难题才详细思考。

ARM:四种推理方式,应对不同难度的任务

ARM模型支持四种不同的推理格式,其中三种是高效的简洁形式,一种是详尽的复杂形式:

首先是"直接回答"(Direct Answer)。这种方式就像我们回答"1+1=?"一样,直接给出答案,不需要任何推理过程,适合非常简单明了的问题。

其次是"简短思维链"(Short CoT)。这种方式会先进行简短的推理,然后给出答案。就像我们解答"15×12=?"时,可能会简单思考:"15×10=150,15×2=30,所以15×12=180"。

第三种是"代码推理"(Code)。这种方式使用编程代码进行推理,由于代码结构化的特性,它在处理某些问题时非常高效,就像使用计算器解决数学问题一样。

最后是"长思维链"(Long CoT)。这种方式会进行详细、迭代的推理过程,适合需要高级推理能力的复杂任务,比如需要自我反思和多角度思考的问题。

与传统大型推理模型不同的是,ARM不会对所有问题都使用最复杂的Long CoT方式,而是会根据问题的难度选择最合适的推理格式。就像一个聪明的学生,简单的问题直接答,中等难度的问题用简短思考,只有遇到真正困难的问题才会详细地一步步推导。

如何训练出"懂得轻重"的AI?Ada-GRPO登场

要训练出能够根据任务难度自适应选择推理格式的模型,研究团队采用了两阶段训练框架:

第一阶段是监督微调(Supervised Fine-tuning,简称SFT)。在这个阶段,研究团队使用了大量标注好的问题,每个问题都有四种不同推理格式(直接回答、简短思维链、代码、长思维链)的解答。通过这种方式,模型学会了如何使用这四种不同的推理格式解决问题。

然而,仅仅通过监督微调,模型只是学会了不同的推理格式,却没有学会根据任务难度选择合适的格式。这就像一个学生学会了多种解题方法,但不知道什么时候该用哪种方法最合适。

为了解决这个问题,研究团队在第二阶段引入了"自适应群组相对策略优化"(Adaptive Group Relative Policy Optimization,简称Ada-GRPO)算法。这是对传统GRPO算法的改进版本。

传统的GRPO算法在训练过程中会倾向于选择准确率最高的推理格式(通常是Long CoT),导致"格式崩溃"(format collapse)问题——模型最终几乎只使用一种推理格式,无法根据任务难度进行自适应选择。这就像一个学生被教导"用最严谨的方法解所有题",结果简单的1+1也要写一页纸证明。

Ada-GRPO通过一个"格式多样性奖励机制"解决了这个问题。具体来说,它会根据推理格式在训练中出现的频率调整奖励值,为使用频率较低的格式提供更高的奖励,以防止它们在训练过程中消失。同时,它还引入了"衰减因子",确保这种多样性奖励不会过度影响模型的准确性。

这就像教学生学习不同的解题方法时,特意鼓励他们尝试使用多种方法,而不是只用一种。随着学生能力的提升,这种刻意的引导会逐渐减少,最终学生能够自然地根据题目难度选择最合适的解题方法。

ARM的三种工作模式:适应性、指令引导和共识引导

除了默认的"自适应模式"(Adaptive Mode)外,ARM还支持另外两种推理模式:

"指令引导模式"(Instruction-Guided Mode)允许用户通过特殊标记(如)明确指定要使用的推理格式。这在用户已知一批任务适合某种特定推理格式时非常有用,就像告诉学生"这次考试全用公式法解题"一样。

"共识引导模式"(Consensus-Guided Mode)则会先使用三种高效的推理格式(直接回答、简短思维链和代码)生成答案,并检查它们之间是否达成一致。如果三种方法得出相同答案,那么这个答案就被采纳;如果它们之间存在分歧,则模型会切换到更详细的Long CoT格式进行推理。这种模式优先考虑性能,以较高的token使用为代价,就像先让三个助教快速判卷,如果他们意见一致就采纳,意见不一致再请教授详细评阅。

实验结果:效率大幅提升,准确率不减反增

研究团队在多个评估数据集上测试了ARM模型,包括常识推理任务(如CommonsenseQA和OpenBookQA)、数学推理任务(如SVAMP、GSM8K、MATH和AIME'25)以及符号推理任务(如Big-Bench-Hard)。

实验结果令人印象深刻:与仅使用Long CoT的模型相比,ARM在保持相当准确率的同时,平均减少了约30%的token使用量,在某些情况下甚至减少了高达70%。这就像一个聪明的学生,简单题用几秒钟就解决了,而传统方法的学生却对每道题都花费大量时间进行详细推导。

更值得注意的是,相比于传统GRPO算法,Ada-GRPO不仅减少了token使用量,还实现了约2倍的训练速度提升。这是因为在训练过程中,三种高效的推理格式(直接回答、简短思维链和代码)生成的token数量远少于Long CoT,从而加快了训练进度。

研究团队还进行了更深入的分析:

首先,他们发现ARM的自适应模式能够在有效性和token效率之间取得最佳平衡,在不同难度的任务上都表现出色。

其次,不同基础模型对ARM的性能影响有限。无论是使用基础模型还是经过指令微调的模型,都能获得类似的结果。然而,使用DeepSeek-R1-Distill作为基础模型时,ARM在困难任务上表现更好,但在简单任务上表现较差,且token消耗增加。

最后,研究团队将ARM与基于长度惩罚的策略进行比较。他们发现,随着token预算的减少,基于长度惩罚的策略性能会显著下降,而ARM却能保持稳定的性能。

为什么ARM如此重要?

ARM模型的意义远不止于节省计算资源。在人工智能追求完全自主的背景下,它代表了一种更接近人类思维方式的进步。

人类在解决问题时,会根据问题的难度自动调整思考的深度和方法。简单问题可能靠直觉就能解决,而复杂问题则需要深入思考和多角度分析。传统的大型推理模型缺乏这种自适应能力,它们对所有问题都"全力以赴",这不仅效率低下,有时甚至会适得其反。

ARM模型通过学习何时应该"深思熟虑",何时可以"直截了当",迈出了让AI更像人类思维的重要一步。这种能力在实际应用中尤为重要,它可以让AI在保持高性能的同时,大幅降低计算成本和能源消耗,为更广泛的应用场景铺平道路。

此外,ARM的设计理念也为解决AI领域的其他问题提供了新思路。"根据任务难度自适应调整策略"这一思想,可以应用于许多其他AI系统中,如自动驾驶、医疗诊断、金融分析等,帮助它们在复杂多变的环境中做出更明智的决策。

总的来说,ARM模型代表了人工智能领域的一个重要进步,它不仅提高了推理效率,更向我们展示了AI如何能更接近人类的思维方式,在保持高性能的同时避免"小题大做"的资源浪费。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-