微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 弹性推理:用伸缩思维链打造高效LRM模型

弹性推理:用伸缩思维链打造高效LRM模型

2025-05-12 12:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-12 12:34 科技行者

这项由Salesforce AI研究团队的Yuhui Xu、Hanze Dong、Lei Wang、Doyen Sahoo、Junnan Li和Caiming Xiong共同完成的研究,于2025年5月8日发布在arXiv预印本平台(arXiv:2505.05315v1)。这篇题为《Scalable Chain of Thoughts via Elastic Reasoning》的论文提出了一种创新的解决方案,帮助大型推理模型在资源受限的情况下更高效地工作。

一、大型推理模型的两难困境:准确性与资源消耗之间的平衡

想象一下,你正在使用一位非常聪明的私人助教来解决复杂的数学问题。这位助教擅长通过"思考过程"来逐步分析问题,但他的思考过程往往很冗长,需要写满好几页纸。虽然最终答案往往是正确的,但如果你赶时间,或者纸张有限,这种详尽的分析就会成为一种负担。

这正是当今大型推理模型(Large Reasoning Models,简称LRMs)面临的挑战。像OpenAI的o1、DeepSeek的R1这样的先进模型在解决复杂问题时,会产生所谓的"思维链"(Chain-of-Thought,简称CoT)——一系列详细的推理步骤,帮助它们得出准确答案。这些思维链通常非常冗长,有时甚至达到数千个标记(tokens)。

问题在于,在实际应用中,我们往往受到严格的资源限制——可能是计算成本、响应时间,或者是API调用的标记限制。如何在这些限制条件下保持高质量的推理能力,成为了一个亟待解决的问题。

二、现有解决方案的局限性

研究人员们已经尝试了几种方法来解决这个问题,但它们各有局限性。

第一种方法被称为"Long2Short",就像是教助教如何更简洁地表达他的思考过程。通过强化学习或压缩训练,模型被训练得更加简洁。但这种方法可能会丢失重要的推理步骤,导致准确性下降。

另一种方法是"长度控制"。例如,S1方法会提示模型在某个点发出特殊标记(如"等待"或"最终答案")来控制推理长度。想象一下,这就像告诉助教"时间到了,直接给我答案"。问题是,如果助教的思考还没完成,匆忙给出的答案很可能是错误的。

更复杂的解决方案如L1,会使用强化学习来优化整个推理轨迹,使其既能满足长度限制又能保持准确性。这相当于系统性地训练助教在有限时间内提供最优解答。但这种方法需要大量训练资源,而且性能仍然会有所下降。

三、弹性推理:将思考与解答分离的创新方法

Salesforce研究团队提出的"弹性推理"(Elastic Reasoning)采取了一种全新的思路,就像给助教设定了一个清晰的时间管理策略。

这个方法的核心思想非常直观:将整个推理过程明确分为两个阶段——"思考"(thinking)和"解答"(solution)。就像是先给助教一定时间思考问题,然后无论思考是否完成,都必须转入解答阶段,给出最终答案。

具体来说,如果我们有总共c个标记的预算,弹性推理会将其分为两部分:t个标记用于思考阶段,s个标记用于解答阶段(c = t + s)。一旦模型在思考阶段用完了t个标记,系统会强制结束思考,插入一个特殊标记"</think>",然后转入解答阶段。

这种方法确保了即使在严格的预算限制下,也能留出足够的空间来生成完整的解答。就像确保助教无论如何都有时间写下最终答案,而不会因为思考时间过长而来不及作答。

四、预算约束推演:训练模型应对不完整思考

仅仅分离思考和解答阶段还不够。如果模型的思考被突然打断,它可能无法给出高质量的答案。就像助教需要学习如何在思考被打断的情况下仍能提供合理解答。

为此,研究团队开发了一种称为"预算约束推演"(budget-constrained rollout)的训练策略。他们使用GRPO(Gradient-based Reinforcement Learning with Policy Optimization)算法,在固定预算约束下训练模型。

训练过程中,模型会被限制在特定的思考预算(如t* = 1K标记)内,如果提前完成思考(即生成了"</think>"标记),就会正常进入解答阶段;如果思考预算用尽仍未完成,系统会强制添加"</think>"标记,然后转入解答阶段。

令人惊讶的是,通过这种方式训练的模型能够学会在各种预算约束下有效推理,而且无需额外的微调。这就像是助教学会了一种灵活的思考策略,能够适应各种时间限制。

研究表明,弹性推理只需要约200个训练步骤,而L1-Exact需要700步,L1-Max需要820步。这意味着弹性推理不仅性能好,而且训练效率高。

五、实验结果:弹性推理在数学和编程任务上的出色表现

研究团队在数学和编程两类任务上评估了弹性推理方法,推出了两个模型:E1-Math-1.5B和E1-Code-14B。

在数学任务上,E1-Math-1.5B在多个基准测试(包括AIME、AMC、Olympiad-Bench、MATH500和Minerva Math)中表现出色。以AIME2024数据集为例,弹性推理模型达到了35.0%的准确率,相比之下L1-Max为27.1%,L1-Exact为24.2%,原始模型为41.0%。这意味着,即使在严格的标记预算下,弹性推理模型也能保持相当高的性能。

在编程任务上,E1-Code-14B表现同样出色。在Codeforces平台上,它获得了1987的评分,位于第96.0百分位,与O1-2024-12-17(Low)相当(后者评分1991,位于第96.1百分位)。在LiveCodeBench和HumanEval+等基准测试上,E1-Code-14B也达到了与最先进模型相当的水平。

更令人惊讶的是,经过训练后,弹性推理模型生成的轨迹显著短于原始模型,平均减少了32.1%(在AIME任务上)到37.4%(在LiveCodeBench任务上)的标记使用量。这说明预算约束训练不仅改善了长度控制,还鼓励模型更加简洁高效地推理。

六、弹性推理的工作原理深度解析

为了更好地理解弹性推理为什么有效,研究团队进行了一系列深入分析。

首先,他们发现训练后的模型在思考和解答两个阶段都有所提升,但解答阶段的提升更为显著,特别是在思考预算受限的情况下。这说明,模型学会了如何基于不完整的推理生成高质量的解答,这是弹性推理能够在各种预算约束下表现良好的关键原因。

其次,研究团队探究了训练预算选择的影响。他们尝试了多种不同的思考预算设置(t* ∈ {0.5K, 1K, 2K, 3K}),发现t* = 1K是最佳选择,既能保持高性能,又能将最大生成长度控制在合理范围内。

另外,研究者们还观察了不同预算约束下思考和解答阶段的标记分布。随着推理预算的减少,思考阶段的标记数相应减少,而解答阶段的标记数则相对稳定。这表明模型能够灵活适应不同的预算约束,并优先保证解答的完整性。

令人意外的是,研究团队发现迭代训练(即在第一轮训练后,用更大的预算进行第二轮训练)并没有带来性能提升,反而略有下降。这表明一旦模型学会了在较短预算下有效推理,进一步的训练可能并不会带来额外益处。

七、弹性推理的意义与未来展望

弹性推理框架为大型推理模型在实际应用中的部署提供了一种可行的解决方案,特别是在计算资源有限的场景下。

首先,它允许更灵活地管理推理资源,使模型能够在各种预算约束下保持较高性能。就像一位能够根据时间限制灵活调整思考策略的助教,既能在充足时间下深入思考,也能在紧迫条件下快速给出合理答案。

其次,弹性推理通过鼓励模型更加简洁高效地推理,不仅解决了长度控制问题,还提高了整体推理效率。这对于降低部署成本、提高用户体验都有积极意义。

最后,弹性推理的训练效率高(仅需约200个训练步骤),且无需针对不同预算进行额外微调,这使其在实际应用中更具吸引力。

未来,研究团队计划进一步探索如何将弹性推理应用到更广泛的任务和模型中,以及如何结合其他技术(如知识蒸馏、模型压缩等)进一步提高推理效率。这项研究为资源受限条件下的大型推理模型部署开辟了新的方向,有望促进AI技术在更多实际场景中的应用。

通过将推理过程明确分为思考和解答两个阶段,并训练模型在各种预算约束下有效推理,弹性推理成功地解决了大型推理模型在实际部署中面临的资源限制挑战,为AI技术在实际应用中的进一步发展提供了新的思路。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-