微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学团队突破AI推理效率瓶颈:让AI学会"因题制宜"的聪明思考

浙江大学团队突破AI推理效率瓶颈:让AI学会"因题制宜"的聪明思考

2025-07-29 09:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-29 09:34 科技行者

这项由浙江大学计算机科学与技术学院的吕尚克、吴林娟等研究人员以及SF Technology公司的李昊、蒋佩胜等专家共同完成的研究发表于2025年7月,论文全称为《Hierarchical Budget Policy Optimization for Adaptive Reasoning》。有兴趣深入了解的读者可以通过GitHub项目页面(https://github.com/zju-real/hbpo)或项目主页(https://zju-real.github.io/hbpo)访问完整的研究资料和代码。

现在的大型推理模型就像是一个过度认真的学生,无论面对简单的加法题还是复杂的奥数题,都要写满好几页纸来展示自己的思考过程。即使是计算2+3这样的基础题目,这些AI模型也会生成数千个词汇的推理链条,仿佛在解决世界级难题。这种"一刀切"的推理方式不仅浪费了大量计算资源,也暴露了当前AI系统的一个根本性缺陷:缺乏根据问题复杂度调节思考深度的智慧。

研究团队发现了一个有趣的现象:在某些情况下,较短的推理路径实际上能够获得与冗长推理相当甚至更好的结果。比如,L1模型在GSM8K数学题上用1100个词汇就能达到最佳表现,但在奥林匹克竞赛题目上却需要超过3000个词汇。这种巨大的差异揭示了一个关键洞察:有效推理所需的计算资源本质上是依赖于问题特性的,然而现有模型却采用统一的推理策略,完全忽视了任务复杂度的差异。

为了解决这个问题,研究团队提出了分层预算策略优化(HBPO)框架。这个框架的核心思想可以用一个生动的比喻来理解:就像一个经验丰富的医生会根据病情轻重调整诊断时间和检查深度一样,HBPO让AI模型学会根据问题的难易程度分配相应的"思考预算"。

一、传统方法的困境:一锅煮的思维模式

当前的AI推理效率优化方法主要分为两大类,但都存在显著的局限性。第一类是长度控制方法,这些方法通过直接限制生成长度来实现效率提升。比如L1方法会给模型下达明确指令"请在n个词汇内回答问题",并在训练中给予相应的奖励。ThinkPrune方法则在训练过程中逐步收紧对模型推理空间的限制,而可扩展思维链方法通过强制终止来执行预算约束。

第二类是基于奖励的方法,这些方法将长度惩罚纳入训练目标中。HAPO方法利用历史感知优化来追踪最小充分推理长度,而"需要时思考"方法则采用成对比较奖励来平衡质量和简洁性。尽管这些方法在减少词汇使用方面表现有效,但它们都有一个共同的致命缺陷:优先考虑效率而牺牲准确性,缺乏让模型自主决定何时需要更长或更短推理的机制。

更深层的问题在于,长度惩罚会引入系统性的训练偏差,损害推理能力。在标准的强化学习环境中,正确解答无论长短都能获得相等奖励,这允许了无偏的探索。然而,长度惩罚打破了这种平衡,一贯偏向较短的输出,导致策略逐渐放弃长推理策略。更严重的是,静态效率约束无法捕捉推理复杂性的连续特性。即使是适应性方法也依赖于粗糙的机制,比如二元的思考/不思考决策或固定的置信度阈值,这些都忽略了问题特征与计算需求之间的微妙关系。

二、分层预算探索:智慧分配的艺术

HBPO的核心创新在于将探索空间划分为多个预算受限的层次结构,每个层次都有不同的词汇预算约束。这种设计就像是为AI建立了一个多层次的思考框架,类似于人类面对不同难度问题时会自然调整思考深度的方式。

具体来说,当面对一个查询时,系统会生成n个回答样本,并将它们分配到k个子组中,每个子组都与特定的词汇预算相关联。研究团队通过在推理标签后嵌入预算特定的提示语来实现这一点,比如"我将在bi个词汇内回答这个问题"。预算值形成一个递增序列,从紧凑推理(如512个词汇)到扩展推理(如2560个词汇)。

这种分层结构服务于两个关键目的。首先,它防止了探索空间的坍塌,这是效率训练中的常见问题,即模型放弃长推理。通过保持独立的探索空间,HBPO确保在整个训练过程中对不同推理长度进行采样。其次,它使结构化的比较学习成为可能:模型通过对比不同预算级别的表现来发现每个问题的合适计算量,而不是依赖全局优化。

三、预算感知奖励机制:精准激励的智慧

HBPO的有效性关键在于巧妙的奖励设计。现有方法要么使用统一奖励(支持公平探索但缺乏效率激励),要么应用全局长度惩罚(提高效率但以推理能力为代价)。HBPO通过分段奖励函数解决了这一权衡,该函数整合了经典奖励形式和余弦形奖励形式的优势。

在每个预算受限的子组内,奖励函数在指定预算内保持单调非递减,以维持探索灵活性。超出预算时,则应用余弦衰减和长度偏差惩罚,鼓励模型回到其指定的探索空间。这种设计在子组之间建立了差异化激励:较短预算偏好简洁解答并给予更高奖励,而较长预算为扩展推理保留标准奖励,实现了与问题复杂性一致的适应性资源分配。

更为重要的是,分层结构自然地在预算之间诱导了奖励差异。对于固定的生成长度,不同的预算分配会根据奖励函数产生不同的奖励,这创造了与问题复杂性一致的系统性偏好。当生成长度较短时,所有预算都由相同函数确定奖励,较小预算由于余弦函数在该区间的单调递减特性而获得更高奖励,这种对短回答中较小预算的偏好鼓励了简单问题的效率。

相反,当生成长度较长时,较大预算通过较小的偏差惩罚提供更高奖励,保持了模型在必要时进行扩展推理的能力。随着生成长度从最小预算以下增加到最大预算以上,对应不同预算的奖励函数会发生相对偏好的转换。奖励曲线之间的交点代表复杂性阈值,最优预算选择在此发生转换。通过这些差异化奖励的比较优势,模型学会了在没有明确复杂性标签或外部指导的情况下,将计算资源与问题需求相匹配。

四、训练流程:双重优势的协同作用

HBPO扩展了标准的群体相对策略优化框架,将分层采样和预算感知优势计算纳入策略优化过程。在每次训练迭代中,模型为给定查询生成n个响应,这些响应根据其关联的预算约束自动分配到k个子组中。每个响应都通过嵌入的预算提示语生成,如"我将在bi个词汇内回答问题",其中bi代表预定的预算级别。

优势计算利用分层结构来实现预算内的高效推理和跨问题的适应性预算选择。研究团队将优势分解为两个互补组件,指导学习的不同方面。子组内优势衡量响应相对于其预算期望的表现如何,它等于子组内平均奖励减去使用预算特定基线计算的预算特定基线。这一项鼓励在每个预算约束内的优化,教导模型在给定特定词汇分配的情况下高效推理。

子组间优势则实现跨不同预算的比较学习,它将每个响应与全局平均值进行比较,创造了预算选择的自然偏好。来自较短预算且获得高奖励的响应会获得正优势,而不必要的长响应则获得负优势,教导模型将计算努力与问题需求相匹配。

最终优势将两个组件与标准化结合以确保稳定训练。策略优化采用群体相对策略优化的截断目标来防止破坏性更新,分层优势自然地流经这一目标,使模型能够在不需要单独优化目标或复杂多阶段训练程序的情况下,改善预算内效率和跨预算选择。

五、实验验证:理论照进现实

研究团队在四个数学推理基准上进行了全面评估,使用DeepScaleR数据集进行训练,该数据集包含来自AIME、AMC、Omni-Math和STILL的40000个高质量数学问题。他们采用了两个基础模型:DeepSeek-R1-Distill-Qwen-1.5B和DeepScaleR-Preview-1.5B。

实验结果令人印象深刻。在自然推理条件下,应用于DeepSeek-R1-Distill-Qwen-1.5B的HBPO将平均准确性从56.3%提高到59.4%,同时将词汇使用减少了60.6%(从7921降至3120)。在更强的DeepScaleR模型上,HBPO在保持基线63.7%准确性的同时实现了50.2%的词汇减少(从4744降至2364)。

特别值得注意的是,HBPO在AIME25上实现了31.1%的准确性,超越了DeepScaleR基线和所有效率方法。这种在最具挑战性基准上的改进,同时使用更少词汇,证明分层探索不仅防止了能力退化,还可以通过消除计算冗余来增强推理。

效率提示设置使分层训练的性能增益更加明显。当强制最小化词汇时,基线模型遭受灾难性退化(超过10%的准确性下降),而HBPO保持了稳健性能。应用于DeepScaleR的HBPO以仅947个词汇实现了59.4%的平均准确性,匹配L1-Max(1024)的准确性,同时使用32%更少的词汇。这表明训练能够在整个效率谱上进行有效探索。

六、适应性行为的涌现:智能资源配置

HBPO与现有方法的区别在于其词汇分配模式中体现的真正适应性行为。L1-Max在不同问题难度间表现出异常统一的行为,在MATH500上使用3260个词汇,在AIME25上使用3163个词汇,尽管这些基准之间存在显著的复杂性差距。

相比之下,HBPO展现了真正的问题敏感性,词汇使用从MATH500的1818个变化到AIME25的3988个。这种2.2倍的变化直接对应于问题复杂性,并从差异化奖励机制中自然涌现,该机制为不同预算级别创建了不同的优化景观。通过这些景观的比较优势,模型学会了在没有外部指导的情况下评估问题需求。

分层结构分析揭示了最优配置在组内学习和组间探索之间取得平衡。单预算训练仅实现59.8%的平均准确性,展示了统一探索的局限性。性能随着双预算提升至61.7%,通过4预算配置达到最优的63.7%。进一步增加预算数量至6或8会轻微降低性能0.8%,因为每个子组的样本更少会削弱组内学习信号。这揭示了一个基本权衡:探索多样性必须与统计可靠性平衡以实现有效的策略学习。

七、推理模式分析:深层行为洞察

为了理解模型如何提高效率,研究团队通过两个视角分析了推理模式:探索性思考与直接解答生成的比例,以及表明深思熟虑过程的反思关键词频率。分析结果揭示了不同方法之间的显著差异。

HBPO表现出对问题难度的清晰适应。思考内容比例从GSM8K的81%单调增加到AIME25的89%,而反思关键词(等等、或者、但是、记住、检查和验证)从每题6个增加到30个。这种模式支持了差异化奖励设计,显示模型学会了识别何时更长推理能增加价值。

L1-Max通过统一长度控制提高效率,在三个数据集上保持几乎恒定的思考比例(90-92%)和关键词频率(29-32)。这种刚性揭示了机械优化而非智能适应。AutoThink尝试适应性推理但表现出问题模式:在简单问题上过度思考(GSM8K上86%)以及对复杂问题调整不足。此外,AutoThink在MATH500和奥林匹克基准的解答段落中平均分别表现出1.7和1.5个推理相关关键词,表明推理过程泄漏到应该是直接回答的部分。

效率提示设置为适应性能力提供了进一步洞察。当被指示最小化词汇时,HBPO表现出渐进的关键词缩放(GSM8K上1.8到AIME25上13.1),证明模型已经内化了问题复杂性关系。L1-Max在明确提示"思考1024个词汇"时显示最小变化(10.6到13.5),揭示了即使在明确效率指示下也无法区分问题需求的能力。这些模式确认分层训练能够实现真正的适应性推理而非统一优化。

八、泛化能力验证:超越数学领域

为了评估分层探索是否能够实现通用效率原则而非任务特定优化,研究团队在GPQA-Diamond上进行了评估,这是一个超出训练领域的挑战性科学推理基准。结果显示HBPO保持了最高准确性(34.72%),同时相比基线减少了55%的词汇使用。这种在分布外任务上的性能证明分层训练教授了跨推理域转移的计算资源分配基本原则。

训练动态分析进一步验证了分层结构如何维持探索空间。HBPO与单预算基线的生成动态对比显示,虽然单预算训练收敛到更窄的响应范围,HBPO表现出不同的动态。平均生成长度稳定在1400个词汇左右,伴随更宽但受控的方差,这是其分层结构的直接结果。这种持续的变异性至关重要,因为它捕获了探索多样性的保持,这对防止推理能力退化至关重要。

九、理论贡献与实践意义

HBPO的成功揭示了几个重要的理论洞察。首先,它证明了推理效率和能力并非固有冲突,可以通过适当结构的分层训练同时优化,该训练保持探索多样性。传统方法的根本问题在于将效率视为统一约束,而HBPO认识到最优推理长度在问题间显著变化,需要结构化探索来发现这些自然对应关系。

其次,研究揭示了全局长度惩罚在效率导向训练中系统性地使模型偏离必要的长推理路径,导致探索空间坍塌。通过分层预算探索,HBPO维持了对不同推理长度的暴露,防止了这种有害偏差,同时仍然鼓励在适当情况下的效率。

第三,差异化奖励机制的有效性证明了比较学习在策略优化中的力量。通过在预算级别间创建系统性偏好,模型自然学会了将计算资源与问题特征对齐,无需明确的复杂性标签或外部模块。

从实践角度看,HBPO为大规模推理模型的部署提供了直接价值。在计算成本是主要考虑因素的环境中,能够根据问题复杂性适应性地分配资源的模型可以显著降低运营开支,同时保持或甚至提高性能。这对于需要处理大量不同难度查询的服务提供商特别有价值。

十、局限性与未来方向

尽管HBPO取得了显著成功,但研究也存在一些局限性。首先,当前实现专注于数学推理任务,虽然GPQA-Diamond实验显示了一些泛化能力,但需要更广泛的跨域评估来充分验证该方法的通用性。不同推理域可能需要不同的预算配置或奖励函数调整。

其次,预算级别的选择(512、1024、2048、2560词汇)虽然在实验中有效,但可能不是所有任务或模型的最优选择。自动确定最优预算配置的方法将增强该框架的实用性。此外,当前方法假设词汇长度是推理复杂性的合理代理,但其他度量(如推理步骤数或概念复杂性)可能在某些域中更合适。

训练过程的计算开销也是一个考虑因素。生成多个预算级别的样本增加了训练时间,虽然这通过推理时的效率获得得到补偿。研究更高效的训练变体,如渐进式预算扩展或自适应采样策略,可能进一步改善该权衡。

未来的研究方向包括探索更复杂的分层结构,如基于内容复杂性而非固定间隔的动态预算分配。将HBPO与其他效率技术(如早期停止或选择性推理)结合也可能产生协同效应。最终,将这些原则扩展到多模态推理任务,其中不同模态可能需要不同的计算预算,代表了一个特别有前景的研究方向。

说到底,这项研究展示了一个令人兴奋的可能性:AI系统不需要在智能和效率之间做出痛苦的选择。就像一个经验丰富的专家知道何时需要深入思考、何时可以快速回答一样,HBPO让AI模型学会了这种微妙的判断艺术。在AI系统日益成为我们日常生活和工作伙伴的时代,这种"因题制宜"的智慧显得尤为珍贵。它不仅能为企业节省大量计算成本,更重要的是为AI的进一步发展指明了一个新方向:真正的智能应该是适应性的,能够根据问题的实际需要灵活调整自己的思考深度和资源消耗。这项研究的意义远不止于提高效率,它实际上是在教AI如何更像人类一样进行智慧的推理。

Q&A

Q1:什么是分层预算策略优化(HBPO)?它是如何工作的? A:HBPO是一种让AI模型学会根据问题难度调整思考深度的新方法。它就像给AI建立了一个多层次的思考框架,将不同的"思考预算"(比如512、1024、2048、2560个词汇)分配给不同复杂度的问题。通过这种方式,AI可以为简单问题使用较少词汇快速回答,为复杂问题使用更多词汇深入思考,从而实现智能的资源分配。

Q2:HBPO相比传统方法有什么优势?能同时提高效率和准确性吗? A:是的,HBPO的最大优势就是能同时提高效率和准确性。传统方法通常要在两者间做选择:要么牺牲准确性换取效率,要么保持准确性但浪费计算资源。HBPO通过让模型学会"因题制宜",在保持甚至提高准确性的同时,将词汇使用减少了50-60%。实验显示它在最困难的AIME25数学竞赛题上准确率达到31.1%,超过了其他所有方法。

Q3:这项技术只能用于数学推理吗?普通人什么时候能用上? A:虽然这项研究主要在数学推理上验证,但在科学推理基准GPQA-Diamond上的测试显示它具有跨领域的泛化能力。这意味着该技术原理可以应用到其他需要推理的AI任务中。不过目前还处于研究阶段,普通用户要使用这种技术可能还需要等待一段时间,直到它被集成到商业AI产品中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-