大型语言模型(LLMs)在解决复杂推理任务方面取得了惊人成就,但它们的推理过程往往效率低下,像是一位既想炫技又不知如何聚焦的厨师,在烹饪简单菜肴时使用了过多的食材和步骤。这项由麻省理工学院计算机科学与人工智能实验室的Junhong Lin与Virginia Tech的Xinyue Zeng(共同第一作者)、Virginia Tech的Jie Zhu和Dawei Zhou、弗吉尼亚大学的Song Wang、麻省理工学院的Julian Shun以及密歇根州立大学的Jun Wu共同完成的研究,发表于2025年5月22日的arXiv预印本平台(arXiv:2505.16122v1)。研究团队发现了现今主流大型语言模型存在的一个普遍失效模式——"过度思考"(overthinking),即模型即使面对简单问题也会生成冗长且离题的推理过程。
想象你请一位朋友帮你计算1+2+3+4+...+99+100的和。一个高效的解答可能是使用求和公式n(n+1)/2得出结果5050。然而,如果这位朋友开始详细列出每一步加法运算,甚至讨论各种不同的计算方法,最后才得出答案,这就是"过度思考"。反之,如果你的朋友只回答"5050"而不展示任何计算过程,这又可能是"思考不足"(underthinking)。
研究团队通过实证分析发现,这种推理效率低下通常源于模型缺乏明确的问题解决策略。为了解决这个问题,他们开发了一个理论模型——贝叶斯预算分配模型(BBAM),将推理过程视为一系列具有不同不确定性水平的子问题序列,并引入了E?(效率感知有效性评估)指标来衡量正确性与计算效率之间的权衡。
基于BBAM的理论结果,研究团队提出了"计划与预算"(PLAN-AND-BUDGET)框架,这是一种模型无关的测试时框架,它将复杂问题分解为子问题,并基于估计的复杂度通过自适应调度分配令牌预算。就像一个有经验的项目经理,他会先规划整个工作流程,然后根据每个任务的难度和重要性分配资源,确保整个项目既准确又高效地完成。
实验结果表明,这一框架在各种任务和模型上显著提高了推理效率,取得了高达70%的准确率提升,39%的令牌(token)使用减少,以及E?指标的187.5%改善。特别值得注意的是,这一方法使较小的模型(DS-Qwen-32B)达到了与较大模型(DS-LLaMA-70B)相当的效率,证明了"计划与预算"框架能够在不需要重新训练的情况下缩小模型间的性能差距。
一、研究背景:大型语言模型的推理效率挑战
大型语言模型展现出强大的泛化能力,使它们能够在不需要任务特定重新训练的情况下执行广泛的任务,从数学问题求解到科学问答,再到结构化推理。近期在测试时计算方面的进展,如思维链(Chain-of-Thought)提示、自一致性(self-consistency)和工具增强推理,显著提高了它们在复杂多步推理任务上的表现。
然而,当这些模型应用于现实场景时,特别是在需要在严格的计算和时间约束下进行深思熟虑推理的场景中,出现了新的挑战。研究团队发现了一个突出的问题:推理行为在推理过程中缺乏校准。尽管大型语言模型擅长多步推理,但它们往往难以调节对给定任务适当的推理努力程度。
这种失调表现为两种主要失效模式:过度思考(overthinking)和思考不足(underthinking)。过度思考就像一位过于热心的导游,在带你参观一个简单的景点时,详细讲解每一块砖的历史,而不是聚焦于主要景点;思考不足则像匆忙的导游,只给你指个大致方向就离开了,让你错过了许多重要景点。
最近的一些方法尝试通过在提示中引入硬性令牌约束(如"使用少于B个令牌")来缓解过度思考。虽然这些策略在较简单的任务上可能有效,但它们往往通过诱导思考不足而降低了复杂查询的性能,突显了固定的、非自适应方法的局限性。
二、推理失调现象的分析
研究团队对从32B到200B参数的最先进大型语言模型的测试时推理行为进行了全面实证研究,发现了一种普遍现象,称为"推理失调"(REASONING MISCALIBRATION)——模型在推理过程中表现出不受调节的推理深度。
想象你要爬一座山。过度思考就像在平坦的山脚花费大量时间研究地质和植被,而思考不足则像在陡峭的山顶匆忙通过而不确保安全。两种情况都会影响你成功登顶的效率和安全性。
研究表明,推理失调通常由两类查询触发:
1. 琐碎但模糊的查询:这类问题引发分散的令牌分布,导致猜测性推理。就像当你问一个模糊的问题"今天天气怎么样?",却没有提供具体地点,导致回答者不得不猜测并提供各种可能情况。
2. 困难且罕见的查询:在这些情况下,模型进行浅层的试错,没有有意义的收敛。就像面对一个从未见过的复杂拼图,不知从何下手,只能随机尝试几块拼图,而没有系统性的策略。
研究团队通过不确定性视角分析了推理失调——通过模型在每一步的边缘下一个令牌分布的熵来量化。这个分布反映了模型对可能的后续内容的信念,熵越高表示犹豫或模糊程度越大。研究发现,高熵往往与不必要的深度推理(即过度思考)相关,而在早期步骤观察到的低熵往往导致推理过早截断(即思考不足)。
基于这些见解,研究团队引入了贝叶斯预算分配模型(BBAM),这是一个将计算与不确定性对齐的理论资源分配模型。BBAM将推理概念化为一系列子问题,每个子问题具有不同程度的不确定性,并为具有较高不确定性的子问题分配更多的计算预算,实现更加校准和高效的推理。
从这个角度出发,他们得出了有效推理的两个关键原则:
1. 推理应该是结构化的:将复杂查询分解为更小、更有针对性的子问题有助于减少猜测性探索。就像拆解一个大项目为多个小任务,每个任务都有明确的目标和边界。
2. 计算应该是自适应的:早期推理步骤通常具有更高的不确定性,因此值得更多的计算关注。就像学习一项新技能,初始阶段需要更多关注和练习,而随着熟练度提高,所需关注度逐渐减少。
三、贝叶斯预算分配模型(BBAM)的理论基础
为了解决推理失调问题,研究团队需要一种原则性方法来为具有不同不确定性的子问题分配计算资源。现有方法缺乏正式机制进行这种自适应分配,往往统一对待所有推理步骤,导致预算使用效率低下并加剧推理失调。
BBAM模型就像一位智慧的资源管理者,它知道如何在不同的子任务之间分配有限的资源,以获得最大的整体效益。在这个模型中,研究团队采用贝叶斯决策理论公式,通过最小化总不确定性来最大化推理效用。
模型假设一个逆幂律支配着子问题sij在令牌分配bij的情况下的认知不确定性(epistemic uncertainty)减少:
Uepistemic(sij | bij) = cij / bij^βij
其中cij > 0反映初始认知不确定性,βij ≥ 1捕获减少该不确定性的复杂性(较高的βij对应于更容易减少不确定性)。
总不确定性被建模为认知和偶然(aleatoric)组件的总和:
U(sij | bij) = cij / bij^βij + Ualeatoric(sij)
这里,Ualeatoric被视为相对于bij的常量,因为它反映了无法通过额外推理努力减轻的不可约不确定性。
成功解决子问题sij的效用被定义为与其不确定性成反比:
r(sij | bij) = α · (1 - U(sij | bij))
其中α是基于模型/任务的缩放因子。查询xi的总效用则是:
Rtotal = Σ r(sij | bij)
最优预算分配解决了以下约束优化问题:
max Σ α · (1 - cij/bij^βij - Ualeatoric(sij)) s.t. Σ bij ≤ Bi
通过引入拉格朗日乘数λ处理预算约束并求解得到的拉格朗日函数,研究团队得出最优性原则:
bij = Bi · ((cijβij)^(1/(βij+1))) / (Σk (cikβik)^(1/(βik+1)))
这个分配规则揭示了bij和βij之间的单峰关系,即令牌预算随着复杂性增加到峰值,然后随着进一步努力产生递减收益而减少。这种关系是缓解推理失调的关键:中等难度的子问题获得更多令牌以避免思考不足,而过于困难的问题获得较少令牌以防止过度思考。
BBAM因此提供了一种原则性、自我调节的机制,使推理努力与推理价值保持一致,就像一个优秀的项目经理知道何时深入投入资源,何时采取更轻量级的方法。
四、"计划与预算"框架:实现高效推理的实用方法
虽然BBAM提供了最优令牌分配的原则性方法,但在实践中估计其参数(如跨子问题减少不确定性的复杂性)具有挑战性。为了弥合理论见解与实际应用之间的差距,研究团队引入了"计划与预算"(PLAN-AND-BUDGET)框架,这是一种使用轻量级、基于衰减的预算调度器来近似BBAM原则的结构化推理框架。
这个框架就像一个两阶段的项目管理系统:首先制定详细计划,确定所有需要完成的任务及其优先级;然后根据每个任务的复杂性和重要性分配资源,确保整个项目既准确又高效地完成。
### 计划阶段:问题分解作为引导脚手架
受人类问题解决策略的启发,研究团队使用查询分解作为推理脚手架来提高效率和专注度。计划过程分为两个阶段:
第一阶段是自动规划。一个轻量级规划函数P将xi分解为子问题的有序序列πi及其估计的复杂度评分Di:
P(xi) → (πi, Di), πi = ?si1, si2, ..., sim?, Di = ?di1, di2, ..., dim?
其中,πi表示分解计划——一个包含m个子问题的序列,每个sij是针对查询xi的特定子问题的自然语言提示。向量Di包含相应的复杂度评分,每个dij ∈ R>0反映解决sij的估计复杂度。
分解计划πi不一定是唯一或保证最优的,但充当软脚手架——引导主要大型语言模型的合理高级推理路径。规划函数P可以通过在轻量级大型语言模型中应用分解提示来实现。
随后,这些复杂度评分dij被归一化为权重向量wi:
wij = dij / Σk dik
这个归一化权重wij代表查询总"复杂度"中归因于第j个子问题的比例。这个权重向量在后续的预算分配机制中起关键作用,决定总令牌预算Bi如何分配给各个子问题。
第二阶段是引导推理。在将xi分解为子问题?si1, ..., sim?并分配令牌预算bi1, ..., bim后,主要推理大型语言模型依次在其预算bij内回答每个sij,产生如下响应:
aij = fLLM(sij, bij)
其中fLLM表示预算约束的生成过程。这一约束通过防止在个别步骤上过度使用令牌来缓解推理失调。在所有子问题都得到回答后,综合函数S汇总响应,回答原始查询xi:
yi = S(ai1, ..., aim)
### 预算阶段:基于衰减的预算分配
虽然贝叶斯公式提供了基于子问题特定不确定性参数(cij和βij)的最优分配策略,但在实践中可靠地估计这些值通常是不可行的。为弥补这一差距,研究团队引入了一系列基于衰减的调度函数,以轻量级和实用的方式近似不确定性感知的预算分配。
这些函数为早期子问题分配更多令牌,基于这样的观察:认知不确定性在推理开始时通常最高——此时发生基础理解和策略形成。早期令牌投资产生更大的不确定性减少,与公式1中认知不确定性的幂律行为一致。相比之下,后期步骤通常范围更窄或更确定性,在这些阶段过度分配令牌会浪费推理努力,因为额外计算无法减少不可约的偶然不确定性,并在认知收益上产生递减收益。因此,衰减函数为预算优先级提供了原则性启发式方法,将预算集中在最有价值的地方。
给定查询xi的归一化复杂度权重向量wi = {wi1, ..., wim}和总令牌预算Bi,令牌分配使用以下公式:
bij = (wij · dij / Σk wik · dik) · Bi
其中dij = schedule(j, m)为子问题j在长度为m的序列中分配位置优先级,反映早期步骤通常具有更高认知不确定性并值得更多预算的信念。
研究团队探索了几种衰减策略:
1. 无衰减:对所有子问题给予相等优先级;预算跟随wij。 2. 线性衰减:优先级随j线性减少;强调早期步骤。 3. 多项式衰减:对早期步骤有更强调;在p > 1时更陡峭。 4. 指数衰减:指数级优先考虑较早的子问题;由γ ∈ (0, 1)控制。 5. 余弦退火:具有中序列灵活性的平滑衰减;ε增加稳定性。
这些衰减函数作为BBAM贝叶斯最优分配的实用替代品,启发式地针对推理中最具认知影响力的阶段。不同的衰减策略产生不同的分配模式,即使在均匀复杂度下也是如此,多项式衰减和余弦退火偏好早期步骤,线性提供渐进下降,指数衰减提供平衡分布——展示基于衰减的调度如何灵活地调整令牌强调以匹配推理任务的结构。
五、实验设计与评估方法
为评估"计划与预算"框架的有效性和效率,研究团队在三种推理密集型下游任务上进行了广泛实验。他们使用所提出的E?指标评估了原始准确率和计算感知推理效率。
### 数据集
研究团队评估"计划与预算"框架在三个代表性基准上的表现:
1. MATH-500:一个包含500个数学问题的数据集,需要多步符号推理,通过准确率评估。 2. NaturalInstructions:一个多样化的指令跟随基准,使用ROUGE分数评估。 3. TravelPlanner:一个具有挑战性的智能体规划任务,在无工具设置中通过硬约束通过率评估。该基准反映了长视野、满足约束推理的挑战,GPT-4-Turbo在最好的情况下也只达到22.2%。
### 模型
研究团队测试了四种最先进的、公开可用的推理调优大型语言模型:
1. DeepSeek-R1-Distill-Qwen-32B (DS-Qwen-32B) 2. QwQ-32B 3. DeepSeek-R1-Distill-LLaMA-70B (DS-LLaMA-70B) 4. OpenAI o4-mini
这些模型平衡了性能和可访问性,并针对复杂推理进行了专门优化。对于规划和预算,他们使用非推理大型语言模型LLaMA-3.3-70B-Instruct。为确保它不会无意中影响最终答案质量,研究团队评估了它在三个基准上的独立表现,发现它的表现不如专业模型:MATH-500上为75.2±0.68,NaturalInstructions上为41.46±0.41,TravelPlanner上为28.75±2.1。这证实了它作为中立规划者的角色。
### 评估指标
研究团队报告了以下指标:
1. 分数(%):每个数据集中使用的原始评估指标; 2. 平均令牌数:每个查询计费的完成令牌的平均数量,包括推理和输出令牌; 3. E?指标:捕获正确性与计算成本之间的平衡。
E?指标被定义为:E? = A · (A/T) = A?/T,其中A表示在一组查询中达到的平均准确率,T表示每个查询使用的平均解码令牌数。通过平方准确率项,E?更加强调正确性,不鼓励以牺牲输出质量为代价减少令牌使用的退化策略。
### 基线
研究团队将他们提出的框架与几个基线进行了比较:
1. 原始方法:查询直接提供给大型语言模型,没有规划或令牌约束; 2. 全局预算:与原始方法相同,但带有令牌限制提示(如"使用少于Bi个令牌"); 3. 规划原始/全局预算:与上述相同,但提供原始查询及其分解的子问题; 4. 计划与预算:查询、子问题和本地预算提示都提供。
他们探索了本地分配的几种调度策略: a) 均匀:每个子问题相等的令牌数; b) 加权:与估计难度成比例; c) 线性、多项式、指数、余弦:按难度加权,带有额外衰减(使用p = 2和γ = 0.9)。
对所有模型和基线应用8192个令牌的硬截断,以防止失控生成。他们报告了所有模型和基线在5次运行中的平均值和标准偏差。
六、实验结果与分析
实验结果表明,"计划与预算"框架在所有数据集和模型规模上始终优于原始和全局预算基线,在E?上实现高达187.5%的改进,同时保持相当甚至更高的准确率。
### 数学推理任务(MATH-500)
在MATH-500上,研究方法一致地将E?提高了20%以上——例如,在QwQ-32B上从3.20 → 3.93(+22.8%),在o4-mini上从13.25 → 15.95(+20.3%)。重要的是,这一成就是在不影响准确率的情况下实现的。虽然全局预算基线减少了令牌使用,但由于缺乏不确定性感知,其收益有限。
值得注意的是,单独规划(规划全局预算)已经提高了效率4-15%,验证了第一个关键原则:推理应该是结构化的。这种脚手架大大减少了猜测性探索。此外,E?使跨模型比较变得容易——例如,o4-mini始终实现了最高的E?,尽管与其他模型相比准确率相似,因为它使用的令牌最少。这强调了E?作为实用效率指标的重要性。
### 指令跟随任务(NaturalInstructions)
在NaturalInstructions上,"计划与预算"将E?提高了16.8-36.3%。例如,在QwQ-32B上,它从1.47 → 2.00(+36%),在o4-mini上,从4.88 → 5.62(+15%)。尽管这些任务更加面向指令,但"计划与预算"仍然有益。
### 智能体规划任务(TravelPlanner)
在最开放式和具有挑战性的基准TravelPlanner上,研究团队观察到最显著的收益:E?从DS-Qwen-32B上的0.16 → 0.46(+187.5%),从DS-LLaMA-70B上的0.49 → 0.95(+93.8%),从o4-mini上的0.056 → 0.101(+80.3%)。这些结果强调,任务越复杂,结构和适应性的好处就越大。
### 主要发现
1. 研究方法在保持相当准确率的情况下实现了显著的效率提升。在NaturalInstructions上,"计划与预算"将E?提高了16.8-36.3%。例如,在QwQ-32B上,它从1.47 → 2.00(+36%),在o4-mini上,从4.88 → 5.62(+15%)。尽管这些任务更加面向指令,但"计划与预算"仍然有益。
2. 本地预算一致地提高了效率。虽然单独的结构化规划就能提高效率,但添加本地预算会带来显著的额外收益。例如,在MATH-500上,QwQ-32B的E?从3.34 → 3.93(+17.6%);在NaturalInstructions上,从1.61 → 2.00(+24.2%);在TravelPlanner上,从0.38 → 0.56(+47.3%)。这些结果证实了适应预算到子问题的重要性,而不是应用全局分配。
3. 前加载调度在复杂任务上表现最佳。在本地预算调度器中,多项式衰减和余弦退火在数学和长形式规划任务上一致地提供最高的E?。这些策略前加载计算——为早期、不确定的步骤分配更多预算,建立推理方向。这种模式在MATH-500和TravelPlanner上特别有效,在这些任务中,推理开始时的清晰度至关重要。相比之下,在NaturalInstructions上,加权或均匀调度通常表现最佳,表明对于结构更清晰、模糊性较少的任务,平滑、均匀的推理就足够了。
4. 缩小小型和大型模型之间的差距。研究方法是模型无关的:它不需要重新训练或微调,仅依赖于提示和轻量级规划。研究团队观察到跨模型规模的一致改进——从像QwQ-32B这样的小型模型到像DeepSeek-R1-70B和o4-mini这样的大型模型。一个特别值得注意的结果来自TravelPlanner,一个紧凑的模型(DS-Qwen-32B)最初只达到E? = 0.16,但在应用"计划与预算"后达到E? = 0.46——与没有规划的更大模型相当(DS-LLaMA-70B,E? = 0.50)。这表明规划和预算可以作为强大的推理时均衡器,通过更好的计算利用率缩小小型和大型模型之间的差距。
七、结论与未来展望
研究团队提出了"计划与预算",这是一个轻量级的测试时框架,通过结合结构化规划和不确定性感知的令牌预算来提高大型语言模型的推理效率。建立在他们的贝叶斯预算分配模型(BBAM)基础上,"计划与预算"将推理建模为一系列子问题,并基于估计的难度自适应地分配计算。
在三种不同推理任务上的实验表明,"计划与预算"在强基线上实现了显著的计算效率改进,而不影响准确率。尽管有效,但他们的方法目前需要额外的大型语言模型调用来生成分解计划。
在未来的工作中,研究团队计划微调和开发专用的规划大型语言模型,将计划与预算策略内化,实现单一模型内的端到端高效推理。这将进一步简化推理过程,消除对外部规划模型的需求,同时保持计算效率的提升。
这项研究为更高效、更可扩展的大型语言模型推理开辟了新的途径,特别是在资源受限的环境中。通过减少不必要的计算而不牺牲准确率,"计划与预算"框架使大型语言模型的高级推理能力变得更加实用和广泛可用,有可能将其好处扩展到更广泛的应用和用户群体。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。