这项由西安交通大学颜航、徐方植等研究者,联合南洋理工大学、北京大学和新加坡国立大学共同完成的研究发表于2025年7月。该研究提出了一种名为"MUR"(动量不确定性引导推理)的全新方法,让大语言模型在推理时既能节省一半以上的计算资源,又能显著提升准确率。有兴趣深入了解的读者可以通过arXiv:2507.14958v1访问完整论文。
当今的AI大语言模型就像一个非常聪明但有时会"想太多"的学生。为了得到正确答案,它们往往在每个推理步骤都投入大量时间和计算资源去"深度思考",即使是对付那些相对简单的问题。这种现象被称为"过度思考",就好比用大炮打蚊子——效果可能不错,但代价过于昂贵。
研究团队发现了一个有趣的现象:当AI模型在处理数学问题时,即使减少了50%以上的思考时间,其表现不仅没有下降,反而有所提升。这个发现揭示了一个重要问题——现有的AI推理方法存在严重的资源浪费。
为了解决这个问题,研究者们从物理学中的"动量"概念获得灵感。在物理学中,动量能够累积历史信息并抵抗突然的变化,保持系统的稳定性。研究团队将这个概念巧妙地应用到AI推理中,创造出了MUR方法。
一、解开AI"过度思考"之谜
现代AI系统在推理时面临一个类似人类学习的问题:如何在保证质量的同时提高效率。当前主流的测试时扩展方法就像一个过分谨慎的厨师,无论是煎蛋还是烤火鸡,都用同样长的时间和同样高的火候。这种"一刀切"的做法虽然能保证结果不出错,但显然不够聪明。
研究团队通过大量实验发现,AI在推理过程中确实存在大量不必要的计算浪费。他们使用了三种不同大小的Qwen3模型(1.7B、4B和8B参数)在四个具有挑战性的基准测试上进行验证,包括MATH-500数学题、AIME24和AIME25竞赛题,以及GPQA-diamond科学问题。
结果令人惊讶:传统方法就像一个学生在每道题上都花费同样的时间,无论题目难易。而实际上,有些步骤需要深入思考,有些步骤则可以直接得出答案。这种盲目的"用力过猛"不仅浪费了宝贵的计算资源,有时甚至会因为过度分析而影响最终结果的准确性。
更有趣的是,研究者发现不同难度的问题需要扩展的步骤比例也不同。对于数学基础题MATH-500,只需要对8.38%的步骤进行扩展;而对于更具挑战性的AIME25竞赛题,这个比例上升到17.83%。这就像不同复杂度的菜谱需要不同程度的精细操作一样。
二、动量不确定性:让AI学会"轻重缓急"
研究团队的核心创新在于引入了"动量不确定性"这个概念。这个方法的工作原理类似于一个经验丰富的老师如何判断学生在某个知识点上是否需要额外帮助。
具体来说,系统会持续跟踪AI在每个推理步骤中的"不确定性"程度,就像监测学生答题时的犹豫程度。当系统发现当前步骤的不确定性显著高于历史平均水平时,就会触发更深入的思考过程;相反,如果当前步骤相对简单明确,系统就会直接输出答案,避免不必要的计算浪费。
这种动量机制的巧妙之处在于它能够平滑地处理不确定性的波动。就像汽车的减震系统能够吸收路面的颠簸一样,动量不确定性能够避免因为单个步骤的偶然波动而做出错误的扩展决策。它通过指数加权的方式给予近期步骤更高的权重,同时保留对历史信息的记忆。
数学上,这个过程可以表示为一个递归公式:新的动量不确定性等于旧的动量不确定性乘以一个衰减因子,加上当前步骤不确定性乘以相应的权重。这种设计确保了系统既能对新情况快速响应,又能保持整体判断的稳定性。
研究团队还提供了严格的理论证明,表明动量不确定性在三个关键方面优于简单的步骤级不确定性:稳定性更好(方差更小)、收敛性更强(偏差随时间减小)、以及更好的折扣信用分配能力。这些理论保证确保了方法的可靠性和实用性。
三、γ控制机制:精准调节推理预算
为了让这个系统更加实用,研究团队设计了一个名为"γ控制"的机制。这个机制就像汽车的油门,可以通过一个简单的参数来精确控制推理资源的使用程度。
γ参数的工作原理非常直观:当γ值较小时,系统变得更加"节俭",只在真正困难的步骤上投入额外资源;当γ值较大时,系统变得更加"慷慨",会对更多步骤进行深入思考。这种设计让用户可以根据具体需求和资源限制来灵活调整系统行为。
实验结果显示,通过调整γ参数,用户可以在准确率和计算效率之间找到最佳平衡点。当γ设置为0.9时,系统在大多数任务上都能达到最佳的性价比。更重要的是,研究者发现当γ值过大时(相当于对几乎所有步骤都进行扩展),系统性能反而会下降,这进一步证实了"过度思考"确实是一个真实存在的问题。
通过大量的消融实验,研究团队验证了γ控制机制的有效性。他们测试了从0.1到0.9的不同γ值,发现随着γ值的增加,准确率和计算消耗都会相应上升,但两者之间存在一个最优的平衡点。这种可控的权衡机制使得MUR方法能够适应不同的应用场景和资源约束。
四、实验验证:全面超越现有方法
研究团队进行了极其全面的实验验证,涵盖了多个模型规模、多种测试时扩展方法和多个具有挑战性的基准测试。实验设计就像一场精心安排的烹饪比赛,要在相同的条件下比较不同方法的表现。
在模型选择上,研究者使用了Qwen3系列的三个不同规模版本:1.7B、4B和8B参数。这种多规模测试确保了方法的普适性,就像一个好的教学方法应该适用于不同基础水平的学生一样。
测试的基准包括了从基础数学问题到高难度竞赛题的完整光谱。MATH-500涵盖了高中到大学水平的数学题目;AIME24和AIME25是美国数学邀请赛的真题,代表了数学竞赛的顶尖难度;GPQA-diamond则测试了研究生水平的科学推理能力。这种全方位的测试确保了方法的鲁棒性。
实验结果令人印象深刻。在所有测试配置中,MUR方法都实现了显著的效率提升,平均节省了50%以上的计算tokens,同时准确率还提升了0.62%到3.37%。这种"又快又好"的表现打破了传统认知中质量与效率之间的矛盾。
特别值得注意的是,研究团队还进行了对比实验,将MUR与随机扩展方法进行比较。结果显示,如果随机选择相同数量的步骤进行扩展,性能会比传统的全步骤扩展方法平均下降1.02%。这个对比实验强有力地证明了MUR确实能够识别和优先处理关键的推理步骤。
五、理论基础:动量物理学在AI中的应用
MUR方法的理论基础建立在对动量概念的深刻理解之上。研究团队提供了三个重要的理论命题,为方法的有效性提供了数学保证。
第一个命题证明了动量不确定性实际上是历史步骤级不确定性的指数加权和,这意味着它能够自然地强调最近的信息而逐渐淡化较早的历史。这种设计模仿了人类记忆的特点——我们往往对最近发生的事情记忆更深刻,对久远的事情记忆逐渐模糊。
第二个命题从数学上证明了动量不确定性具有更低的方差,这意味着它提供了更稳定的不确定性估计。研究者通过假设每个步骤的不确定性包含真实信号和随机噪声两部分,证明了动量机制能够有效抑制噪声的影响,提供更可靠的判断基础。
第三个命题建立了动量不确定性的收敛性保证。研究者证明了随着推理步骤的增加,动量不确定性的偏差会以指数速度趋向于零。这个理论结果确保了方法的长期稳定性和可靠性。
这些理论结果不仅为MUR方法提供了坚实的数学基础,也为理解其工作机制提供了深刻的洞察。它们解释了为什么简单的历史平均方法效果较差,以及为什么动量机制能够在这个特定问题上取得成功。
六、适用性与扩展:从小模型到大模型的全覆盖
MUR方法的一个重要优势是其广泛的适用性。研究团队特别强调了这个方法的"正交性"——它可以与现有的各种测试时扩展方法无缝结合,而不需要对原有系统进行大幅修改。
研究者测试了四种主要的测试时扩展方法。引导搜索方法类似于让AI生成多个候选答案然后选择最好的一个;LLM评判方法让AI对自己的答案进行反思和改进;φ解码方法使用前瞻采样策略来选择最优路径;思维模式则让AI为每个步骤生成详细的思考过程。
在所有这些不同的基础方法上,MUR都能够提供显著的效率提升。这种一致性表明MUR捕捉到了推理过程中的某种基本规律,而不是针对特定方法的技巧性优化。
特别有趣的是,研究团队还测试了MUR在大型推理模型上的表现。这些模型专门针对推理任务进行了优化,通常会生成非常详细的思考过程。在这种情况下,MUR通过识别不需要深度思考的步骤,直接输出答案而跳过冗长的思维过程,从而实现了计算资源的节省。
实验结果显示,即使在这些已经高度优化的大型推理模型上,MUR仍然能够在保持甚至提升准确率的同时减少计算消耗。这个结果表明,即使是专门为推理设计的模型,仍然存在过度思考的问题,而MUR提供了一个通用的解决方案。
七、深入分析:揭示AI推理的内在规律
研究团队不仅提出了有效的方法,还通过深入分析揭示了AI推理过程中的一些有趣规律。他们发现,不同难度的问题确实需要不同程度的推理扩展,这与人类解题的直觉是一致的。
通过统计分析,研究者发现MUR平均只对6-7个推理步骤中的不到1个进行扩展。这个比例在不同的基准测试中有所变化:相对简单的问题需要扩展的步骤更少,而复杂问题需要扩展的步骤更多。这种自适应行为正是MUR方法的核心价值所在。
更有趣的是,研究团队发现了推理步骤数量与计算消耗之间的反比关系。当系统对更多步骤进行扩展时,总的推理步骤数量反而会减少。这个现象可以这样理解:通过在关键步骤上投入更多思考,AI能够更快地找到正确路径,从而避免走弯路。
研究者还进行了详细的案例研究,展示了MUR在实际问题中的工作过程。在一个复杂的数学竞赛问题中,MUR准确识别出了两个需要深入思考的关键步骤,而对其他相对简单的步骤直接给出答案。最终,MUR不仅节省了大量计算资源,还得到了正确答案,而传统的全步骤扩展方法虽然在每个步骤都进行了深入思考,却走了弯路,最终得到了错误结果。
八、超参数敏感性:系统稳定性的全面验证
为了确保方法的实用性,研究团队对MUR的两个关键超参数α和γ进行了详细的敏感性分析。这种分析就像测试一个新药在不同剂量下的效果,确保它在实际应用中的稳定性和可靠性。
对于动量参数α的分析显示,当α在0.5到0.9的范围内时,MUR都能保持稳定的性能优势。只有当α设置为过小的值(如0.1)时,动量机制才会因为变化过于激烈而影响性能。这种宽泛的有效参数范围使得MUR在实际应用中具有很好的鲁棒性。
γ参数的分析更是揭示了方法的灵活性。通过调整γ值,用户可以在计算效率和推理质量之间找到最适合自己需求的平衡点。当资源充足时,可以设置较大的γ值以获得更高的准确率;当资源紧张时,可以设置较小的γ值以最大化效率。
研究团队特别指出,在实际应用中,他们推荐使用α=0.9和γ=0.9作为默认设置。这组参数在绝大多数情况下都能提供良好的性能,同时保持了方法的简单性和易用性。
九、计算复杂度:理论效率的量化分析
从计算复杂度的角度来看,MUR方法展现出了显著的理论优势。传统的全步骤扩展方法的计算复杂度与推理步骤数量成正比,而MUR通过选择性扩展将这个复杂度降低了50%以上。
更重要的是,MUR引入的额外计算开销极小。动量不确定性的计算只需要简单的加权平均操作,其计算复杂度可以忽略不计。扩展决策的判断也只需要一次简单的阈值比较。这意味着MUR的效率提升几乎是"免费"的,不会带来显著的额外负担。
研究团队还分析了不同模型规模下的效率提升情况。他们发现,虽然较大的模型(如8B参数)在绝对计算量上更大,但MUR带来的相对效率提升是一致的。这表明该方法的核心原理不依赖于模型的具体规模,具有良好的可扩展性。
在内存使用方面,MUR只需要维护一个简单的动量状态变量,内存开销微乎其微。这使得该方法可以轻松部署到资源受限的环境中,如移动设备或边缘计算设备。
十、实际应用潜力与未来发展
MUR方法的实际应用潜力是巨大的。在教育领域,它可以帮助AI家教系统更智能地分配计算资源,对学生的困难问题提供深入解答,对简单问题快速响应,从而提供更自然的学习体验。
在企业应用中,MUR可以显著降低AI推理系统的运营成本。对于需要处理大量推理任务的应用,如智能客服、技术支持或决策辅助系统,50%的计算资源节省意味着巨大的成本优势。
从技术发展的角度来看,MUR为AI推理领域开辟了一个新的研究方向。它证明了通过更智能的资源分配策略,可以同时实现效率和质量的提升,打破了传统认知中两者不可兼得的观念。
研究团队也指出了一些潜在的改进方向。未来的工作可能会探索更复杂的不确定性建模方法,或者研究如何根据不同类型的推理任务动态调整策略。另一个有趣的方向是将MUR的思想应用到其他类型的AI任务中,如图像理解或多模态推理。
此外,随着AI模型规模的不断增长,计算效率将变得越来越重要。MUR提供的选择性计算框架可能会成为未来大规模AI系统的标准组件,帮助这些系统在保持强大能力的同时控制计算成本。
说到底,这项研究解决了AI推理中一个既实际又深刻的问题。它不仅提供了一个立即可用的解决方案,还为我们理解和优化AI推理过程提供了新的视角。就像物理学中的动量概念帮助我们理解物体运动的规律一样,动量不确定性可能会成为理解AI推理过程的一个重要工具。
对于普通用户来说,这意味着未来的AI助手将变得更加高效和实用。它们将能够快速处理简单问题,同时在复杂问题上提供深入的分析,提供更好的用户体验。对于技术开发者来说,MUR提供了一个简单而有效的工具来优化AI系统的性能,无需对现有架构进行大幅修改。
最终,这项研究表明,有时候"少即是多"的哲学同样适用于AI系统。通过更智能地选择何时深入思考,AI可以变得既更高效又更准确。这不仅是一个技术突破,也是对AI如何更好地模仿人类智能的深刻思考。对于那些希望深入了解技术细节的读者,完整的研究论文可以通过arXiv:2507.14958v1获取,其中包含了详细的数学推导和实验数据。
Q&A
Q1:MUR方法是什么?它是如何工作的? A:MUR(动量不确定性引导推理)是一种让AI更聪明地分配计算资源的方法。它像一个经验丰富的老师,能够判断哪些推理步骤需要深入思考,哪些可以直接给出答案。通过跟踪AI在每个步骤的"不确定性"程度,当发现某个步骤明显比历史平均水平更困难时,就会触发更深入的计算;对于简单步骤则直接输出答案,从而避免不必要的计算浪费。
Q2:使用MUR方法会不会影响AI推理的准确性? A:不仅不会影响,反而会提升准确性。实验结果显示,MUR在节省50%以上计算资源的同时,还能将准确率提升0.62%到3.37%。这是因为过度思考有时会让AI走弯路,而MUR通过在关键步骤投入更多精力,在简单步骤避免过度分析,实际上帮助AI找到更直接有效的解题路径。
Q3:MUR方法可以应用到哪些场景中? A:MUR具有很强的通用性,可以与现有的各种AI推理方法结合使用。在教育领域,可以让AI家教更智能地回答问题;在企业应用中,可以显著降低智能客服、技术支持等系统的运营成本;在科研和开发中,可以让研究者用更少的资源训练和测试AI模型。由于它不需要对现有系统进行大幅修改,几乎可以应用到任何需要AI推理的场景中。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。