在人工智能研究的前沿,一项由新加坡国立大学和Sea AI Lab(海洋人工智能实验室)合作完成的创新研究《通过预算相对策略优化实现随时推理》(Optimizing Anytime Reasoning via Budget Relative Policy Optimization)近期在arXiv预印本平台(arXiv:2505.13438v1)发表。这项由Penghui Qi、Zichen Liu、Tianyu Pang、Chao Du、Wee Sun Lee和Min Lin共同完成的研究,旨在解决大型语言模型(LLM)推理过程中的计算效率问题。想深入了解的读者可访问他们的GitHub项目:https://github.com/sail-sg/AnytimeReasoner。
一、背景:为什么大型语言模型需要"随时思考"的能力?
想象一下,你正在用手机上的AI助手解决一道复杂的数学问题。在繁忙的服务器上,你的请求可能需要排队等待,而且长时间的计算会消耗大量资源。如果系统能够根据当前的资源情况,灵活地决定思考的深度,在有限的计算资源下给出尽可能好的答案,那不是更高效吗?
这正是研究团队提出的"随时推理"(Anytime Reasoning)框架想要解决的问题。传统的大语言模型训练方法,如OpenAI的o1和DeepSeek的R1,通常会使用固定的、较大的计算预算,让模型进行长链条思考(Chain of Thought,简称CoT)。这种方法虽然能提高最终的推理准确性,但在训练和部署过程中效率低下,尤其是对于在线服务来说,长思考过程会占用大量资源。
随时推理的概念源于上世纪80年代末Dean和Boddy提出的"随时算法",以及90年代中期Zilberstein和Russell拓展的理论。这类算法的特点是:可以在计算过程中的任何时刻被中断,并提供当前能给出的最佳解决方案。应用到语言模型推理中,就意味着模型需要能够在思考过程中的任何时刻,总结出当前最优的答案。
二、创新方法:从固定预算到动态思考
研究团队提出的创新点在于,不再使用固定的思考预算,而是从一个先验分布中随机采样思考预算。这就像是在训练一个演讲者,有时给他30秒总结观点,有时给他3分钟详细阐述,让他能够适应各种不同的时间限制。
想象你正在训练一个厨师。传统方法是永远给他两小时准备一道复杂菜肴,而新方法会随机给他15分钟、30分钟、1小时或2小时不等的时间,强制他在每个时间点都能端出尽可能美味的成品。这样训练出来的厨师,无论给他多少时间,都能做出相对最优的菜肴。
具体来说,研究团队在训练过程中会做以下几件事:
首先,他们将思考过程和总结答案的过程解耦。以往的方法会将思考和总结视为一个整体,如果思考超出预算,整个回答就被视为失败。而新方法中,即使思考被打断,模型仍然需要根据已有的不完整思考过程给出最佳答案。这就像是让一个学生在考试时间到之前,必须写出自己的答案,无论思考是否完整。
其次,他们在不同的思考预算下评估模型性能。具体来说,研究团队预设了一系列思考预算{b?, b?, ..., b?}(例如2000、4000、6000、8000个token),对每个预算下的表现进行评估和优化。这就像是在多个不同的截止时间点检查学生的答案质量,并帮助他们提高在每个时间点的表现。
最关键的创新在于,这种方法自然引入了"可验证的密集奖励"(verifiable dense rewards)。在传统的强化学习(RL)训练中,模型只有在完成整个思考过程后才能获得一个稀疏的奖励信号。而在新框架下,模型在每个预设的思考预算点都会获得一个奖励信号,这使得学习过程更加高效,能够更精确地了解哪些思考步骤是有价值的。
三、技术核心:预算相对策略优化的实现方式
为了实现这一框架,研究团队开发了一种称为"预算相对策略优化"(Budget Relative Policy Optimization,简称BRPO)的新技术,用于提高强化学习过程中的方差减少效果。
这听起来可能有些复杂,让我们用一个简单的例子来理解:想象你正在教一个孩子解决数学题。在传统方法中,你只能在孩子完成整个解题过程后,告诉他"答对了"或"答错了"(稀疏奖励)。而在新方法中,你可以在解题过程中的多个时间点给出反馈,例如"你的第一步做得很好","中间的推导有些问题"等(密集奖励)。这样的反馈机制显然更有助于学习。
具体来说,BRPO利用两种信息来指导模型的学习:
一是模型在当前思考步骤之前的表现(V?)。这就像是利用一个人之前的学习成果来指导后续学习。研究表明,在思考过程中,如果前面的步骤已经产生了一个正确的答案,那么后续的思考通常也会更有效。
二是同批次其他思考过程的平均表现(V?)。这相当于参考"班级平均水平",特别是当自己的思考历史不足以提供足够指导时。
研究团队采用一个聪明的方法:根据思考进行的程度自动平衡这两种信息的权重。在思考初期,主要参考"班级平均水平";随着思考深入,逐渐更多地依赖自己的思考历史。
数据显示,这种方差减少技术显著优于现有的GRPO(Group Relative Policy Optimization)方法,特别是在思考过程较长时。在某些数学推理任务上,BRPO能将方差降低多达80%,这意味着学习过程更加稳定和高效。
四、思考与总结的解耦优化:双管齐下提升性能
研究团队发现,生成高质量的总结对于随时推理和最终性能都至关重要。因此,他们提出了思考与总结策略的解耦优化方法。
想象你在培训一支特工团队,需要分别提升他们的情报收集能力(思考)和情报分析能力(总结)。与其用同一套训练方法,不如针对这两种能力设计专门的培训计划。
在新框架中,思考策略πθ和总结策略πφ分别使用不同的优化目标和训练方法:
对于总结策略,研究团队使用均匀分布作为预算先验分布,确保模型能够从各种长度的思考过程中提取有价值的信息并生成准确的答案。这相当于训练分析员能够从各种不同完整度的情报中提取核心信息。
对于思考策略,则可以使用不同的预算先验分布,如均匀分布(uniform)、线性分布(linear)或基础分布(base,即只优化最大预算下的性能)。不同的先验分布会影响模型在各种思考预算下的表现平衡。
实验表明,这种解耦优化方法显著提升了模型在各种思考预算下的性能,特别是在AMC数学竞赛任务上。即使是基础模型(只优化最大预算下的性能),通过解耦优化也能在所有思考预算下取得比GRPO更好的性能。
五、实验验证:数学推理任务上的出色表现
研究团队在多个数学推理任务上验证了他们的方法。他们使用DeepSeek-R1-Distill-Qwen-1.5B模型,在包含40,315个数学问题的数据集上进行了一个训练周期的微调。评估使用了五个基准测试:AIME2024、AMC2022、MATH500、Minerva Math和Olympiad Bench。
实验结果令人印象深刻。在所有测试基准和各种思考预算下,AnytimeReasoner一致优于GRPO基线。特别是,AnytimeReasoner-uniform在小预算情况下表现最佳,这是因为它特别注重优化这些预算点的性能。当思考预算增加时,不同先验分布训练的模型性能趋于相似,显示了方法的稳健性。
有趣的是,即使是AnytimeReasoner-base版本(只优化最大思考预算的性能,类似于GRPO的目标),也在所有思考预算下显著优于GRPO。这表明解耦优化和方差减少技术的有效性,即使不使用预算采样也能提高模型在各种预算下的表现。
为了进一步理解各组件的贡献,研究团队进行了详细的消融研究,分别考察了可验证密集奖励、解耦优化和方差减少技术的影响。结果表明,这三个组件都对性能有显著贡献。特别是,密集奖励不仅提高了随时和最终性能,还显著缩短了平均思考长度,使模型能够更快地得出正确答案。
六、与现有方法的比较:超越传统训练范式
与现有的LLM推理强化学习方法相比,AnytimeReasoner展现出多方面的优势。传统方法如GRPO、SimpleRL和DeepSeek-R1通常只关注在固定、较大的预算下优化最终性能,缺乏在各种预算约束下的灵活性。
与最近的一项独立工作MRT(通过元强化学习优化测试时计算)相比,AnytimeReasoner采用了更直接的方法。MRT试图通过最小化相对于未知最优解的累积后悔来优化测试时计算,而AnytimeReasoner则直接通过从先验分布采样思考预算来优化随时性能。
在方法上,AnytimeReasoner基于每个token(而非每个episode)进行优化,明确考虑长期回报,而MRT则采用贪婪策略,仅优化下一个episode的进展。实验结果也证明AnytimeReasoner性能更优——在AIME 2024上达到32.7%的准确率,显著高于MRT报告的30.3%。
七、实际应用与未来展望:更高效的AI服务
AnytimeReasoner的实际应用价值十分显著。对于在线AI服务提供商来说,这项技术可以大大提高服务容量和用户体验。当请求过多时,系统可以选择中断一些处理中的请求,一旦思考长度足以提供足够准确的答案,就保留更长的思考时间给需要更高准确度的场景。此外,用户也可能希望控制LLM调用的成本,自然导致预算化查询的需求。
研究团队将这种能力提升归因于"生成-验证差距"——验证解决方案通常比生成它们容易得多。在推理过程中,模型进行迭代搜索,探索潜在解决方案直到找到有效的方案。一旦生成,解决方案会被验证其正确性,这个搜索-验证循环持续进行,直到产生一个有信心的答案。
AnytimeReasoner系统地利用了这种生成-验证差距,基于一个关键观察:验证答案并从部分推理轨迹中提取它们既容易又计算成本低。基于这一洞见,研究团队设计的框架在预定义的思考预算点产生答案,从而引入可验证的密集奖励来增强强化学习训练。
未来的研究方向可能包括将这一框架应用到更广泛的任务中,如自然语言理解、代码生成等,以及探索更复杂的预算分布和优化方法。另一个有趣的方向是研究如何在模型推理过程中自适应地调整思考预算,根据问题的复杂性和当前思考的进展动态分配资源。
八、结论:更智能的思考方式
归根结底,AnytimeReasoner为大型语言模型提供了一种更智能、更高效的思考方式。就像人类在时间压力下学会调整思考深度一样,这项技术使AI系统能够根据可用的计算资源灵活调整推理过程,在各种约束下提供最佳可能的解决方案。
通过从预算先验分布中采样思考预算,引入可验证的密集奖励,以及创新的预算相对策略优化技术,AnytimeReasoner在数学推理任务上展现出明显优于现有方法的性能。特别是,它能在各种思考预算下保持高性能,这对于资源受限的实际应用场景尤为重要。
对于普通用户来说,这意味着未来的AI助手将能够更高效地回答问题,无论是快速回应简单查询,还是深入思考复杂问题。对于AI服务提供商来说,这项技术可以显著提高服务效率和用户体验,减少计算资源浪费。
如果你对这项研究感兴趣,可以访问研究团队的GitHub页面(https://github.com/sail-sg/AnytimeReasoner)获取更多信息,或阅读原论文深入了解技术细节。随着AI技术不断发展,像AnytimeReasoner这样的创新将持续推动大型语言模型在实际应用中的价值和效率。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。