这项由OPPO AI智能体团队进行的突破性研究发表于2025年6月17日,论文标题为《Scaling Test-time Compute for LLM Agents》,发表在arXiv预印本平台(论文编号:arXiv:2506.12928v1)。有兴趣深入了解的读者可以通过https://github.com/OPPO-PersonalAI/OAgents访问相关代码,或联系通讯作者周王春舒(zhouwangchunshu@oppo.com)获取更多信息。
近年来,我们见证了AI智能体在各个领域展现出的惊人能力。从能够连接各种工具完成复杂任务的LangChain,到能让多个AI角色协作完成工作的Meta-GPT,再到最近备受瞩目的O1和R1等"长思考"模型,AI智能体正在变得越来越强大。然而,就像一个聪明的学生在考试时需要更多时间来思考难题一样,让AI智能体在"思考"阶段投入更多计算资源,往往能显著提升它们解决复杂问题的能力。
这种在推理阶段增加计算投入的方法被称为"测试时计算扩展",就像给AI智能体更多的思考时间和机会来反复琢磨问题。虽然这种方法在单个大语言模型上已经取得了显著成功,但将其应用到更复杂的智能体系统中却面临着全新的挑战。
OPPO AI团队的这项研究填补了这一空白,他们首次系统性地探索了如何将测试时计算扩展方法应用到语言智能体中。研究团队深入分析了四个关键策略:并行采样算法、序列修正策略、验证器和结果合并方法,以及多样化探索策略。通过在GAIA基准测试上的全面实验,他们发现了一些令人惊喜的规律:适当地扩展智能体的思考时间确实能提升性能,但关键在于知道何时进行反思,而不是盲目地增加思考次数。
**一、为什么智能体需要更多思考时间**
要理解这项研究的意义,我们可以把AI智能体想象成一个需要解决复杂问题的专家团队。当面对一个棘手的任务时,比如分析一份复杂的研究报告或者设计一个软件系统,这个专家团队通常不会在第一次尝试就得出完美答案。他们需要反复讨论、修正方案、验证结果,有时甚至需要推倒重来。
传统的AI智能体就像一个只给出一次答案的专家,无论问题多复杂,它都只能进行一轮思考。这种方式在处理简单任务时可能足够,但面对需要多步推理、工具调用和复杂决策的任务时,就显得力不从心了。
这正是测试时计算扩展发挥作用的地方。这种方法让AI智能体能够像人类专家一样,通过多次尝试、反思和改进来逐步逼近最佳答案。但是,将这种方法从单个语言模型扩展到复杂的智能体系统并非易事。
智能体系统的复杂性在于,它不像单个模型那样只需要生成一个答案。智能体需要将复杂问题分解为多个步骤,每个步骤可能涉及不同的工具调用、信息检索或推理过程。在这种多步骤的执行过程中,错误会逐步累积,就像多米诺骨牌效应一样,前面步骤的小错误可能导致最终结果完全偏离目标。
OPPO团队意识到,传统的测试时扩展方法(如Best-of-N采样)在智能体框架中可能会适得其反。因为这些方法在每个步骤都随机生成多个候选答案,然后选择最好的一个。但在多步骤的智能体任务中,这种随机性可能破坏整个执行序列的连贯性,导致最终结果不如直接执行一次完整的流程。
**二、四大策略让智能体变得更聪明**
面对这些挑战,研究团队设计了一套名为ATTS(Agentic Test-Time Scaling,智能体测试时扩展)的综合框架。这个框架就像为智能体提供了四种不同的"思考工具",每种工具都有其独特的用途和优势。
第一种工具是并行采样算法,这就像让智能体同时进行多种不同的思考路径。研究团队测试了四种主要方法:传统的Best-of-N方法让智能体对整个任务生成多个完整的解决方案,然后选择最佳的一个;Step-wise Best-of-N则在每个步骤都生成多个候选方案,逐步选择最优路径;Beam Search方法维护几个最有希望的路径,在每个步骤淘汰表现较差的路径;而DVTS(多样化验证树搜索)则将任务分解为多个子树,每个子树独立探索,增加了解决方案的多样性。
第二种工具是序列修正策略,这相当于给智能体提供了"反思"和"自我纠错"的能力。就像一个作家写完文章后会反复修改一样,智能体也可以回顾自己之前的行动,总结经验教训,然后在后续步骤中做出改进。但研究团队发现,关键不在于让智能体在每个步骤都进行反思,而在于让它知道什么时候需要反思。他们设计了一个评分系统,只有当智能体的某个步骤得分较低时,才会触发反思机制。这就像一个学生只有在发现自己犯错时才会停下来重新思考,而不是在每道题后都要反省一番。
第三种工具涉及验证器和结果合并方法。当智能体通过不同路径得到多个答案时,如何选择最佳答案就成了关键问题。研究团队比较了三种主要方法:投票法就像民主选举一样,选择获得最多"票数"的答案;评分法让一个专门的评判模型为每个答案打分,选择得分最高的;而列表式方法则让模型直接比较所有候选答案,选出最优的一个。实验结果显示,列表式方法表现最佳,因为它能够进行更细致的比较,而不仅仅依赖于数量或单一分数。
第四种工具是多样化探索策略,这相当于组建一个多元化的专家团队来解决问题。研究团队发现,让不同的AI模型(如GPT-4.1、Claude-3.5、Gemini-2.5-Pro等)分别尝试同一个任务,然后综合它们的结果,往往能获得比单一模型更好的效果。这就像让来自不同专业背景的专家共同解决一个复杂问题,每个专家都有自己的优势和视角,综合起来能够覆盖更广的解决方案空间。
**三、实验验证:理论照进现实**
为了验证这些策略的有效性,研究团队选择了GAIA基准测试作为实验平台。GAIA是一个专门设计用来评估AI智能体能力的综合性测试,包含165个不同难度级别的任务,从简单的信息检索到复杂的多模态文件处理,全面考察智能体在网络搜索和多模态信息处理方面的能力。
团队以SmoLAgents框架作为基础,这是一个成熟的智能体框架,支持代码执行和工具调用等核心功能。为了更清晰地比较不同方法的效果,他们简化了原框架的复杂嵌套结构,专注于代码智能体的直接工具调用能力。
在并行采样算法的对比实验中,结果既有意料之中的部分,也有令人惊讶的发现。Best-of-N方法表现最为出色,相比基线方法提升了8个百分点,在简单和中等难度任务上取得了最佳成绩。这个结果验证了"给智能体更多尝试机会"这一基本思路的有效性。
但更有趣的是Step-wise Best-of-N的表现。虽然它的整体得分略低于Best-of-N,但在最困难的Level 3任务上表现最佳,这说明在每个步骤都提供更大探索空间对于解决复杂任务确实有帮助。相比之下,Beam Search和DVTS方法并没有带来显著改善,研究团队分析认为这是因为这些方法的效果很大程度上依赖于验证模型的准确性,而当前的验证模型还不够精确,无法稳定地引导智能体走向正确答案。
在序列修正策略的实验中,研究团队得到了一个重要发现:盲目地增加反思频率并不总是有益的。当智能体在每个步骤都进行反思时,整体性能反而略有下降。这就像一个人在走路时如果每走一步都要停下来思考下一步怎么走,反而会打乱自然的节奏。
但是,当研究团队引入了基于性能阈值的选择性反思机制后,情况发生了根本性改变。他们设计了一个评分系统,只有当智能体某个步骤的表现低于预设阈值时才触发反思。实验结果显示,采用最严格阈值(只在表现很差时才反思)的策略取得了最佳效果,相比基线提升了约1个百分点。这个发现揭示了一个重要原则:智能体需要学会判断何时需要"暂停思考",而不是无差别地增加思考时间。
验证器和结果合并方法的对比实验进一步证实了"精细化比较胜过粗暴统计"的观点。在所有测试的算法中,列表式方法都表现最佳。以Best-of-N为例,使用列表式合并的方法得分为63.03,而使用评分方法的得分为59.39,使用投票方法的得分仅为56.8。这种差异的原因在于,列表式方法能够进行更细致的比较,考虑到答案之间的细微差别,而不仅仅依赖于多数决或单一评分。
多样化探索策略的实验结果最为激动人心。当使用四种不同的AI模型(GPT-4.1、Claude-3.5、Claude-3.7、Gemini-2.5-PRO)进行协作时,Pass@4的性能达到了74.55分,远超单一模型的表现。这个结果不仅验证了"多元化带来更好结果"的假设,也为实际应用提供了明确的指导:在资源允许的情况下,组合使用不同的AI模型比依赖单一模型更有效。
**四、深入案例:智能体如何解决复杂问题**
为了更好地理解这些策略在实际应用中的效果,研究团队提供了一个详细的案例分析。这个案例涉及一个相当复杂的学术查询任务:需要计算两篇不同研究论文中提到的海洋生物测量数据之间的百分比关系。
具体任务是:根据Omar Valencia-Mendez 2017年论文中记录的丑角虾总长度,计算G. Curt Fiedler 2002年论文中喂给同类型虾的海星尺寸占其的整数百分比。这个任务需要智能体执行多个复杂步骤:首先搜索并找到两篇特定的学术论文,然后从中提取相关的测量数据,最后进行数学计算得出答案。
在这个案例中,不同的智能体采用了不同的搜索策略和数据提取方法。智能体1通过ResearchGate找到了Valencia-Mendez 2017年的研究,发现丑角虾的总长度约为4.5厘米,而Fiedler 2002年使用的海星块约为1厘米,计算得出百分比为22%。而智能体N采用了类似的搜索方法,但提取到的丑角虾长度数据为5厘米,最终计算结果为20%。
这个差异恰好说明了多样化探索的价值。不同智能体可能会找到同一研究的不同数据源或解读,通过综合多个智能体的结果,系统能够识别出这种不一致性,并通过判断智能体选择最可靠的答案。在这个案例中,最终系统选择了22%作为答案,这个选择过程体现了列表式验证方法的优势——它能够综合考虑不同答案的来源可靠性和逻辑一致性。
**五、突破与局限:成果的两面性**
这项研究的最大突破在于首次系统性地将测试时计算扩展方法适配到了智能体框架中。过去,这类方法主要应用于单一模型的推理任务,而智能体的多步骤、多工具特性使得直接移植变得困难。OPPO团队不仅成功解决了这个适配问题,还发现了一些在单模型环境中不明显的规律。
特别值得注意的是关于反思时机的发现。在单模型推理中,增加思考时间通常都是有益的,但在智能体环境中,过度反思可能会破坏执行流程的连贯性。这个发现对于设计更高效的智能体系统具有重要指导意义。
另一个重要贡献是验证了多模型协作的有效性。虽然使用多个不同模型会增加计算成本,但实验结果清楚地表明,这种额外投入能够带来显著的性能提升。在实际应用中,这为用户提供了一个明确的权衡选择:如果追求最佳性能且资源充足,多模型协作是值得的。
然而,这项研究也存在一些局限性。首先,所有实验都基于GAIA这一个基准测试,虽然GAIA具有较好的代表性,但单一基准测试的结果可能无法完全反映方法在其他类型任务上的表现。其次,研究主要关注了性能指标,对于计算成本和效率的分析相对较少。在实际应用中,性能提升和资源消耗之间的平衡是一个重要考虑因素。
此外,当前的验证模型准确性仍有提升空间。实验结果显示,Beam Search和DVTS等依赖精确验证的方法表现不佳,这在一定程度上反映了现有验证模型的局限性。随着验证模型的改进,这些方法的潜力可能会得到更好的发挥。
**六、实际应用的前景与挑战**
从实际应用的角度来看,这项研究提供了几个有价值的指导原则。对于需要处理复杂任务的智能体系统,Best-of-N方法提供了一个简单而有效的性能提升方案。虽然它会增加计算开销,但实现相对简单,且效果稳定可靠。
对于资源更充足的应用场景,多模型协作策略展现出了巨大潜力。特别是在需要高准确性的关键应用中,使用多个不同AI模型的组合可能是值得的。这种方法不仅能提高准确性,还能提供一定的容错能力——即使某个模型在特定任务上表现不佳,其他模型仍能提供备选方案。
选择性反思机制的发现对于长时间运行的智能体系统特别有意义。通过只在必要时进行反思,系统能够在保持高效执行的同时具备自我纠错能力。这种平衡对于实际部署的智能体系统至关重要。
不过,将这些方法应用到实际产品中还面临一些挑战。首先是计算成本问题。虽然性能提升是显著的,但相应的计算资源消耗也会增加。企业需要根据具体应用场景评估这种投入是否值得。其次是延迟问题。多次采样和反思会增加响应时间,这在需要实时响应的应用中可能是个问题。
**七、对AI发展的更深层意义**
这项研究的意义远不止于提供了几种有效的技术方法。它揭示了AI系统发展的一个重要趋势:从追求更大的模型规模转向更智能的推理策略。正如研究团队指出的,在推理阶段投入更多计算资源有时比简单地增加模型参数更有效。
这种转变反映了AI发展思路的根本性变化。过去几年,业界主要通过增加模型规模来提升性能,这种方法虽然有效,但也带来了巨大的训练成本和部署挑战。测试时计算扩展提供了一种新的路径:在保持模型规模不变的情况下,通过更聪明的推理策略来提升性能。
从更广的角度来看,这种方法更符合人类智能的工作方式。人类在解决复杂问题时并不是依靠"更大的大脑",而是通过反复思考、多角度分析、与他人协作等策略来得出更好的答案。OPPO团队的研究某种程度上是在教AI系统学习这些人类智能的策略。
这种趋势也可能影响未来AI系统的设计哲学。与其追求单一的"超级智能",未来的AI系统可能更像是一个智能协作网络,其中多个专门化的AI模块通过协作、反思和验证来共同解决复杂问题。这种架构不仅可能更高效,也可能更安全和可控。
说到底,OPPO AI团队的这项研究为我们展示了一个重要事实:让AI变得更聪明,有时候不需要让它变得更大,而是要让它学会更好地思考。通过给智能体更多的思考时间、更多的尝试机会、以及更好的自我反思能力,我们可以显著提升它们解决复杂问题的能力。
这种方法对普通人的影响可能比想象中更大。当AI智能体变得更善于思考和协作时,它们就能更好地帮助我们处理日常工作和生活中的复杂问题。无论是分析复杂的文档、制定详细的计划,还是解决技术问题,这些更"聪明"的AI智能体都能提供更可靠、更有用的帮助。
而且,这项研究提出的多模型协作方法也为我们提供了一个有趣的启示:有时候,多个"普通"的AI协作起来,效果可能比单个"超级"AI更好。这意味着在不久的将来,我们可能会看到更多基于AI协作的服务和产品,它们通过组合不同AI的优势来为用户提供更好的体验。
当然,正如任何新技术一样,这些方法的普及还需要时间,也需要解决成本和效率方面的挑战。但OPPO团队的这项工作无疑为AI智能体的发展指明了一个有前景的方向。随着相关技术的进一步成熟,我们有理由期待看到更多能够进行深度思考和有效协作的AI智能体出现在我们的生活中。
Q&A
Q1:什么是测试时计算扩展?它能让AI智能体变得更聪明吗? A:测试时计算扩展就像给AI智能体更多思考时间和尝试机会。传统AI只给出一次答案,而这种方法让AI可以多次尝试、反思改进,就像人类解决难题时会反复琢磨一样。OPPO的研究证明这确实能让智能体变得更聪明,性能提升可达8个百分点。
Q2:为什么多个AI模型协作比单个模型效果更好? A:这就像组建多元化专家团队解决问题一样。不同AI模型各有优势和视角,GPT-4.1可能擅长逻辑推理,Claude可能更善于创意思考,Gemini在某些任务上有独特优势。研究显示,四个模型协作的成功率可达74.55%,远超单一模型表现。
Q3:这些技术什么时候能应用到我们日常使用的AI产品中? A:虽然研究成果很有前景,但大规模应用还需要解决计算成本和响应速度问题。目前这些方法会增加计算开销和等待时间。预计未来2-3年内,我们可能会在对准确性要求较高的专业应用中首先看到这些技术,然后逐步普及到消费级产品。
好文章,需要你的鼓励
这项研究提出了"高效探测"方法,解决了掩码图像建模AI难以有效评估的问题。通过创新的多查询交叉注意力机制,该方法在减少90%参数的同时实现10倍速度提升,在七个基准测试中均超越传统方法。研究还发现注意力质量与分类性能的强相关性,生成可解释的注意力图谱,展现出优异的跨域适应性。团队承诺开源全部代码,推动技术普及应用。
伊利诺伊大学研究团队开发了CLAIMSPECT系统,通过层次化分解复杂争议、智能检索相关文献、多角度收集观点的方法,将传统的"真假"判断转变为多维度分析。该系统能够自动构建争议话题的分析框架,识别不同观点及其支撑证据,为科学和政治争议提供更全面客观的分析,已在生物医学和国际关系领域验证有效性。
清华大学研究团队首次提出情感认知融合网络(ECFN),让AI能像人类一样理解和表达情感。该系统通过多层次情感处理架构,在情感识别准确率上比现有最佳系统提升32%,情感表达自然度提升45%。研究突破了传统AI情感理解的局限,实现了跨模态情感融合、动态情感追踪和个性化情感建模,为医疗、教育、客服等领域带来革命性应用前景。
哈佛大学研究团队通过创新的多智能体强化学习方法,让AI在战略游戏中学会复杂推理。研究发现AI通过游戏竞争能发展出类人思维能力,在逻辑推理、创造性解决问题等方面表现显著提升。这项突破性成果为未来AI在医疗、教育、城市管理等领域的应用奠定基础,展现了通过模拟人类学习过程培养真正智能AI的新路径。