这项由OPPO AI Agent Team开发的革命性研究于2025年8月发表,论文编号为arXiv:2508.13167v1,为人工智能领域带来了一个重大突破。传统的AI智能体系统就像一个需要多人协作的复杂工程项目,每个专家负责不同的任务,但他们之间的沟通协调往往效率低下,成本高昂。OPPO的研究团队提出了一个全新的解决方案:Chain-of-Agents(智能体链),这就像是把所有专家的技能都融合到一个超级专家身上,让他能够独自完成原本需要团队协作的复杂任务。
当前的多智能体系统虽然功能强大,但面临着四个根本性问题。首先,它们需要大量的计算资源,就像维持一个庞大的专家团队需要支付高昂的薪水一样。其次,这些系统很难适应新的任务领域,每次遇到新问题都需要重新设计和调整,就像每次换工作都要重新组建团队。第三,它们无法通过数据学习来改进自己,就像一个无法从经验中成长的团队。最后,这些系统底层的大语言模型并不是专门为多智能体协作而训练的,而是通过复杂的提示工程勉强实现协作功能。
传统的工具集成推理方法虽然有所改进,但仍然局限于简单的"思考-行动-观察"模式,就像一个只会按固定流程工作的机器人。而真正的多智能体系统展现出的协作能力远超这种简单模式,但却无法实现端到端的训练优化。OPPO的研究团队敏锐地发现了这个gap,并提出了Chain-of-Agents这个突破性概念。
Chain-of-Agents的核心思想是让一个大语言模型内在地模拟多智能体系统的协作过程。这就像是培养一个全才,让他能够在需要时切换不同的专业角色,而不是真的雇佣多个专家。在这个系统中,模型会动态激活不同的"智能体角色",包括负责高层推理的思考智能体、负责任务分解的规划智能体、负责自我反省的反思智能体,以及各种工具智能体如搜索智能体和代码生成智能体。这种设计既保留了多智能体协作的优势,又避免了传统系统的效率问题。
为了训练这样的模型,研究团队开发了一套创新的训练框架。首先,他们使用多智能体蒸馏技术,这就像是让新手通过观察专家团队的工作流程来学习协作技能。他们记录了先进多智能体系统OAgents的执行过程,将其转换为适合单模型学习的Chain-of-Agents轨迹。这个过程包含了严格的质量筛选机制,确保只有高质量、非平凡的样本被用于训练。
在有监督微调的基础上,研究团队进一步使用了智能体强化学习来优化模型性能。他们设计了巧妙的数据采样策略,专门选择那些真正需要工具协作才能解决的困难问题进行训练。对于网络智能体任务,他们使用了基于大语言模型判断的奖励函数;对于代码智能体任务,则采用了结合答案正确性和格式规范性的复合奖励函数。
研究团队将训练出的模型称为Agent Foundation Models(AFM),并在近20个不同的智能体基准测试中进行了全面评估。结果显示,AFM在各个领域都建立了新的技术水准。在网络智能体任务中,32B参数的AFM在GAIA基准上达到了55.3%的成功率,在BrowseComp上达到11.1%,在HLE上达到18.0%。在代码生成任务中,AFM在LiveCodeBench v5上达到47.9%,在CodeContests上达到32.7%。在数学推理方面,AFM在挑战性的AIME2025基准上达到59.8%的解题率,比之前最好的工具集成推理方法提升了超过10.5%。
更令人印象深刻的是,AFM在保持竞争性能的同时,将推理成本降低了84.6%。这就像是用一个超级专家替代了一整个专家团队,不仅效果不差,成本还大幅降低。研究还发现,AFM具有出色的泛化能力,即使在训练时没有见过某些工具,也能在推理时正确使用它们,这展现了真正的智能体推理能力。
在测试时扩展实验中,AFM展现了优秀的可扩展性。通过简单的"三选一最佳"策略,AFM在GAIA上的性能从55.3%提升到69.9%,在HLE上从18.0%提升到33.2%。这种提升幅度远超其他模型,说明AFM的核心架构更好地支持了测试时的性能优化。
这项研究的意义远不止于技术突破。它为AI智能体的发展指出了一条全新道路:与其不断增加系统复杂度,不如从根本上改变模型的训练方式,让单个模型具备多智能体协作的内在能力。这种方法不仅更加高效,也为未来的智能体应用开辟了更广阔的可能性。
更重要的是,OPPO团队将所有研究成果完全开源,包括模型权重、训练代码、评估代码和训练数据。这种开放的态度为整个AI社区的发展做出了重要贡献,为未来在智能体模型和智能体强化学习方面的研究提供了坚实的起点。
对于普通用户而言,这项研究意味着未来的AI助手将变得更加智能和高效。无论是帮助处理复杂的信息搜索任务,还是协助解决编程和数学问题,这种新型的智能体模型都能提供更好的用户体验。而对于开发者来说,Chain-of-Agents范式提供了一种全新的构建智能应用的方法,既保持了强大的功能,又大大降低了部署成本。
Q&A
Q1:Chain-of-Agents和传统多智能体系统有什么区别?
A:Chain-of-Agents是在单个大语言模型内部模拟多智能体协作,而传统多智能体系统需要多个独立的模型相互通信。这就像一个全才演员扮演多个角色,而不是真的雇佣多个演员。Chain-of-Agents效率更高,成本更低,还能通过训练不断改进。
Q2:Agent Foundation Models在实际应用中表现如何?
A:AFM在多个基准测试中都创造了新纪录。在网络搜索任务上,32B参数的AFM在GAIA基准达到55.3%成功率,在数学推理的AIME2025基准上达到59.8%解题率,比之前最好方法提升了10.5%以上,同时推理成本降低了84.6%。
Q3:这项研究对普通用户和开发者有什么意义?
A:对普通用户来说,未来的AI助手将更智能高效,能更好地处理复杂任务如信息搜索、编程协助等。对开发者而言,Chain-of-Agents提供了构建智能应用的新方法,既保持强大功能又大幅降低部署成本。而且OPPO团队完全开源了所有成果,为AI社区发展做出重要贡献。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。
上海AI实验室团队发现自回归图像生成模型存在局部依赖、语义不一致和空间不变性缺失三大问题,提出ST-AR训练方法。该方法通过掩码注意力、跨步骤对比学习和跨视角对比学习,让AI"先理解再生成"。实验显示,ST-AR将LlamaGen模型的图像理解准确率提升一倍以上,图像生成质量提升42-49%,为构建更智能的多模态AI系统开辟新路径。