
这项由中国人民大学高瓴人工智能学院与字节跳动Seed团队联合完成的研究,于2026年4月发表,论文编号为arXiv:2604.18292。感兴趣的读者可通过该编号在arXiv平台查到完整论文。
**研究概要:AI助手为什么还不够"能干"?**
手机上的语音助手有时候聪明到令人吃惊,但有时候又笨得让人抓狂。你让它帮你订机票,它可能根本不知道要先查库存、再完成预订、然后同步日历——这一连串动作对人来说稀松平常,但对AI来说却是一道复杂的关卡。
问题出在哪里?核心在于训练。现有的AI大模型大多是在静态文本上训练出来的,就像一个从来没进过厨房、只读过无数本菜谱的厨师——理论头头是道,实操一塌糊涂。要让AI真正学会在真实世界里完成多步骤任务,就需要给它一个真实的"练习场",让它反复操作、犯错、纠正,才能真正成长。
然而,这个练习场的搭建本身就是大难题。手工打造一个真实的训练环境成本极高,而且规模有限;用AI自己"凭空想象"出来的虚假环境来训练,又容易出现错误和脱离现实的问题。更棘手的是,就算有了环境,如何让AI持续进步、不断补强自己的弱点,也是一个悬而未决的挑战。
正是针对这两个核心难题,这支来自北京的研究团队提出了一套名为**Agent-World**的系统,试图用一种"自我进化的训练竞技场"来彻底改变AI智能体的培养方式。
---
一、AI的练兵场从哪里来——从真实世界挖掘训练材料
要理解Agent-World解决的问题,可以先想象一个刚入职的新员工。公司要培养他,最好的办法不是让他在脑子里演练各种场景,而是让他直接处理真实的客户、真实的订单、真实的系统——哪怕会犯错,也能从错误中快速学习。对AI智能体来说,道理完全一样。
但问题是,"真实的客户""真实的订单"这些东西不能随便拿来用,数据隐私、访问权限都是障碍。研究团队于是想到了一个巧妙的思路:互联网上已经存在大量公开的、结构化的真实数据,为什么不让AI自己去挖掘这些数据,为自己搭建训练环境?
**三类主题的收集**
一切从"主题"开始。研究团队系统性地从三个渠道采集了数千个环境主题。第一个渠道是Smithery平台上真实的MCP(模型上下文协议)服务器规范——MCP可以理解为一种标准接口,让AI能够连接各种真实的网络服务,比如查天气、管代码、读文件。每一个MCP服务器背后都对应一类真实的业务场景,这些场景天然就是训练AI最好的素材。第二个渠道是开源数据集中散落的真实工具使用场景,研究团队用另一个AI模型反向推导出这些工具背后对应的应用领域。第三个渠道则是各类行业的产品需求文档(PRD)——这类文档专门描述一个系统要做什么、怎么做,包含了大量真实的业务逻辑和操作流程,是非常宝贵的主题来源。
**自动挖掘数据库**
有了主题之后,研究团队并没有让人工去填充数据,而是搭建了一个"深度研究智能体",让它自己去网上搜索、浏览网页、整理数据、生成结构化的数据库文件。这个智能体配备了搜索工具、浏览器、代码编译器和操作系统工具,对于每一个主题,它都会进行多轮迭代的信息检索和数据挖掘。
更有意思的是,团队发现单次挖掘得到的数据往往比较简单、规模偏小,于是引入了一个"数据库复杂化"流程——像滚雪球一样,让智能体一轮轮地扩充和丰富已有数据库,让它越来越接近真实世界的复杂程度。
**自动生成并验证工具**
光有数据库还不够,还需要配套的"工具"——也就是AI可以调用的函数接口,比如"查询订单"、"修改库存"、"创建日历事项"之类。研究团队又搭建了一个"编程智能体",让它根据数据库的结构自动生成这些工具的代码,同时还自动生成对应的测试用例。
随后,团队对生成的工具进行严格的质量筛选:只有能被Python编译器正常编译的、在测试用例上通过率超过50%的工具,才会被保留。经过整个这套自动化流程,最终形成了一个包含**1978个环境**和**19822个工具**的庞大训练生态系统。这1978个环境被整理成了一个三级分类体系:20个一级类别,50个二级类别,以及超过2000个三级细分标签,涵盖从电商、日历、酒店,到代码仓库、金融分析、气象数据等各式各样的真实业务领域。
---
二、怎么给AI出"考题"——可验证任务的自动合成
有了环境和工具,下一步是要给AI出题——也就是合成训练任务。这个环节的核心挑战在于:题目要难、要真实,但必须有标准答案,这样才能给AI打分、告诉它对不对。
研究团队设计了两种互补的出题方式,分别对应不同类型的现实操作逻辑。
**图结构出题法:模拟"按顺序做事"**
第一种方法叫"基于图的任务合成",特别适合那些需要按照特定顺序调用工具的场景。考虑预订航班这件事:你必须先查有没有余票,有了余票才能下单,下完单才能同步日历。这种环环相扣的逻辑,就像一根有方向的箭头链。
研究团队把每个环境里的所有工具都当成图上的节点,不同工具之间的依赖关系用带权重的有向边来表示。两个工具之间的关系分三种:强依赖(A的输出必须作为B的输入,权重最高)、弱依赖(A的输出可以但不是必须用于B)、以及无依赖(两个工具完全独立,仅作为保底连接)。
然后,智能体在这个"工具关系图"上做随机游走,生成一条工具调用序列。有了序列之后,在真实数据库上一步步执行,记录下中间结果和最终答案。再由大语言模型根据执行轨迹反推出一道自然语言描述的题目——题目里特意不能出现工具名称或数据库字段名,AI必须从任务描述中自己判断该用哪些工具、怎么用。
为了保证题目质量,每道题都会让一个ReAct智能体独立解答5次。只有至少2次解出来答案一致的题目才会被保留。这样的筛选确保了题目是有意义的、是可以被解出来的,而不是没有答案的烂题。
难度也是可以调节的:通过增加工具调用链的长度、提高弱依赖和无依赖边的采样概率、以及把题目描述改写得更加抽象,可以逐渐提升解题难度。
**代码出题法:模拟"需要推理和计算"**
第二种方法叫"基于程序的任务合成",针对的是那些不是简单按顺序执行、而是需要条件判断、循环处理、跨数据聚合的复杂操作。比如:"找出所有在某个日期之前下单、且总消费超过500元的用户,按消费金额从高到低排序,列出前十名"——这类问题需要用到循环、条件筛选、排序等程序逻辑。
在这种方法下,大语言模型先生成题目,再用Python代码解题,代码里会直接加载工具实现并运用复杂的控制流。代码执行成功后,得到标准答案。随后,团队还会让模型生成一段专门的"验证脚本",用来判断AI的解题答案是否正确——这段验证代码甚至还会检查数据库的状态是否被正确修改,而不只是看最终输出的文字对不对。
**令人印象深刻的任务规模**
整个训练集的统计数据非常能说明问题。所有合成任务的交互轮次至少有7轮,平均超过20轮,相当一部分任务甚至超过40轮——这意味着每道题都是一个需要长时间连续操作的复杂任务。用当前最强的商业模型Doubao-Seed-2.0-pro在Pass@10(连续解题10次只要有一次通过就算)的标准下测试,大量任务的通过次数只有1次甚至0次,足以说明这些题目的难度是真实且严苛的。
---
三、如何训练AI——带反馈的多环境强化学习
有了真实的环境和验证过的任务,终于可以开始正式训练了。
研究团队采用的训练框架叫"多环境智能体强化学习"。简单来说,这就是一种"做题—得分—调整—再做题"的循环:AI尝试完成任务,系统根据完成质量给它打分,AI根据分数调整自己的决策方式,然后继续做更多题。
**三方协作的闭环**
训练过程中始终有三个组件在协作运行。第一个是AI策略模型,负责根据当前情况和历史交互记录决定下一步该做什么。第二个是工具接口运行时,负责真正执行AI选择调用的工具,管理数据库连接和缓存状态。第三个是数据库状态,作为工具执行的读写基底——有些操作只读取数据,有些操作会真正修改数据库里的内容,AI必须正确追踪这些状态变化。
每一步操作,AI都会产生自然语言推理过程和工具调用指令,工具执行后把结构化的返回结果反馈给AI,AI据此决定下一步行动,直到最终给出答案。
**两种打分方式**
打分方式取决于任务的类型。对于基于图结构生成的任务,系统会按照预先设定的评分标准(Rubric)逐条检查AI的回答,比如某个字段是否存在、数值是否在合理范围内、格式是否符合要求,然后取所有条目的通过率作为最终得分。对于基于代码生成的任务,系统会直接运行验证脚本,在沙箱环境里执行,检查AI的答案和数据库状态是否满足所有约束条件。最终得分是一个0或1的布尔值——要么完全通过,要么不通过。
训练算法使用的是GRPO(组相对策略优化),这是近年来在大模型强化学习领域比较主流的一种方法。对于每道题,系统会让AI生成多个不同的回答轨迹,通过这些轨迹之间的相对得分来估算每个轨迹的优势,再据此更新AI的参数。为了防止AI的行为偏离太远,训练中还加入了KL散度惩罚项,确保新策略不会跑偏。
---
四、AI如何自我进化——动态诊断与定向强化训练
光有一次训练是不够的。Agent-World最有特色的地方,正是它的"自我进化"机制——一个能让AI持续发现自己弱点并针对性补强的闭环系统。
**竞技场的构建**
研究团队从整个环境生态系统中,按照三级分类体系进行分层随机抽样,构建了一个"评估竞技场"。具体做法是:在每个一级类别中随机选取5个环境,合在一起形成竞技场。这样设计的好处是覆盖面广,同时又不会让评估成本失控。
每一轮进化开始时,系统会针对竞技场里的每一个环境,重新合成一批全新的验证任务。注意"全新"二字——每轮的题目都不一样,这样就防止了AI"死记硬背"之前的考题,确保评估反映的是真实的泛化能力。
**自动诊断:找出AI的软肋**
评估完成后,研究团队设计了一个"自动诊断智能体",专门分析AI在哪些地方失败了、为什么失败。这个诊断智能体配备了Python解释器和搜索工具,能够系统性地分析三类信息:每道失败题目的工具调用日志、中间观测结果和验证器反馈;按环境和分类标签统计的错误分布;以及每个环境的工具结构和数据库说明。
诊断的输出结果包含两部分:一是按失败率从高到低排序的"薄弱环境"名单;二是针对每个薄弱环境的"任务生成指导方针",具体描述AI在这个环境里缺失了什么能力——比如某类工具的调用顺序总是出错,或者对数据库状态的追踪总是不准确。
**定向扩充训练数据**
有了诊断结果,系统会针对薄弱环境重新运行任务合成流程,但这次生成任务时会专门把诊断出来的缺陷类型纳入合成指引,生成更多针对性的训练题目。如果诊断发现某个环境的数据库太简单、导致AI没有学到足够复杂的状态管理,系统还会对该环境的数据库进行复杂化扩充。
这样,一轮进化就形成了:评估→诊断→定向数据扩充→继续训练→得到更强的策略→再评估。这个循环会重复多轮,让AI在每一轮里都精准补强自己最弱的地方,而不是漫无目的地刷题。
---
五、实验结果:跑了23个测试,效果怎么样?
研究团队在23个测试基准上对Agent-World训练出来的模型进行了评估,覆盖范围非常广泛,包括真实工具调用能力、通用AI助手能力、软件工程能力、深度信息检索能力,以及一般推理能力。
**核心工具使用基准上的表现**
在三个最核心的智能体工具使用测试上,效果最为直观。MCP-Mark是一个专门测试AI操作真实MCP服务器能力的基准,任务场景涵盖文件操作、GitHub、Notion、PlayWright、Postgres等。BFCL V4是伯克利函数调用排行榜的第四版,专门测试AI调用工具的准确性和多轮对话能力。τ?-Bench则是一个模拟真实客服场景的基准,AI要在零售、电信、航空等领域处理用户的复杂请求。
在这三个基准上,使用了8B参数规模的Agent-World模型(Qwen3-8B骨架)分别达到了8.9%、51.4%和61.8%的得分。14B规模的版本则进一步提升到13.3%、55.8%和65.4%。相比之下,同样基于8B或7B规模的其他环境扩展方法,比如EnvScaler-8B得到的是5.6%、47.6%和37.9%,AWM-8B是2.4%、40.0%和34.4%。更值得关注的是,Agent-World-14B在BFCL V4上的55.8%甚至超越了DeepSeek-V3.2-685B这个千亿参数级别大模型的54.1%——用一个仅有140亿参数的模型打败了480倍体量的模型,这个对比颇能说明问题。
当然,相比于顶级商业模型,Agent-World在某些维度上仍有差距。比如GPT-5.2 High在MCP-Mark上达到53.1%,而Agent-World-14B只有13.3%。这说明MCP类任务还有很大的提升空间。
**更广泛的泛化能力**
在另外17个涵盖更广领域的基准上,Agent-World-8B展现出了全面的迁移能力。在通用推理维度上,它在MATH500、GSM8K、MATH、AIME24、AIME25、KOR-Bench和OlympiadBench这七个数学推理基准上取得了最优或接近最优的表现,而且没有牺牲基础数学能力——这表明智能体训练并没有以损害基础能力为代价。
在需要长时间连续操作的任务上(WebWalkerQA、SWE-bench Verified、SWE-bench多语言、Terminal 1.0、Terminal 2.0、GAIA、HLE),Agent-World-8B也全面超越了对比方法。这些基准涉及网页浏览信息检索、真实GitHub代码库的问题修复、命令行操作等,恰恰是最能体现"真实执行能力"的场景。
在知识和MCP能力测试上,Agent-World-8B在MCP-Universe的五个子领域(金融分析、浏览器自动化、网页搜索、位置导航、代码仓库管理)全面领先,同时在MMLU和SuperGPQA这类知识密集型基准上也保持了持续提升。
在三个高难度AI助手基准(SkillsBench、ARC-AGI-2、ClawEval)上,Agent-World-8B分别取得了9.2%、6.5%和30.5%,14B版本进一步提升到12.6%、8.5%和31.5%,跨尺度的稳定增长表明这套训练方法有着良好的可扩展性。
**环境规模的影响:越多越好,但边际递减**
研究团队还专门分析了训练环境数量对最终效果的影响。他们把训练环境数量从0逐步增加到10、100、500、1000、2000个,观察四个代表性任务的得分变化。
结果显示出明显的正相关关系:从0到100个环境,效果有显著的跳跃式提升;从100到500,仍有较大增益;500到2000,增益逐渐收窄但仍然持续。平均分从18.4%一路升至38.5%,涨幅超过一倍。这种"边际递减但始终正向"的规律,意味着更多的环境多样性几乎总是有帮助的,但早期的扩展带来的收益最为显著。
**自我进化的效果验证**
在两轮自我进化循环之后,Agent-World-14B的τ?-Bench从60.2%提升到65.4%,BFCL-V4从52.4%提升到55.8%,MCP-Mark(Postgres子任务)从29.5%提升到38.1%。增幅最明显的是MCP-Mark,这正好是需要最强状态追踪和复杂交互能力的基准,也是自我进化机制最专注强化的方向。
更值得关注的是,当把同样的两轮自我进化循环应用于EnvScaler-8B这个其他团队的模型时,它同样从37.9%/47.6%/9.5%提升到了41.6%/50.0%/15.1%。这说明自我进化机制的有效性不依赖于特定的初始模型,具有较好的通用性。
**训练过程的稳定性**
从训练曲线来看,8B和14B两个规模的模型在整个训练过程中都展示出稳定上升的奖励分数。与此同时,策略熵(可以理解为AI"探索多样性"的指标)也在缓慢增长,而不是快速下降——这表明AI在学习新能力的过程中并没有变得越来越"保守",而是在不断拓展自己的行动模式。
---
归根结底,Agent-World做的事情可以用一句话概括:它给AI搭了一个自动扩充、自动出题、自动诊断的真实练兵场,让AI在反复操作真实工具、追踪真实状态的过程中,学会那些仅靠读文字永远学不会的"手感"。
这项研究最直接的意义,在于它证明了一条路:通过挖掘互联网上已有的公开数据,可以自动化地构建出规模庞大、内容真实的AI训练环境,而不必依赖昂贵的人工标注或容易出错的纯AI模拟。更进一步,通过让训练环境本身也参与到诊断和进化的循环中,AI可以在不需要人工干预的情况下持续补强自己的弱项。
对于普通用户来说,这意味着未来的AI助手在处理"帮我查一下我的最近几笔订单、找出其中已签收的包裹、确认退款是否到账"这类需要多步操作的真实任务时,会变得越来越靠谱。不过,从目前的实验数据来看,即便是最强的Agent-World模型在MCP这类最复杂的真实工具调用任务上也只有13.3%的得分,离真正的"无缝AI助手"还有相当长的路要走。这项研究提供的,是一套可持续进化的方法论,而不是立竿见影的终极答案。
如果你对这项研究感兴趣,可以通过arXiv编号2604.18292查阅完整论文,或者访问该项目的主页 agent-tars-world.github.io 了解更多细节。
---
Q&A
Q1:Agent-World的自我进化机制和普通的强化学习训练有什么不同?
A:普通的强化学习通常是在固定的训练集上反复训练,而Agent-World的自我进化机制会在每一轮训练结束后,让诊断智能体分析模型在哪些环境上失败、为什么失败,然后专门针对这些薄弱点重新生成新的训练任务,下一轮训练就重点强化这些弱项。每轮的训练数据和评估任务都会动态更新,不是一套题刷到底,而是根据当前能力的短板持续补充有针对性的新题,形成一个不断发现问题、不断补强的闭环。
Q2:Agent-World构建的1978个环境是怎么保证质量的?
A:研究团队引入了多层质量控制。在数据库层面,会经过多轮"复杂化"迭代来确保数据足够丰富。在工具层面,每个自动生成的工具都必须通过Python编译检查,并在自动生成的测试用例上达到50%以上的通过率才会被保留。在任务层面,每道合成题目都会被一个ReAct智能体独立测试5次,至少2次得到一致答案的题目才算通过。这三层筛选确保了进入训练系统的环境、工具和任务都具备基本的可用性和可验证性。
Q3:Agent-World训练出来的模型在数学推理能力上有没有退步?
A:根据论文中的实验数据,在MATH500、GSM8K、MATH、AIME24、AIME25、KOR-Bench和OlympiadBench七个数学推理基准上,Agent-World-8B取得了最优或接近最优的表现,没有出现因为专注工具使用训练而牺牲基础推理能力的情况。这说明在真实多环境中进行强化学习,不但没有损害大模型原有的逻辑推理能力,反而可能通过更复杂的长链推理训练进一步强化了这方面的能力。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。