微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中国人民大学与字节跳动联手打造"AI训练场"：让智能体在真实世界中自我进化

智能体训练强化学习自我进化框架

中国人民大学与字节跳动联手打造"AI训练场"：让智能体在真实世界中自我进化

作者：科技行者

2026-04-29 09:47

分享至：

这项由中国人民大学与字节跳动Seed团队联合完成的研究（arXiv:2604.18292，2026年4月）提出了Agent-World系统，通过自动挖掘真实网络数据搭建包含1978个环境和19822个工具的训练生态，结合图结构与代码两种任务合成方法生成可验证训练题目，并引入"评估→诊断→定向扩充→继续训练"的自我进化闭环，让AI智能体能持续补强弱项。在23个测试基准上，Agent-World-8B和14B全面超越同规模环境扩展方法，14B版本在工具调用能力上甚至超越了参数量大数十倍的开源大模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 09:47 • 科技行者

这项由中国人民大学高瓴人工智能学院与字节跳动Seed团队联合完成的研究，于2026年4月发表，论文编号为arXiv:2604.18292。感兴趣的读者可通过该编号在arXiv平台查到完整论文。

**研究概要：AI助手为什么还不够"能干"？**

手机上的语音助手有时候聪明到令人吃惊，但有时候又笨得让人抓狂。你让它帮你订机票，它可能根本不知道要先查库存、再完成预订、然后同步日历——这一连串动作对人来说稀松平常，但对AI来说却是一道复杂的关卡。

问题出在哪里？核心在于训练。现有的AI大模型大多是在静态文本上训练出来的，就像一个从来没进过厨房、只读过无数本菜谱的厨师——理论头头是道，实操一塌糊涂。要让AI真正学会在真实世界里完成多步骤任务，就需要给它一个真实的"练习场"，让它反复操作、犯错、纠正，才能真正成长。

然而，这个练习场的搭建本身就是大难题。手工打造一个真实的训练环境成本极高，而且规模有限；用AI自己"凭空想象"出来的虚假环境来训练，又容易出现错误和脱离现实的问题。更棘手的是，就算有了环境，如何让AI持续进步、不断补强自己的弱点，也是一个悬而未决的挑战。

正是针对这两个核心难题，这支来自北京的研究团队提出了一套名为**Agent-World**的系统，试图用一种"自我进化的训练竞技场"来彻底改变AI智能体的培养方式。

---

一、AI的练兵场从哪里来——从真实世界挖掘训练材料

要理解Agent-World解决的问题，可以先想象一个刚入职的新员工。公司要培养他，最好的办法不是让他在脑子里演练各种场景，而是让他直接处理真实的客户、真实的订单、真实的系统——哪怕会犯错，也能从错误中快速学习。对AI智能体来说，道理完全一样。

但问题是，"真实的客户""真实的订单"这些东西不能随便拿来用，数据隐私、访问权限都是障碍。研究团队于是想到了一个巧妙的思路：互联网上已经存在大量公开的、结构化的真实数据，为什么不让AI自己去挖掘这些数据，为自己搭建训练环境？

**三类主题的收集**

一切从"主题"开始。研究团队系统性地从三个渠道采集了数千个环境主题。第一个渠道是Smithery平台上真实的MCP（模型上下文协议）服务器规范——MCP可以理解为一种标准接口，让AI能够连接各种真实的网络服务，比如查天气、管代码、读文件。每一个MCP服务器背后都对应一类真实的业务场景，这些场景天然就是训练AI最好的素材。第二个渠道是开源数据集中散落的真实工具使用场景，研究团队用另一个AI模型反向推导出这些工具背后对应的应用领域。第三个渠道则是各类行业的产品需求文档（PRD）——这类文档专门描述一个系统要做什么、怎么做，包含了大量真实的业务逻辑和操作流程，是非常宝贵的主题来源。

**自动挖掘数据库**

有了主题之后，研究团队并没有让人工去填充数据，而是搭建了一个"深度研究智能体"，让它自己去网上搜索、浏览网页、整理数据、生成结构化的数据库文件。这个智能体配备了搜索工具、浏览器、代码编译器和操作系统工具，对于每一个主题，它都会进行多轮迭代的信息检索和数据挖掘。

更有意思的是，团队发现单次挖掘得到的数据往往比较简单、规模偏小，于是引入了一个"数据库复杂化"流程——像滚雪球一样，让智能体一轮轮地扩充和丰富已有数据库，让它越来越接近真实世界的复杂程度。

**自动生成并验证工具**

光有数据库还不够，还需要配套的"工具"——也就是AI可以调用的函数接口，比如"查询订单"、"修改库存"、"创建日历事项"之类。研究团队又搭建了一个"编程智能体"，让它根据数据库的结构自动生成这些工具的代码，同时还自动生成对应的测试用例。

随后，团队对生成的工具进行严格的质量筛选：只有能被Python编译器正常编译的、在测试用例上通过率超过50%的工具，才会被保留。经过整个这套自动化流程，最终形成了一个包含**1978个环境**和**19822个工具**的庞大训练生态系统。这1978个环境被整理成了一个三级分类体系：20个一级类别，50个二级类别，以及超过2000个三级细分标签，涵盖从电商、日历、酒店，到代码仓库、金融分析、气象数据等各式各样的真实业务领域。

---

二、怎么给AI出"考题"——可验证任务的自动合成

有了环境和工具，下一步是要给AI出题——也就是合成训练任务。这个环节的核心挑战在于：题目要难、要真实，但必须有标准答案，这样才能给AI打分、告诉它对不对。

研究团队设计了两种互补的出题方式，分别对应不同类型的现实操作逻辑。

**图结构出题法：模拟"按顺序做事"**

第一种方法叫"基于图的任务合成"，特别适合那些需要按照特定顺序调用工具的场景。考虑预订航班这件事：你必须先查有没有余票，有了余票才能下单，下完单才能同步日历。这种环环相扣的逻辑，就像一根有方向的箭头链。

研究团队把每个环境里的所有工具都当成图上的节点，不同工具之间的依赖关系用带权重的有向边来表示。两个工具之间的关系分三种：强依赖（A的输出必须作为B的输入，权重最高）、弱依赖（A的输出可以但不是必须用于B）、以及无依赖（两个工具完全独立，仅作为保底连接）。

然后，智能体在这个"工具关系图"上做随机游走，生成一条工具调用序列。有了序列之后，在真实数据库上一步步执行，记录下中间结果和最终答案。再由大语言模型根据执行轨迹反推出一道自然语言描述的题目——题目里特意不能出现工具名称或数据库字段名，AI必须从任务描述中自己判断该用哪些工具、怎么用。

为了保证题目质量，每道题都会让一个ReAct智能体独立解答5次。只有至少2次解出来答案一致的题目才会被保留。这样的筛选确保了题目是有意义的、是可以被解出来的，而不是没有答案的烂题。

难度也是可以调节的：通过增加工具调用链的长度、提高弱依赖和无依赖边的采样概率、以及把题目描述改写得更加抽象，可以逐渐提升解题难度。

**代码出题法：模拟"需要推理和计算"**

第二种方法叫"基于程序的任务合成"，针对的是那些不是简单按顺序执行、而是需要条件判断、循环处理、跨数据聚合的复杂操作。比如："找出所有在某个日期之前下单、且总消费超过500元的用户，按消费金额从高到低排序，列出前十名"——这类问题需要用到循环、条件筛选、排序等程序逻辑。

在这种方法下，大语言模型先生成题目，再用Python代码解题，代码里会直接加载工具实现并运用复杂的控制流。代码执行成功后，得到标准答案。随后，团队还会让模型生成一段专门的"验证脚本"，用来判断AI的解题答案是否正确——这段验证代码甚至还会检查数据库的状态是否被正确修改，而不只是看最终输出的文字对不对。

**令人印象深刻的任务规模**

整个训练集的统计数据非常能说明问题。所有合成任务的交互轮次至少有7轮，平均超过20轮，相当一部分任务甚至超过40轮——这意味着每道题都是一个需要长时间连续操作的复杂任务。用当前最强的商业模型Doubao-Seed-2.0-pro在Pass@10（连续解题10次只要有一次通过就算）的标准下测试，大量任务的通过次数只有1次甚至0次，足以说明这些题目的难度是真实且严苛的。

---

三、如何训练AI——带反馈的多环境强化学习

有了真实的环境和验证过的任务，终于可以开始正式训练了。

研究团队采用的训练框架叫"多环境智能体强化学习"。简单来说，这就是一种"做题—得分—调整—再做题"的循环：AI尝试完成任务，系统根据完成质量给它打分，AI根据分数调整自己的决策方式，然后继续做更多题。

**三方协作的闭环**

训练过程中始终有三个组件在协作运行。第一个是AI策略模型，负责根据当前情况和历史交互记录决定下一步该做什么。第二个是工具接口运行时，负责真正执行AI选择调用的工具，管理数据库连接和缓存状态。第三个是数据库状态，作为工具执行的读写基底——有些操作只读取数据，有些操作会真正修改数据库里的内容，AI必须正确追踪这些状态变化。

每一步操作，AI都会产生自然语言推理过程和工具调用指令，工具执行后把结构化的返回结果反馈给AI，AI据此决定下一步行动，直到最终给出答案。

**两种打分方式**

打分方式取决于任务的类型。对于基于图结构生成的任务，系统会按照预先设定的评分标准（Rubric）逐条检查AI的回答，比如某个字段是否存在、数值是否在合理范围内、格式是否符合要求，然后取所有条目的通过率作为最终得分。对于基于代码生成的任务，系统会直接运行验证脚本，在沙箱环境里执行，检查AI的答案和数据库状态是否满足所有约束条件。最终得分是一个0或1的布尔值——要么完全通过，要么不通过。

训练算法使用的是GRPO（组相对策略优化），这是近年来在大模型强化学习领域比较主流的一种方法。对于每道题，系统会让AI生成多个不同的回答轨迹，通过这些轨迹之间的相对得分来估算每个轨迹的优势，再据此更新AI的参数。为了防止AI的行为偏离太远，训练中还加入了KL散度惩罚项，确保新策略不会跑偏。

---

四、AI如何自我进化——动态诊断与定向强化训练

光有一次训练是不够的。Agent-World最有特色的地方，正是它的"自我进化"机制——一个能让AI持续发现自己弱点并针对性补强的闭环系统。

**竞技场的构建**

研究团队从整个环境生态系统中，按照三级分类体系进行分层随机抽样，构建了一个"评估竞技场"。具体做法是：在每个一级类别中随机选取5个环境，合在一起形成竞技场。这样设计的好处是覆盖面广，同时又不会让评估成本失控。

每一轮进化开始时，系统会针对竞技场里的每一个环境，重新合成一批全新的验证任务。注意"全新"二字——每轮的题目都不一样，这样就防止了AI"死记硬背"之前的考题，确保评估反映的是真实的泛化能力。

**自动诊断：找出AI的软肋**

评估完成后，研究团队设计了一个"自动诊断智能体"，专门分析AI在哪些地方失败了、为什么失败。这个诊断智能体配备了Python解释器和搜索工具，能够系统性地分析三类信息：每道失败题目的工具调用日志、中间观测结果和验证器反馈；按环境和分类标签统计的错误分布；以及每个环境的工具结构和数据库说明。

诊断的输出结果包含两部分：一是按失败率从高到低排序的"薄弱环境"名单；二是针对每个薄弱环境的"任务生成指导方针"，具体描述AI在这个环境里缺失了什么能力——比如某类工具的调用顺序总是出错，或者对数据库状态的追踪总是不准确。

**定向扩充训练数据**

有了诊断结果，系统会针对薄弱环境重新运行任务合成流程，但这次生成任务时会专门把诊断出来的缺陷类型纳入合成指引，生成更多针对性的训练题目。如果诊断发现某个环境的数据库太简单、导致AI没有学到足够复杂的状态管理，系统还会对该环境的数据库进行复杂化扩充。

这样，一轮进化就形成了：评估→诊断→定向数据扩充→继续训练→得到更强的策略→再评估。这个循环会重复多轮，让AI在每一轮里都精准补强自己最弱的地方，而不是漫无目的地刷题。

---

五、实验结果：跑了23个测试，效果怎么样？

研究团队在23个测试基准上对Agent-World训练出来的模型进行了评估，覆盖范围非常广泛，包括真实工具调用能力、通用AI助手能力、软件工程能力、深度信息检索能力，以及一般推理能力。

**核心工具使用基准上的表现**

在三个最核心的智能体工具使用测试上，效果最为直观。MCP-Mark是一个专门测试AI操作真实MCP服务器能力的基准，任务场景涵盖文件操作、GitHub、Notion、PlayWright、Postgres等。BFCL V4是伯克利函数调用排行榜的第四版，专门测试AI调用工具的准确性和多轮对话能力。τ?-Bench则是一个模拟真实客服场景的基准，AI要在零售、电信、航空等领域处理用户的复杂请求。

在这三个基准上，使用了8B参数规模的Agent-World模型（Qwen3-8B骨架）分别达到了8.9%、51.4%和61.8%的得分。14B规模的版本则进一步提升到13.3%、55.8%和65.4%。相比之下，同样基于8B或7B规模的其他环境扩展方法，比如EnvScaler-8B得到的是5.6%、47.6%和37.9%，AWM-8B是2.4%、40.0%和34.4%。更值得关注的是，Agent-World-14B在BFCL V4上的55.8%甚至超越了DeepSeek-V3.2-685B这个千亿参数级别大模型的54.1%——用一个仅有140亿参数的模型打败了480倍体量的模型，这个对比颇能说明问题。

当然，相比于顶级商业模型，Agent-World在某些维度上仍有差距。比如GPT-5.2 High在MCP-Mark上达到53.1%，而Agent-World-14B只有13.3%。这说明MCP类任务还有很大的提升空间。

**更广泛的泛化能力**

在另外17个涵盖更广领域的基准上，Agent-World-8B展现出了全面的迁移能力。在通用推理维度上，它在MATH500、GSM8K、MATH、AIME24、AIME25、KOR-Bench和OlympiadBench这七个数学推理基准上取得了最优或接近最优的表现，而且没有牺牲基础数学能力——这表明智能体训练并没有以损害基础能力为代价。

在需要长时间连续操作的任务上（WebWalkerQA、SWE-bench Verified、SWE-bench多语言、Terminal 1.0、Terminal 2.0、GAIA、HLE），Agent-World-8B也全面超越了对比方法。这些基准涉及网页浏览信息检索、真实GitHub代码库的问题修复、命令行操作等，恰恰是最能体现"真实执行能力"的场景。

在知识和MCP能力测试上，Agent-World-8B在MCP-Universe的五个子领域（金融分析、浏览器自动化、网页搜索、位置导航、代码仓库管理）全面领先，同时在MMLU和SuperGPQA这类知识密集型基准上也保持了持续提升。

在三个高难度AI助手基准（SkillsBench、ARC-AGI-2、ClawEval）上，Agent-World-8B分别取得了9.2%、6.5%和30.5%，14B版本进一步提升到12.6%、8.5%和31.5%，跨尺度的稳定增长表明这套训练方法有着良好的可扩展性。

**环境规模的影响：越多越好，但边际递减**

研究团队还专门分析了训练环境数量对最终效果的影响。他们把训练环境数量从0逐步增加到10、100、500、1000、2000个，观察四个代表性任务的得分变化。

结果显示出明显的正相关关系：从0到100个环境，效果有显著的跳跃式提升；从100到500，仍有较大增益；500到2000，增益逐渐收窄但仍然持续。平均分从18.4%一路升至38.5%，涨幅超过一倍。这种"边际递减但始终正向"的规律，意味着更多的环境多样性几乎总是有帮助的，但早期的扩展带来的收益最为显著。

**自我进化的效果验证**

在两轮自我进化循环之后，Agent-World-14B的τ?-Bench从60.2%提升到65.4%，BFCL-V4从52.4%提升到55.8%，MCP-Mark（Postgres子任务）从29.5%提升到38.1%。增幅最明显的是MCP-Mark，这正好是需要最强状态追踪和复杂交互能力的基准，也是自我进化机制最专注强化的方向。

更值得关注的是，当把同样的两轮自我进化循环应用于EnvScaler-8B这个其他团队的模型时，它同样从37.9%/47.6%/9.5%提升到了41.6%/50.0%/15.1%。这说明自我进化机制的有效性不依赖于特定的初始模型，具有较好的通用性。

**训练过程的稳定性**

从训练曲线来看，8B和14B两个规模的模型在整个训练过程中都展示出稳定上升的奖励分数。与此同时，策略熵（可以理解为AI"探索多样性"的指标）也在缓慢增长，而不是快速下降——这表明AI在学习新能力的过程中并没有变得越来越"保守"，而是在不断拓展自己的行动模式。

---

归根结底，Agent-World做的事情可以用一句话概括：它给AI搭了一个自动扩充、自动出题、自动诊断的真实练兵场，让AI在反复操作真实工具、追踪真实状态的过程中，学会那些仅靠读文字永远学不会的"手感"。

这项研究最直接的意义，在于它证明了一条路：通过挖掘互联网上已有的公开数据，可以自动化地构建出规模庞大、内容真实的AI训练环境，而不必依赖昂贵的人工标注或容易出错的纯AI模拟。更进一步，通过让训练环境本身也参与到诊断和进化的循环中，AI可以在不需要人工干预的情况下持续补强自己的弱项。

对于普通用户来说，这意味着未来的AI助手在处理"帮我查一下我的最近几笔订单、找出其中已签收的包裹、确认退款是否到账"这类需要多步操作的真实任务时，会变得越来越靠谱。不过，从目前的实验数据来看，即便是最强的Agent-World模型在MCP这类最复杂的真实工具调用任务上也只有13.3%的得分，离真正的"无缝AI助手"还有相当长的路要走。这项研究提供的，是一套可持续进化的方法论，而不是立竿见影的终极答案。

如果你对这项研究感兴趣，可以通过arXiv编号2604.18292查阅完整论文，或者访问该项目的主页 agent-tars-world.github.io 了解更多细节。

---

Q&A

Q1：Agent-World的自我进化机制和普通的强化学习训练有什么不同？

A：普通的强化学习通常是在固定的训练集上反复训练，而Agent-World的自我进化机制会在每一轮训练结束后，让诊断智能体分析模型在哪些环境上失败、为什么失败，然后专门针对这些薄弱点重新生成新的训练任务，下一轮训练就重点强化这些弱项。每轮的训练数据和评估任务都会动态更新，不是一套题刷到底，而是根据当前能力的短板持续补充有针对性的新题，形成一个不断发现问题、不断补强的闭环。

Q2：Agent-World构建的1978个环境是怎么保证质量的？

A：研究团队引入了多层质量控制。在数据库层面，会经过多轮"复杂化"迭代来确保数据足够丰富。在工具层面，每个自动生成的工具都必须通过Python编译检查，并在自动生成的测试用例上达到50%以上的通过率才会被保留。在任务层面，每道合成题目都会被一个ReAct智能体独立测试5次，至少2次得到一致答案的题目才算通过。这三层筛选确保了进入训练系统的环境、工具和任务都具备基本的可用性和可验证性。

Q3：Agent-World训练出来的模型在数学推理能力上有没有退步？

A：根据论文中的实验数据，在MATH500、GSM8K、MATH、AIME24、AIME25、KOR-Bench和OlympiadBench七个数学推理基准上，Agent-World-8B取得了最优或接近最优的表现，没有出现因为专注工具使用训练而牺牲基础推理能力的情况。这说明在真实多环境中进行强化学习，不但没有损害大模型原有的逻辑推理能力，反而可能通过更复杂的长链推理训练进一步强化了这方面的能力。

智能体训练强化学习自我进化框架

分享至