微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 马里兰大学等高校联手打造"流水线工厂":AI智能体的考场,终于可以自动生成了

马里兰大学等高校联手打造"流水线工厂":AI智能体的考场,终于可以自动生成了

2026-04-28 17:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-28 17:46 科技行者

这项由马里兰大学、加州大学伯克利分校、加州大学洛杉矶分校以及穆罕默德·本·扎耶德人工智能大学联合开展的研究,以预印本形式于2026年4月20日发布,论文编号为arXiv:2604.18543。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

**考卷从哪里来?这件事比想象中麻烦得多**

每当一位老师需要给学生出一套考卷时,她要做的不只是想几道题那么简单。她需要确保题目有清晰的指令、有充足的背景材料、有合理的评分标准,还要检查答案是否真实可达、题目之间有没有矛盾。这套流程即便对一个有经验的老师来说,也要花上几个小时。

现在,把这位老师的工作换成计算机科学家,把学生换成AI智能体,把考卷换成"任务环境",你就大概能理解这篇论文想解决的是什么问题了。

近年来,以大语言模型(也就是ChatGPT、Claude这类AI)为核心驱动的智能体系统正在快速进入实际应用。这类智能体不再只是回答问题,而是能够主动操作文件系统、调用网络服务接口、发送邮件、管理日程——它们更像是一个能独立完成任务的数字助手。研究者为这类智能体取了一个生动的名字:"爪状智能体"(Claw-like Agents),代表性系统包括OpenClaw、NanoClaw和IronClaw等开源平台。

要训练和测评这类智能体,研究者需要专门搭建"任务环境":告诉智能体要做什么、给它提供哪些工具,以及如何判断它是否做对了。问题在于,每构建一个这样的环境,都需要研究人员手工编写任务说明、搭建模拟服务接口、设计评分逻辑,并逐一检验这些环节有没有互相矛盾。这个过程平均需要两个小时,完全靠人力堆出来的。

更棘手的是,人工构建的考题集一旦发布就变成了固定版本——随着AI能力的飞速提升,旧的考题很快就会变得太简单,甚至被AI在训练数据中"背"出来,失去测评价值。研究者把这个现象叫做"数据污染",就好像考生事先拿到了答案,考试就没有意义了。

这正是ClawEnvKit要解决的核心问题。

**一、一条能自动生产考卷的流水线**

ClawEnvKit的核心思路是把"出考卷"这件事变成一条自动化流水线。给这条流水线一段自然语言描述——比如"生成10道邮件管理任务,难度中等"——它就能自动产出一批可以直接运行的任务环境,整个过程不需要人工介入。

整条流水线分为三个环节,分别扮演不同角色,就像一家出版社里的编辑、排版师和校对员各司其职。

第一个环节叫做"解析器"(Parser)。它的工作是读懂用户的自然语言请求,把里面的意图提炼成结构化的"意图单元"。比如用户说"测试智能体能否安排会议并通知所有参会者",解析器就会识别出三类要素:动作(需要创建日历事件、发送邮件)、对象(参会者名单)、约束(不能删除已有日历事件)。这些意图单元是整个流水线的"设计图纸",确保后续生成的内容不会遗漏用户真正关心的东西。

第二个环节叫做"生成器"(Generator)。它拿着设计图纸,通过三条子流程产出完整的任务环境。主流程"任务生成"负责产出任务说明、工具列表、预置数据和评分规则;"服务生成"负责处理还不存在的模拟服务——如果任务需要调用一个GitHub问题管理接口,而系统里还没有这个服务,生成器会自动设计API、构建模拟服务器、测试后纳入服务库;"数据生成"则负责准备任务需要的配套文件,比如给终端操作任务准备一个数据库文件,给图像识别任务准备一张图片。为了保证生成的任务不会千篇一律,生成器还内置了"多样性控制"机制:每次生成时打乱服务列表的顺序、轮流使用不同的API动作类型、并把最近生成的10个任务名称传给AI以避免重复。

第三个环节叫做"验证器"(Validator)。它扮演严格校对员的角色,在任务被纳入考题库之前回答三个问题:这道题的格式是否合法?它是否覆盖了用户要求的所有意图?它是否真的可以被解答?格式检查包含12项具体规则,比如评分权重之和必须等于1、至少要有一项安全检查、安全规则不能和评分规则互相矛盾。覆盖检查则逐一核对解析器提炼的每个意图单元,确保每个动作都有对应的可调用工具和评分项,每个对象都出现在预置数据或任务说明中,每个约束都被安全规则或评分规则所执行。可解性检查则专门排除"逻辑上无解"的任务,比如要求智能体获取明天的邮件、或者评分标准引用了智能体根本无法访问的信息。如果验证不通过,系统会触发重新生成,最多重试三次。

这三个环节合力,把一段自然语言描述变成一个经过严格验证的任务环境,整个过程无需人工干预,平均耗时是以分钟计,而不是以小时计。

**二、考场如何运转:从题目到成绩单**

有了任务环境之后,需要一套配套的运行机制来让智能体真正"上场考试",并记录它的表现。ClawEnvKit的执行框架分为四个步骤,好像一场考试从发卷到收卷的完整流程。

首先是"沙盒初始化"。每道题都在一个完全隔离的容器里运行,没有外网访问权限,各道题之间互不干扰,就像每位考生坐在独立的小隔间里。模拟服务在容器启动时加载预置数据,并且会随机在25%的API调用上注入错误(返回"429 请求过多"或"500 服务内部错误"),专门测试智能体在遇到网络故障时能否正常恢复。多道题可以同时并行运行,不会产生冲突。

接下来是"智能体接入"。ClawEnvKit支持三种接入方式,对应不同类型的智能体框架。第一种是原生插件方式,针对OpenClaw这类有专属插件接口的智能体。第二种是MCP服务器方式,对应Claude Code、Codex、Cursor、NanoClaw、IronClaw、PicoClaw、ZeroClaw等支持MCP协议的智能体。第三种是SKILL.md方式,系统会生成一份包含所有接口curl调用示例的说明文档,附加在任务提示词末尾,适用于CoPaw、NemoClaw、Hermes等依靠文本提示与工具交互的智能体。无论哪种接入方式,所有工具调用最终都到达同一套模拟服务,并产生完全相同格式的审计日志。

然后是"智能体执行"。智能体在其原生的多轮对话循环中运行——思考、调用工具、观察结果、再思考——直到产出最终答案或达到超时限制(默认300秒)。

最后是"轨迹收集"。系统收集两份材料:一份是服务端审计日志,完整记录了每一次API调用的参数和结果;另一份是智能体的最终文本输出。从服务端日志而非智能体自述来判断行为,是为了防止智能体"嘴上说做了,实际上没做"这种情况蒙混过关。

**三、成绩如何打分:三维度评价体系**

收卷之后的评分环节由一个叫做"评分引擎"的模块负责,它对智能体的行为从三个维度进行打分,就像给一份工作汇报同时评价"有没有出错"、"完成了多少"和"遇到困难时处理得怎么样"。

第一个维度是安全性。这是整个评分体系的"一票否决"项。评分引擎首先检查智能体有没有调用被禁止的工具,有没有在输出中包含被禁止的关键词。一旦触发安全违规,安全分直接归零,整体得分也随之清零,无论任务完成得多好都不例外。

第二个维度是完成度。这是主要得分项,权重占到总分的80%。评分引擎会对照任务的评分规则,逐项检验智能体的行为是否达标。评分规则由15种检验类型构成。其中"审计日志类"检验完全基于事实行为,比如检查智能体是否调用了特定的API动作、调用参数是否正确、调用次数是否达标、调用顺序是否符合要求——这类检验是100%确定性的。"输出内容类"检验关注智能体的文字回答,比如是否提及了必要的关键词、是否避开了禁用词、是否符合最低长度要求。"文件系统类"检验则确认智能体是否在容器里创建了预期的文件、文件哈希值是否匹配、Shell命令的退出码是否正确。还有一类叫做"LLM评判"的检验,由另一个AI(Claude Haiku)对智能体的输出质量按照特定评分标准进行主观评分,返回0到1之间的小数。为了保证客观性,LLM评判的权重上限被锁定在55%(文件类任务为65%),确保大多数分数来自确定性的规则,而不是另一个AI的主观判断。

第三个维度是鲁棒性,权重占总分的20%。它衡量的是智能体在遇到注入的API错误后能否顺利恢复——判定标准是:在触发错误后的接下来五条审计日志记录内,智能体是否重试了同一个操作并成功。如果一次运行中没有触发任何注入错误,鲁棒性得分默认为满分。

最终综合得分的计算公式是:安全性乘以(0.8倍完成度加0.2倍鲁棒性)。

**四、Auto-ClawEval:第一个大规模爪状智能体基准测试集**

基于ClawEnvKit,研究团队构建了两个基准测试集,就像用同一台机器批量生产出标准化的考卷集。

规模较大的Auto-ClawEval共包含1040个任务环境,覆盖24个语义类别,使用15种模拟服务,整个生成过程的API调用费用仅约80美元,使用的是claude-sonnet-4.6模型,耗时约18小时。相比之下,人工构建同等规模的基准集按每题两小时估算需要约2080小时的人力。

规模较小的Auto-ClawEval-Mini则是一个精简版,共104个任务,与另一个人工构建的基准测试集Claw-Eval(由人工精心撰写,同样是104题)形成一对一的对比,专门用来回答"机器生成的考题质量是否能与人工媲美"这个问题。

24个类别的任务分布相当多样。规模最大的类别是金融分析(140题)和运营监控(110题),其次是文档问答(100题)、通讯协作(80题)、生产力管理和跨服务工作流(各70题)、图像文字识别(70题),以及安全关键任务(50题)和终端操作(50题)等。按任务类型划分,约36%是单服务API任务,34%是跨服务协调任务,26%是依赖文件的任务,还有5%是使用真实网络的任务。

**五、生成质量经得起对比吗?**

研究团队从三个维度对比了Auto-ClawEval-Mini和Claw-Eval的质量。

第一个维度是有效性:两者都达到了100%,即所有任务都通过了结构化验证,可以正常运行。

第二个维度是连贯性,衡量任务说明、工具接口和评分标准三者之间有没有逻辑矛盾。Auto-ClawEval-Mini得到0.59分,Claw-Eval得到0.51分。自动生成版本反而更高的原因在于,ClawEnvKit生成的任务格式明确列出了工具列表和评分组件,三者之间的对应关系对AI评判者来说一目了然;而人工构建的Claw-Eval把评分逻辑嵌入了任务专属的程序代码里,AI评判者无法直接审视。

第三个维度是清晰度,在1到5分的量表上衡量任务说明是否足够明确、可操作。Auto-ClawEval-Mini得到3.54分,Claw-Eval得到3.38分。AI生成的提示词在表达一致性和可操作性上略胜一筹。

时间成本对比则更为悬殊:人工构建104题需要约208小时,Auto-ClawEval-Mini只需1.8小时,整整节省了约13800倍的时间。

**六、实验结果揭示了哪些真相**

研究团队用Auto-ClawEval对4个模型家族的8种智能体框架进行了系统评测,得出了六条有实质意义的发现。

关于框架工程的重要性,所有结构化智能体框架都比基础的ReAct智能体循环框架表现更好,最高提升幅度达到15.7个百分点——NemoClaw以69.0分位居第一,而基础框架只有53.3分。从分数分布图来看,基础框架的得分集中在0.4到0.6之间,分布平坦;结构化框架则把更多任务推向接近满分,分布曲线向右移动并在高分区形成更尖锐的峰值。这说明更好的框架不只是让平均分高一点,而是让更多任务被"真正完成"。

关于主要分化维度,在所有模型和框架上,安全性和鲁棒性普遍接近满分(均高于83%),而完成度的范围则从34%到76%不等,差异悬殊。这意味着当前的难点在于"把任务做完",而不是"不造成危害"或"从错误中恢复",也证明Auto-ClawEval还远没有被现有模型饱和。

关于大版本和精简版的一致性,在所有模型和框架上,两个版本的得分差距均在2%以内。这验证了AutoClawEval-Mini可以作为完整版的可靠低成本替代品,也说明ClawEnvKit的生成机制在扩大规模时不会引入系统性偏差。

关于框架层级与性能的关系,第三层框架(SKILL.md+curl方式)中,NemoClaw得69.0分、Hermes得66.9分,反而优于部分第二层MCP框架(ZeroClaw得57.1分、PicoClaw得53.2分)。框架接入的技术层级并不直接决定性能高低,具体实现方式更关键。

关于任务类别难度的多样性,不同类别的难度差异相当显著。类别C16对所有框架来说都是高难度区(得分范围10%到71%),而类别C21和C32则被多数框架轻松解决(超过85%)。虽然不同框架的总体平均分相近,但各自的错误模式差异明显,说明框架之间有真实的能力差异,而非整体水平相当。

关于工具调用次数与性能的关系,工具调用越多并不意味着性能越好。从效率-性能散点图上看,Claude Code和OpenClaw在调用次数相对较少的情况下达到了较高的得分,处于帕累托前沿——这说明高效、精准的工具使用比暴力调用更重要。在模型维度,GPT-5.4表现最为出色,而GPT-5-nano则提供了性价比更高的选择。

**七、评测变成活水:按需生成的考场**

ClawEnvKit最具前瞻性的特性,是它把"静态考场"变成了"活水考场"。

以往的基准测试集一旦发布就成了固定版本:题目不会变,AI系统随着训练数据的积累可能逐渐"背"出答案,评测的区分力也随之下降。更麻烦的是,如果一位用户想测试某个还没被现有基准覆盖的使用场景,唯一的办法是等研究者花几百小时手工构建新一版基准。

ClawEnvKit提供了另一种可能:用户用自然语言描述自己关心的使用场景,系统就能即时生成一批验证过的任务环境。举个具体的例子,一位用户说"我每天的工作是处理GitHub上的新问题:按标签分配优先级、指派合适的团队成员、关闭重复的问题",ClawEnvKit会提议需要哪些服务端点,如果发现关闭问题的接口还不存在,会主动与用户确认,获得同意后就创建这个新服务并纳入服务库,整个过程无需用户编写任何代码。

这种能力带来了两个实质性的变化。在评测侧,测评从"定期发布的固定版本"变成了"持续刷新的活体流程",可以跟上AI能力提升的节奏,也可以响应新兴任务类型和长尾需求。在训练侧,同样的机制可以用来按需生成训练数据,让训练集的任务分布能够针对智能体当前的薄弱环节动态调整,而不是受限于现有用户日志里碰巧记录到的操作类型。

---

说到底,ClawEnvKit做的事情很像把"人工出题"这个瓶颈从AI研究的关键路径上移开了。每一个人工构建的基准集都像是一张精心制作但数量有限的地图,而ClawEnvKit更像是一台能按你的需求随时打印地图的机器——质量不比手工版差,速度快了数千倍,还能根据你的目的地实时更新。

这对普通人意味着什么?直接影响可能感受不到,但间接影响却相当深远。AI智能体越来越多地进入日常工具——邮件助手、日程管理、代码补全、客服机器人。这些系统能不能在真实场景下稳定可靠地运作,很大程度上取决于训练和测评的质量。当构建"练兵场"的成本从几百小时降到几十分钟,研究者就能更快速地发现智能体的盲区、更及时地修复问题,最终流向用户手里的产品也会更可靠。

当然,研究团队自己也坦承这项工作存在明显局限。模拟服务终究不是真实的生产API,它不会有订阅限制引起的速率上限,不会有OAuth认证流程,也不会因为上游服务的更新而悄悄改变响应格式。在模拟环境里表现优秀的智能体,遇到真实API时仍然可能出岔子。此外,当前系统设计的任务都能在20轮工具调用内完成,而真实世界里有些工作流程需要跨越数小时乃至数天,中间还涉及人工审批节点——这类"长周期任务"目前还不在系统的处理范围之内。还有语音交互、图形界面操作、多智能体协作,以及法律、医疗、金融等专业领域的特殊工作流,都是未来需要扩展覆盖的方向。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.18543查阅完整论文,里面包含了解析器和生成器的完整提示词模板、验证器的12条结构化检验规则、15种评分检验类型的详细说明,以及三个典型任务环境的完整示例。

---

Q&A

Q1:ClawEnvKit和普通的AI基准测试集有什么区别?

A:普通的AI基准测试集是人工构建的固定题库,制作耗时、发布后不再更新,AI系统可能随着训练数据积累而"背"出答案,导致评测失效。ClawEnvKit是一条自动化流水线,输入一段自然语言描述就能即时生成经过验证的任务环境,生成速度比人工快约13800倍,质量经实验验证与人工构建持平甚至更优,并且可以随时按需生成新题,不存在"题库过期"的问题。

Q2:Auto-ClawEval测出来的分数代表什么,得分高说明AI什么能力强?

A:Auto-ClawEval的综合得分由三部分构成:安全性、完成度和鲁棒性。目前实验显示,大部分AI系统在安全性和鲁棒性上都接近满分,真正拉开差距的是完成度,范围从34%到76%不等。完成度反映的是智能体在多步骤任务中能否调用正确的工具、传入正确的参数、按正确的顺序完成操作,本质上考察的是"真正把事情做完"的能力,而不只是"说得头头是道"。

Q3:ClawEnvKit生成的模拟服务和真实API有多大差距?

A:ClawEnvKit的模拟服务暴露与真实API完全相同的接口路径、参数格式和响应结构,并且注入了25%的随机错误来模拟网络不稳定。研究团队对1040个任务中高投入低得分的52个案例逐一核查,发现0个是因为评分系统误判导致的"假失分",全部都是真实的智能体操作错误。主要差距在于模拟服务不涉及OAuth认证流程、实时变化的真实数据,以及因订阅级别不同而变化的速率限制,这些因素不影响对核心工具调用能力的评估。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-