微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

新加坡国立大学联合多所顶尖高校：给AI"同事"出一份真正考验它的多天工作测试卷

AI智能体评测多模态推理动态环境适应

新加坡国立大学联合多所顶尖高校：给AI"同事"出一份真正考验它的多天工作测试卷

作者：科技行者

2026-05-05 11:36

分享至：

ClawMark是由新加坡国立大学等二十余所高校及Evolvent AI联合开发的AI测试基准，于2026年4月发布（arXiv:2604.23781）。它专门评估AI在多天工作场景中的表现，包含100道题、13种职业场景和1537个确定性检查点。测试环境会在AI不知情的情况下发生变化，要求AI处理真实的图片、音频、视频等多模态证据，并将结果写入真实运行的邮件、日历等服务。当前最强模型加权分数75.8，但完整任务成功率仅20%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 11:36 • 科技行者

这项研究由新加坡国立大学联合麻省理工学院、香港大学、加州大学伯克利分校、华盛顿大学等二十余所高校及Evolvent AI共同完成，论文于2026年4月26日发布于arXiv预印本平台，论文编号为arXiv:2604.23781。

假设你刚刚入职一家公司，你的新同事是一个AI助手。第一天，它帮你整理了文件、回复了邮件，表现得相当不错。但第二天早上，老板临时取消了一个重要会议，仓库的传感器发来了一份新的数据报告，与此同时还有一段监控视频需要你分析——而这个AI助手，却依然在用昨天的信息办事，完全没有注意到这些变化。这样的AI，你敢放心用吗？

这正是当前AI研究领域面临的一个关键缺口：我们已经有了很多测试AI能力的"考卷"，但这些考卷大多只考察AI在某一时刻做一件事的能力，就像只看期末考试，却从不考察这个学生能不能在整个学期里持续跟上老师的节奏、处理每天不断变化的新情况。现实中的工作，恰恰是这样的：事情每天都在变化，信息来自各种渠道，照片、录音、PDF文件、表格，什么都有。

为了填补这个空白，来自上述多所高校的研究团队设计了一套名为ClawMark的全新测试系统，专门用来评估AI能否真正胜任"持续多天的工作伙伴"这一角色。

一、现有的考卷为什么不够用

在深入了解ClawMark之前，先来理解一下这份新考卷究竟在弥补什么。

现有的AI测试系统，大多可以用"快照考试"来形容。它们把AI放进一个固定的场景里，给它一个任务，让它完成，然后打分。这就像把一名外科医生关进手术室，给他一台手术操作，看他做得对不对——却从不考察他在整个治疗周期里能不能根据病人每天变化的状况调整方案。

研究团队把这个问题归纳为三个层面。第一个层面是时间问题：现有测试都在一个时间点内完成，而真实的工作是跨越多天的，每天都可能有新的信息进来。第二个层面是环境问题：在现有测试里，环境变化要么不存在，要么只是由AI自己的行动引起的——可现实中，世界是独立运转的，邮件会自己到来，日历会被别人修改，文件内容会在你不知情的情况下更新。第三个层面是信息来源的问题：大多数测试只看文字，而真实工作中的信息来自照片、扫描件、录音、视频，各种形式都有。

正因如此，ClawMark的设计目标就是同时解决这三个问题，创造一个"活的世界"来测试AI同事的真实能力。

二、ClawMark到底是什么

ClawMark的核心设定，可以用一个办公室情景剧来描述。每一道测试题，都是一个跨越多个工作日的真实工作流程。AI每天早上会收到一条"起床提示"，告诉它今天需要处理什么。与此同时，测试系统会在AI不注意的时候悄悄改变一些信息——有时是在提示里明确告知（比如"今天收到了一封新邮件"），有时则是静默地修改了某个表格或文件，完全不通知AI。

AI要完成工作，必须主动去刷新自己掌握的信息，而不是凭着对昨天的记忆继续行动。这就像一名真正的员工，每天到公司第一件事是看一眼有没有新邮件、确认一下项目进展，而不是闷头按昨天的计划继续干。

整个测试系统运行在五个真实的办公服务上：一个文件系统（类似电脑上的文件夹）、一套邮件系统（采用GreenMail服务器模拟真实的SMTP/IMAP邮件收发）、一个日历系统（使用Radicale CalDAV服务器）、一个知识库（与Notion格式兼容）、以及一张电子表格（与Google Sheets格式兼容）。这五个系统都是真实运行在隔离的Docker容器里的，不是静态的文字模拟，而是真实会改变状态的服务。

当前版本的ClawMark包含100道测试题，覆盖13种职业场景，包括临床助理、内容运营、电商运营、电子设计自动化、行政助理、人力资源、保险理赔、投资分析、新闻报道、法律助理、项目管理、房地产和科研助理。这些场景中，每道题平均有3.6个工作日，最少2天最多6天，平均需要通过15.4个检查点来评分，检查点最少6个最多29个。全部100道题共配备了1537个判分检查器，其中55个属于"红线约束"（即某些绝对不能做的事情）。

值得特别一提的是，ClawMark的评分完全依靠确定性的Python代码函数来完成，每个检查点都是一段程序代码，直接检查AI在测试结束后在各个服务里留下了什么状态。整个评分过程中，不调用任何AI来判断AI的好坏，避免了"用AI打AI分数"可能带来的不稳定性和主观性。

三、如何衡量AI的表现

ClawMark同时使用两种不同的评分方式，它们回答的是两个不同的问题。

第一种叫做"加权分数"，是一种连续的评分，衡量AI在整个任务里完成了多少比例的检查点，每个检查点有1到2不等的权重。这种分数能反映AI的"部分完成度"——就像考试卷子，即使没有全对，也能拿到一部分分数。

第二种叫做"任务成功率"，是一种非此即彼的评分，只要任务里有任何一个检查点没通过，整道题就算失败。这种标准更贴近真实工作场景——你帮公司完成了一份合同审核，如果漏掉了某个关键条款，那就是没完成，没有"80分算过关"这回事。

还有一类特殊的"红线检查点"，对应的是某些在专业工作中绝对不能做的事，分为四类：过早做出决定（比如在证据到来之前就批准了一份理赔）、绕过合规流程、泄露数据、以及不可逆的写入操作。这些红线检查点在加权分数体系里有较高权重，一旦触发，会显著拉低整体分数。

四、考题是怎么出的

出这套题目本身就是一件很有挑战性的工作。研究团队设计了一个四阶段的流程。

一切从"任务设计"开始。每道题先由作者写好一个任务文件，明确说明每天的提示语是什么、会有哪些明显通知的变化、会有哪些静默的变化，以及评分的检查点清单。这个顺序非常重要：先想好任务，再去找或者制作对应的证据材料，而不是先有一堆材料再想任务——这样才能保证每一个证据都有对应的检查点，不会出现"这段录音放在这里但没有人检验AI有没有听出关键信息"的情况。

接下来是"证据制作"阶段。每道题需要的证据材料通过三种途径获得：从网上收集真实领域的公开文件（比如保险合同PDF、政府公告）；现场拍摄或录制真实的音频、视频、照片；以及通过AI工具针对性地合成（比如用Nano-Banana生成特定内容的图片，或者用程序生成表格数据）。

然后是反复的"审核循环"，每道题需要经过3到5轮审核。审核分为两种：一种是静态审核，检查每个非文字材料是不是足够真实、评分检查点有没有可以靠"表面关键词"投机取巧通过的漏洞、题目要求和检查点是不是一一对应。另一种是动态审核，让两个参考AI模型把整道题从头到尾跑一遍，再请一个独立的AI审阅两者的完整执行记录，找出静态审核发现不了的设计缺陷，比如题目表述模糊、材料更新和检查点之间的时序冲突等。

最后是"发布门槛"：只有同时满足四个条件的题目才能进入最终测试集——所有非文字材料经过人工确认、三项AI辅助审核全部通过、独立AI审阅在两个参考模型的轨迹上均未发现设计缺陷、以及在两次独立运行中所有检查点的判决结果完全一致。最后这一条，是"完全不依赖AI打分"这个承诺背后的技术保障。

五、七大AI模型的实测成绩

研究团队对七个前沿AI系统进行了完整测试：商业模型包括Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.4（高算力版）、Gemini 3.1 Pro Preview和Qwen 3.6 Plus，开源模型包括Kimi K2.5和Kimi K2.6。所有模型都在同一个框架（OpenClaw）下运行，使用相同的工具接口，不做任何针对某个模型的特殊提示优化。

按照加权分数排名，Claude Sonnet 4.6以75.8分领跑，紧接着是Claude Opus 4.6的74.6分和GPT-5.4的72.0分。这三者之间的差距很小，只有3.8分，研究团队也明确指出，由于每个模型只跑了一次完整测试，这个差距内的排名要谨慎看待。

然而切换到"任务成功率"这个更严苛的标准后，排名发生了有趣的变化：Claude Opus 4.6以20.0%的完整任务成功率排名第一，Sonnet 4.6是14.0%，GPT-5.4是9.0%，Gemini 3.1 Pro是8.0%，Kimi K2.6是7.0%，Qwen 3.6 Plus是5.0%，而Kimi K2.5的完整任务成功率竟然是0.0%，一道题都没有完整做对。

这组数据揭示了一个深刻的现象：所有模型都能在大多数任务上做出部分正确的工作，但要做到一道多天工作流程题从头到尾一个检查点都不漏，对当前所有AI来说都极具挑战性。最难的职业场景是项目管理，七个模型的平均加权分数只有约35.1，没有一个模型超过44分。

在不同职业场景的表现上，没有任何一个模型能在所有场景称霸，最佳成绩分布在四个不同模型身上。Sonnet 4.6在临床助理、电商、人力资源、法律助理和科研助理上表现最好；Opus 4.6在内容运营、保险、新闻、项目管理和房地产上领先；GPT-5.4在行政助理场景最强；Gemini 3.1 Pro在投资分析场景表现最佳。

在工具效率这一维度上，研究团队把"每千次工具调用对应的加权分数"作为一个行动效率的代理指标。Sonnet 4.6以13.2分每千次工具调用领先，Opus 4.6为12.2，Kimi K2.5为11.7，Gemini为11.6，Kimi K2.6为11.3，GPT-5.4为10.2，Qwen 3.6 Plus最低为9.3。排名前两位的模型既是分数最高的，也是工具调用效率最高的，说明在这个测试里，分数高和效率高是同向关系，而不是用更多工具调用换来的。

六、环境突变是最大的拦路虎

研究团队对73道恰好有三个工作日的题目进行了逐日轨迹分析，这是整篇论文里最能说明问题的一组发现。

第一天（也就是任务刚开始、还没有任何环境静默突变的那天），各个模型的表现相对不错。Sonnet 4.6达到83.1分，Opus 4.6达到80.6分，GPT-5.4达到76.6分。

第二天，第一次外部环境静默突变到来了。几乎所有模型的分数都应声下落，就像一个学生突然发现老师悄悄改了考题。跌幅最大的是Opus 4.6，从80.6跌到69.0，下降了11.5分；Sonnet 4.6从83.1跌到72.6，下降了10.5分；Kimi K2.6从75.4跌到65.8，下降了9.6分；GPT-5.4从76.6跌到68.9，下降了7.7分；Kimi K2.5从57.2跌到51.2，下降了6.0分。Gemini 3.1 Pro只小幅下滑了1.8分，表现相对稳健。唯一例外的是Qwen 3.6 Plus，从56.7微升到57.9，成为七个模型里唯一一个在第二天有所进步的。

第三天，各模型都有不同程度的恢复，但大多数仍然低于第一天的水平。Sonnet 4.6、GPT-5.4和Kimi K2.6分别回升了1.6分、1.3分和1.6分，Kimi K2.5的回升幅度最大，达到3.7分。即便如此，六个模型在第三天的成绩仍然低于第一天，只有Qwen 3.6 Plus基本回到了第一天的水平。

这个发现直接说明了问题所在：当前的AI在环境没有变化时能做得还不错，但一旦有外部因素悄无声息地改变了工作环境，它们就会出现明显的适应困难，而且往往无法在后续的工作日里完全恢复。

七、最常见的错误类型

研究团队把七个模型在100道题上的10759次检查点判决汇总起来，共识别出3404次失败，整体失败率为31.6%。把这些失败按类型归类，结果非常清楚地指向了两个核心弱点。

失败率最高的是"静默变化未被检测"，达到56.5%——也就是说，当测试系统悄悄修改了某个文件或数据而没有告知AI时，AI在超过一半的情况下没有察觉到这个变化。其次是"后台写入失败"，失败率53.6%——AI可能想清楚了该怎么做，但没有把结果正确地写回到对应的服务里（比如应该更新知识库里的条目但没有更新，或者应该发一封邮件但没发）。这两类失败率都几乎是整体平均失败率的两倍，构成了ClawMark测试中最核心的两大挑战。

其他类型的失败率则更接近整体平均：跨来源信息一致性失败34.0%，可交付成果正确性失败31.4%，证据提取失败23.6%，合规约束失败21.5%，红线违规失败7.1%。

红线违规的失败率虽然只有7.1%，但涉及的场景相当集中：26次违规分布在13道题和23个（题目、模型）组合里。其中最触目惊心的是pm_task2这道题——七个模型全部触犯了至少一条红线，这说明即便整体加权分数看起来不低，也不意味着AI在合规敏感的场景里是安全的。

在红线的具体子类型上，"绕过合规流程"是最难规避的，失败率10.4%；其次是"数据泄露"8.6%；"过早做决定"6.1%；"不可逆写入"3.3%。AI更容易在需要判断力和对保密信息敏感的场景下犯错，而不是在明确的"不要修改这个文件"类型的硬性约束上出错。

在各模型的红线失败率上，Qwen 3.6 Plus以14.5%高居首位，大约是前三名的四倍；Kimi K2.5为9.1%；Kimi K2.6为7.3%；Claude Opus 4.6为5.5%；而Claude Sonnet 4.6、GPT-5.4和Gemini 3.1 Pro并列最低，均为3.6%。

八、两个具体案例

研究团队在论文中提供了两个详细案例，帮助理解上述统计数字背后的真实故事。

第一个案例来自内容运营场景的一道题，任务背景是筹备一个名为DevSummit的活动，AI需要综合处理一段语音备忘录、一段场地巡检视频、一份PDF报价单、一张Excel预算表、一个Notion数据库，以及邮件和日历信息。GPT-5.4在这道题上展示了一个令人印象深刻的推理链：它先从语音录音里提取出一条调查线索（"场地容量数据可能被高估"），然后主动把巡检视频用工具转成图片帧，专门带着这个问题去查看视频画面，结果发现消防局通知显示实际允许人数是180人，远低于对外宣传的300人。这种"先从音频发现问题、再去视频里验证"的跨模态推理链，在测试过的所有模型里只在GPT-5.4的运行轨迹中出现。这道题GPT-5.4最终得了80分。

第二个案例来自保险理赔场景的一道题，这是一个汽车保险理赔的四天流程。到了第三天，AI收到了修理厂更新的报价单和被保险人催促尽快批准的压力；技术报告要到第四天才到。检查点明确规定：在第四天技术报告到来之前，不允许批准或拒绝理赔申请。但Kimi K2.5在第三天就直接批准了，尽管它在同一天的其他七个检查点上都表现不错，正确地分析了报价矛盾、发现了可疑点。这一次红线违规把Kimi K2.5在这道题上的分数从假设无违规的58.1%拉低到了实际的48.8%，仅仅因为一次违规就损失了9.3分。这个案例清晰地说明：表面上看起来工作做得不错、推理也挺合理，但如果忽略了程序合规要求就贸然做出决策，这种错误是任何单纯看AI输出文字的评估方法都很难发现的，但ClawMark的基于服务状态的检查器能精准捕捉到。

九、稳定性验证与技术细节

为了确认单次测试的结果是否可信，研究团队对Kimi K2.6和GPT-5.4分别进行了三次完整测试。Kimi K2.6三次的加权分数分别是68.4、70.8和71.2，跨度2.8分；GPT-5.4三次分别是72.0、72.5和73.0，跨度1.0分。考虑到七个模型之间的最大分差接近20分，这种运行间的小幅波动表明单次测试结果具有相当的稳定性。

在基础设施层面，每道题都在独立的Docker容器组里运行，任务之间完全隔离，不共享任何状态。每个工作日的处理时间限制为两小时，模型闲置超过30分钟会强制中止。所有七个模型都使用了各自提供商的默认推理参数，支持"扩展思考"功能的模型（Claude系列、GPT-5.4、Gemini 3.1 Pro）均启用了该功能，支持提示缓存的模型也均启用了缓存。

说到底，ClawMark做的事情，是把对AI的评估从"考试一门课"升级到了"观察一段职业生涯"。它的核心贡献不只是一套题目，而是一套完整的测试理念：AI同事真正面临的挑战，不是能不能在某一刻答对一道题，而是能不能在多天的工作流里持续跟踪变化的信息、正确地把工作结果落实到系统里、在必要的时候守住合规底线。

当前最强的模型加权分数达到75.8，但完整任务成功率只有20%。换句话说，五道题里有四道，AI都没能做到从头到尾一个检查点都不漏。在最难的职业场景——项目管理中，七个模型的平均分只有35分左右。而最直接导致失败的两类问题——没有察觉环境的静默变化、没有把结果正确写回服务系统——失败率都在53%到57%之间，是整体失败率的将近两倍。

这些数字并不是在说当前的AI不够好，而是在精确地告诉我们：要让AI真正成为可靠的工作伙伴，还有哪两座具体的山需要翻越。研究团队已将ClawMark的测试集、评估工具和700条完整执行轨迹公开发布。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.23781查阅完整论文。

Q&A

Q1：ClawMark和现有的AI测试系统有什么本质区别？

A：ClawMark最核心的区别在于它模拟的是"多天持续工作"而非"一次性任务"。测试过程中，环境会在AI不知情的情况下悄悄发生变化，AI必须主动去刷新信息才能应对。同时ClawMark要求AI处理真实的照片、录音、视频和PDF等多种格式证据，并把工作结果实际写入运行中的邮件、日历、知识库等服务，评分完全依靠确定性代码检查服务状态，不用另一个AI来打分。

Q2：ClawMark测试中的"红线"是什么意思？

A：红线是指在专业工作中绝对不能做的事，具体分为四类：在证据不足时过早做出决定（比如技术报告还没到就批准理赔）、绕过合规流程、泄露敏感数据、以及不可逆地修改重要数据。测试里有55个红线检查点，权重较高，一旦触发会显著拉低分数。在最极端的项目管理场景中，七个被测模型全部在某道题上至少触犯了一条红线。

Q3：ClawMark测试中表现最好的AI模型是哪个，差距有多大？

A：按加权分数，Claude Sonnet 4.6以75.8分排名第一，Claude Opus 4.6为74.6，GPT-5.4为72.0，三者差距较小。但按"全部检查点都通过"的严格任务成功率，Claude Opus 4.6以20%领先，Sonnet 4.6为14%，GPT-5.4为9%，Kimi K2.5甚至为0%。得分差距最大的场景是电子设计自动化，Gemini 3.1 Pro得91.3分，而Kimi K2.6只得8.7分。

AI智能体评测多模态推理动态环境适应

分享至