微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

加州大学圣地亚哥分校联合多家机构：AI助手真的"什么都会"了吗？这个全新测试平台给出了答案

智能体评测多模态AI综合能力基准

加州大学圣地亚哥分校联合多家机构：AI助手真的"什么都会"了吗？这个全新测试平台给出了答案

作者：科技行者

2026-04-21 17:33

分享至：

这项由加州大学圣地亚哥分校等多家机构联合发布于2026年4月的研究（arXiv:2604.11201），推出了名为COCOABENCH的AI综合能力测试平台，包含153道需要同时运用视觉理解、网络搜索和编程三种能力的真实任务，并配套轻量级测试框架COCOA-AGENT。测试发现，当前最强AI系统成功率仅为45.1%，主要失败原因集中在推理规划、工具执行和视觉感知三大方面，揭示了现有AI距离"真正全能数字助手"仍有显著差距。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 17:33 • 科技行者

这项由加州大学圣地亚哥分校主导，联合阿布扎比穆罕默德·本·扎耶德人工智能大学、密歇根大学、加州大学伯克利分校、苏黎世联邦理工学院、剑桥大学及Gray Swan AI等多家机构共同完成的研究，以预印本形式发布于2026年4月13日，论文编号为arXiv:2604.11201。有兴趣深入了解的读者可通过该编号查询完整论文。

说到今天的人工智能，大家可能已经习惯了这样的说法：AI能写代码、能上网搜东西、能看图片、能自动操作电脑界面……听起来样样精通，无所不能。但一个核心问题始终没人认真回答：当这些能力需要同时配合起来完成一件复杂任务时，AI到底表现得怎么样？

就好比一个厨师，你单独考他刀工是一回事，单独考他火候控制是另一回事，但真正上灶做一桌席面——刀工、火候、摆盘、时间节奏全都得配合——那又完全是另一回事了。现有的AI评测，大多还停留在"单独考刀工"的阶段。正是为了填补这个空白，研究团队设计了一套全新的综合测试平台，叫做COCOABENCH。

一、为什么现有的AI考试卷子不够用

要理解COCOABENCH解决了什么问题，得先搞清楚现有测试有哪些局限。

目前市面上已经有不少针对AI助手的测试平台。有专门测试AI处理软件工程bug的（比如SWE-bench Pro），有专门测试AI操作电脑桌面界面的（比如OSWorld），有专门测试AI搜索网络信息的（比如BrowseComp），也有测试AI调用各种专用工具的（比如MCP Atlas和Tool Decathlon）。这些测试各有所长，但问题在于，它们基本上都是"单科考试"——专注测某一项能力，而且往往绑定特定的运行环境或工具集合，就像只有在某个特定厨房、用特定炊具才能进行的厨艺考核。

现实中的任务却不是这样运作的。当你让AI帮你规划一次旅行，它可能需要先在网上搜索航班和酒店信息（搜索能力），然后从一张截图或地图中识别某个地点（视觉能力），最后把收集到的数据整理成一份对比表格或执行某种计算（编程能力）。这三件事缺一不可，而且必须按照合理的顺序协调配合。

这就是研究团队所说的"统一数字助手"需要具备的核心素质：不是单项冠军，而是全能选手。而要测试全能选手，自然需要一份全科考卷。

二、COCOABENCH到底是怎么设计的

COCOABENCH总共包含153道由人工精心设计的题目，覆盖商业、文化、教育、生活、逻辑与谜题、科学、体育、科技和旅行九大领域。每道题都对应一个真实生活中可能遇到的场景，比如根据一年的加油收据计算加权平均油价，或者通过购物网站的截图比较不同零食的营养成分并帮人做出最优选择。

这些题目有几个特别之处，值得细说。

首先，每道题对AI来说都是"开放世界"挑战。题目只给出一段指令和一个最终输出的评分标准，不指定AI必须使用哪些工具、走哪条路径。这就像告诉厨师"做一道鱼香肉丝，最终口味要达到这个标准"，但不规定他用哪口锅、哪把刀——能力强的厨师自然会选最合适的工具和流程。

其次，任务涉及多种资源形式。有些题需要AI处理网页内容，有些需要处理图片，有些需要解析PDF文档或CSV数据表，甚至还有需要分析视频的题目。数据显示，视觉类资源（网页截图加上图片）占到了全部任务资源的近七成，足见视觉理解能力在实际任务中的重要性。

三类核心能力（视觉、搜索、编程）在这些题目中高度交叉出现——研究团队统计，98%的题目需要同时用到至少两种能力。其中，搜索能力被86.3%的题目所要求，视觉理解被83%的题目所要求，编程能力被56.2%的题目所要求。这种高度交叉，正是测试"全能配合"而非"单科成绩"的关键所在。

第三，每道题都配有自动评分脚本，不依赖人工打分，也不依赖另一个AI来评判答案是否正确。这一点非常重要，因为人工评分费时费力，而用AI评AI又容易产生误差。对于那些需要在网站上执行操作才能完成的任务（比如在购物网站上真正完成下单流程），研究团队采用了"结果代理评估"的方式——比如验证AI最终报出的价格是否正确，因为只有正确完成了网站操作和合理计算才能得出这个价格。

在质量把控方面，所有题目和参考答案都经历了严格的同行评审，确保题目表述清晰、评分标准明确、没有让AI抄近路绕过核心推理的漏洞，同时外部资源的链接稳定可访问。研究团队还专门做了试运行，对照AI的执行日志区分"AI确实能力不足"和"题目设计有问题"，剔除了有持续歧义的题目，整个设计经过了多轮打磨。

三、和那些AI一起参加考试

为了让评测结果尽可能全面和有代表性，研究团队从两个维度组织了测试。

一方面，他们直接测试了几款现成的AI产品系统：OpenAI推出的ChatGPT Agent Mode（较早期的综合型AI助手）、开源框架OpenClaw（分别搭载GPT-5.4和Claude Sonnet 4.6两款核心模型）、Codex（OpenAI的编程助手，搭载GPT-5.4）、Claude Code（Anthropic的编程助手，搭载Claude Sonnet 4.6），以及OpenAI的Deep Research（专注长篇网络信息搜索和整合的研究型助手，使用o4-mini版本）。

另一方面，研究团队自己开发了一个轻量级的测试框架，叫做COCOA-AGENT，让不同的AI核心模型在同一套工具配置下参赛，以便更公平地比较模型本身的能力差异。参与这个框架测试的模型包括：Claude Sonnet 4.6（高思考模式）、GPT-5.4（高思考模式）、Gemini-3.1-pro（高思考模式）、Gemini-Flash-3.0，以及两款开源模型——Kimi-k2.5（月之暗面出品，总参数量1万亿，实际激活320亿）和Qwen3.5-397B-A13B（阿里巴巴出品，总参数3970亿，实际激活130亿）。

COCOA-AGENT本身的设计也值得介绍一下。它建立在一个叫AIO Sandbox的沙盒运行环境上，把浏览器、命令行终端和文件系统全都集成在一个Docker容器里。AI通过一套共39个工具与这个环境交互，这些工具按能力类型分为三组：浏览器视觉操作类（17个工具，包括点击、滚动、截图等）、DOM网页结构访问类（11个工具，包括读取文本、提取链接、标记元素等）、以及编程与文件操作类（包括执行Python/JavaScript代码、运行终端命令、读写文件等）。每次测试有30分钟时间限制和最多50轮交互的次数上限。

四、成绩单出来了：最好的也才45%

测试结果相当直白：即使是目前最强的AI系统，也只能完成不到一半的任务。

在所有测试系统中，表现最好的是搭载GPT-5.4的Codex，成功率恰好达到45.1%。同样搭载GPT-5.4的OpenClaw也达到了45.1%。紧随其后的是搭载Claude Sonnet 4.6的OpenClaw，成功率34.0%。在COCOA-AGENT框架下，GPT-5.4取得了36.6%的成功率，Gemini-3.1-pro达到30.7%，Gemini-Flash-3.0达到19.6%，Claude Sonnet 4.6只有15.7%。

而两款开源模型的成绩则相当不理想：Kimi-k2.5仅有11.8%，Qwen3.5-397B-A13B只有9.8%。OpenAI Deep Research的表现也令人意外地低，只有3.3%，这可能是因为这款产品专注于长篇研究写作，面对COCOABENCH里大量需要实时交互操作的任务时力不从心。

从这些数字可以得出几个有意思的结论。GPT-5.4是目前最稳定的核心模型，无论搭配哪个框架都保持在前列。Claude Sonnet 4.6的表现则不那么稳定，在OpenClaw框架下有34%，但在COCOA-AGENT下只有15.7%，说明它对框架设计的依赖性更强。开源模型与顶级闭源模型之间的差距依然明显，最强开源模型的成功率还不到最强闭源模型的三分之一。

五、花多少钱、用多长时间，和考多高分的关系

研究团队还仔细比较了各系统的成本效率：每个任务的平均花费从0.5美元到2.5美元不等，平均完成时间从380秒到3400秒不等。

一个出乎意料的发现是：贵不一定好，慢不一定强。Codex系统（搭载GPT-5.4）每个任务平均花费0.75美元，而同样用GPT-5.4的OpenClaw要花1.09美元，COCOA-AGENT框架下更是高达2.31美元。但成功率并不随着花费增加而等比例提升。在成本与性能的权衡曲线上，Codex处于最优位置，是所谓的"帕累托前沿"——用相对最低的成本取得最高的成绩。

这背后的原因很可能是框架设计的效率差异。Codex最初是为编程任务设计的，它的交互方式更简洁直接，而COCOA-AGENT的工具体系更全面，但相应地调用成本也更高。这提示我们，AI系统的整体能力不只取决于核心模型的智力水平，框架和工具的设计效率同样至关重要。

六、会用代码的AI，才是真正的强手

研究团队对COCOA-AGENT框架下六个模型的工具调用记录做了详细统计，发现了一个非常清晰的规律：强的模型更多地依赖编程工具，弱的模型则更多地停留在浏览器操作上。

在所有工具调用中，"执行代码"（code execute）和"执行终端命令"（shell execute）是使用最频繁的两类，总调用次数分别达到7799次和4050次，远超其他所有工具。排在后面的依次是浏览器导航（3439次）和图片读取（2482次）。

把这些工具调用按能力类型（编程、视觉、搜索）归类后，可以看出不同模型的"风格"截然不同。GPT-5.4有64%的工具调用属于编程类，Gemini-3.1-pro有63.2%。而Kimi-k2.5则把51.7%的调用花在视觉工具上，Gemini-Flash-3.0把34%的调用花在DOM搜索工具上，编程调用分别只占26.4%和更低的比例。

这种差异和最终成绩高度吻合：越是多用编程工具的模型，成绩越好。原因在于编程工具承担了双重角色——一方面，写几行代码往往能用更少的步骤完成复杂操作，比直接点来点去效率高得多；另一方面，对收集来的数据进行复杂运算、格式化输出，也必须靠编程完成。强模型的策略是：用视觉和搜索工具获取信息，然后交给代码处理；弱模型则倾向于在浏览器里"手动"完成全程，既慢又容易出错。

七、哪里出了问题：三大失败原因的解剖

为了搞清楚AI到底是在哪些环节上栽跟头的，研究团队对712条失败记录进行了系统分类（这712条来自六个模型共918次任务尝试中的失败部分），用Claude Sonnet 4.6作为评判者，为每条失败记录打上原因标签。

失败原因被分成三大类，每类下面又细分出若干子类型。

第一大类叫"推理与规划失败"，占所有失败原因的54%，是比例最高的一类。这类失败又细分为三种情形。第一种是"推理错误"（占25%），包括两种表现：一是目标偏移，AI明明要完成任务A，却只解决了任务A的一个子问题就停下来了——就像有人让你做一份完整的项目报告，你只写了摘要就交卷了；二是策略错误，AI理解了目标但选择了根本行不通的方法。一个典型例子是，在一道要求解决八数码谜题并以"最短路径序列"为依据生成验证码的任务中，AI正确地算出了最短28步的解法，但是在一个已经执行了很多探索操作的浏览器会话里继续操作，导致最终提交的验证码和"从干净状态严格按最短路径执行"所生成的验证码不一致。AI解了题，但没真正完成任务。

第二种是"精度失误"（占15.5%），即方法对了，但细节出错。一个让人印象深刻的案例是：AI要计算一整年加油收据的加权平均油价，它正确识别了所有收据，也使用了正确的价格乘以体积的计算逻辑，但在累加过程中过早做了中间舍入，导致最终结果是4.217而正确答案是4.216，差了0.001，就这一个小数点后第三位的偏差，任务失败。另一个案例是AI需要统计某篇博士论文正文部分某参考文献的引用次数，结果把附录里的引用也算进去了，得出5次而非正确的4次。

第三种是"格式错误"（占13.6%），即AI算出了正确答案，但没有按要求格式输出——比如在一道需要同时回答A和B两个问题的任务里，AI答完A就提交了，把B的答案丢掉了。

第二大类叫"工具与执行失败"，占19%。这类失败最常见的表现是陷入无限循环（占12%），即AI发现某个工具没有返回预期结果，却不断重复同样的操作，消耗完全部50次交互机会也没能推进任务。一个案例是AI需要解一道图像形式的数独谜题，它试图用图像处理库逐行逐列裁剪微小区域来读取数字，整整消耗了51轮交互都没有真正进入解题阶段，最终空手而归。

另一类工具失败是被网站的反爬虫机制拦截（占4.2%）。AI试图爬取某个学术数据库查询论文引用数，结果被Cloudflare的验证页面拦下，AI没有识别出这是验证页面，把这个空白的安全提示页当成了正常的查询结果，最终报告引用数为0。

还有一类是工具结果幻觉（占0.8%，但危害很大）：AI要处理47篇关于GLP-1药物临床试验的论文，在前几轮对话里成功提取了若干论文的数据，但随着对话记录越来越长，早期的提取结果被"遗忘"（超出了AI的上下文窗口限制），AI开始重复提取同样的数据，不断循环，最终没能完成完整分析。

第三大类叫"视觉定位失败"，占28%。第一种子类型是视觉细节不精准（占15.8%）：AI在一段登山视频中需要读出路线图上每个标记点的海拔高度，它正确处理了大部分数字，但把第三个标记点的"8690m"误读为"8710m"，差了20米，超过了评分容差。

第二种是视觉语义知识不足（占7.6%）：AI能看清图片里的人脸，但不认识是谁。一个案例是AI看到一张格莱美颁奖典礼照片，需要识别出两位艺术家的名字，它正确识别了Billie Eilish，但把旁边的Lana Del Rey认成了Taylor Swift，进而用错误的人名去查询获奖记录，导致最终计算出的总获奖数完全错误。还有一个案例更有意思：AI需要根据一张街景图中熊雕塑旁的环岛和"进入环岛取第一个出口"的指令判断某建筑面朝哪个方向，AI正确读取了图片中的空间布局，却错误地套用了"左行交通"（即英国式靠左行驶）的规则，而图片实际上来自一个靠右行驶的国家，结果方向判断完全反了。

第三种是缺乏视觉感知（占5.4%）：AI试图通过读取网页DOM结构来获取本应通过截图视觉解读才能得到的信息。一个典型案例是分析一个Tableau商业智能仪表盘，AI调用了后台的数据API接口，拿到了原始未聚合的数据，但Tableau的最终显示结果是在浏览器端完成数据聚合后才渲染出来的，原始数据和显示结果根本不一样，AI拿着"原材料"报告了一个完全错误的结论。

八、GPT-5.4和Kimi-k2.5的差距从哪里来

为了更细致地理解为什么不同模型表现差距这么大，研究团队重点比对了成绩最好和成绩最差的两个模型——GPT-5.4和Kimi-k2.5——在各类失败原因上的分布。

相比GPT-5.4，Kimi-k2.5在"推理错误"这一类失败上比例更高，说明它在面对陌生场景时缺乏足够的程序性知识，不知道该用什么策略。它的"格式错误"比例也明显更高，说明在经历了多轮交互之后，它更容易忘记任务开始时给出的输出格式要求。在工具使用上，Kimi-k2.5更容易陷入无限循环，一旦遇到工具返回了意外结果，它往往不知道如何调整策略，只是一遍遍重复同样的操作。在视觉能力上，Kimi-k2.5在"视觉细节"这一子类型上的失败比例远高于GPT-5.4，说明它在处理精细视觉信息时可靠性明显不足。

归根结底，这项研究的结论是：即便是当今最先进的AI系统，在面对需要视觉、搜索和编程协同配合的真实任务时，依然远未达到可靠的水平。最好的系统只有45.1%的成功率，意味着超过一半的任务会失败。这三大类失败——想不清楚、做不到位、看不准确——共同构成了通向"真正全能数字助手"道路上的主要障碍。

研究团队已将COCOABENCH的全部153道题目、评分脚本和COCOA-AGENT框架代码完全开源，希望这套工具能成为未来AI能力研究的基础设施，包括为训练更强AI（尤其是通过强化学习提升综合任务能力）提供评测基础。

说到底，我们现在的AI助手更像是一批专科毕业的高手，各自在本专业领域出类拔萃，但面对现实生活里那些需要综合调度多种技能的任务时，仍然力不从心。COCOABENCH的价值不只是给出了一份成绩单，更是清晰地指出了差距在哪里：不是某一项技术还不够强，而是在多能力协同配合、长链条任务推进、以及在遇到障碍时灵活调整策略这些方面，还有很长的路要走。对于任何关心AI未来发展走向的人来说，这份诊断报告或许比那个45.1%的分数本身更有参考价值。有兴趣深入了解的读者可通过arXiv:2604.11201查阅完整论文。

Q&A

Q1：COCOABENCH和现有AI测试平台有什么本质区别？

A：现有测试平台大多只考察AI的单项能力，比如只测编程、只测网页浏览或只测图像理解，而且往往绑定特定的运行环境。COCOABENCH的核心区别在于，它的每道题目都要求AI同时综合运用视觉理解、网络搜索和编程三种能力，并且不限定AI使用哪些工具或走哪条路径，更接近真实生活中的复杂任务场景。

Q2：为什么GPT-5.4在COCOABENCH上的成绩比其他模型好这么多？

A：从测试数据来看，GPT-5.4的优势主要体现在两方面：一是它在遇到复杂任务时更倾向于用编程代码来处理数据，这比在浏览器里一步步手动操作更高效也更可靠；二是它在推理准确性和长任务中保持注意力方面表现更稳定，不容易在多轮交互后遗忘早期指令或陷入重复循环。

Q3：AI在COCOABENCH上失败最多的原因是什么？

A：最常见的失败原因是推理与规划问题，占所有失败的54%。具体表现包括：理解了目标但采用了错误的解题策略、算法对了但中间某个细节出了偏差（比如计算时过早四舍五入导致最终结果差一点），以及明明算出了正确答案却没有按要求格式输出。视觉理解失败（28%）和工具执行卡顿（19%）是另外两大主要原因。

智能体评测多模态AI综合能力基准

分享至