微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Meta AI联手斯坦福、杜克,造出一把衡量AI"终端操控"能力的全新尺子——TUA-Bench

Meta AI联手斯坦福、杜克,造出一把衡量AI"终端操控"能力的全新尺子——TUA-Bench

2026-07-03 10:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-07-03 10:46 科技行者

这项由Meta AI、斯坦福大学与杜克大学联合推出的研究,以预印本形式发布于2026年6月26日,论文编号为arXiv:2606.28480。感兴趣的读者可以通过该编号检索到完整论文。

**一个被忽视的问题**

绝大多数人与电脑打交道的方式,是鼠标点击、窗口拖拽、按钮操作——也就是我们常说的图形界面。近年来大量涌现的AI助手评测,也顺理成章地把"AI能不能像人一样操作图形界面"当作衡量标准。然而研究团队注意到一个有趣的盲区:对于语言模型来说,图形界面其实是个"外来语"——它必须先把屏幕截图"看"懂,再把鼠标点击位置精确定位,这两件事本质上测的是视觉识别能力,而不是真正的任务推理和工具使用能力。

与之形成对比的是终端——也就是那个只有黑底白字命令行的界面。终端的一切都是文字,输出是文字,操作是文字,错误提示也是文字。这对语言模型来说就像是"母语",它可以直接调用工具、编写脚本、组合命令,而不必先把图片转化成理解再采取行动。更重要的是,终端早已不再是程序员的专属领地——GitHub、Slack、Google Cloud等主流平台都提供了官方命令行工具,越来越多的日常工作正在通过终端完成。

正是在这个背景下,研究团队提出了一个问题:现有的终端评测体系够用吗?答案令人遗憾——并不够用。已有的终端类基准测试,几乎清一色聚焦在代码开发、系统管理这类"程序员本职工作"上,而一个真正全能的终端助手还应该能帮你处理电子表格、搜索网络信息、剪辑视频,甚至协助完成医学图像分析。这片空白,正是TUA-Bench要填补的地方。

**一、一百二十道考题,五大考场**

TUA-Bench收录了120道精心设计的真实任务,覆盖五个大类领域。用一个通俗的比喻来说:这套考题不只考你能不能修一台坏掉的发动机(代码调试),它还要考你能不能规划一次跨城旅行、整理一份财务报告、看懂一张医学扫描图,甚至设计一栋建筑的能耗方案。

第一个考场是"办公与生产力",占全部题目的38.3%,包含电子表格操作、文档编辑、演示文稿制作以及邮件管理。这是最贴近普通白领日常工作的部分,也是占比最大的类别,反映了这类任务在现实中的高频性。第二个考场是"网络与信息查询",占18.3%,涵盖公共信息检索、网购操作、出行查询、学术论文作者信息查找以及网页存档,考察AI能否像一个熟练的网络冲浪手一样找到你想要的东西。第三个考场是"系统与软件操作",占15.8%,包括应用程序配置、操作系统文件管理和软件开发,这是最接近传统"终端任务"的部分。第四个考场是"科学与工程",占14.2%,分为工程模拟、医学影像和生物图像分析三个子类,每一个都需要操作专业科研软件。第五个考场是"多媒体与设计",占13.3%,涵盖图像编辑、视频音频处理、视频理解、图表绘制和格式转换。

这种分布设计绝非随意为之。过去的终端类评测集中在系统与开发领域,就好比只用"跑步"成绩来评价一个运动员,却完全忽略了游泳、举重和体操。TUA-Bench想做的是一场真正的"全能运动会"。

**二、一百二十道考题是怎么炼成的**

如果说TUA-Bench是一把尺子,那么制造这把尺子的过程同样值得细说,因为一把做工粗糙的尺子量出来的数据毫无意义。

日常数字任务部分来源于OSWorld——一个已有的图形界面AI评测集,原本收录369道任务。研究团队做的第一件事,是把这些任务从"点击图形界面完成"转换成"只能通过命令行完成"。这个过程被称为GUI到CLI的任务转换,关键原则是保留任务的核心意图,但不限定AI必须用哪个工具,让AI自由选择最合适的命令或脚本来达成目标。

转换完成后,团队并不是直接把369道题全部收入囊中。他们首先做了质量筛查——通过人工审核那些AI失败的案例,发现有一部分失败不是AI的问题,而是题目本身的输入文件和标准答案之间存在矛盾。比如某道演示文稿编辑题,输入文件的幻灯片主题和标准答案的主题根本对不上,无论AI怎么做都会"答错"。这类题目被直接剔除。

接下来是一道难度筛选关。研究团队用三个顶级AI模型——GPT-5.5、Claude Opus 4.7和Gemini 3.1 Pro——分别对每道候选题目独立尝试五次,计算平均成功率。最终,他们保留了综合成功率最低的100道题,确保这份考题集对当前最强的AI系统仍然构成真实挑战,而不是一套轻松就能被"秒杀"的送分题。这个设计思路类似于高考出题:不能全是送分题,否则就没有区分度了。

专业科学任务的来源则截然不同。研究团队联合了生物学、医学物理、建筑工程和机械工程领域的博士级专家,共同设计了一批原创题目。生物学方向考察荧光显微图像中的细胞核计数和定位;医学物理方向考察MRI体积分割和三维前列腺模型重建;建筑工程方向要求用OpenStudio和EnergyPlus软件重建和模拟整栋建筑的全年能耗;机械工程方向则需要借助OpenFOAM这款流体力学软件完成散热片优化和传热分析。这些任务不是为评测而虚构的,而是相关专业的研究生和工程师在实际工作中真实面对的流程。从最初的25道候选题里,通过难度筛选保留下了20道挑战性最强的题目。

**三、公平的考场:一个可复现的测试环境**

光有题目还不够,还需要一个公平且可复现的考场。TUA-Bench的每道题都被打包成一个完全自给自足的运行单元,包含一个Dockerfile(用来构建标准化的运行环境)、任务专属的输入文件、自然语言写成的任务说明、运行参数,以及一个"自动阅卷程序"。

每道题在一个独立的Linux容器里运行,就像给每位考生分配了一间隔音的单人考场,互不干扰,也不会因为某道题的失败影响其他题目的运行。底层框架采用Harbor——这个框架同时也被另一个终端评测集Terminal-Bench所使用,这意味着TUA-Bench可以与现有的评测流水线兼容衔接。此外,除了常见的Docker之外,TUA-Bench还支持Podman这种不需要管理员权限就能运行的容器方案,方便在共享计算集群上使用。

评分方式是执行结果导向而非过程导向。阅卷程序检查的是任务结束后的环境状态——输出文件是否存在、格式是否正确、数值是否在允许误差范围内——而不是AI在过程中走了多少步、用了什么方法。这就好比考厨师,评判标准是端上桌的菜好不好吃,而不是他切菜的姿势漂不漂亮。

**四、谁考得最好:前沿模型的大比拼**

研究团队在TUA-Bench上展开了一次大规模评测,横跨五个AI代理框架和十余款语言模型。五个框架分别是Terminus-2、Codex、OpenHands、Mini-SWE-Agent和Claude Code。参评模型覆盖了当前几乎所有主流选手:GPT-5.5、GPT-5.4 mini、Claude Opus 4.8、Claude Opus 4.7、Claude Sonnet 4.6、Claude Haiku 4.5、Gemini 3.1 Pro,以及GLM-5.1、MiniMax-M3、DeepSeek-V4 Pro、Qwen3.7-Max、Kimi K2.6。每种组合独立运行五次,取平均成功率作为最终得分。

当只固定使用Terminus-2这一个框架、比较不同模型的表现时,一个三层梯队的格局清晰呈现。GPT-5.5以60.1%的成功率领跑,Claude Opus 4.8以59.7%紧随其后,Claude Opus 4.7则以58.0%位列第三,三者共同构成第一梯队。有意思的是,GPT-5.5和Claude Opus 4.8的成功率差距,比单次运行的随机波动还要小——这意味着从综合成功率的角度看,两者几乎旗鼓相当。然而深看一层会发现差异:Claude Opus 4.8在五次独立尝试中全部成功的任务比例达到42.5%,而GPT-5.5只有31.7%。换句话说,Claude Opus 4.8更加稳定——它的表现更像一个每次都能交出稳定答卷的考生,而GPT-5.5则更像一个偶尔发挥特别出色、但也有时失误的考生。

与第一梯队拉开约九个百分点的距离,是第二梯队,成功率在44.9%到49.3%之间浮动,包括Gemini 3.1 Pro Preview(49.3%)、GLM-5.1(48.1%)、MiniMax-M3(47.0%)、DeepSeek-V4 Pro(46.2%)和Qwen3.7-Max(44.9%)。再往下,Kimi K2.6和Claude Sonnet 4.6并列于42.8%,而体量更小的GPT-5.4 mini和Claude Haiku 4.5则分别落在27.2%和23.9%,构成第三梯队。Claude家族内部的三级阶梯——Opus 4.8的59.7%、Sonnet 4.6的42.8%、Haiku 4.5的23.9%——清晰地表明这套评测体系能有效区分同一家族内不同能力等级的模型,并没有出现"天花板已到"的饱和迹象。

当把模型和框架放在一起自由组合,取每个框架的最佳成绩时,新的冠军出炉了:Claude Code搭配Claude Opus 4.8在最高思考强度下,以65.8%的成功率拔得头筹。Codex搭配GPT-5.5以64.7%紧随其后,OpenHands搭配Claude Opus 4.8以63.4%位列第三,Mini-SWE-Agent搭配GPT-5.5以62.4%排第四,Terminus-2搭配GPT-5.5以60.1%排第五。五个框架最佳成绩之间的差距不超过5.7个百分点,这说明在使用足够强大的底层模型时,不同框架的表现差异并不像人们通常以为的那样巨大。

**五、时间和思考力,两个被忽视的关键变量**

除了哪个模型更强,研究团队还做了两组非常有价值的控制实验,揭示了两个经常被忽视的关键变量。

第一个是每道题的时间预算。当每道题只允许运行150秒时,600次尝试中有337次因超时而直接失败,整体成功率仅有33.0%。把时间上限翻倍到300秒,超时次数降到171次,成功率跳升至48.5%。再翻倍到600秒,超时次数进一步缩减至86次,成功率达到53.2%。到了1200秒时,超时次数已经很少(34次),成功率为57.1%。最终将上限设定为2400秒时,全程只有4次超时,成功率达到最高的60.1%。这意味着仅仅通过给AI更多时间,不换任何模型,成功率就能从33%提升到60%——整整27个百分点。这个发现很有力:很多表面上的"失败",其实是AI还在努力解题途中就被强制结束了,而不是AI真的不会做。

第二个是思考强度。现代大型语言模型通常允许调整"推理预算"——给模型更多的内部推演空间,就像让一个数学生在草稿纸上多算几步。研究团队对GPT-5.5测试了从"不思考"到"最高思考强度"五个档位。完全不思考时成功率仅36.5%,低档思考时升至42.4%,中档思考时达到51.5%,高档时为57.8%,最高档时达到60.1%。规律很清晰:思考越多,表现越好。然而收益是递减的——从"不思考"升到"中档思考"带来了15个百分点的巨大提升,而从"高档"再升到"最高档"仅带来2.3个百分点的提升,代价却是输出的token数量从约13000个暴涨到约19000个,成本几乎翻倍。这个结论很实用:中高档思考是性价比最高的选择,没必要每次都冲最高档。

**六、同一个模型,配不同框架,结果大相径庭**

另一个很有启发性的发现,是模型和框架之间存在复杂的相互作用。研究团队把Claude Opus 4.8和GPT-5.5在三个开源框架(Mini-SWE-Agent、OpenHands、Terminus-2)上进行了交叉比较。平均来看,GPT-5.5以61.3%仅比Claude Opus 4.8的60.2%高出1.1个百分点,几乎打成平手。但拆开来看,Mini-SWE-Agent框架下GPT-5.5比Claude Opus 4.8高出5个百分点(62.4%对57.4%),而OpenHands框架下情况完全反转,Claude Opus 4.8反超GPT-5.5达2个百分点(63.4%对61.4%)。Terminus-2框架下两者则几乎相同(60.1%对59.7%)。这意味着"哪个模型更强"这个问题,没有一个放之四海皆准的答案——它依赖于你用哪个框架来驾驭这个模型。框架的选择,有时候和模型的选择一样重要。

**七、花多少钱,能买到多少成功率**

研究团队还做了一张很有参考价值的成本效益地图,横轴是每次运行的美元花费,纵轴是成功率,覆盖了39种不同的框架、模型、思考强度组合。整张图的成本跨度超过一个数量级,从最便宜的约12美元每次运行,到最贵的约304美元每次运行。

在低成本区间,Terminus-2框架搭配国产开源模型表现出色:MiniMax-M3以约12美元每次运行实现了约47%的成功率,GLM-5.1以约23美元实现了约48%的成功率,性价比相当突出。进入中等成本区间,Terminus-2搭配Claude Opus 4.7,以及Mini-SWE-Agent搭配Claude Opus 4.8,在约54至57美元的单次成本下实现了约50%至57%的成功率。顶点则是Claude Code搭配Claude Opus 4.8最高思考强度,以173.61美元每次运行实现了65.8%的成功率。

然而当成本超过约105美元之后,性价比曲线开始明显走平——多花几十块钱,换来的成功率提升已经非常有限。换句话说,钱花到一定程度之后,继续往上砸钱的边际收益会急剧萎缩。

**八、分类别来看,谁容易谁困难**

把成功率按任务大类细看,会发现各类任务之间存在显著的难度鸿沟。系统与软件操作类任务相对最为友好,各模型表现集中在一个相对高位且紧凑的区间内。而办公类任务和多媒体类任务则是公认的"硬骨头"——大多数模型成功率不足45%,即便是最强的系统也只在50%出头的水平徘徊。

更有意思的是,即便在同一个大类里,不同子类和不同具体任务之间的差异也极为悬殊。研究团队绘制的任务级别成功率热力图清晰地揭示了这种"内部分裂":在同一个类别下,有些任务几乎所有模型都能轻松完成,而另一些任务则无论换哪个模型都是大面积失败,呈现出一片触目惊心的红色。这意味着所谓的"类别平均分"背后,其实是一批容易题把平均分拉起来了,而那些真正难的任务才是区分AI能力高下的真正战场。

那些跨模型、跨框架几乎全部失败的任务,主要集中在演示文稿的图形布局操作(如调整幻灯片上图片的高度、对齐文本框、为特定行加删除线)以及部分多媒体任务上。这些持续失败的"顽固区域",不是靠更大的推理预算就能解决的——它们指向的是当前AI系统在某些特定类型任务上的能力空白。

**九、研究的边界与尚待开拓的疆域**

研究团队在论文中坦诚地指出了TUA-Bench的局限性,这也是这份工作诚实的一面。首先,TUA-Bench专注于终端界面,因此它并不覆盖所有形式的电脑使用——某些软件至今仍缺乏成熟的命令行支持,相关任务无法被纳入。其次,专业科学任务目前只涵盖了生物、医学物理、建筑工程和机械工程四个领域,科学版图还远未完整。第三,全部任务描述目前只有英文版本,非英语母语用户的测试需求暂未考虑。最后,一旦题目公开,未来新训练的模型可能会在训练数据中接触到这些任务,从而出现"考前泄题"效应,这需要定期更新题目来对抗。

尽管如此,65.8%的最高成功率——而不是90%、95%甚至100%——已经足以说明一个重要事实:即便是当今世界上最强大的AI系统,在面对真实的终端使用场景时,仍然有三成以上的任务无法可靠完成。长程规划、工具使用、执行过程监控和错误恢复,仍然是AI代理面临的真实挑战。

说到底,TUA-Bench做的事情,就像是为"AI能不能真正帮我干活"这个问题,设计了一张更贴近现实的成绩单。它告诉我们,当前的AI代理系统离"全能终端助手"还有相当距离,但也已经走出了很远。这把尺子本身已经开源,代码库和公开排行榜均已上线,欢迎研究者和开发者持续提交新模型的评测结果,共同推动这个领域向前迈进。

---

Q&A

Q1:TUA-Bench和其他AI评测基准有什么本质区别?

A:TUA-Bench的核心区别在于它专注于"命令行界面"而非"图形界面",同时覆盖了从日常办公到科学工程的宽广任务范围。现有评测要么只测图形界面操作,要么只测代码开发类终端任务。TUA-Bench首次把电子表格、网页查询、医学影像分析和流体力学仿真都统一放进一个基于命令行的评测框架里,用可复现的执行结果来打分,而不是主观评判过程。

Q2:TUA-Bench测试结果显示当前最强AI成功率只有65.8%,哪类任务最难?

A:演示文稿图形布局操作和多媒体任务是最难攻克的领域。具体来说,调整幻灯片图片高度、对齐文本框、为特定行加删除线等任务,几乎让所有被测模型在所有框架下都大面积失败。这类任务不是靠更长的思考时间就能解决的,它们指向的是当前AI系统在特定类型操作上的能力空白,与长程规划和精确格式控制密切相关。

Q3:选择不同的AI代理框架会对任务成功率产生多大影响?

A:影响相当显著,有时甚至超过换一个底层模型带来的变化。以Claude Opus 4.8和GPT-5.5为例,两者在Mini-SWE-Agent框架下相差5个百分点,但在OpenHands框架下排名完全反转,Claude Opus 4.8反超GPT-5.5达2个百分点。这意味着"哪个模型更强"没有固定答案,框架的选择与模型的选择同样关键,单凭一个框架下的测试结论不能代表模型的真实能力排名。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-