微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

以色列理工学院与IBM研究院联手出击：当AI考官不再温柔，测试题难到连"学霸"模型也崩了

人工智能评估工具使用型智能体自动化基准测试生成

以色列理工学院与IBM研究院联手出击：当AI考官不再温柔，测试题难到连"学霸"模型也崩了

作者：科技行者

2026-06-08 10:05

分享至：

这项由以色列理工学院和IBM研究院合作的研究提出TASTE方法，通过先采样多样化工具操作序列、再合成对应任务的反向出题思路，构建了更难、覆盖率更高的AI测试集，让原本高分AI成绩大幅下跌。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 10:05 • 科技行者

这项由以色列理工学院（Technion）与IBM研究院合作完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.28556，感兴趣的读者可通过该编号查阅完整原文。

---

某天下午，学校老师发现一个奇怪的现象：班上有几个同学在期末考试中拿了满分，但当老师换了一套新题目，这些同学突然考得惨不忍睹。难道他们真的掌握了知识，还是只是把往年的题目背得滚瓜烂熟？

这个故事，正是当下人工智能领域正在上演的真实困境。各大科技公司竞相宣布自己的AI助手在各类测试中得了高分，但这些高分究竟说明AI真的聪明了，还是仅仅说明现有的考题太简单、被AI"刷题"刷穿了？以色列理工学院和IBM研究院的研究团队决定认真回答这个问题，他们创造了一套全新的出题方法，让那些平日里考试轻松过关的AI模型，突然面对真正有难度的考题。

这套方法叫做TASTE，是"从工具序列演化中合成任务"的英文缩写（Task Synthesis from Tool Sequence Evolution）。它催生了一个新的测试集，叫做τ?-Bench，专门用来评估那些能够使用各种工具帮用户解决问题的AI助手。研究结果令人咋舌：一个原本在旧测试集上拿到0.82到0.94高分的谷歌Gemini-3-Flash模型，在新测试集上成绩直接跌落至0.28到0.61。这不是小幅下滑，这是断崖式崩塌。

---

一、为什么现在的AI考题已经不够用了

要理解这项研究的意义，得先搞清楚被测试的AI是什么类型。研究团队关注的是一类叫做"工具使用型对话智能体"的AI系统——说白了，就是那种可以帮你查航班、改订单、处理电话账单的AI客服助手。

这类AI的工作方式和普通聊天机器人很不一样。普通聊天机器人收到一个问题，给出一个回答，事情就结束了。而工具使用型AI更像一个在窗口后面操作电脑的客服人员：它需要先查你的账号信息，再核对你的订单，然后执行修改，最后确认结果。整个过程涉及一连串按顺序排列的操作步骤，每一步都会改变数据库里的真实状态。

衡量这类AI是否完成了任务，通常看的是"最终状态"——当所有操作做完以后，数据库里的状态是否跟预期目标一致。这个标准被叫做"最终状态评估"，由一个叫τ-Bench（读作"tau-bench"）的测试框架率先采用，后来演化成了更完善的τ?-Bench。

问题在于，随着AI能力越来越强，这些测试题越来越容易。就像一个高中生反复做初中数学卷子，到最后几乎每次都能拿满分——这并不说明他数学能力有多了不起，只说明题目对他来说已经没有挑战性了。

更麻烦的是，现有测试题的出题方式天生有缺陷。传统的做法是：人工编写人员先想好一个场景故事，比如"一位顾客想取消机票并申请退款"，然后再推导出AI需要执行哪些工具操作。这种从故事到操作的顺序，导致测试集里的工具使用模式非常单调——人们容易想到的场景就那么几类，来来去去都是相似的情节。

研究团队用一个概念来描述这个问题：覆盖率不足。就好比一个厨艺考试，出题人只出了"炒鸡蛋"和"煮面条"两道题，考出来的成绩根本不能说明厨师是否真的全面掌握了厨艺。

---

二、三个好考题应该具备的品质

在正式介绍新方法之前，研究团队先定义了一套标准，说明什么样的考题才算好考题。他们提出了三个核心标准，像是一张检验考题质量的"三项全能"清单。

第一项叫**有效性**。一道题必须是可以自动判断对错的，而且题目本身不能有漏洞。就像数学题必须有唯一正确答案，AI考题也得保证"金标准答案"确实是能够实现的——如果题目设计有误，AI因为题目漏洞答错了，那是出题人的错，不是AI的错。现实中，τ-Bench早期版本里确实发现了几十道存在缺陷的题目，后来经过修正才发布了"验证版"（τ-Bench Verified，简称τBV）。

第二项叫**难度适中**。考题不能太简单，否则所有AI都能拿满分，无法区分强弱；但也不能人为设计得毫无逻辑只为了让AI答错，那样的难度是没有意义的。好的难度来自真实的复杂性：任务本身涉及的操作步骤多、需要处理的信息相互牵扯、用户描述得含糊其辞，等等。

第三项叫**覆盖率**。这是三个标准里最容易被忽视的一个，也是这篇研究最独特的贡献所在。测试集不应该反复考同一类场景，就像语文考试不能从头到尾只考"鲁迅作品"。覆盖率指的是测试题是否能够覆盖AI在实际工作中可能遇到的各种工具使用组合模式。

研究团队用"工具序列"来量化覆盖率。所谓工具序列，就是完成一项任务时需要调用的工具名称按顺序排列成的一个列表，比如"查用户信息→查订单信息→修改订单→确认完成"。如果一个测试集里所有题目的工具序列都差不多，那它的覆盖率就很低。覆盖率好的测试集，应该包含各种各样不同结构的工具序列，像一张繁密的地图而不是一条走了好多遍的小路。

---

三、反过来出题：先想操作步骤，再编故事

TASTE方法最核心的思路是把传统出题顺序彻底颠倒过来。

传统方式：先写故事，再推导操作步骤。

TASTE方式：先规划操作步骤，再为这些步骤编写对应的故事。

这个颠倒看起来简单，但意义深远。传统方式出来的题目，操作步骤组合永远受到"出题人能想到什么故事"的限制，天花板很低。TASTE的方式直接从工具操作的空间出发，可以系统性地探索各种工具组合的可能性，就像一个厨师不是等到有客人点菜才想怎么做，而是先把食材的各种搭配方式全部试一遍，再为每种搭配设计对应的菜品故事。

整个TASTE流程分三个阶段，每个阶段解决一个核心问题：第一阶段，生成大量有效的工具操作序列；第二阶段，从这些序列中挑选出足够多样化的代表；第三阶段，把每个代表序列变成一道真实的考题，并且让题目更难。

---

四、第一阶段：教会机器"什么样的操作顺序是合理的"

生成工具操作序列听起来简单，实际上非常棘手。工具的种类有十几种，操作序列的长度从几步到十几步不等，随机排列出来的组合绝大多数根本没有意义——就像把食谱的步骤随机打乱，"先把蛋糕从烤箱取出，再打鸡蛋，然后预热烤箱"，这样的顺序在现实中是行不通的。

研究团队设计了一个叫做"自适应对比n元语法模型"（Adaptive Contrastive n-gram Model）的工具来解决这个问题。用更通俗的话说，这个模型学会了判断工具操作序列是否合理，然后专门生成那些合理的序列。

这个模型的工作原理有点像一个学生在准备考试时反复做练习题并从错误中总结规律。模型维护两张"账本"：一张记录哪些相邻工具组合在合理序列中出现过（正面证据），另一张记录哪些相邻工具组合在不合理序列中出现过（负面证据）。当它要生成新序列时，会倾向于使用正面证据中出现的组合，同时回避负面证据中的组合。

训练过程是迭代进行的：模型先生成一批候选序列，然后请另一个AI（以Gemini-3-Flash为基础构建的验证器）判断每个序列是否合理，再把这批判断结果更新到两张账本里，然后重新生成更好的序列，如此反复循环。随着训练的进行，模型越来越善于生成合理的序列。

实验数据揭示了这套设计的价值。从零开始随机生成工具序列，合理率只有6.7%；用训练好的完整模型生成，合理率提升到了86.7%。这意味着效率提升了将近13倍。而且，负面证据的使用（那张记录不合理组合的账本）贡献了相当显著的提升——在训练到800轮时，使用负面证据比不使用多提升了约20个百分点。这一点直觉上也说得通：有些操作顺序是明显错误的（比如在取消预订之后还试图修改它），一旦模型学会了回避这类错误模式，生成合理序列的能力就会大幅提升。

---

五、第二阶段：从海量序列中挑选真正多样化的代表

有了训练好的模型，研究团队从中大量采样，生成了2000个不重复的合理工具序列。但测试集不需要2000道题，航空领域需要50道，零售和电信领域各需要114道。如何从2000个里挑出50或114个，同时保证挑出来的代表足够多样化？

这里用到了一种叫做"K中心点聚类"（K-medoids clustering）的技术。它的工作方式就像组织一场代表性的厨艺大赛选手：先把所有2000道菜谱按照烹饪风格分成若干组，每组选出最典型的那道作为代表参赛。这样选出来的参赛选手，既能代表本组的特色，又能保证各参赛选手之间的差异性足够大。

关键在于如何衡量两个工具序列之间的"距离"——也就是两道菜谱的烹饪风格有多不同。标准的编辑距离（最少需要多少次增删改操作才能把一个序列变成另一个序列）在这里并不理想，因为它会把功能上非常相似的工具（比如"搜索直达航班"和"搜索中转航班"）当作完全不同的东西。

研究团队设计了一种"加权编辑距离"，把工具之间的语义和功能关系纳入考量。具体来说，替换功能几乎一样的工具（同属"搜索"类别的直达和中转航班搜索），代价只有0.33；替换同类型但不同功能的工具（比如两个都是读操作，但读的内容不同），代价是0.66；替换完全不同类型的工具（读操作换成写操作），代价是1.0。

这种加权距离让聚类结果更符合实际含义。研究团队做了定性对比分析，发现使用加权距离形成的聚类，同一簇内的序列在功能逻辑上高度一致，而不同簇之间则代表了截然不同的用户需求类型——比如"搜索并预订航班"是一类，"查询延误并申请补偿"是另一类，"修改乘客信息"又是另一类。

---

六、第三阶段：把操作序列变成真实考题，再让题目更难

每个被选中的代表序列，需要变成一道完整的考题。考题需要包含三个部分：一个初始数据库状态（比如用户的账号信息、已有的订单记录）、一段用户指令（告诉AI用户想要做什么）、以及一个目标最终状态（执行完所有操作后数据库应该变成什么样子）。

生成这些内容需要两次调用AI（以Gemini-3-Flash为基础）。第一次，AI根据给定的工具序列编写一个合理的用户场景和对应的用户指令，同时发明具体的人物名字、订单编号等细节。第二次，AI生成这道题所需要的数据库记录，保证那些被工具操作引用的信息确实存在于数据库中。

题目生成完之后，必须经过严格的验证。验证分两大类：基于规则的机械检查（比如检查操作序列中引用的每个实体是否都存在于数据库中、每个工具调用的参数格式是否符合规范），以及基于模拟的可解性测试。

可解性测试的设计颇为精巧。如果直接给AI看完整的答案让它重新做一遍，这只是在验证AI会"抄答案"，没有意义。但如果完全不给提示，一道设计合理但本身很难的题目可能让AI失败，这样就无法判断失败是因为题目有问题还是因为AI能力不足。研究团队找到了一个折中方案：给AI看一个"打乱顺序、部分参数被遮盖"的提示版答案。工具调用的顺序被打乱了，每个工具调用中30%的参数被删除，AI需要通过与模拟用户的对话来推断正确的执行计划并填补缺失的参数。如果AI在这个条件下能够成功完成任务，这道题就被认为是有效的考题。

这个验证机制的可靠性也经过了测试。研究团队在航空和零售两个领域，用τ-Bench原版与验证版的差异作为标签，测试了验证器的判断准确率。结果显示，验证器的精确率在两个领域分别达到了1.0和0.97——也就是说，凡是被它认定为"有效"的题目，几乎百分之百真的有效。召回率稍低（0.75和0.83），意味着偶尔会把一些其实有效的题目误判为无效，但这对测试集来说是可以接受的代价，因为保证每道题都确实有效比确保每道有效题都被收录更重要。

验证通过之后，题目还要经历一个叫做"难度演化"的过程。这个步骤专门负责把题目变难。基础版题目是特意设计得非常清晰直接的，目的是先验证任务的逻辑结构是否正确，再在这个基础上增加难度。

增加难度的方式来自三个方向，分别模拟现实生活中用户给AI制造麻烦的不同方式。第一种叫"数据库迷惑战术"：在数据库里加入一些看起来很像目标的"陷阱记录"，比如在用户想预订的航线上放一个座位已满的航班，让AI在查询时容易误判。第二种叫"政策边界压力"：让模拟用户主动要求一些政策不允许的操作，比如声称自己是"白金会员"因此享有某些实际上并不存在的优惠，测试AI是否能够坚守规则而不被用户的强势态度说服。第三种叫"对话对抗性"：让模拟用户变得不配合，比如故意不主动提供关键信息，或者一开始提供错误信息后来才更正，测试AI的耐心和信息核实能力。

每道难度演化后的题目还要重新通过验证。如果演化后的版本无法通过验证，系统会尝试简化版的演化；如果简化版也不行，就保留原始基础版题目。这种"逐级回退"的机制保证了最终测试集里每道题都经得起检验。

用于演化题目难度的AI是Gemini-3-Pro（比生成基础题目用的Gemini-3-Flash更强大的版本）。研究中对比了用Gemini-3-Pro和GPT-5.2来进行演化的效果，发现前者演化出的题目让AI的成功率下降幅度更大（下降36%到55%），所以最终选择了前者。

---

七、新考题有多难：数字说话

研究团队用11个不同的"AI智能体与用户模拟器"搭配组合，在航空、零售、电信三个领域的新旧测试集上分别进行了测试。结果非常有说服力。

以谷歌的Gemini-3-Flash模型为例。在旧测试集（τBV）上，配合两种不同的用户模拟器，它的成绩分别达到了0.82和0.94（满分为1.0）。切换到新测试集之后，成绩分别下滑到了0.56和0.61——在航空领域更是低至0.28和0.34。这不是小幅下降，而是接近腰斩。

其他模型同样没有幸免。谷歌的Gemini-2.5-Flash在新测试集的航空领域，成绩从原来的0.58到0.66，直接跌落到0.21到0.36。Qwen-32B在航空领域的成绩从0.50跌至0.10到0.13，相对下滑幅度超过了70%。

相比之下，也有表现相对稳健的模型。DeepSeek-3.1在零售领域的成绩基本持平（从0.47到0.47），在电信领域的降幅也相对较小。Claude-Sonnet-4.6总体下降幅度在所有被测模型中最为温和。但即使是相对最稳健的组合，在新测试集上的绝对分数也明显低于旧测试集，说明难度提升是实质性的、全面的。

除了成绩下降，新测试集的覆盖率指标也大幅优于旧版本。用于量化工具序列多样性的"加权编辑距离"平均提升了45%到124%；"类型-标记比率"（衡量不重复的工具组合模式占比）平均提升了67%到111%；工具使用频率的信息熵（衡量工具使用是否均匀分布，而非集中在少数几种工具上）也提升了约35%。

用更直观的说法来理解：旧测试集里，AI反复被要求执行一些常见的、雷同的操作组合，就像一个厨艺考试每次都只考炒鸡蛋。新测试集要求AI掌握的工具组合多样性翻了一番以上，更接近真实客服场景的复杂性。

---

八、任务的难度可以被主动调控

这篇研究还有一个颇有实用价值的发现：TASTE框架中的某些参数可以直接用来调控任务难度，而且效果非常明显。

研究团队把测试集中的任务按照工具序列的长度分为两组（前50%长和后50%短），然后比较AI在两组上的平均成功率。结果显示，长序列任务的成功率比短序列任务低了约13到20个百分点，三个领域均如此。

按照写操作（修改数据）与读操作（查询数据）的比例做同样的分组也得到了类似的结论。写操作占比高的任务（也就是需要在数据库里做更多修改的任务），比读操作为主的任务难度大得多——成功率低了16到31个百分点。这个结论在直觉上也是合理的：读操作通常不会产生不可逆的后果，而写操作一旦做错了就会改变数据库状态，代价更高，要求AI更谨慎。

这意味着，当未来的AI模型变得更强大，现在的测试集又开始饱和的时候，可以通过增加工具序列长度、增大写操作比例等方式，生成更难的新一批测试题，而不需要从头重新设计整套流程。TASTE本质上是一个可以持续运转的"出题机器"，而不是一次性的产出。

---

九、成本与可行性：自动化出题的经济账

手工设计一道高质量的AI测试题需要专业人员花费大量时间，整个过程难以规模化。TASTE的出现在相当程度上改变了这个局面。

具体来看成本构成：第一和第二阶段（训练n元语法模型、生成候选序列、聚类选择代表）每个领域只需花费约10美元。第三阶段（生成题目、验证、演化）每道题的平均成本约为2.5美元。τ?-Bench包含三个领域共278道题（50加114加114），第三阶段总计约695美元，加上前两个阶段的约30美元，整个测试集的生成成本约725美元。

对比之下，用被测试的AI模型在这批题目上跑完所有测试组合的总成本是520美元。也就是说，生成一批全新的、高质量的测试题，成本和做一轮测试的成本在同一数量级。这在以前是难以想象的——手工出题的人力成本要高出几个数量级。

当然，这套方法也有其局限性。当前的TASTE框架是在已有环境定义（政策文档、工具规范、数据库结构）的基础上工作的，它需要这些基础设施才能运转。如果要扩展到全新的领域，需要先建立相应的环境定义。此外，题目质量在一定程度上依赖于用来进行验证和生成的AI模型的能力，如果基础模型判断能力有缺陷，可能会影响题目有效性。

---

十、这项研究真正告诉了我们什么

说到底，这篇研究指出了一个AI评估领域长期存在但容易被忽视的结构性问题：当前许多AI测试集的设计方式，天然地偏向于少数几类常见的操作模式，而AI的高分可能更多反映的是对这些常见模式的熟悉，而非对工具使用能力的全面掌握。

TASTE提供的不仅是一批更难的题目，更是一套持续更新考题的方法论。这对整个领域的意义在于：随着AI能力的持续进化，评估框架也可以相应地持续升级，而不是等到AI刷爆了旧题库再手忙脚乱地重新出题。

从更广的角度看，这项工作也给那些正在宣传AI客服、AI助手能力的公司提了一个重要的问题：你们的AI在测试集上的高分，究竟有多大程度上代表了真实能力？当任务变得更复杂、用户变得更难缠、数据库里充满了容易混淆的干扰信息时，AI的表现会是什么样子？新测试集给出的答案，往往比旧测试集的高分更能说明问题。

这也提醒了使用AI工具的普通用户：当一个AI客服告诉你它能处理复杂的账单问题或者多步骤的订单修改时，不妨留意它在面对一些小小的"测试"时的表现——比如给它一个信息略有出入的场景，看看它是否会认真核实，还是直接按照你说的话行动。真正可靠的AI，应该是那种会主动说"等等，这里有一点不对劲，让我先查一下"的。

对这项研究感兴趣的读者，可以通过arXiv编号2605.28556查阅完整原文，论文由以色列理工学院（Technion）数据与决策科学学院和IBM研究院以色列分部的研究人员共同完成。

---

Q&A

Q1：τ?-Bench和τ?-Bench有什么区别，为什么τ?-Bench更难？

A：τ?-Bench是一个手工编写的AI客服测试集，由人类先写故事再推导操作步骤，导致工具使用模式比较单调重复，主流AI模型已经能拿很高分。τ?-Bench是用TASTE方法自动生成的扩展测试集，先系统采样多样化的工具操作序列，再为每个序列编写场景，同时还对任务进行"难度演化"——在数据库中加入混淆陷阱、让模拟用户更不配合、引入政策边界压力——所以题目更难，覆盖的工具组合类型是原来的两倍以上。

Q2：TASTE生成的考题质量怎么保证，会不会有错误题目？

A：TASTE采用多重验证机制保证题目质量。首先通过规则检查确认操作步骤的参数和数据库实体是否一致；然后由AI策略审查员检查用户指令是否符合领域政策；最后用一个"打乱顺序、遮盖部分参数"的提示版答案让验证AI尝试完成任务，通过才认定题目有效。实验测试显示验证器的精确率达到0.97到1.0，而且研究人员人工检查了所有AI全部答错的题目（共15道），确认这些题目都是有效的，AI失败纯粹是因为题目本身确实很难。

Q3：TASTE方法能用于训练AI，还是只能用来测试AI？

A：论文中TASTE主要被设计和验证为评估工具，用于生成更难、覆盖率更广的测试集。不过研究团队在结论中明确指出，TASTE同样具备用于训练数据生成的潜力——通过生成多样化的、有验证保障的工具操作任务示例，可以为AI模型的强化学习训练提供更丰富的场景覆盖。这一应用方向被列为未来工作。

人工智能评估工具使用型智能体自动化基准测试生成

分享至