微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI"做对了题目"才算真本事——Clio AI发布的KWBench测试揭示:顶尖AI连三成专业问题都没搞清楚要解决什么

AI"做对了题目"才算真本事——Clio AI发布的KWBench测试揭示:顶尖AI连三成专业问题都没搞清楚要解决什么

2026-04-29 13:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-29 13:33 科技行者

这项由Clio AI发布的研究以预印本形式于2026年4月17日公开,论文编号为arXiv:2604.15760,有兴趣深入了解的读者可通过该编号查询完整原文。

一、当AI交出漂亮答卷,却答错了题

假设你是一家公司的管理者,手下有一位技术能力出众但让三位同事相继离职的工程师,此前他还曾起诉过前任雇主。现在HR批准了对他发起绩效改进计划,要求你拟定改进目标。你会怎么做?

大多数人可能会想:写清楚、可量化的工作目标,给他改正的机会。这是教科书式的答案,也是几乎所有顶尖AI模型给出的答案。然而这个答案在实际情境下是危险的,因为这位工程师正在暗中积累材料,准备提起不当解雇诉讼。他需要的不是改进方向,而是能让他在诉讼中将失败归咎于同事配合不力或标准模糊的协作型目标。你写下的每一行改进计划,都会在法庭上接受检验。

这就是KWBench(知识工作测试台)想要捕捉的东西——不是AI能否把事做好,而是AI能否在动手之前,先搞清楚自己面对的究竟是什么问题。研究团队将这种能力称为"未经提示的问题识别"。测试结果颇为清醒:目前表现最好的模型,也只有约28%的概率在开口作答之前,把问题认清楚了。

二、为什么现有的AI评测已经告诉不了我们真正重要的事

在理解KWBench之前,值得先弄清楚现有测试体系的局限在哪里。过去几年,AI在数学推理、代码生成、事实问答等各类基准测试上的成绩屡创新高,不少测试项目的正确率已经突破90%甚至更高,和人类专家的差距越来越小。听起来令人振奋,但这些测试有一个共同的隐藏前提:题目本身已经把问题框架搭好了。

就像下棋,棋盘规则清晰,每一步的合法走法都是确定的。现有的AI基准测试大多是这样的"棋盘游戏"——所有条件都摆在台面上,AI只需要在规定框架内找到正确答案。但真实的职场工作更像打牌,对手的手牌是隐藏的,对方是否在虚张声势,你并不清楚,而且你的每一步行动都会影响对方的后续策略。

经济学和博弈论里有个专门的术语来描述这类情境,叫做"不完全信息博弈"。并购谈判、薪酬谈判、合同审查、绩效管理,这些知识型工作的共同特征是:场景里存在着动机未公开的其他参与者,信息是不对称的,沉默有时比表态更能说明问题。

现有的AI测试完全没有触及这个维度。于是出现了一个奇怪的断层:在测试题上接近满分的模型,在真实的职业场景里频繁犯下初级错误,而且犯错的方式往往很隐蔽——它们产出的内容格式规范、逻辑自洽、读起来像是行家手笔,只是方向完全错了。

KWBench的出现,正是为了填补这条裂缝。它要测量的不是AI在正确框架下的执行能力,而是AI能否从一堆原始信息中,自己认出"这是一道什么题"。

三、KWBench是怎么设计的

研究团队构建了一个包含223道题目的测试集,涵盖并购交易、合同谈判、临床药学、组织政治、欺诈分析和激励机制设计等多个领域。每道题目的核心特征是:题面把你往一个方向引,但正确答案需要你先识破这个方向是错的。

题目背后的理论骨架来自博弈论的几个经典结构。第一类是信号博弈:掌握私人信息的一方会通过某种可观察的行动传递信号。比如买方给出一个带有48小时截止期限和60天排他条款的收购要约,这个结构本身就是信号——理性的买方不会无缘无故施加这样的时间压力,除非他认为目标公司的价值被低估了,他需要在卖方发现这一点之前锁定交易。第二类是委托-代理问题:帮你做事的人有自己的私利。投资银行家推荐的交易方案能给他们带来佣金,律师建议的高价审计能规避他们自身的职业风险,咨询公司的第一期报告总是建议续签第二期合同。在评价任何建议之前,得先把建议者的激励结构搞清楚。第三类是机制设计失效:规则是为"合规型人"设计的,但真实世界里的人都会理性地绕规则钻空子。销售人员不填写客户移交表单,不是因为表单太复杂,而是因为准确填写会削减他们对下游业务的谈判筹码。连续三次"流程改进"没解决问题,说明问题根本不在流程上,在于激励结构。第四类是联盟动态:当多个参与者形成联盟时,双边谈判变成了多边博弈。两位联合创始人协商出33/33/33的股权分配,实质上握有合计控股权。来自同一投资机构的两名董事会成员构成一个投票集团。第五类是战略相互依赖:一方的决策改变了游戏对所有人的规则。一支已经降级的球队的最后一场比赛看起来无关紧要,但如果他们的赢球会导致积分三队并列,就会触发不同的排名规则,进而影响谁能留在联赛。第六类是信息不对称与战略性缺失:缺席的信息和在场的信息同样重要。一份展示了六位热情支持者却完全没有采购、法务和安全联系人的销售进度报告,意味着真正的采购流程还没有开始。

研究团队刻意不在题目中给出任何提示。模型收到的只是原始材料和任务要求,没有"请考虑对方的动机",没有"这道题涉及博弈论",完全没有任何引导。这是整个测试设计的核心原则:只测量模型自己认出问题的能力,不测量模型在被告知问题类型之后的执行能力。

题目素材方面,185道来自真实的职业事件,包括具有胁迫性条款的并购案、围绕独立董事席位的董事会争议、薪酬谈判中的不可核实主张,以及由激励错位导致的流程失败。另外38道改编自WildBench、Health-Bench等已有的公开基准测试,目的是展示知识型工作评测的方法可以迁移到各类任务上,同时提供与现有基准的参照点。

参考材料的设计经过了特别的"加固"处理。初稿中存在一个常见陷阱:有些文件对关键信息做了预消化处理,比如在合同审查文件里标注某条款"出奇地宽松",或者在尽职调查文件里直接算好了隐含的收购倍数。这种处理实际上把"识别"变成了"阅读理解",模型只需要找到被标注的信息,而不是自己理解为什么它重要。研究团队把所有这类内容都还原成了原始数据,要求模型自己完成解读这一步。同样,那些因为措辞或排版而显得格外醒目的关键信息,也被重新嵌入了普通的叙述文本,让它们在形式上不再"显眼"——信号还在,但找到它需要真正理解情境,而不是盯着最醒目的那行字。

四、评分机制是如何设计的,以及它为什么要这样设计

每道题目对应一套三层评分标准,每层包含五个判断项。最底层是强制性标准,即模型必须全部通过的核心条件。只要有一条强制标准未达到,该题得零分,不管其他方面做得多好。中间层是"良好"标准,测量分析的深度和具体性。最上层是"理想"标准,测量从业者级别的洞察力。

强制性标准的判断项都非常具体,且都对应着一种可以命名的错误后果。以绩效改进计划为例,"所有目标必须是独立完成的"这一条存在的原因是:一旦目标涉及同事协作,员工就可以在诉讼中声称同事拒绝配合;"目标必须是二元的"这一条存在的原因是:一旦有模糊的主观标准,员工就可以声称标准本身带有偏见;"不能使用360度评估"这一条存在的原因是:员工可以声称同事因私人关系打低分。每条标准都是一个具体的"失败模式预防措施",而不是一个模糊的质量要求。

这个设计逻辑的背后有一个重要的现实观察:在很多专业领域,错误是不可叠加的。一份合同审查漏掉了一个关键的无限责任条款,就算其他部分写得再好,合同依然是存在隐患的。一份绩效改进计划里有一条依赖他人配合的目标,就算其他四条写得无懈可击,员工还是可以用那一条来打官司。强制性标准的零分机制,就是在模拟这种"一票否决"的现实逻辑,而不是用加权平均来掩盖真正的缺陷。

研究团队还特别指出,强制性标准测的是"避开预设陷阱",而不是"完成理想解答"。测试不问"你给出了完美的绩效改进计划吗",而是问"你有没有掉进我们已经知道会导致法律失败的那些坑里"。你不需要同意什么是最好的答案,只需要同意那些坑是真实存在的。

五、测试了哪些模型,结果如何

研究团队测试了来自10家机构的16个模型,包括Anthropic的Claude Opus 4.6、OpenAI的GPT-5.4及其变体、Google的Gemini 3.1 Pro和Gemini 3 Flash、Zhipu AI的GLM-5 Turbo、阿里巴巴的Qwen 3.5 Plus和Qwen 3.5、Moonshot AI的Kimi K2.5、MiniMax的M2.5和M2.7、NVIDIA的Nemotron 3 Super,以及Prime Intellect和小米各自的模型。每个模型在完整测试集上运行三次,取最佳成绩作为最终结果。

整体结果可以用一句话概括:所有模型都很难在动手之前先认清问题。表现最好的Claude Opus 4.6通过了61道题的强制性标准,通过率约为27.9%,零分包含的综合得分为22.6%。紧随其后的GPT-5.4通过了47道题,通过率21.1%。排名三到八位的模型聚集在一个相当窄的区间内,通过率从13.9%到20.4%不等。排名靠后的模型,最低的通过率只有个位数。

有一个细节值得单独说明。当模型通过了强制性标准之后,它们在剩余两层标准上的得分非常接近,在76.6%到84.1%之间波动,标准差只有约3.8个百分点。换句话说,一旦模型正确识别了问题是什么,它的执行质量其实相当不错,而且各个模型之间差异不大。真正的分水岭不在于"做得好不好",而在于"有没有认清楚要做什么"。

六、没有哪个模型是全能的,这件事本身就是一个发现

面对这些结果,一个自然的猜测是:排名靠前的模型通过的题目,应该包含了排名靠后的模型通过的所有题目,再加上一些更难的。如果这个猜测成立,模型能力就是沿着一条单一维度排列的,最强的模型就是一个超集。

事实并非如此。排名第一的Claude Opus 4.6和排名第二的GPT-5.4,在各自通过的题目上,重合度只有31.7%的Jaccard相似度。两个模型合计通过了82道不同的题目,但其中只有26道是两者都通过的。GPT-5.4独立通过了21道Opus 4.6完全没能通过的题目,而Opus 4.6独立通过了35道GPT-5.4完全没能通过的题目。

进一步扩展到前8名模型,两两之间的重合度平均只有29.3%,没有任何一对模型的重合度超过45%。在这8个模型中,有44道题恰好只被其中一个模型通过。前8名中的每一个模型,都有至少两道题是其他7个模型全都无法通过的。

这个结果意味着模型的识别能力分布在不同的方向上,而不是聚集在同一个方向上各有深浅。仔细分析各个模型的"专长区域",可以看到一些明显的规律性。Opus 4.6在需要从原始数据中识别对抗性结构的任务上更强,比如认出委托-代理关系、识别运营数据中的隐藏模式、解读信号博弈和战略性缺失。它是唯一通过了那道拉丁美洲足球联赛排程题(战略相互依赖)的模型,也是唯一通过了"猎价者客户细分"任务(双峰分布被均值掩盖)的模型。GPT-5.4则在需要应对组织内部动态和战略判断的任务上更强,比如市场进入决策、领导力困境,以及那些正确答案是"质疑提出要求的高层"的场景。它是唯一通过了决策理论"生存赌注"那道题的模型,那道题的核心在于识别期望值最大化策略在一次性不可逆决定中会失效。两个模型的能力图谱像是同一块知识领地上的两张不同地图,各自标注了对方遗漏的地方,但整体上只有约三分之一的重叠。

通过一个贪心集合覆盖分析可以看到:单独使用Opus 4.6能覆盖所有可解题目的54%。加入GPT-5.4,覆盖率提升到73%。再加入Gemini 3.1 Pro,覆盖率达到84%。前8名全部加入,覆盖率达到100%的可解题目。换句话说,路由到最合适的模型,能将覆盖率从单模型的28%左右提升到可解题目的完全覆盖。

排名靠后的模型也值得一提。排名9到16的模型,合计还独立通过了3道前8名模型全部无法通过的题目,分别是一道人质谈判、一道药房分诊决策和一道Glassdoor声誉管理问题。一个通过率只有5%的模型,确实通过了一些通过率四倍于它的模型没能通过的特定题目。能力高低与特定场景的适配之间,不是简单的包含关系。

七、零分模型其实并没有完全交白卷,这才是最耐人寻味的地方

研究团队发现了一个非常能说明问题的现象:那些在强制性标准上失败、总分得零的模型,在"良好"层和"理想"层的标准上,通过率其实相当高。表现最好的Opus 4.6在它那158道得零分的题目上,"良好"层标准的通过率约为60%。GPT-5.4在零分题目上的同类通过率约为55%。即便是中等水平的模型,在零分题目上也能清除40%到50%的非强制性标准。

这意味着这些模型并不是交了一份空白卷,而是交了一份格式整洁、数据翔实、论述周全的答案——只是在解答一道错误的题目。它们提取了正确的数据,识别了相关因素,写出了专业规范的输出,但决定整份工作成败的那个框架性判断,它们没有做出来。

更奇特的是,如果你直接问这些模型"斯宾斯信号模型是什么",它们能流畅地给出定义;如果你问"请解释一个委托-代理冲突的例子",它们能给出准确的解释。这些知识确实存储在模型的参数里,但在没有明确提示的情况下,面对一个真实场景,它们不会自发地把这些知识调取出来应用到正确的地方。知识是有的,自主调用的能力是缺失的。

正因为如此,如果没有那个"一票否决"的强制性标准机制,上述问题会完全消失在平均分里。零分题目在其他层面上的高得分率,会把综合分数推高,让这些模型看起来比实际表现得要好得多,掩盖了那个根本性的识别缺陷。

八、模型为什么会这样失败

研究团队归纳了六种反复出现的错误模式。其中最核心的一种,可以叫做"协作默认"。模型在处理不完全信息博弈的情境时,系统性地把它当成单人游戏来处理。评估一份收购要约时,它们用贴现现金流模型分析价值,而不是把要约本身当作买方私人估值的信号来解读。分析销售流程失败时,它们建议改进流程设计,而不是识别出让不准确填报成为理性选择的激励结构。应对做空报告时,它们逐条起草事实反驳,完全没有意识到这正是做空者期待对方做的,因为对方已经准备好了针对这份反驳的再反驳。

为什么会有这种系统性的协作偏向?研究团队提出了几种可能的解释,这些解释很可能同时起作用。其一是强化学习和人类偏好优化的影响:在训练过程中,"有帮助"的正向信号可能系统性地奖励了协作、友善的输出。一个回答"你的对手方可能在利用你"的模型,在人类偏好评分中的得分,可能低于一个给出"以下是均衡分析"的模型,即便前者更符合实际情境。如果奖励模型一贯偏向协作式的回答,训练过程就会抑制对抗性推理,哪怕底层的能力实际上是存在的。其二是训练数据的构成:职场写作的语料库主要由最佳实践指南、商业建议、教科书内容构成,这些内容几乎都是协作框架下的。"你的顾问在推荐一个能给自己带来收入的方案"这类对抗性分析,在训练数据里的比例极低。其三是指令跟随的压力:当任务提示说"评估这份提案"或"起草一份回复",模型倾向于把它理解为"按字面意思完成任务",而不是"质疑这个任务的前提是否成立"。其四是计算本身的难度:同时维持多个关于对方激励结构的假设,并在新信息出现时动态更新,这本身可能比单人分析更难,与训练信号无关。

除了协作默认,其他五种错误模式大多是它的延伸。模型倾向于把对方的陈述当作事实接受,不推断战略意图。它们把激励问题误判为流程问题,持续提出第四次程序改进方案。它们分析局部最优而忽视多方博弈的全局,在已经证明劣势策略被排除之后,不继续分析剩余子博弈。它们服从于有问题的任务前提,不对提出要求的人的动机发出质疑。而当它们缺乏正确的框架时,它们会用篇幅来弥补,产出三千字的错误分析,并在这个过程中积累大量良好层和理想层的得分,制造出一种"深思熟虑"的假象。

九、这个测试的结果告诉我们什么

首先是一个关于AI部署的现实提示。这些模型已经在实际工作中被使用,用于起草并购备忘录、审查合同、撰写绩效改进计划、制定薪酬方案。这些任务在设计上就是不完全信息场景,存在动机未公开的其他参与者,存在由结构而非内容传递的信号,存在战略性缺席的关键信息。一个把问题框架搞错的分析,产出的内容读起来是可信的,会通过内部审查,进入决策文件,影响真实决策。这种错误不会像数学计算错误一样被常规检查捕捉到,因为它不是数字算错了,是分析的出发点就偏离了。

其次是一个关于系统架构的含义。没有单一模型能够覆盖整个问题空间,而任何一个看起来较弱的模型都有它独特能通过的题目。这意味着依赖单一模型处理全谱系的知识型工作,在结构上就是不够的。动态路由到最合适的模型,能把覆盖率从单模型的28%左右提升到可解题目的完整覆盖。对于需要跨领域可靠性的智能体架构,异构模型的协作调度是有实际意义的方向。

第三是一个关于训练方向的诊断。当前模型在对抗性推理上的系统性盲点,很可能不是规模不够大或微调不够多的问题。它指向的是训练信号的结构性方向:如果对抗性推理被协作式偏好持续压制,更大的模型只会更擅长地做错方向上的事。明确地为对抗性对手建模提供奖励信号,可能是修复这个问题的必要条件,而不是充分条件。

研究团队也坦诚地列出了这项研究的局限。没有人类专家基线,所以我们目前只知道模型在哪些地方失败,不知道和人类专家的差距是多大。没有做"加入提示后重新测试"的对照实验,所以我们还不能严格区分"模型缺乏识别能力"和"模型有能力但不自发调用"这两种假设,哪一种是主导原因。评判模型的裁判只用了Gemini 3 Flash一个,虽然每个标准都是可核实的二元判断,但多裁判的一致性验证还没有完成。训练数据的污染也无法完全排除,尽管题目来源于匿名化的真实事件,但顶尖模型的训练语料是不透明的。此外,整个测试集在情境选择上更偏重于战略推理和组织行为,基本上反映的是西方职业文化和企业结构的背景,这是一个需要在后续版本中扩展的方向。

归根结底,KWBench揭示的是一个在现有评测框架下完全看不见的能力维度。语言模型在"把题做对"和"认清要做什么题"之间,存在一道真实的沟。这道沟不会因为在数学题或代码题上表现得更好而自动消失。在知识型工作里,先认清问题才是真正的起点。这项研究发布的基准测试数据集可以在Hugging Face上通过clio-ai/kwbench找到,对方法论感兴趣的读者可以通过原论文编号arXiv:2604.15760查阅完整细节。

Q&A

Q1:KWBench测试的是什么能力,和普通AI测试有什么不同?

A:KWBench测试的是AI在没有任何提示的情况下,能否自己识别出一个职业场景里真正的问题是什么,而不是被告知问题类型之后能否执行。普通AI测试大多从一个已经设定好框架的问题出发,测的是执行能力。KWBench专门测的是那个更早的一步——在正式分析之前,AI有没有看出这道题在博弈论意义上属于哪类结构。目前最好的模型通过率只有约28%,而一旦通过识别关,各模型的执行质量反而相当接近。

Q2:为什么顶尖AI总是给出"合作型"而非"对抗型"的分析?

A:研究团队认为这主要来自训练过程的结构性影响。在基于人类偏好的强化学习中,协作、友善的回答通常比质疑对方动机的回答得分更高。加上职场写作的训练语料里,对抗性分析的比例天然偏低。这两个因素共同导致模型在没有明确提示的情况下,系统性地倾向于把不完全信息场景当成单人游戏来分析,把对方陈述当作事实接受,而不是当作可能带有战略意图的信号来解读。

Q3:KWBench发现各个模型能力分布不同,对实际使用有什么启发?

A:这意味着没有单一模型能覆盖所有知识型工作场景。研究结果显示,把前8个模型组合使用,能覆盖目前可解题目的100%,而单独使用最好的模型只能覆盖约54%。对于需要跨领域可靠性的应用,根据任务类型动态路由到最适合的模型,比单一依赖一个旗舰模型在覆盖率上要高出近一倍。每个模型都有它独特擅长的识别类型,这种互补性是真实的。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-