
这项由伦斯勒理工学院、德克萨斯大学阿灵顿分校、太平洋西北国家实验室以及美国国家可再生能源实验室联合开展的研究,以预印本形式发布于2026年5月(arXiv编号:2605.18630),目前尚未正式刊登于期刊,有兴趣深入了解的读者可通过该编号查阅完整论文。
**一道绕不过去的"前置难题"**
假设你是一位工程师,委托一名助理帮你模拟水流绕过圆柱体的情形。你给了助理一句话:"帮我模拟流过圆柱的流体。"助理没有追问任何细节,直接开始运算,最终给你递上一份看起来非常专业的报告。但问题在于,那份报告模拟的是一种极其缓慢、像糖浆一样蠕动的流体状态,而你真正想研究的,是快速湍流中那种漂亮的"卡门涡街"——两种状态在物理上天差地别,计算结果毫无参考价值。这不是科幻故事,而是当前人工智能科学助手在实际工作中面临的一个真实痛点。
AI大语言模型(简单理解:能对话、能写代码、能回答问题的超级聊天程序)正在越来越多地被部署到科学研究领域,承担流体力学模拟、有限元分析、材料计算等繁重任务。学界已经有大量测试来评估这类AI到底"有多聪明"——能不能回答科学问题、能不能写出正确代码、能不能调用专业工具。但这些测试几乎都有一个共同的前提假设:用户给出的任务描述是完整且自洽的,AI只需要"接单执行"就好。
现实中的科学工作可不是这样运转的。研究者在最初描述任务时,往往是一种粗糙的、语焉不详的草稿状态——缺少边界条件、没说清楚材料参数、甚至在自己的描述里埋下了相互矛盾的假设。一个真正可靠的科学AI助手,必须首先具备一种关键能力:在动手之前,通过对话把任务描述"审问清楚",而不是拍脑袋假设一个答案然后硬干。
正是为了测量AI在这个"动手前的对话环节"的能力水平,来自多所顶尖机构的研究团队设计并发布了一个全新的评测基准——**SciConvBench**。
**一、SciConvBench到底在测什么:给AI出的是一道"先别急着答题"的考卷**
要理解这个基准的独特之处,可以用一个日常场景来类比。假设你去装修公司,对设计师说:"帮我把客厅弄得现代一点。"一个糟糕的设计师会立刻回去画图,然后给你一个他以为"现代"的方案,结果与你心中所想相去甚远。一个优秀的设计师则会先问你:你喜欢什么颜色?预算是多少?是开放式还是封闭式厨房?沙发想要皮质还是布艺?把所有关键细节逐一确认清楚,才开始设计。
SciConvBench就是一份测量AI"设计师"角色的考卷,只不过场景换成了流体力学、固体力学、材料科学和偏微分方程这四个计算科学领域。每一道测试题,都从一个科学上完全正确、逻辑自洽的"完美任务描述"出发,然后由专家团队手动对它进行"破坏"——要么偷偷删掉某些关键信息(比如边界条件、材料参数或数值求解器的设置),要么故意在里面埋入相互矛盾的说法(比如既说用不可压缩流体模型,又在另一句里描述了一个马赫数大于1的超音速场景——这两个条件在物理上根本不能同时成立)。
经过破坏的任务描述就是AI所接收的"用户请求"。AI的任务是通过一轮轮对话,向用户追问缺失的信息、或者指出并解决矛盾之处,最终给出一份完整、准确、用户真正需要的任务规格书。
整个基准覆盖两种考察类型。第一种叫"消歧",对应的是信息缺失的情况;第二种叫"矛盾消解",对应的是任务描述内部存在逻辑冲突的情况。两种类型共产出1142个测试案例,分布在四个科学领域之中,每个领域还细分了普通数值计算题和需要调用专业仿真软件的工具类题目。
这个规模听起来不算巨大,但研究团队特别说明:科学任务规格化数据极其难以构造,因为每一道题的缺失信息或矛盾内容都必须与具体的科学问题紧密相关,无法用自动化模板批量生成,必须由领域专家逐题手工打造,并经过另一批专家的独立审核,才能确保质量。
**二、评分规则:不只看"最终答案对不对",更要看"有没有真正问过用户"**
这里有一个非常重要的设计哲学,是SciConvBench区别于大多数AI评测基准的核心所在。
传统评测通常只关心AI最终给出的答案是否正确。但SciConvBench的设计者认为这远远不够——因为AI完全可以靠"蒙"或者"自作主张填空"来得出一个恰好正确的答案,而用户对整个过程毫不知情。这种行为在科学工作中是非常危险的:如果AI没有明确告诉你它做了什么假设,你就无法审查、无法重现、无法信任这个结果。
为此,研究团队设计了三套评分指标,可以理解为从三个不同角度给AI打分。
第一个角度叫做"最终解决率"(FRR):AI交出的最终任务规格书,有没有正确地解决所有缺失信息或矛盾问题?这只看结果,不管过程。
第二个角度叫做"对话落地解决率"(CGRR):AI交出的最终任务规格书不仅正确,而且所有关键问题都在对话中被明确地提问或指出了。换句话说,AI是通过真正的沟通来达成结果的,而不是偷偷自己脑补了答案。这是整个基准最核心的评分指标。
第三个角度叫做"静默解决率"(SRR):这是一个"越低越好"的指标。它记录的是AI给出了正确的最终结果,但在对话中从未提及那个关键缺失信息或矛盾——也就是说,AI是靠悄悄猜测来完成任务的。这种行为被研究团队明确定义为一种隐患,因为用户完全不知道AI做了什么假设。
三个指标之间的关系用一个简单的等式来理解:最终解决率 = 对话落地解决率 + 静默解决率。CGRR越高、SRR越低,说明AI的行为越透明、越可靠。
除此之外,评测还引入了三个诊断维度,用于分析AI为什么成功或者为什么失败。"能力"维度衡量AI有没有问对问题、有没有把所有必要信息填进最终规格书;"稳健性"维度衡量AI有没有擅自假设、有没有检测出矛盾、有没有在对话中前后自相矛盾;"可用性"维度衡量AI交出的最终规格书有没有偏离用户最初真正想做的任务。
评分由另一个大语言模型担任"裁判",使用专家为每道题单独定制的评分标准,对AI的对话记录和最终规格书进行综合判断。研究团队还专门邀请了一位具有计算科学研究生背景的人类专家,对其中80个案例进行了独立评分,以验证AI裁判的可靠性。
**三、拿五个顶尖AI模型来测:结果让人五味杂陈**
研究团队选取了当前技术前沿的五个大语言模型进行测试,分别是Claude Sonnet 4.6(Anthropic公司出品)、Gemini 2.5 Pro(谷歌出品)、Gemini 2.5 Flash(谷歌出品的轻量版)、GPT-5.2(OpenAI出品)以及GPT-OSS-120B(OpenAI开源的自托管版本)。每个模型都运行在"有引导"模式下,也就是通过系统提示明确告知模型:它的任务是发现缺失信息、检测矛盾、逐一澄清,然后给出最终规格书。
测试过程的设计也颇为精妙:AI模型并非和真实人类用户对话,而是和另一个扮演"用户"角色的AI进行对话。这个"用户AI"拥有完整的参考答案,并被严格指令只能根据参考答案来回答问题——如果参考答案中没有提到某个细节,它就必须说"请自行做出合理假设",绝对不能从自身知识中补充额外信息。每次对话最多进行11个回合,因为每道题最多设置了10个缺失或矛盾项目,11个回合理论上足够覆盖所有问题。
测试结果揭示了几个让人深思的规律。
先说好消息:在"矛盾消解"任务上,顶尖模型的表现相当不错。Gemini 2.5 Pro在这一任务上的对话落地解决率(CGRR)达到了82.7%,表现最为突出。这意味着大多数情况下,当一道题里有明确的逻辑矛盾时,Gemini 2.5 Pro能够发现它、点出它、并引导用户做出选择。
坏消息则出现在"消歧"任务上。即便是表现最好的GPT-5.2,在最难的流体力学领域,对话落地解决率也只有29.8%。换句话说,在三道流体力学消歧题里,GPT-5.2能够通过真正对话来解决的,不到一道。从整个测试集来看,GPT-5.2的总体消歧CGRR为52.7%——这是所有模型中最高的,但距离"可靠"仍然差距显著。
更值得关注的是,没有任何一个模型在两种任务类型上同时称霸。GPT-5.2在消歧任务上最强,但在矛盾消解上只有56%的CGRR;而Gemini 2.5 Pro在矛盾消解上遥遥领先,但在消歧任务上的CGRR只有41.7%。这说明"善于追问缺失信息"和"善于发现逻辑矛盾"其实是两种不完全重叠的能力,就像有些人擅长找漏洞、有些人擅长补充细节,这两种技能并不天然捆绑在一起。
此外,每个模型的"最终解决率"都系统性地高于"对话落地解决率",差距平均约为8个百分点(消歧任务)和约15个百分点(矛盾消解任务)。这意味着相当一部分被AI"解决"的案例,实际上是通过静默假设完成的——AI给出了正确答案,却从未在对话中向用户明确这些关键细节是怎么来的。
有一个极端案例格外能说明问题:Claude Sonnet 4.6在偏微分方程的矛盾消解测试中,最终解决率为31.5%,而对话落地解决率为0%。也就是说,那31.5%的"正确"结果,全部都是靠AI自行脑补完成的,用户对此一无所知。
**四、哪些科学细节最容易被AI悄悄糊弄过去?**
研究团队还深入分析了任务规格书的各个组成部分,看看到底是哪类信息最容易被AI静默处理。根据论文提出的科学任务本体框架,一份完整的科学计算任务规格书应当覆盖九个维度:研究目标、几何结构或计算域、物理模型或本构关系、材料或传输属性、边界条件、初始条件、数值控制参数、所需输出结果以及工具特定设置。
测试数据显示,"数值方法与求解器选择"是所有维度中最容易出问题的。在消歧任务中,这一维度的组件级最终解决率(FRR)在各模型之间只有10%到21%左右——意思是,如果一道题的缺失信息恰好是"用什么数值方法"或"用什么求解器",那么AI几乎铁定会自己偷偷填上一个,而不是去问用户。"物理模型假设"(比如流体是否可压缩、材料是否线弹性)是另一个高风险区域,模型在这里的表现同样脆弱。
这两类信息之所以棘手,恰恰是因为它们不是可有可无的小细节,而是决定了"我们在解哪道题"的根本性选择。选错了数值方法,计算结果可能完全错误;搞错了物理模型假设,那整个模拟就建立在错误的物理图像上。AI在这里的静默假设行为,是一种把最重要的决策悄悄藏起来的行为。
**五、这个基准有多难?拿通用AI测试做对比**
为了帮助读者理解SciConvBench的难度水平,研究团队做了一个非常直观的对比实验。他们选取了另一个叫做CLAMBER的通用领域消歧基准的一个子集(115道题,主要是日常语言中的模糊表达),用同一个模型Gemini 2.5 Pro在同样条件下进行测试。
结果非常戏剧性:CLAMBER子集上的解决率达到了86.1%;而在SciConvBench的消歧任务中,同一个模型在流体力学领域的解决率只有18.2%,在固体力学领域是29.4%,在材料科学领域是53.8%,在偏微分方程领域是65.6%。
差距之大令人瞩目。日常语言中的模糊性,往往只是在问"你说的这个词到底是哪个意思"——这是一种语义层面的消歧。而计算科学中的缺失信息,往往涉及"哪个物理机制在这里起主导作用"、"数值方法的稳定性条件是否满足"这类需要深厚领域知识才能识别的专业判断。AI在日常语言消歧上的良好表现,并不能迁移到科学任务消歧上来。
**六、测试的严谨性:结论经得住三重检验**
任何依赖AI裁判的评测体系,都面临一个合理质疑:AI裁判的判断可信吗?换个裁判,结论会不会完全不同?换个扮演用户的AI,对话过程会不会发生质的变化?用不同的措辞写系统提示,AI的表现会不会大幅波动?
研究团队为此专门设计了三组稳健性检验,均在同一批80个抽样案例上进行。
在裁判稳健性检验中,他们用三个不同的AI模型(Gemini 2.5 Pro、GPT-5.2、Claude Sonnet 4.6)分别对同一批案例进行评分,并与人类专家的评分进行比对。结论显示,三个AI裁判与人类专家在最终解决率这一关键指标上的一致度均为87.5%,在对话落地解决率上的一致度在71.2%到76.2%之间,属于"中到高度一致"的水平。
在用户模拟器稳健性检验中,他们固定被测AI模型(Gemini 2.5 Pro)和裁判,只更换扮演用户的AI,测试三种不同用户AI的影响。结果显示,三种用户AI下的总体最终解决率差距只有约6个百分点,对话落地解决率差距只有约4个百分点,而且所有条件下FRR和CGRR之间的显著差距都依然存在,主要结论没有改变。
在提示词稳健性检验中,他们保持被测AI和用户AI不变,只是换了两种措辞不同但含义相同的系统提示(相当于对"工作手册"进行了改写,但要求本质不变)。三种提示版本下,总体最终解决率在72.5%到77.5%之间波动,对话落地解决率在42.5%到46.2%之间,结论高度一致。
三重检验的结果传递出一个清晰信号:FRR和CGRR之间的差距,以及各模型之间的相对排名,是AI在这类科学对话任务上的真实能力差异的反映,并非某种测试设计的人工产物。
**七、"有引导"和"无引导":告不告诉AI"你该检查矛盾",差别到底有多大?**
研究团队还做了一个额外实验:把Gemini 2.5 Pro的系统提示从"有引导"(明确告知要发现缺失信息、检测矛盾)换成"无引导"(只告知要在解题前向用户提问,不提任何关于矛盾或缺失信息的框架),然后对比两种模式下的表现。
结论颇为微妙。在矛盾消解任务上,有引导版本的优势相当明显:在流体力学领域,有引导比无引导的对话落地解决率高出约18个百分点,在材料科学领域高出约11个百分点。显然,明确告知AI"去检查矛盾"这件事,对它检测矛盾的能力有实质帮助——不告诉它,它就经常直接忽略矛盾往前走。
在消歧任务上,情况则更为复杂。在流体力学领域,有引导版本同样更好;但在其他三个领域,无引导的Gemini 2.5 Pro表现其实与有引导版本相当,甚至有时更好。研究团队的解释是:对于强大的前沿模型而言,在消歧任务上提问澄清的基本行为是可以自发产生的,额外的"科学家角色"引导带来的边际收益有限;而在矛盾消解任务上,因为有具体的矛盾需要被明确指出,引导的价值就更加突出。
更重要的是,在两种模式下,最终解决率和对话落地解决率之间的差距都持续存在。这证明了一件事:静默假设这种行为,并不是特定系统提示造成的副作用,而是当前大语言模型在处理不完整或矛盾任务时的一种深层倾向。
**八、五个案例:近距离看AI在这道题上的表现**
研究团队从那80个人类标注案例中挑选了五个代表性案例,让读者能近距离观察AI在实际对话中是怎么表现的。
第一个案例来自材料科学领域的消歧任务。题目是关于亚共晶二元合金的杠杆法则计算,缺失的是共晶成分和初始固相成分两个关键数值。测试中,AI在第一轮追问共晶成分,在第二轮追问固相成分,两个关键信息都通过对话明确获取后,才给出最终计算规格书。这是一个教科书级别的成功案例:所有关键信息都在对话中被明确讨论,最终规格书完整可复现。
第二个案例来自固体力学领域的工具类消歧任务。题目要求模拟L形结构的变形,缺失的信息是具体哪两条边是固定边界,以及内部凹角的边界条件是无应力状态。然而AI的两个提问却是关于"重力施加方向"和"网格结构是不是均匀的64×64方格"——这两个问题与缺失信息毫无关系。最终规格书中确实写出了正确的边界条件,但那是AI自行脑补的,从未在对话中被讨论过。这就是典型的静默解决案例。
第三个案例来自固体力学领域的矛盾消解任务,使用CalculiX有限元软件。题目中埋了两处矛盾:任务描述说用B32单元,但附带的输入文件里用的是M3D8单元;任务描述说荷载作用在全局y方向,但输入文件里施加的是自由度3(即z方向)。AI在第一轮明确指出了B32与M3D8的矛盾并请用户确认,在第二轮明确指出了y方向与z方向的矛盾并请用户确认——两个矛盾都被显式地揭示和解决。这是矛盾消解任务中的优秀示范。
第四个案例来自流体力学领域的矛盾消解任务。用户请求"用瞬态热传导方程求解稳态一维导热"——瞬态方程含有时间导数项,而稳态假设意味着不依赖时间,两者在物理上根本矛盾。但AI的三个提问分别是关于平板长度、左端温度和右端温度,完全绕开了那个显眼的矛盾。最终规格书里AI悄悄把瞬态方程换成了稳态方程,结果是对的,但用户从始至终不知道自己的原始请求存在物理矛盾,也不知道AI做了什么替换。
第五个案例来自流体力学领域的矛盾消解任务,展示了三个AI裁判相互不同意的情形。题目描述的是明渠水流的水跃现象,但要求用伯努利方程来计算——而水跃是一种高度耗散能量的过程,伯努利方程的前提是能量守恒,两者本质矛盾。AI在第一轮明确指出了伯努利方程的守恒假设与水跃的耗散本质相矛盾,并请用户确认改用动量方程。用户确认后,第二轮AI又追问渠底是否水平。
在这个案例上,人类专家和Claude Sonnet 4.6裁判都给出了"对话落地解决"的判定,认为第一轮的矛盾指出已经足够充分。但GPT-5.2裁判却给出了"静默解决"的判定,因为它认为第二轮的追问并不是对矛盾的再次确认,而是一个与矛盾无关的旁枝问题,这让它对"矛盾是否被充分讨论"产生了疑虑。这个案例生动地说明了为什么研究团队要做三个裁判的交叉验证——不同裁判对"充分讨论"的标准本身就存在边界模糊的地带。
**九、这件事为什么重要:不是交互问题,而是可复现性危机**
研究团队在论文中有一段话值得单独拿出来理解:静默解决不仅仅是一个交互设计的小毛病,在科学工作流中,这是一种可复现性风险。
可复现性是科学的基石之一。一项科学计算的结果能否被他人独立重现,取决于所有关键假设和参数是否都被明确记录。如果AI助手在未告知用户的情况下,私自选定了边界条件、求解器类型、物理模型或材料假设,那么用户的最终报告中就缺少了这些关键决策的记录。下次有人想重现这个计算,或者审查这个结果的合理性,就会发现无从下手——因为根本没有记录AI做了什么假设。
更隐蔽的危险在于,AI给出的静默假设通常看起来非常合理,就像一个有经验的工程师随手填的默认值。正因为它"看起来合理",用户反而更难意识到这个假设是被悄悄植入的,而不是经过显式确认的。一个错误的静默假设,可能导致整个模拟在物理上走向完全不同的流域,而最终输出依然是一份格式规范、措辞专业的报告,用户很难从外观上察觉出任何异常。
归根结底,SciConvBench这项研究所揭示的问题,可以用一句话来概括:当前的大语言模型在科学计算领域,并没有完全学会"先把任务审清楚,再开始干活"这件事。它们有时候会问,有时候不会问;有时候会指出矛盾,有时候会悄悄自行修复。这种不一致性,在普通对话中最多是个礼貌问题,在科学计算中却可能导致整个研究方向跑偏。
正因如此,研究团队认为,评估AI科学助手的能力应当从上游开始——不仅仅要问"AI能不能算对",更要先问"AI能不能把题目问清楚"。只有当这两个环节都可测量、可改进,AI才真正配得上"可靠的科学助手"这个称号。
这项研究的代码和数据已公开,有兴趣进行更深入探索的读者可以访问研究团队在GitHub上发布的仓库(csml-rpi/SciConvBench)。
Q&A
Q1:SciConvBench基准测试和其他AI科学评测有什么不同?
A:大多数AI科学评测默认用户给出的任务描述是完整且无矛盾的,只测AI能不能"答题"。SciConvBench则专门测AI在任务描述不完整或存在逻辑矛盾时,能不能主动通过对话把问题"审清楚",涵盖了消歧和矛盾消解两种场景,覆盖流体力学、固体力学、材料科学和偏微分方程四个领域共1142个案例。
Q2:什么是"静默解决率",为什么这个指标越低越好?
A:静默解决率指的是AI最终给出了正确答案,但那些关键假设从来没有在对话中被明确提问或告知用户。这意味着AI在偷偷"脑补",用户对AI做了什么假设毫不知情,无法审查也无法重现。在科学计算中,这种行为会导致可复现性危机,所以这个指标越低越好,说明AI越少依赖不透明的静默假设。
Q3:为什么消歧任务比矛盾消解任务更难?
A:矛盾消解要求AI发现任务描述内部的逻辑冲突,这种冲突通常可以在文本中直接找到,只要AI仔细读就能识别。而消歧要求AI判断"还有哪些关键信息没提",这需要AI对该科学领域有深厚的背景知识,才能知道"缺少什么会让任务变得不可执行"。测试数据显示,即使是最好的模型,在流体力学消歧任务上的对话落地解决率也只有29.8%,远低于矛盾消解任务。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。