微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 谷歌DeepMind的"智能考官":用极少的题目就能精准判断AI的真实水平

谷歌DeepMind的"智能考官":用极少的题目就能精准判断AI的真实水平

2026-05-05 13:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-05 13:36 科技行者

这项由谷歌DeepMind研究团队主导的研究发表于2026年4月,论文编号为arXiv:2604.23099,有兴趣深入了解技术细节的读者可以通过该编号查阅完整论文。

评估一个AI模型到底有多聪明、会在哪里犯错,听起来很简单——不就是给它做题,然后看看答对了几道吗?然而现实情况远比这复杂得多。当前业界面临的处境,有点像一位出版社编辑需要审核一份长达几十万字的稿子,但每审读一页都要花费高昂的费用和大量时间,而老板还要求他在一天内给出评价。这位编辑不可能逐字逐句全部读完,但随机翻几页又可能漏掉隐藏在某个角落里的严重错误。

谷歌DeepMind的研究团队面对的正是这样的困境。他们开发了一套名为ProEval的评估框架,试图解决一个在AI领域越来越紧迫的问题:在不花费大量时间和金钱的前提下,如何精准地知道一个AI模型的真实水平,以及它会在哪些地方翻车?

一、评估AI为什么会变成一件既贵又慢的苦差事

要理解这项研究的价值,得先从这位"智能考官"面临的考题难度说起。

传统的软件测试相对直接:程序要么输出正确答案,要么不输出。但现代的生成式AI模型,比如各种大语言模型,它们的输出是自然语言——有时候一个回答写了几百个字,光是读完并判断对不对,就需要另一个人类专家或者另一个AI来帮忙打分。这一来,评估成本就蹭蹭往上涨。

更麻烦的是,AI模型在迭代开发过程中变化极其频繁。研究人员可能只是微调了某个参数,就得重新跑一遍全套评估,确保模型没有在某个方面退步。主流的评估基准题库动辄包含几千甚至上万道题,每道题都需要让模型生成回答,再由评估系统打分。如果一家公司同时在测试十几个不同版本的模型,这个计算量和花费就相当惊人。根据该研究团队的分析,全面评估多个模型可能耗费数千美元和好几天的计算时间。

面对这种处境,研究者们想到了一个直觉上很自然的解法:与其考100道题,能不能只考10道,但要聪明地挑选这10道题,让评估结果依然可靠?这就是"主动评估"思路的起点——用更少的题目,换取更准确的判断。但问题在于,怎样才算"聪明地挑"?

ProEval给出的答案,是把历史经验和概率推断结合起来,像一位经验丰富的考官那样,根据对考生的预先了解,有针对性地出题和分析。

二、借鉴历史经验:让"旧档案"帮新考生画像

考官的经验从哪里来?答案是历史数据。

在AI评估这个场景里,研究团队发现了一个关键规律:不同的AI模型,在面对同一批题目时,失误的模式往往是有关联的。某道需要多步推理的数学题,大多数模型都会答错;某道关于历史细节的常识题,大多数模型都能答对。这种"同类模型在同类题目上命运相同"的规律,就好比在一所学校里,成绩差不多的学生往往在同一类题型上集体失分。

ProEval把这个规律数学化了。它用高斯过程(Gaussian Process,简称GP)来建模AI的表现——可以把这理解成一张能描述"哪道题难、哪道题容易、难题之间有什么关联"的关系网络图。这张图不是凭空画出来的,而是从过去评估其他模型时积累的数据中学习出来的。

具体来说,当研究团队手头有其他15个AI模型在某个题库上的答题记录时,他们会分析这些记录,提炼出两类关键信息:一是平均来看每道题有多难,二是题目和题目之间的难度关联性——比如,擅长做几何题的模型,往往也擅长做代数题,两类题的难度在不同模型之间是相互关联的。

这套信息被编码成数学形式,形成一个"预先知情的模型"。当新的AI模型要接受评估时,这个预先知情的模型就像一张详细的"考场地图",告诉考官哪些区域值得重点探索,哪些区域可以快速跳过。

当然,并不是所有历史数据都有用。如果某个历史模型的行为模式和新模型差异太大,强行把它的数据拿来参考,反而会产生干扰,导致评估结果偏差。研究人员把这种情况称为"负迁移"——从错误的经验中学习,反而越学越偏。

为了避免这种情况,ProEval采用了一种自动筛选机制,通过统计聚类的方法(具体来说是高斯混合模型聚类)把历史模型按行为模式分组,然后只从和目标模型"同一组"的历史模型中借鉴经验。如果同一组里的历史模型太少(不足三个),ProEval会主动"放弃预测",而不是用不可靠的数据强行给出一个可能有问题的评估。这种"宁可不说,也不说错"的设计哲学,在实验中把平均评估误差从0.0394降低到了0.0274,效果明显。

研究团队还注意到,有时候手头没有目标模型在特定题库上的历史记录,甚至连题库本身都是全新的,根本没有任何参考数据。针对这种情况,他们设计了另一套方案:用AI文本嵌入技术(可以理解为把文字转换成数字向量,让计算机能感知语义相似性)来分析题目本身的内容特征,然后根据题目内容的相似度来推断难度关联性。这套方案的能力相对弱一些,但在完全陌生的新场景下依然能提供有效的帮助。

三、用最少的题目估算最准确的分数:贝叶斯积分法

有了"考场地图",下一步就是决定考哪些题。

ProEval处理"性能估算"这个任务的方法,借用了一种叫做"贝叶斯积分"(Bayesian Quadrature,简称BQ)的数学技术。用一个直观的比喻来理解:假设你想知道一个城市的平均气温,最笨的方法是在城市里随机找1000个地点测量;而聪明的方法是,根据已知的地形特征(山地通常比平地凉,市中心通常比郊区热),有针对性地选择几个最具代表性的测量点,用更少的测量次数得到同样可靠的估算。

贝叶斯积分做的就是这件事。它把"AI模型的平均分数"理解为一个积分问题——对所有可能的题目,按照题目出现的概率加权,计算模型得分的期望值。不同于简单地随机抽题取平均,贝叶斯积分的聪明之处在于,它能够根据当前已测试的题目,计算出"再测哪道题,能最大程度地减小估算的不确定性",然后主动选择那道题。

这个策略的效果相当惊人。在对Gemini 2.5 Flash等模型的评估实验中,ProEval使用的得分特征方法(BQ-SF)只需要1到2道题的评估结果,就能把性能估算误差控制在真实值的1%以内。作为对比,随机抽题的方法需要59道题才能达到同样的精度(在Jigsaw数据集上);而其他竞争方法也普遍需要15到105道题不等。换句话说,ProEval的效率比传统方法高出8到65倍。

研究团队还在多个数据集和16个不同的AI模型上验证了这一发现,包括GPT-4o、GPT-5、Gemini系列、Claude系列、Gemma系列和Qwen系列等当前主流的大语言模型,以及视觉-语言模型。涵盖的评估场景包括数学推理(GSM8K、SVAMP数据集)、策略推理(StrategyQA数据集)、视觉推理(GQA数据集)、通用知识(MMLU数据集)、安全对齐(ToxicChat、Jigsaw Civil Comments、DICES-350、DIVE数据集)等多个维度,充分展示了这套方法的普适性。

另一个值得关注的发现来自"思维链嵌入"实验。研究人员测试了是否可以把AI模型的推理过程(Chain-of-Thought推理,即让模型一步步写出解题过程)也纳入评估特征中,结果发现加入推理过程的嵌入后,评估误差通常会进一步降低。其中,把问题嵌入和推理嵌入分别计算再加权融合的方式(权重0.7对问题,0.3对推理)效果最好,在ToxicChat数据集上把误差从0.125降到了0.001,降幅达到99%。这说明AI的推理方式本身,也是预测其在不同题目上表现的有价值信号。

四、找出AI的"软肋":主动合成让模型翻车的题目

光知道模型的平均分数还不够。开发团队更想知道的是:这个AI在哪类问题上最容易犯错?是什么样的题目让它败下阵来?

这就是ProEval的第二个核心功能——"失败案例发现"。这里用的核心概念叫做"超水平集采样"(Superlevel Set Sampling),听起来很玄,其实概念并不难理解。可以把它比作地图上的"危险区域标注":研究人员想要找到那些让AI得分超过某个失败阈值的题目,把这些题目圈出来,形成一张"AI的雷区地图"。

ProEval提出了三种递进的策略来绘制这张地图。

第一种策略称为"超水平集采样"(SS),适用于已经有一批候选题目的情况。它的工作原理是,根据当前高斯过程模型对每道题的预测,优先测试那些"很可能让模型失败"同时"我们对其结果还不确定"的题目。前者叫做"利用"(知道哪里有雷,就去踩),后者叫做"探索"(我不确定那里是不是有雷,所以去看看)。这两个目标之间的平衡,确保了每次测试都既能找到真正的失败案例,又不会反复在同一类型的题目上浪费资源。

第二种策略称为"生成合成"(SS-Gen),是在第一种策略的基础上更进一步:不只是从已有题库里找难题,而是主动让AI生成新的、更有针对性的题目。系统会把当前发现的"最难让目标模型失败"的几道题当作样本,让另一个强大的AI(充当题目生成器)分析这些题的共同特征,然后生成风格类似但内容不同的新题目。这套做法有点像让一位有经验的出题老师研究过去的失分题,然后出一套"同类型变体"。

不过,这种方法有一个问题:生成的新题目往往在语义上过于接近样本题,导致发现的失败案例缺乏多样性。比如,如果样本题都是关于"苹果计数"的数学题,AI生成的新题也会是各种"苹果计数"的变体,而不会去探索"时间计算"或"价格换算"这些完全不同类型的失败场景。

第三种策略"主题感知探索"(TSS)正是为解决这个问题而生。它引入了一个"主题"维度——先用自动主题分类技术(BERTopic)把题库里的所有题目按话题分成若干类(比如"购物与价格"、"年龄与计数"、"儿童与游戏"等),然后用一种叫做UCB1的多臂老虎机算法来选择每次要探索的主题。这个算法会在"去已经发现失败案例的主题里继续找"和"去还没探索过的新主题里看看"之间动态平衡。

当一个主题被选定后,系统会把"最有可能让模型失败的几道锚点题"作为样例,但同时要求AI生成器把新题的话题切换到选定的主题上。这样一来,失败模式的"形"(推理结构)保留了,但话题的"神"切换了,强制要求探索覆盖不同的语义领域。

这三种策略的效果在实验中都得到了清晰的验证。研究人员让Gemini 2.5 Flash作为目标模型,Gemini 3 Pro作为题目生成器,分别在策略推理(模仿StrategyQA风格)和数学推理(模仿GSM8K风格)两类任务上进行了100轮迭代测试,每次测试重复10遍取平均。结果显示,ProEval的生成策略找到失败案例的累积数量呈近乎线性的增长,而随机生成方法的曲线则明显更平缓、增长更慢。

在具体数字上,TSS-RPF策略在策略推理任务中发现了48%的失败率,而完全随机生成只有30.3%;在数学推理任务中,TSS-RPF达到31.3%,而随机生成只有7.3%,差距超过四倍。更重要的是,TSS策略在发现的失败案例多样性上也表现出色——综合多样性得分(同时衡量语义多样性和话题覆盖度)达到0.74,超过了所有其他方法。

研究团队还进一步测试了这套方法在不同目标模型上的泛化性。从较弱的Gemma 3 27B(失败率67.8%)到更强的GPT-5(失败率18.9%),ProEval的方法始终比随机生成基线表现更好,而且对越强的模型,相对优势反而越大——针对GPT-5,TSS-TPF比Rand-Gen高出3.7倍。这个规律很直观:越强的模型越难被随机题目难倒,但有针对性的主动方法依然能挖掘出它的短板。

至于题目生成器本身的质量,研究人员也做了对比测试。结果显示,生成器越强(如GPT-5),找到失败案例的效率越高。使用GPT-5作为生成器,TSS-RPF在策略推理上发现了41.5%的失败率;用Gemma 3 27B作为生成器,同样的方法只能发现26.3%。这说明在生成器上花更多预算是值得的,即使评估总预算有限,也应该优先选用更强的生成器。

研究人员还进行了一项小规模的人工验证,从随机抽取的80道生成题目中,发现Gemini 3 Pro作为生成器的答题准确率达到90%。对于少数它答错的题目,目标模型Gemini 2.5 Flash在其中大多数上给出了同样的错误答案,说明估算出的失败率是真实失败率的保守下界,实际情况可能比报告的数字更严峻。

五、理论保障:不只是"感觉有效",而是数学上可以证明

研究团队不满足于仅仅展示实验结果,他们还提供了理论层面的严格保证。

核心定理(论文中的定理3)证明了:在历史数据的支持下,ProEval的性能估算是无偏的,同时其与真实值的偏差有明确的数学上界。用通俗的语言翻译就是:ProEval不会系统性地高估或低估AI的能力(无偏),而且即使在最坏的情况下,它的误差也不会超过某个可以计算出来的范围(有界)。

这个证明依赖于两个核心假设:一是不同AI模型在同一批题目上的表现确实遵循某种共同的概率分布(这一点在图2的实验结果中得到了数据验证,各个标准基准题库的协方差矩阵都展现出清晰的块状结构,说明模型之间的确存在稳定的相关性);二是历史模型的数量要比评估用的题目数量多(在大型AI公司持续迭代的背景下,这个条件通常很容易满足,因为每次超参数调整、架构变化都会产生新的模型版本,模型数量远超单个基准题库的题目数量)。

这个理论结果之所以有意义,是因为它是文献中首次在不假设先验分布已知的情况下,证明了基于预训练高斯过程的贝叶斯积分估算器的无偏性和有界性。过去的相关研究要么假设先验分布已知,要么缺乏理论保证。这个突破填补了方法论层面的一个空白。

六、消融实验与细节:哪些设计真正有效

研究团队还进行了大量"消融实验"——就是把整套方法里的某个零件拆掉,看看结果会差多少,以此确认每个设计决策的价值。

在特征选择层面,嵌入模型的质量对结果影响显著。研究人员测试了四种不同规模的嵌入模型,发现更大维度(3072维)的强大嵌入模型(如谷歌的gemini_embedding_001和OpenAI的text_embedding_3_large)比小型嵌入模型(384维的all_minilm_l6_v2)能带来更低的评估误差,在StrategyQA数据集上的表现分别是0.0425对0.0900,差距接近一倍。这说明选用更好的嵌入模型,是提升ProEval效果的一个重要杠杆。

在主动选题策略方面,对比主动选题和随机选题两种方式的结果,主动选题方式(通过最大化方差减小量来选择下一道题)在使用得分特征(BQ-SF)和调优提示特征(BQ-TPF)时几乎总是优于随机选题。这证明了"聪明地选题"而非"随机地选题"确实带来了实质性的效率提升。

关于在处理二元数据(题目只有对和错两种结果,而非连续分数)时选择高斯分布而非伯努利分布的问题,研究团队做出了明确的解释:高斯假设虽然理论上不完全准确,但它允许闭合形式的后验更新和积分计算,避免了变分推断或蒙特卡洛近似带来的额外误差。实验对比了标准高斯过程分类器(使用拉普拉斯近似),发现它在1%预算下的表现反而不如高斯假设的BQ,说明这个设计权衡是合理的。

还有一点值得特别提及:在失败发现任务中,"Rand-Anchor-Gen"(使用随机锚点的生成方法,而非ProEval选择的锚点)比"Rand-Gen"(完全随机生成)在失败率上表现更好,但在多样性上更差——它的综合多样性得分高达0.99,接近满分,但失败率却只有6.3%(数学任务),远低于ProEval方法的20-30%。这意味着:随机锚点确实能帮助多样性,但找不到真正有针对性的失败案例;而ProEval通过主动选择高价值锚点,在保持合理多样性的同时,大幅提升了找到失败案例的命中率。

七、跨模态迁移:从文本到图像的可能性

这项研究还初步探索了一个令人感兴趣的方向:能否把一个数据模态(比如文本)的历史经验,迁移到另一个数据模态(比如图像)的评估中?

研究人员做了一个初步实验:用DICES数据集(文本类安全评估数据)的历史数据来帮助评估DIVE数据集(文字加图像的多模态安全评估数据),只用15个样本。结果显示,相比没有任何历史数据支撑的情况,跨模态知识迁移把评估误差从0.111降低到了0.055,降幅接近一半。这说明即使模态不同,模型在安全对齐方面的表现模式依然有共通之处,值得进一步深入研究。

---

说到底,ProEval回答的是一个非常务实的问题:如何在AI评估这件既重要又昂贵的事情上,把钱和时间用得更值。研究结果表明,通过把历史经验编码成数学形式,再结合聪明的主动选题策略,评估效率可以提升一个数量级。

这对于AI领域的每一个参与者都有现实意义。对AI开发团队来说,更快的评估意味着更快的迭代速度,更少的等待时间,以及更多预算留给实际的模型改进。对整个社会来说,更系统化的失败案例发现意味着AI在部署到高风险场景之前,能经过更彻底的检验,减少意外伤害的发生。而对于未来的研究者,这项工作也打开了几个有趣的方向:如何在不依赖高质量嵌入模型的情况下实现同样效果?如何根据不同题目的评估成本来动态调整采样策略?如何把这套方法扩展到更复杂的评估场景,比如多轮对话或代码生成?这些问题都值得继续追问。

对原始技术细节感兴趣的读者,可以通过arXiv编号2604.23099查阅完整论文,同时研究团队也在GitHub上开源了代码和数据,地址在谷歌DeepMind的proeval仓库。

---

Q&A

Q1:ProEval为什么能用这么少的题目就准确估算AI模型的性能?

A:ProEval的核心优势在于它能利用历史数据。在评估新模型之前,它已经从其他模型的历史评估记录中学到了"哪些题难、哪些题容易、难题之间有什么关联"。有了这份先验知识,它不需要从头测试大量题目,只需要几道策略性选取的题目就能准确校准估算。相比随机抽题,它的效率提升了8到65倍。

Q2:ProEval发现AI失败案例的方法和普通测试有什么不同?

A:普通测试通常是随机选题或靠人工设计,而ProEval会主动分析当前已发现的失败案例,让另一个强大的AI根据这些案例的"失败模式"生成新题,同时通过主题轮转机制强制探索不同话题领域,避免反复在同一类型问题上打转。这样找到的失败案例不仅数量更多,而且覆盖的问题类型也更广泛、更多样。

Q3:ProEval在评估AI安全性方面有什么具体用途?

A:ProEval可以高效地在安全对齐数据集上评估AI模型,比如判断模型在识别有毒言论或不安全内容时的准确率。更重要的是,它的失败发现功能可以主动合成那些容易让安全模型"误判"的边界案例,帮助开发者在模型上线前发现安全漏洞,减少部署风险。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-