微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

谷歌DeepMind的"智能考官"：用极少的题目就能精准判断AI的真实水平

人工智能贝叶斯方法主动学习

谷歌DeepMind的"智能考官"：用极少的题目就能精准判断AI的真实水平

作者：科技行者

2026-05-05 13:36

分享至：

这项由谷歌DeepMind发布于2026年4月的研究（arXiv:2604.23099）提出了名为ProEval的智能评估框架。面对现代AI模型评估成本高昂、耗时漫长的挑战，ProEval通过预训练高斯过程和贝叶斯积分技术，仅用极少量测试样本就能精准估算模型性能，效率比传统方法提升8至65倍。同时，它还能主动合成多样化的失败案例，发现AI的潜在弱点，失败发现率比随机方法高出2至5倍，为大语言模型的高效、安全评估提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 13:36 • 科技行者

这项由谷歌DeepMind研究团队主导的研究发表于2026年4月，论文编号为arXiv:2604.23099，有兴趣深入了解技术细节的读者可以通过该编号查阅完整论文。

评估一个AI模型到底有多聪明、会在哪里犯错，听起来很简单——不就是给它做题，然后看看答对了几道吗？然而现实情况远比这复杂得多。当前业界面临的处境，有点像一位出版社编辑需要审核一份长达几十万字的稿子，但每审读一页都要花费高昂的费用和大量时间，而老板还要求他在一天内给出评价。这位编辑不可能逐字逐句全部读完，但随机翻几页又可能漏掉隐藏在某个角落里的严重错误。

谷歌DeepMind的研究团队面对的正是这样的困境。他们开发了一套名为ProEval的评估框架，试图解决一个在AI领域越来越紧迫的问题：在不花费大量时间和金钱的前提下，如何精准地知道一个AI模型的真实水平，以及它会在哪些地方翻车？

一、评估AI为什么会变成一件既贵又慢的苦差事

要理解这项研究的价值，得先从这位"智能考官"面临的考题难度说起。

传统的软件测试相对直接：程序要么输出正确答案，要么不输出。但现代的生成式AI模型，比如各种大语言模型，它们的输出是自然语言——有时候一个回答写了几百个字，光是读完并判断对不对，就需要另一个人类专家或者另一个AI来帮忙打分。这一来，评估成本就蹭蹭往上涨。

更麻烦的是，AI模型在迭代开发过程中变化极其频繁。研究人员可能只是微调了某个参数，就得重新跑一遍全套评估，确保模型没有在某个方面退步。主流的评估基准题库动辄包含几千甚至上万道题，每道题都需要让模型生成回答，再由评估系统打分。如果一家公司同时在测试十几个不同版本的模型，这个计算量和花费就相当惊人。根据该研究团队的分析，全面评估多个模型可能耗费数千美元和好几天的计算时间。

面对这种处境，研究者们想到了一个直觉上很自然的解法：与其考100道题，能不能只考10道，但要聪明地挑选这10道题，让评估结果依然可靠？这就是"主动评估"思路的起点——用更少的题目，换取更准确的判断。但问题在于，怎样才算"聪明地挑"？

ProEval给出的答案，是把历史经验和概率推断结合起来，像一位经验丰富的考官那样，根据对考生的预先了解，有针对性地出题和分析。

二、借鉴历史经验：让"旧档案"帮新考生画像

考官的经验从哪里来？答案是历史数据。

在AI评估这个场景里，研究团队发现了一个关键规律：不同的AI模型，在面对同一批题目时，失误的模式往往是有关联的。某道需要多步推理的数学题，大多数模型都会答错；某道关于历史细节的常识题，大多数模型都能答对。这种"同类模型在同类题目上命运相同"的规律，就好比在一所学校里，成绩差不多的学生往往在同一类题型上集体失分。

ProEval把这个规律数学化了。它用高斯过程（Gaussian Process，简称GP）来建模AI的表现——可以把这理解成一张能描述"哪道题难、哪道题容易、难题之间有什么关联"的关系网络图。这张图不是凭空画出来的，而是从过去评估其他模型时积累的数据中学习出来的。

具体来说，当研究团队手头有其他15个AI模型在某个题库上的答题记录时，他们会分析这些记录，提炼出两类关键信息：一是平均来看每道题有多难，二是题目和题目之间的难度关联性——比如，擅长做几何题的模型，往往也擅长做代数题，两类题的难度在不同模型之间是相互关联的。

这套信息被编码成数学形式，形成一个"预先知情的模型"。当新的AI模型要接受评估时，这个预先知情的模型就像一张详细的"考场地图"，告诉考官哪些区域值得重点探索，哪些区域可以快速跳过。

当然，并不是所有历史数据都有用。如果某个历史模型的行为模式和新模型差异太大，强行把它的数据拿来参考，反而会产生干扰，导致评估结果偏差。研究人员把这种情况称为"负迁移"——从错误的经验中学习，反而越学越偏。

为了避免这种情况，ProEval采用了一种自动筛选机制，通过统计聚类的方法（具体来说是高斯混合模型聚类）把历史模型按行为模式分组，然后只从和目标模型"同一组"的历史模型中借鉴经验。如果同一组里的历史模型太少（不足三个），ProEval会主动"放弃预测"，而不是用不可靠的数据强行给出一个可能有问题的评估。这种"宁可不说，也不说错"的设计哲学，在实验中把平均评估误差从0.0394降低到了0.0274，效果明显。

研究团队还注意到，有时候手头没有目标模型在特定题库上的历史记录，甚至连题库本身都是全新的，根本没有任何参考数据。针对这种情况，他们设计了另一套方案：用AI文本嵌入技术（可以理解为把文字转换成数字向量，让计算机能感知语义相似性）来分析题目本身的内容特征，然后根据题目内容的相似度来推断难度关联性。这套方案的能力相对弱一些，但在完全陌生的新场景下依然能提供有效的帮助。

三、用最少的题目估算最准确的分数：贝叶斯积分法

有了"考场地图"，下一步就是决定考哪些题。

ProEval处理"性能估算"这个任务的方法，借用了一种叫做"贝叶斯积分"（Bayesian Quadrature，简称BQ）的数学技术。用一个直观的比喻来理解：假设你想知道一个城市的平均气温，最笨的方法是在城市里随机找1000个地点测量；而聪明的方法是，根据已知的地形特征（山地通常比平地凉，市中心通常比郊区热），有针对性地选择几个最具代表性的测量点，用更少的测量次数得到同样可靠的估算。

贝叶斯积分做的就是这件事。它把"AI模型的平均分数"理解为一个积分问题——对所有可能的题目，按照题目出现的概率加权，计算模型得分的期望值。不同于简单地随机抽题取平均，贝叶斯积分的聪明之处在于，它能够根据当前已测试的题目，计算出"再测哪道题，能最大程度地减小估算的不确定性"，然后主动选择那道题。

这个策略的效果相当惊人。在对Gemini 2.5 Flash等模型的评估实验中，ProEval使用的得分特征方法（BQ-SF）只需要1到2道题的评估结果，就能把性能估算误差控制在真实值的1%以内。作为对比，随机抽题的方法需要59道题才能达到同样的精度（在Jigsaw数据集上）；而其他竞争方法也普遍需要15到105道题不等。换句话说，ProEval的效率比传统方法高出8到65倍。

研究团队还在多个数据集和16个不同的AI模型上验证了这一发现，包括GPT-4o、GPT-5、Gemini系列、Claude系列、Gemma系列和Qwen系列等当前主流的大语言模型，以及视觉-语言模型。涵盖的评估场景包括数学推理（GSM8K、SVAMP数据集）、策略推理（StrategyQA数据集）、视觉推理（GQA数据集）、通用知识（MMLU数据集）、安全对齐（ToxicChat、Jigsaw Civil Comments、DICES-350、DIVE数据集）等多个维度，充分展示了这套方法的普适性。

另一个值得关注的发现来自"思维链嵌入"实验。研究人员测试了是否可以把AI模型的推理过程（Chain-of-Thought推理，即让模型一步步写出解题过程）也纳入评估特征中，结果发现加入推理过程的嵌入后，评估误差通常会进一步降低。其中，把问题嵌入和推理嵌入分别计算再加权融合的方式（权重0.7对问题，0.3对推理）效果最好，在ToxicChat数据集上把误差从0.125降到了0.001，降幅达到99%。这说明AI的推理方式本身，也是预测其在不同题目上表现的有价值信号。

四、找出AI的"软肋"：主动合成让模型翻车的题目

光知道模型的平均分数还不够。开发团队更想知道的是：这个AI在哪类问题上最容易犯错？是什么样的题目让它败下阵来？

这就是ProEval的第二个核心功能——"失败案例发现"。这里用的核心概念叫做"超水平集采样"（Superlevel Set Sampling），听起来很玄，其实概念并不难理解。可以把它比作地图上的"危险区域标注"：研究人员想要找到那些让AI得分超过某个失败阈值的题目，把这些题目圈出来，形成一张"AI的雷区地图"。

ProEval提出了三种递进的策略来绘制这张地图。

第一种策略称为"超水平集采样"（SS），适用于已经有一批候选题目的情况。它的工作原理是，根据当前高斯过程模型对每道题的预测，优先测试那些"很可能让模型失败"同时"我们对其结果还不确定"的题目。前者叫做"利用"（知道哪里有雷，就去踩），后者叫做"探索"（我不确定那里是不是有雷，所以去看看）。这两个目标之间的平衡，确保了每次测试都既能找到真正的失败案例，又不会反复在同一类型的题目上浪费资源。

第二种策略称为"生成合成"（SS-Gen），是在第一种策略的基础上更进一步：不只是从已有题库里找难题，而是主动让AI生成新的、更有针对性的题目。系统会把当前发现的"最难让目标模型失败"的几道题当作样本，让另一个强大的AI（充当题目生成器）分析这些题的共同特征，然后生成风格类似但内容不同的新题目。这套做法有点像让一位有经验的出题老师研究过去的失分题，然后出一套"同类型变体"。

不过，这种方法有一个问题：生成的新题目往往在语义上过于接近样本题，导致发现的失败案例缺乏多样性。比如，如果样本题都是关于"苹果计数"的数学题，AI生成的新题也会是各种"苹果计数"的变体，而不会去探索"时间计算"或"价格换算"这些完全不同类型的失败场景。

第三种策略"主题感知探索"（TSS）正是为解决这个问题而生。它引入了一个"主题"维度——先用自动主题分类技术（BERTopic）把题库里的所有题目按话题分成若干类（比如"购物与价格"、"年龄与计数"、"儿童与游戏"等），然后用一种叫做UCB1的多臂老虎机算法来选择每次要探索的主题。这个算法会在"去已经发现失败案例的主题里继续找"和"去还没探索过的新主题里看看"之间动态平衡。

当一个主题被选定后，系统会把"最有可能让模型失败的几道锚点题"作为样例，但同时要求AI生成器把新题的话题切换到选定的主题上。这样一来，失败模式的"形"（推理结构）保留了，但话题的"神"切换了，强制要求探索覆盖不同的语义领域。

这三种策略的效果在实验中都得到了清晰的验证。研究人员让Gemini 2.5 Flash作为目标模型，Gemini 3 Pro作为题目生成器，分别在策略推理（模仿StrategyQA风格）和数学推理（模仿GSM8K风格）两类任务上进行了100轮迭代测试，每次测试重复10遍取平均。结果显示，ProEval的生成策略找到失败案例的累积数量呈近乎线性的增长，而随机生成方法的曲线则明显更平缓、增长更慢。

在具体数字上，TSS-RPF策略在策略推理任务中发现了48%的失败率，而完全随机生成只有30.3%；在数学推理任务中，TSS-RPF达到31.3%，而随机生成只有7.3%，差距超过四倍。更重要的是，TSS策略在发现的失败案例多样性上也表现出色——综合多样性得分（同时衡量语义多样性和话题覆盖度）达到0.74，超过了所有其他方法。

研究团队还进一步测试了这套方法在不同目标模型上的泛化性。从较弱的Gemma 3 27B（失败率67.8%）到更强的GPT-5（失败率18.9%），ProEval的方法始终比随机生成基线表现更好，而且对越强的模型，相对优势反而越大——针对GPT-5，TSS-TPF比Rand-Gen高出3.7倍。这个规律很直观：越强的模型越难被随机题目难倒，但有针对性的主动方法依然能挖掘出它的短板。

至于题目生成器本身的质量，研究人员也做了对比测试。结果显示，生成器越强（如GPT-5），找到失败案例的效率越高。使用GPT-5作为生成器，TSS-RPF在策略推理上发现了41.5%的失败率；用Gemma 3 27B作为生成器，同样的方法只能发现26.3%。这说明在生成器上花更多预算是值得的，即使评估总预算有限，也应该优先选用更强的生成器。

研究人员还进行了一项小规模的人工验证，从随机抽取的80道生成题目中，发现Gemini 3 Pro作为生成器的答题准确率达到90%。对于少数它答错的题目，目标模型Gemini 2.5 Flash在其中大多数上给出了同样的错误答案，说明估算出的失败率是真实失败率的保守下界，实际情况可能比报告的数字更严峻。

五、理论保障：不只是"感觉有效"，而是数学上可以证明

研究团队不满足于仅仅展示实验结果，他们还提供了理论层面的严格保证。

核心定理（论文中的定理3）证明了：在历史数据的支持下，ProEval的性能估算是无偏的，同时其与真实值的偏差有明确的数学上界。用通俗的语言翻译就是：ProEval不会系统性地高估或低估AI的能力（无偏），而且即使在最坏的情况下，它的误差也不会超过某个可以计算出来的范围（有界）。

这个证明依赖于两个核心假设：一是不同AI模型在同一批题目上的表现确实遵循某种共同的概率分布（这一点在图2的实验结果中得到了数据验证，各个标准基准题库的协方差矩阵都展现出清晰的块状结构，说明模型之间的确存在稳定的相关性）；二是历史模型的数量要比评估用的题目数量多（在大型AI公司持续迭代的背景下，这个条件通常很容易满足，因为每次超参数调整、架构变化都会产生新的模型版本，模型数量远超单个基准题库的题目数量）。

这个理论结果之所以有意义，是因为它是文献中首次在不假设先验分布已知的情况下，证明了基于预训练高斯过程的贝叶斯积分估算器的无偏性和有界性。过去的相关研究要么假设先验分布已知，要么缺乏理论保证。这个突破填补了方法论层面的一个空白。

六、消融实验与细节：哪些设计真正有效

研究团队还进行了大量"消融实验"——就是把整套方法里的某个零件拆掉，看看结果会差多少，以此确认每个设计决策的价值。

在特征选择层面，嵌入模型的质量对结果影响显著。研究人员测试了四种不同规模的嵌入模型，发现更大维度（3072维）的强大嵌入模型（如谷歌的gemini_embedding_001和OpenAI的text_embedding_3_large）比小型嵌入模型（384维的all_minilm_l6_v2）能带来更低的评估误差，在StrategyQA数据集上的表现分别是0.0425对0.0900，差距接近一倍。这说明选用更好的嵌入模型，是提升ProEval效果的一个重要杠杆。

在主动选题策略方面，对比主动选题和随机选题两种方式的结果，主动选题方式（通过最大化方差减小量来选择下一道题）在使用得分特征（BQ-SF）和调优提示特征（BQ-TPF）时几乎总是优于随机选题。这证明了"聪明地选题"而非"随机地选题"确实带来了实质性的效率提升。

关于在处理二元数据（题目只有对和错两种结果，而非连续分数）时选择高斯分布而非伯努利分布的问题，研究团队做出了明确的解释：高斯假设虽然理论上不完全准确，但它允许闭合形式的后验更新和积分计算，避免了变分推断或蒙特卡洛近似带来的额外误差。实验对比了标准高斯过程分类器（使用拉普拉斯近似），发现它在1%预算下的表现反而不如高斯假设的BQ，说明这个设计权衡是合理的。

还有一点值得特别提及：在失败发现任务中，"Rand-Anchor-Gen"（使用随机锚点的生成方法，而非ProEval选择的锚点）比"Rand-Gen"（完全随机生成）在失败率上表现更好，但在多样性上更差——它的综合多样性得分高达0.99，接近满分，但失败率却只有6.3%（数学任务），远低于ProEval方法的20-30%。这意味着：随机锚点确实能帮助多样性，但找不到真正有针对性的失败案例；而ProEval通过主动选择高价值锚点，在保持合理多样性的同时，大幅提升了找到失败案例的命中率。

七、跨模态迁移：从文本到图像的可能性

这项研究还初步探索了一个令人感兴趣的方向：能否把一个数据模态（比如文本）的历史经验，迁移到另一个数据模态（比如图像）的评估中？

研究人员做了一个初步实验：用DICES数据集（文本类安全评估数据）的历史数据来帮助评估DIVE数据集（文字加图像的多模态安全评估数据），只用15个样本。结果显示，相比没有任何历史数据支撑的情况，跨模态知识迁移把评估误差从0.111降低到了0.055，降幅接近一半。这说明即使模态不同，模型在安全对齐方面的表现模式依然有共通之处，值得进一步深入研究。

---

说到底，ProEval回答的是一个非常务实的问题：如何在AI评估这件既重要又昂贵的事情上，把钱和时间用得更值。研究结果表明，通过把历史经验编码成数学形式，再结合聪明的主动选题策略，评估效率可以提升一个数量级。

这对于AI领域的每一个参与者都有现实意义。对AI开发团队来说，更快的评估意味着更快的迭代速度，更少的等待时间，以及更多预算留给实际的模型改进。对整个社会来说，更系统化的失败案例发现意味着AI在部署到高风险场景之前，能经过更彻底的检验，减少意外伤害的发生。而对于未来的研究者，这项工作也打开了几个有趣的方向：如何在不依赖高质量嵌入模型的情况下实现同样效果？如何根据不同题目的评估成本来动态调整采样策略？如何把这套方法扩展到更复杂的评估场景，比如多轮对话或代码生成？这些问题都值得继续追问。

对原始技术细节感兴趣的读者，可以通过arXiv编号2604.23099查阅完整论文，同时研究团队也在GitHub上开源了代码和数据，地址在谷歌DeepMind的proeval仓库。

---

Q&A

Q1：ProEval为什么能用这么少的题目就准确估算AI模型的性能？

A：ProEval的核心优势在于它能利用历史数据。在评估新模型之前，它已经从其他模型的历史评估记录中学到了"哪些题难、哪些题容易、难题之间有什么关联"。有了这份先验知识，它不需要从头测试大量题目，只需要几道策略性选取的题目就能准确校准估算。相比随机抽题，它的效率提升了8到65倍。

Q2：ProEval发现AI失败案例的方法和普通测试有什么不同？

A：普通测试通常是随机选题或靠人工设计，而ProEval会主动分析当前已发现的失败案例，让另一个强大的AI根据这些案例的"失败模式"生成新题，同时通过主题轮转机制强制探索不同话题领域，避免反复在同一类型问题上打转。这样找到的失败案例不仅数量更多，而且覆盖的问题类型也更广泛、更多样。

Q3：ProEval在评估AI安全性方面有什么具体用途？

A：ProEval可以高效地在安全对齐数据集上评估AI模型，比如判断模型在识别有毒言论或不安全内容时的准确率。更重要的是，它的失败发现功能可以主动合成那些容易让安全模型"误判"的边界案例，帮助开发者在模型上线前发现安全漏洞，减少部署风险。

人工智能贝叶斯方法主动学习

分享至