
这项由新加坡国立大学(National University of Singapore)研究团队完成的研究,以预印本形式发布于2026年5月30日,论文编号为arXiv:2606.00660,感兴趣的读者可通过该编号查询完整原文。
当你去餐厅点菜,服务员端上来一道菜,你怎么判断它是否符合你的要求?你会逐一核对:肉有没有煮熟、调味是否到位、摆盘对不对、有没有放你过敏的食材……而不是只凭直觉给个"感觉还行"的评分。这篇研究做的事情,正是把AI的"答案审查"过程从"凭感觉打分"改造成了"逐条核对清单"——由此带来了显著的准确率提升。
研究的核心工具叫做FINEVERIFY,一个为AI搜索代理专门设计的精细化自我核查框架。在解释它是什么之前,有必要先说说它解决的是什么困境。
一、当AI充当"调查记者":背景与挑战
现代大型语言模型已经不只是聊天机器人,它们越来越多地被赋予一种新角色——"搜索代理",也就是自主上网查资料、综合多个来源、回答复杂问题的智能助手。商业产品中的"深度研究"功能,比如OpenAI的Deep Research和Google的Gemini Deep Research,都属于这类系统。你向它提问,它自己翻资料、读网页、整理证据,最后给你一个结论。
这种能力很强大,但也带来了一个棘手的问题:怎么从多个搜索结果中挑出最靠谱的答案?
一种常见的方法叫"多数投票"——让AI跑好几遍,看哪个答案出现次数最多,就选哪个。这听起来很民主,但在搜索任务中非常危险,因为那些听起来有理却实际错误的答案,往往比正确答案更容易被频繁生成。正确答案可能只在几百次搜索中出现寥寥几次,却因为不是"主流"而被淘汰。
另一种方法是让AI给自己的答案打个置信度分数,选最有把握的那个。但AI在"知道自己知道多少"这件事上出了名地不靠谱——它可能对错误答案充满信心,对正确答案反而犹豫不决。
还有人尝试让AI写一段话来综合所有候选答案,或者让它对每个候选打个整体质量分。这些方法有改进,但本质上还是在要求AI"凭感觉"做出一个笼统判断,容易因为模型自身的校准偏差而出错。
研究团队注意到,搜索类问题往往有一个特点:问题通常包含多个条件。比如"一篇2023年写的文章分析了一部1980年代动画电影的隐喻主题,同名人物曾获得AIA亨利·亚当斯奖,这部电影叫什么?"这个问题里至少藏了四五个需要同时满足的条件。如果把所有条件压缩成一个总分,很可能错过那些"只差一条"的微妙区别。
这就是FINEVERIFY被提出的动因:把对答案的审查,从"整体打分"变成"逐条核查"。
二、逐条核查的侦探方法:FINEVERIFY是怎么工作的
可以把FINEVERIFY的工作方式理解成一个经验丰富的侦探审查证人证词的过程。侦探不会听完一段陈述后说"总体感觉可信度7分",而是逐条核对:你说你当晚在家,有没有人可以证明?你说你不认识受害者,但照片上你们在一起,这怎么解释?
FINEVERIFY做的正是这件事,整个流程分三步。
第一步叫"问题拆解"。拿到一个复杂问题后,系统首先把它分解成一组可以独立核查的小问题——研究中称之为"可核查子问题"。每个子问题对应原始问题中的一个具体条件。以前面提到的动画电影问题为例,子问题可能包括:这篇文章是否写于2023年?这篇文章是否分析了该答案的隐喻主题?同名人物是否获得过AIA亨利·亚当斯奖?所有子问题都针对同一个答案候选进行核查,保证了审查标准的一致性。
第二步叫"逐条取证"。针对每个候选答案,系统会检索相关证据,然后对每个子问题给出三种判定之一:有支持(找到了明确支持该条件的证据)、找不到(证据不足以判断)、被否定(找到了明确反驳该条件的证据)。这个过程对每个候选答案都独立进行,不会因为某个条件成立就假设其他条件也成立。
第三步叫"汇总评分与选择"。把每个候选答案的所有子问题判定结果汇总成一个分数,分数最高的答案胜出。规则非常直接:一个子问题被"支持"得1分,"找不到"或"被否定"都得0分。如果某个候选答案的所有子问题都被证据支持,分数达到满分,系统就立刻停止,不再继续生成新的候选——这是一个节约计算成本的早停机制。如果跑完了预设的轮数还没找到满分答案,就返回分数最高的那个。
此外,FINEVERIFY还有一个聪明的缓存机制:如果在多轮搜索中,AI恰好生成了和之前一模一样的候选答案,系统会直接复用之前的核查结果,避免重复做无谓的工作。
三、和其他方法的正面比拼:实验设计
研究团队在四个搜索类评测基准上测试了FINEVERIFY,两个主力模型分别是GPT-5-mini和Gemini-3-flash-preview。
这四个基准各有特点。BrowseComp-Plus包含一批极难回答的网络浏览问题,所有问题都经过人工核实,并配有离线语料库;研究团队随机抽取了其中200道题进行评测。DeepSearchQA包含跨多个领域的多步骤信息收集任务,同样随机抽取200题。xbench-DeepSearch侧重测试长期深度搜索能力,包含100道中文信息搜索问题。GAIA-Search则是从知名通用AI助手评测集GAIA中筛选出的64道仅需搜索的题目。
对比的基线方法一共五种:多数投票(跑几遍取最频繁的答案)、加权投票(按AI自报的置信度加权)、Best-of-N(直接选AI最有把握的那个)、方案汇总(把所有候选答案喂给模型让它综合出一个最终答案)、置信度核查(让模型估计每个候选答案满足了多少百分比的条件)。
除了单次运行的Pass@1基线外,所有测试时扩展方法都使用同样的四次采样。研究用GPT-5.4-mini作为自动评分裁判,判断预测答案是否与正确答案匹配,并通过人工复核200道样题验证了自动评分的可靠性,发现只有一道题存在分歧。
四、数字背后的真相:实验结果
结果相当清晰。在GPT-5-mini上,单次运行(Pass@1)的平均准确率是59.2%。换成FINEVERIFY用四次采样后,平均准确率跳到了67.4%,净增8.2个百分点。其中在BrowseComp-Plus上,单次运行只有49.5%,而FINEVERIFY四次采样后达到60.5%,提升了11个百分点。
Gemini-3-flash-preview的底子更好,单次运行平均准确率71.3%,FINEVERIFY把它推到了76.9%,增加5.6个百分点。
更关键的比较是FINEVERIFY和其他五种同样使用四次采样的方法之间的对比。多数投票在GPT-5-mini上平均只有60.1%,几乎和单次运行一样低;加权投票到了65.6%;Best-of-N是65.8%;方案汇总是66.3%;置信度核查是64.7%——FINEVERIFY的67.4%全部超过了这些对手。
当采样次数从4次增加到8次、12次、16次时,差距变得更加戏剧性。在BrowseComp-Plus上,FINEVERIFY从49.5%(1次)一路爬升到70%(16次),总提升幅度达到20.5个百分点。多数投票随着采样次数增加几乎没有变化,始终在49%至50%附近徘徊——这正好印证了研究团队的判断:搜索任务中正确答案本来就稀少,靠频率取胜根本行不通。置信度核查和Best-of-N虽然早期有提升,但随后就趋于平稳。方案汇总从12次到16次也停止了进步。只有FINEVERIFY保持了稳定的上升趋势。
最引人瞩目的一个数据点是:在12次采样时,FINEVERIFY驱动下的GPT-5-mini在BrowseComp-Plus上达到了67.5%,超过了直接使用GPT-5(67%)的成绩——一个"小弟"通过精细核查方法,在同一任务上超越了"大哥"本体。
五、成本与价值的权衡:不是白花钱
任何需要多次运行的方法都会带来额外成本,这是一个实际问题,研究团队没有回避。他们在DeepSearchQA上详细比较了各方法的成本与准确率关系。
FINEVERIFY通过两个机制控制成本。其一是早停:只要找到所有子问题都被支持的满分答案,立刻停止,不再额外运行。其二是缓存:重复的候选答案不重复验证。
从成本-准确率对比图来看,FINEVERIFY实现了高准确率的同时保持了中等成本,比方案汇总和置信度核查更划算。加权投票在DeepSearchQA这一个基准上成本与FINEVERIFY相当,但在跨四个基准的整体表现上落后。Best-of-N和多数投票成本低但准确率也明显不足。
六、精细分类的优势:选对答案的核心能力
研究团队还专门分析了一个剥离了答案生成能力的纯选择能力指标,叫做"选择准确率"——在候选池里已经包含至少一个正确答案的情况下,各方法选中正确答案的比例是多少。
这个指标把"生成不出正确答案"和"生成了却没选到正确答案"这两个问题分开来看,专注衡量选择环节的质量。
在GPT-5-mini上,FINEVERIFY的平均选择准确率是90.7%,Best-of-N是88.5%,置信度核查是87.1%。在Gemini-3-flash上,FINEVERIFY是94.1%,对比方法分别是92.4%和92%。在BrowseComp-Plus这个最难的基准上,Gemini-3-flash版的FINEVERIFY选择准确率达到95%,比Best-of-N高出4.3个百分点。
有一个现象特别值得关注:在xbench-DeepSearch上,GPT-5-mini单次运行(Pass@1)只有45%,意味着模型本身很难一次就搜到正确答案。但在候选池中出现了正确答案的时候,FINEVERIFY能以80.3%的概率识别并选中它。换句话说,搜索能力和选择能力是两个相对独立的维度,FINEVERIFY的贡献主要集中在后者。
七、打分规则怎么设:细节里的智慧
研究团队测试了几种不同的打分方式,想看看哪种最有效。
第一类是基于规则的打分,核心是决定"找不到"和"被否定"分别值多少分。他们测试了三种设定:严格方案(只有"支持"给1分,其余都给0分)、部分宽容方案("支持"给1分、"找不到"给0.5分、"被否定"给0分)、宽松方案("支持"和"找不到"都给1分,只有"被否定"给0分)。第二类是直接让模型根据整体判定列表给出一个0到1之间的分数。
结论很直接:严格规则和部分宽容规则的表现相近,都是最好的;宽松方案明显变差——把"找不到"当成"支持"处理,相当于把缺失证据当成正面证据,这是一种危险的逻辑。更有意思的是,让模型直接打分(模型打分法)表现反而不如规则打分——在GPT-5-mini的DeepSearchQA上,模型打分比严格规则低了整整2个百分点。这再次说明,让模型做隐式综合判断不如按照明确规则汇总细粒度结果来得可靠。正因如此,研究团队在所有主实验中都采用了严格规则(支持=1,其余=0)。
八、意外收获:用来检查数据集本身的错误
FINEVERIFY的验证轨迹还带来了一个研究团队最初没有完全预料到的用途——数据集审查。
由于FINEVERIFY会逐条记录每个子问题的证据支持情况,这些记录本身就构成了一份可读的"核查报告"。研究团队把这些报告应用于BrowseComp-Plus的200道题,发现了10个数据集错误,并通过人工核查确认。
错误分两类。第一类是题目本身有误。比如有一道题说"文章作者曾获得AIA亨利·亚当斯奖",但FINEVERIFY发现找不到证据证明文章作者和获奖者是同一人,人工核查后确认他们确实是不同的人,题目措辞存在偏差。类似的还有一道题说某人"在获得入学资格一年后离开了中学",但文献记载实际是"不到一年后",差了一个关键细节。第二类是题目有多个正确答案。比如一道问"较年轻的球员此前效力于哪支队伍"的题,FINEVERIFY发现该球员历史上曾先后效力于首尔队、Ever8 Winners和金航绿翼三支球队,每个答案都有明确的文献支持,而原题只标注了其中一个为正确答案。另一道问某本书书名的题,也因为作者写了两本都符合描述的书而出现了同样的问题。
研究团队指出,这种能力在数据集维护、系统审计和搜索结果透明化方面有潜在的实用价值——它让AI的推理过程不再是一个黑箱,而是一份可以被人类检查和纠正的记录。
九、开放网络搜索的局限:一个诚实的失败案例
研究团队没有掩盖FINEVERIFY面临的困难。相比BrowseComp-Plus使用的离线固定语料库,在开放网络上进行实时验证的准确率要低一些。GPT-5-mini在BrowseComp-Plus上的选择准确率高达99.2%,但在DeepSearchQA上降到89%。
研究团队给出了一个具体的失败案例:有一道题需要核查芬兰是否在2023年的OECD乳腺X光机数量排名中位列前10。相关的OECD网页默认显示2022年的数据,切换到2023年需要点击网页上的一个交互控件,而且点击后网页URL地址不会变化。一个依赖静态页面内容进行核查的系统,根本没有办法观察到这个交互后显示的内容,因此把这条子问题判定为"找不到",而实际上芬兰确实在2023年榜单的前10名。这类需要交互式网页操作才能获取的证据,是当前系统的一个明确短板,研究团队将其列为未来需要解决的方向之一。
说到底,FINEVERIFY这项研究传递的最核心信息是:把一个复杂问题拆成小问题逐条核查,比给整体答案打一个笼统的分数要可靠得多。这个道理本身并不神秘,但把它做成可以稳定工作的系统,并在多个真实基准上验证了效果,是实实在在的工程贡献。
归根结底,这项工作让人意识到,提升AI的答案质量不一定要训练更大的模型,有时候改变审查答案的方式就足以产生显著差异。当一个"较小"的模型通过更聪明的审查流程超越"更大"的模型时,这本身就说明了问题的选择评估机制有多重要。
对于普通用户来说,这意味着未来的AI搜索助手在回答复杂问题时,将有可能主动告诉你它是怎么核查答案的、哪些条件有证据支持、哪些条件存疑——而不是只给你一个不知从何而来的结论。这种透明度对于需要依赖AI做决策的人来说,价值不可小觑。
如果你对技术细节感兴趣,可以通过arXiv编号2606.00660查阅完整论文,研究团队也在GitHub(XuZhao0/fineverify)上公开了代码和数据。
---
Q&A
Q1:FINEVERIFY和普通的AI答案投票方法有什么根本区别?
A:普通多数投票依赖哪个答案出现次数最多,但在搜索任务中正确答案往往很稀少,投票结果容易被大量相似的错误答案主导。FINEVERIFY则不看频率,而是把原始问题拆成多个具体条件,逐条检索证据核查每个候选答案是否满足每一项条件,最终选出满足条件最多的答案,本质上是"逐条对账"而非"多数服从少数"。
Q2:FINEVERIFY的子问题拆解是人工做的还是AI自动做的?
A:是由AI自动完成的。系统会先用一个专门的提示词引导语言模型把原始问题分解成一组独立的、可单独核查的子问题,每个子问题对应原始问题中的一个具体条件。这个分解过程不依赖人工干预,整个FINEVERIFY流程都是自动化运行的。
Q3:BrowseComp-Plus数据集里被发现的10个错误是什么类型的问题?
A:分两类。一类是题目本身描述有误,比如把"不到一年后"写成"一年后",或者混淆了两个同名但不同身份的人。另一类是题目实际上有多个正确答案,比如被问到的球员曾先后效力多支球队,每支都有文献支持,但原数据集只标注了其中一个为答案。FINEVERIFY通过逐条核查的记录发现了这些问题,之后经两位研究者人工确认。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。