微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 哈工大与小红书揭露AI搜索代理的"作弊"秘密:它们真的在搜索,还是只在验证自己的猜测?

哈工大与小红书揭露AI搜索代理的"作弊"秘密:它们真的在搜索,还是只在验证自己的猜测?

2026-06-02 13:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-02 13:16 科技行者

这项由哈尔滨工业大学与小红书联合开展的研究发表于2026年5月,论文编号为arXiv:2605.28721,有兴趣深入了解的读者可通过该编号查询完整论文。

每当我们看到AI助手快速而准确地回答问题时,往往会以为它真的像一名优秀的调查记者那样,四处收集证据,然后综合信息给出结论。然而,这项研究给我们泼了一盆冷水——AI或许根本没在"调查",它只是翻出了自己的老笔记本,然后用上网搜索来确认一下自己已经知道的答案。

这个问题并非无关紧要。随着OpenAI的Deep Research和谷歌的Gemini Deep Research等系统被大规模部署,人们越来越依赖这类AI搜索代理来处理复杂信息需求。那么,这些系统在各种评测榜单上的高分,究竟代表的是真正的搜索和推理能力,还是模型记忆力的胜利?研究团队决定用三把解剖刀来剖开这个问题。

一、AI搜索代理的"老底"被翻出来了

研究团队选取了四个当下最主流的AI搜索评测基准来做实验,分别是BrowseComp、BrowseComp-ZH、HLE和GAIA。这四个基准涵盖了从长时间网络浏览、多语言浏览到专家级知识推理、通用工具辅助解题等各种场景,可以说基本覆盖了AI搜索代理面临的主要挑战类型。

研究人员找来了六个顶尖AI模型参与测试,包括来自开源和闭源两个阵营的Seed2.0、DeepSeek-V4-Pro、DeepSeek-V3.2、Kimi K2.6、MiniMax M2.5和GLM-5.1。这些模型代表了当前AI搜索代理能力的最高水平,同时也最有可能在训练过程中积累了海量的世界知识。

第一个实验的设计非常简单粗暴:把所有搜索工具都拔掉,看看AI在没有任何上网能力的情况下能答对多少题。结果相当出人意料。在全部24个"模型×基准"的组合中,准确率从20.4%到62.0%不等,平均高达38.9%。换句话说,在这些被设计为"必须通过搜索才能回答"的题目中,将近四成不用搜索就能答对。

其中最夸张的几个数据值得单独拿出来说:Kimi K2.6在BrowseComp-ZH上不靠任何搜索工具就答对了62%的题目;MiniMax M2.5在BrowseComp上裸答得了44.5分;Seed 2.0在被誉为"专家级挑战"的HLE上盲答也拿到了50.2分。这就好比一个学生在"开卷考试"中,根本没翻书就已经答完了将近一半,然后再翻书确认一下剩下的,最终考出高分——你能说他不擅长考试吗?但这和真正理解知识、主动查阅资料,完全是两回事。

值得关注的是,工具带来的提升幅度并不简单地和模型的记忆能力挂钩。MiniMax M2.5在不用工具时分数最高,但加上工具之后进步幅度反而是最小的,只多了28.5分。相比之下,DeepSeek-V4-Pro裸答只有20.4分,但有了工具之后足足多了49.4分。这说明最终的高分背后藏着两种截然不同的能力:一种是在搜索之前就已经知道答案,另一种是真正通过搜索找到答案。这两种能力在现有的评分机制下被混在一起,无法区分。

二、当证据被抽走,AI的搜索行为彻底崩了

第一个实验证明AI在不用搜索工具时已经能答对很多题。接下来,研究团队想看看一个更深入的问题:如果保留搜索工具,但把所有能支持正确答案的文献都从搜索结果里删掉,会发生什么?

这个实验使用了一个叫做BrowseComp-Plus的资源。这个资源为每道题提供了四类文档:直接包含答案证据的文件、高质量辅助材料、与问题无关的干扰文件,以及表面看起来有关但实际上帮不上忙的"硬负例"文件。研究团队在做实验时,把前两类文件全部从搜索索引里删掉,只留下后两类。这样一来,AI仍然可以正常搜索,但无论怎么搜,都找不到能帮它答对题目的信息。

结果出现了一个研究团队称之为"彻底逆转"的现象。六个参与实验的模型,在这种"有工具但找不到支撑证据"的条件下,全部表现得比完全不用工具时更差。平均准确率从不用工具时的26.1分骤降到只有6.2分,所有模型的分数都低于10分。最惨烈的是MiniMax M2.5,从裸答的44.5分跌到了8.0分;Kimi K2.6则从25.5分跌到了只有2.3分。

这个结果揭示了一个本质问题:AI在搜索时根本不是在"发现"新的信息,而是在用搜索来"确认"自己原本就想说的答案。当搜索结果无法提供这种确认时,AI不但没有聪明地放弃搜索、坚守自己的记忆,反而被大量无关或误导性的信息带偏了方向,最终越搜越错。就好像一个本来记住了正确答案的学生,在考试时被允许查参考书,结果书里全是错的信息,他反而被迷惑得把正确答案改成了错的。

研究团队将这种现象命名为"内在知识依赖"(Intrinsic Knowledge Dependence,简称IKD):AI代理用自己记忆中的知识来生成猜测,然后用搜索来寻求对这个猜测的验证。一旦验证渠道失灵,整个搜索循环就失去了锚点,陷入混乱。

三、AI在搜索时到底在想什么:轨迹分析揭秘

前两个实验从外部角度证明了IKD的存在。第三个实验则深入到AI的搜索过程内部,去追踪每一条搜索指令的来源。

研究人员给每条搜索查询都打上了标签:如果查询中的核心信息最先出现在AI自己的推理过程中,就叫"模型发起的查询";如果核心信息最先出现在之前的检索结果里,就叫"检索发起的查询"。换句话说,这是在追问:这一步搜索,是因为AI从上一步的搜索结果里发现了新线索,还是因为AI自己脑子里冒出了一个新想法?

结果非常清晰:对于所有被测试的模型,超过一半的搜索查询都是"模型发起的"。更糟的是,随着搜索的深入,这个比例还在不断攀升,到了搜索的后半程,有超过60%的查询都来自AI自己的"头脑风暴",而不是来自外部检索到的线索。这意味着AI主导整个搜索过程的方式,更像是一个固执地按照自己剧本行事的导演,而不是一个随着新证据不断调整方向的真正调查员。

更令人沮丧的是,即便AI偶尔真的检索到了正确答案所需的证据,它也常常视而不见。研究人员测量了"当正确证据被检索到之后,AI在接下来三轮对话中真正使用这个证据的比例",结果四个模型的这一比率都低于三分之一:DeepSeek V3.2为32.2%,GLM-5.1为24.7%,MiniMax M2.5为30.8%,Kimi K2.5为31.5%。换言之,AI找到了钥匙,却超过三分之二的时候选择把钥匙放在一边,继续按原来的方向乱撞。

这三个实验合在一起,给出了IKD的完整画像:AI用自己的参数记忆提出假设,用搜索去确认这些假设,当确认失败时既不会明智地放弃也不会灵活转向,当成功找到证据时又经常忘记利用。搜索过程本质上是模型自身思维的延伸,而非证据驱动的发现之旅。

四、LiveBrowseComp的诞生:专门为"超出AI记忆"而设计的考场

既然现有的评测基准无法区分"AI知道什么"和"AI能找到什么",研究团队决定亲手打造一个新的评测工具,彻底堵死内在知识依赖这条捷径。这就是LiveBrowseComp。

LiveBrowseComp的核心设计原则是:所有题目的答案,都必须依赖于基准构建之前90天内发布的事实,任何仅凭更早之前的信息就无法回答这些问题。90天这个时间窗口,明显超过了当前主流AI训练流程的数据收集延迟,足以保证这些信息尚未被纳入AI的训练数据。

题目的素材来源于六个持续更新的结构化数据库,涵盖了相当广泛的领域:GDELT负责提供全球新闻事件数据,TMDB提供电影和电视领域的信息,RAWG提供电子游戏数据库记录,CVE/NVD提供网络安全漏洞披露信息,SportsDB提供体育赛事数据,USGS提供地震记录。这些数据源的多样性也有一个重要的考虑:避免某一个特定领域知识特别丰富的AI模型占到便宜。

原始数据经过三个阶段的过滤。第一阶段是时间过滤,直接丢弃所有核心事实可以从90天之前的信息推断出来的候选条目。第二阶段是长尾过滤,因为即便是新鲜发生的事件,如果足够轰动,也可能在几天之内就通过各种渠道渗入AI的参数记忆。所以研究团队对每个候选条目都根据来源特点打了一个"冷僻度"评分,只保留那些曝光度低、覆盖面窄的事件,以此进一步压低它们进入AI训练数据的可能性。第三阶段是答案稳定性过滤,剔除那些答案会随时间变化的候选条目,比如累计票房收入、实时排名等动态数据,只保留那些有明确稳定答案的事件。

通过这三道过滤之后剩下的种子事件,才会交给经过专门筛选和培训的人工标注员来撰写题目。招募标注员的门槛也相当高:每个标注员在正式工作之前,必须独立完成十道BrowseComp原题,全程只能使用网络搜索,至少要花两个小时,而且至少要答对两道。这个训练环节的目的,是让标注员在动手出题之前,对"这个级别的题究竟难在哪里"有切身的体会。

通过筛选的标注员拿到种子事件后,开始自主进行网络调研,并据此设计题目。设计的要求非常具体:题目必须需要多步骤、多来源的推理,答案不能在搜索引擎对题目文本的前三页结果里直接找到;答案必须是唯一的短字符串;而且题目中至少要有一个关键线索来自于过去90天内的新发布信息,缺少这个时间锁定的线索就无法得出答案。

五、五道关卡确保质量:人工审核体系的严格运作

每一道题完成后,都要经过一套独立的五重验证流程。

第一关是正确性与唯一性审核。专门的审核员不仅要顺着标注员给出的证据链逐条核查,还要主动搜寻反例。具体做法是:让DeepSeek-V4-Pro、GLM-5.1、Kimi K2.6和MiniMax M2.5四个模型各自带着搜索工具独立作答8次,收集所有的候选答案,然后逐一检查这些候选答案有没有哪个同样能满足题目中的所有约束条件。只要发现任何一个不同于标准答案的候选答案也能通过所有检验,这道题就被直接淘汰。这个策略有些矫枉过正,会丢掉一些本来合格的题目,但这样做能最大程度保证每道保留下来的题目都有且只有一个正确答案。

第二关是难度校准。三名没有参与出题的独立标注员各自尝试用网络搜索解答这道题,每人最多花30分钟。三人中只要有任何一人在30分钟内答出来了,这道题就被判定不够难,直接淘汰。

第三关是时间锚定验证。审核员要找出题目证据链中所有来自90天以内的新发布页面,然后尝试在90天之前的信息里找到能替代这些新页面的证据。如果所有的新页面都能被旧证据替代,说明这道题并不真正依赖最新信息,同样淘汰。

三重审核各有三位独立的审核员,且三位审核员互不知晓对方的结论。完成之后,还有第四位审核员负责汇总三份审核报告,并对有分歧的地方做出最终裁定。

最终通过所有关卡的题目共有335道,覆盖八个话题领域,其中电影和娱乐各占26%,科技占15%,体育占13%,地理和其他各占7%,政治占5%,艺术与音乐占1%。

六、人类测试:验证新基准的难度设计是否公平

一个担忧是:LiveBrowseComp的分数之所以低,或许是因为这些题本身就比BrowseComp更难,而不是因为AI失去了记忆支撑。为了排除这种可能,研究团队招募了一批与出题环节完全无关的普通标注员,让他们同时做BrowseComp和LiveBrowseComp的题目,同样只能用网络搜索,每道题至少要花两小时才能放弃。

结果相当有说服力:人类在两个基准上的答题成功率几乎完全相同,BrowseComp的成功率是30%,LiveBrowseComp是31%;完成时间的分布也高度吻合。人类搜索者不受IKD的影响,他们在两个基准上表现相当,这就证明了两个基准对真正的搜索能力要求是等同的。如果AI在LiveBrowseComp上表现差很多,原因只能是记忆捷径被堵死了,而不是题目难度本身升级了。

七、测试结果:记忆捷径消失之后,AI的搜索能力原形毕露

研究团队用11个模型在LiveBrowseComp上进行了正式评测,既包括DeepSeek V4 Pro、Kimi-K2.6、Kimi-K2.5、GLM-5.1、GLM-5.0、DeepSeek v3.2、MiniMax M2.5等开源模型,也包括Seed 2.0、GPT 5.4、Gemini 3.1 Pro、Claude Sonnet 4.6等闭源商业模型。

首先是裸答测试。所有11个模型在没有任何搜索工具的情况下,在LiveBrowseComp上的准确率全部低于2%。相比之下,同样的模型在BrowseComp上裸答能拿到20%到44%。这一对比直接证明了LiveBrowseComp的时间约束和冷僻度过滤确实有效地切断了AI的记忆捷径。

加上搜索工具之后,AI的表现有了提升,但与在BrowseComp上的水平相比仍然大幅下降。在LiveBrowseComp上,得分最高的GPT 5.4拿到43.2分,最低的MiniMax M2.5拿到28.0分;而同样这些模型在BrowseComp上的得分区间是51分到77分。整体下滑了25到40分。

更有意思的是排名的变化。GLM 5.1在BrowseComp上是所有开源模型的第一名,拿了68分;但在LiveBrowseComp上只得了33.9分,排到了倒数位置。DeepSeek v3.2在BrowseComp上垫底,只有51.4分;但在LiveBrowseComp上跳到了37.6分,超过了多个在BrowseComp上领先它的模型。这种排名错位恰好印证了IKD的逻辑:在BrowseComp上领先是因为记忆覆盖面广,而记忆面宽不等于搜索能力强。

模型间的分差也明显收窄了。开源模型在BrowseComp上头尾差距是16.6分,在LiveBrowseComp上只剩10.3分。这说明IKD在放大模型差异方面起到了很大的作用——当记忆覆盖面的差异消除之后,真正反映搜索策略优劣的差异要小得多。

从搜索行为的维度来看,在BrowseComp上存在一个明显的"速解峰":大量问题在极少几步搜索之内就被答出来了,这与前文描述的"快速记忆验证"模式完全一致。但在LiveBrowseComp上,这个速解峰几乎消失,分布明显向更多搜索步数的方向移动,说明当AI无法依赖记忆时,它确实需要更长时间、更多步骤的真实探索,而不是简单的确认。

研究团队还做了BrowseComp和LiveBrowseComp之间的相关性分析。两个都是静态基准的BrowseComp和BrowseComp-ZH之间,Spearman秩相关系数高达0.87,Pearson相关系数为0.79,说明在两个类似的测试上排名高度稳定。但BrowseComp和LiveBrowseComp之间,这两个数字分别降到了0.74和0.53。这意味着从一个静态基准的排名无法可靠地预测在真实搜索能力测试中的排名——静态榜单的位置,有相当一部分反映的是知识记忆的广度,而不是信息发现的能力。

说到底,这项研究揭示的是一个系统性的评测盲区:当AI的知识库足够大时,那些声称"必须搜索才能回答"的题目,其实已经悄悄变成了考察记忆的题目。AI在这类题目上的高分,有相当大的比例来自于把记忆当搜索来用——先在脑子里生成一个答案,再上网确认一下,如果搜到了支持证据就提交,如果没搜到就更乱了阵脚。这种行为模式在题目覆盖面和AI知识面高度重叠的情况下看起来效果不错,但一旦题目真正要求AI去发现它尚不知道的信息,整个搜索循环就会失灵。

LiveBrowseComp的价值正在于此:它是一个动态更新的、时间锁定的评测基准,专门用来测量那个更重要的问题——当AI确实不知道答案时,它能通过搜索找到吗?目前的答案并不乐观,但至少我们现在有了一个真正能看清楚这个问题的评测工具。对AI评测感兴趣的读者,可以通过arXiv编号2605.28721查阅完整论文,数据集也已公开发布在Hugging Face平台。一个值得继续追问的问题是:如果我们真的要训练出能够真正"发现"而非仅仅"确认"的AI搜索代理,训练信号应该长什么样子?

Q&A

Q1:什么是"内在知识依赖"(IKD),它对AI搜索代理评测有什么影响?

A:内在知识依赖(IKD)是指AI搜索代理在回答问题时,实际上是先从自身的训练记忆中生成一个猜测性答案,然后再利用搜索工具去寻找支持这个答案的证据,而不是真正通过搜索发现新信息。这种行为模式在静态评测基准中很难被发现,因为只要AI的记忆足够广博,它就能在不真正搜索的情况下答对很多题目,导致评测分数虚高,无法真实反映AI的搜索发现能力。

Q2:LiveBrowseComp是如何防止AI通过记忆作答的?

A:LiveBrowseComp要求所有题目的答案必须依赖于基准构建之前90天内才发布的新鲜事实,仅凭更早的信息无法回答。题目来源于六个持续更新的数据库,并经过时间过滤、长尾冷僻度过滤和答案稳定性过滤三重筛选,专门选取曝光度低、尚未被AI吸收进训练数据的事件,从而堵死记忆捷径,迫使AI真正依赖搜索来作答。

Q3:AI模型在LiveBrowseComp上的表现比BrowseComp差多少,排名有没有变化?

A:在LiveBrowseComp上,所有模型不用工具裸答的准确率全部低于2%,而在BrowseComp上裸答能达到20%至44%。加上搜索工具后,各模型得分普遍下降25到40分。排名也发生了明显变化,例如GLM 5.1在BrowseComp上领先所有开源模型,但在LiveBrowseComp上跌至末位;而BrowseComp垫底的DeepSeek v3.2在LiveBrowseComp上反而超越了多个原本排在它前面的模型,说明静态榜单排名无法可靠预测真实搜索能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-