微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI搜索员越读越多，反而越读越蒙：UC San Diego等机构揭示"屏蔽旧信息"的隐藏规律

AI搜索代理上下文管理检索优化

当AI搜索员越读越多，反而越读越蒙：UC San Diego等机构揭示"屏蔽旧信息"的隐藏规律

作者：科技行者

2026-06-04 17:47

分享至：

研究揭示AI搜索代理"屏蔽旧观测"策略的效果取决于检索质量与模型能力的匹配程度，存在三种截然不同的效果区间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 17:47 • 科技行者

这项由加州大学圣地亚哥分校、加州大学伯克利分校、德克萨斯农工大学和伊利诺伊大学厄巴纳-香槟分校联合开展的研究，于2026年5月以预印本形式公开发布，论文编号为arXiv:2606.00408。有兴趣深入了解的读者可通过该编号查阅完整原文。

一、一个关于"AI越读越乱"的真实困境

假设你雇了一个超级助理，他的任务是帮你在图书馆里找一条关键线索。每找到一本书，他就把书放在桌上，继续翻下一本，然后再下一本，直到桌子上堆了几十本书。现在，他的视野里全是书页，关键线索就埋在某本书的某一页里——但他已经记不清究竟是哪一页了，因为太多东西挡住了视线。

这正是现代AI搜索助手每天面临的处境。当它们被要求回答一个复杂问题时，会一轮一轮地上网搜索、打开网页、摘录内容，把这些信息一条条追加到自己的"记忆清单"里。到了某个时刻，这份清单可能长达数万个词，而其中超过85%都是它从各网页读来的内容，真正属于它自己的推理和思考，只占一小部分。

面对这种信息爆炸，工程师们想出了一个听起来很朴素的解决方案——把AI已经读过的、比较"旧"的内容从它的视野里遮掉，只保留最近几轮读到的东西，腾出空间让它继续探索。这个操作被称为"屏蔽陈旧观测"，英文叫observation masking，可以理解为让助理把已经翻过的旧书从桌面上移开，保持工作台的整洁。

这个思路乍听很合理，业界也已经在实际系统中广泛使用。然而，它究竟什么时候真的有用、什么时候反而帮倒忙，却从来没有人系统地研究过。这支跨校联合团队决定填补这个空白，并得到了一个出乎意料的答案。

二、实验设计：一场跨越规模的大规模测试

为了弄清楚这个问题，研究团队搭建了一个统一的测试平台。他们保持搜索框架、遮蔽规则、提示词和评分标准完全不变，只对两个因素进行系统性变化：一个是AI助手的"大脑"（也就是底层语言模型的规模和能力），另一个是它用来搜索的"检索器"（决定每次搜索能找到多少有用信息）。

大脑这一侧，团队选取了从40亿参数到2840亿参数的多个模型，覆盖了从轻量级到重量级的宽广范围，包括Qwen3.5系列的4B、9B、35B版本，GPT-OSS的20B和120B版本，以及专门为长程搜索任务训练的DeepSeek-V4-Flash-Max（2840亿参数）和Tongyi-DeepResearch（300亿参数）等。检索器这一侧，则从传统的BM25关键词匹配，到Qwen3-Embedding-8B这样的中等密集型向量检索，再到专为AI搜索代理调优的AgentIR-4B，跨越了稀疏到密集的完整谱系。

评测场景也横跨了离线和在线两类：离线方面使用BrowseComp-Plus，这是一个拥有固定语料库的封闭测试集，每道题都有人工核实的答案文档；在线方面则包括GAIA、xBench-DeepSearch和BrowseComp-ZH，后者专门考察中文深度搜索能力。所有实验统一设定最多500轮搜索，遮蔽窗口保留最近5轮的观测内容。

值得一提的是，团队构建的基础框架本身就比市面上已有的同类系统更强。他们在BrowseComp-Plus上的基础准确率，比同型号模型此前公开的最佳成绩高出约11到13个百分点。这一点至关重要——在一个已经很强的基础上测试遮蔽的效果，比在一个本来就很弱的系统上测试要严格得多。毕竟，如果助理本来就乱得一塌糊涂，随便整理一下桌面当然会有改善；只有在桌面已经相当整洁的时候，才能真正看出整理究竟有没有价值。

三、三种命运：遮蔽帮了谁、没帮谁、还害了谁

实验结果呈现出一条耐人寻味的曲线，研究者称之为"非对称倒U形"。说得更直白一些，遮蔽效果的好坏，高度取决于AI系统在没有遮蔽时的基础表现水平——而这背后隐藏着三种截然不同的命运。

第一种命运发生在检索器本身就很弱的时候。使用BM25关键词匹配检索时，无论配的是4亿参数的小模型还是200亿参数的大模型，遮蔽带来的准确率提升都稳定在6到7个百分点左右，几乎不随模型能力的变化而变化。原因其实很简单：检索器每次找来的信息本来就不太包含真正有用的线索，即使桌面整洁了，也找不到更好的书。在这种情况下，瓶颈在于信息来源本身的质量，而不在于AI的视野管理。研究者把这种状态称为"检索瓶颈区"。

第二种命运是遮蔽最大显身手的地方。当检索器足够强（比如AgentIR的召回率高达88%），而模型的基础准确率还处于45%到65%的中间地带时，遮蔽的效果达到顶峰。最典型的案例是Qwen3.5-35B-A3B搭配AgentIR，遮蔽让准确率提升了惊人的11.7个百分点。此外，Qwen3.5-4B搭配AgentIR提升10.8点，GPT-OSS-20B搭配AgentIR提升10.0点，Qwen3.5-9B搭配Qwen3-Emb-8B提升9.6点，这些都是同一规律的不同体现。在这个"甜蜜区"里，检索器已经把有用的线索带回了桌面，但模型自身还没有足够强的能力在一堆杂乱信息里精准找到它，于是遮蔽帮助它把注意力集中在最新、最相关的内容上，效果显著。

第三种命运则是令人意外的反转。当模型的基础准确率超过70%之后，遮蔽带来的收益急剧萎缩，甚至开始造成伤害。Tongyi-DeepResearch在没有遮蔽时准确率高达80.7%，遮蔽之后反而下降了1.1个百分点。GPT-OSS-120B在BrowseComp-Plus上几乎不受影响（只有0.1点提升），但换到GAIA测试集上，遮蔽让它损失了4.8个百分点，这是整个实验中观察到的最大负面效果。这类高能力模型不仅从遮蔽中获益有限，有时还会因为某条关键线索被移出视野而做出错误判断。与此同时，这些强模型在遮蔽条件下的搜索轮数大幅增加——GPT-OSS-120B每道题平均多出将近69轮搜索，DeepSeek-V4-Flash-Max也多了将近58轮——付出了很高的计算代价，却没有换来对应的收益。

这三种命运揭示了一个核心规律：决定遮蔽是否有效的，并非模型的绝对参数规模，而是检索质量和模型能力之间的匹配程度。一个有趣的证明来自两个参数规模完全相同的35亿参数模型——Qwen3.5-35B-A3B和Qwen3.6-35B-A3B。前者配上最强检索器，遮蔽带来11.7点的大幅提升；后者在同样配置下只提升3.7点。两者唯一的区别是训练方式不同，这意味着是训练经历塑造的内在能力决定了它们所处的命运区，而不是它们的体型大小。

四、遮蔽到底在做什么：一笔关于"轮次换词元"的交易

准确率只是表面的数字，研究者更关心的是遮蔽在每一道题上究竟做了什么。他们把所有题目按照"没遮蔽时对、遮蔽后还是对"、"没遮蔽时错、遮蔽后对了"（被称为"救活"）、"没遮蔽时对、遮蔽后错了"（被称为"搞坏"）和"两种情况都错"四类进行了细致拆分。

结果揭示了遮蔽操作的本质：它是一笔以轮次换词元的交易。被遮蔽"救活"的题目，整个解题过程所消耗的上下文总量反而更少，因为移除旧观测之后，模型能更直接地收敛到正确答案，不会被陈年信息绕弯路。然而，被遮蔽"搞坏"的题目，消耗的资源却远远更多——模型被迫重新搜索、重新打开那些已经被移除的页面，花费了更多轮次和更多词元，但仍然没能找回失去的关键信息。遮蔽整体上增加了搜索轮次，这个开销在每种配置下都存在，区别在于"救活"数量能否覆盖"搞坏"数量。

在最佳配置（Qwen3.5-35B搭配AgentIR）下，被救活的题目数量大约是被搞坏的三倍，所以净效果显著为正。但在饱和模型（GPT-OSS-120B搭配AgentIR）的情况下，救活和搞坏的数量大致相当，代价和收益相互抵消，净收益接近于零。

五、一个能预测"遮蔽是否有用"的侦测工具

研究团队没有满足于事后分析，他们进一步追问：在遮蔽操作发生之前，能不能从未遮蔽的搜索轨迹中预判出哪些题目会被遮蔽救活？

为此，他们发明了一个叫做"信噪比探针"的诊断工具。具体做法是：对于每一道题的每一轮搜索前缀，计算一个简单的比值——在AI目前已经浏览过的所有页面中，真正包含正确答案线索的"黄金页面"占多少比例，其余无关页面又占多少。黄金页面越集中、无关页面越少，信噪比就越高；反之，如果翻来翻去大部分都是不相关的内容，信噪比就低。

把这个信噪比和另一个反映搜索复杂度的主成分指标组合在一起，研究者训练了一个简单的线性分类器来预测某个前缀状态是否能被遮蔽救活。结果发现，被救活的情形往往集中在信号稀疏、输入复杂的区域——也就是说，当搜索内容混乱、有用线索被大量无关内容淹没时，遮蔽最有可能派上用场。

更有趣的是，饱和模型（如GPT-OSS-120B）的救活子集在这个二维平面上反而更容易被区分开来（AUC达到0.74），但由于被搞坏的数量同样不少，整体净收益仍然接近于零。相比之下，中等能力模型（如Qwen3.5-9B搭配Qwen3-Emb-8B）的救活分布更加弥散，覆盖了大量边缘性的搜索状态，整体收益更大。这告诉我们：可预测的救活空间是存在的，但光有可预测性还不够，关键是救活能否在数量上压过损害。

这套诊断方法还被推广到了没有已知答案文档的在线搜索场景。在xBench实验中，研究者用AI最终答案引用了哪些浏览行作为替代信号来估算信噪比，结果在Qwen3.5-9B和DeepSeek-V4-Flash-Max上都观察到了类似的规律，说明这个侦测逻辑并不局限于特定数据集。

六、AI的注意力去哪儿了：从大脑扫描看遮蔽为何奏效

到这里，研究者已经知道了遮蔽的效果何时好、何时坏，但他们还想知道为什么会这样。于是他们做了一件类似"给AI做脑部扫描"的事情：在模型进行搜索推理时，实时记录每一层神经网络对上下文各个位置的注意力权重，看看AI在生成每一步推理时，眼睛真正落在了哪里。

实验选取了三种配置下的150条搜索轨迹，对Qwen3.5系列的混合注意力架构中的全注意力层逐一进行了钩子式记录。分析结果揭示了两个令人印象深刻的规律。

第一个规律：AI自己写下的推理文字比它读来的网页内容重要得多。尽管网页观测内容在上下文中占据超过85%的篇幅，但模型实际分配给它的注意力权重只有25.6%；相比之下，只占上下文一小部分的推理文字，却吸引了53.7%的注意力。这就像一个人在图书馆里，虽然桌上堆了几十本书，但他的眼睛几乎一直盯着自己的笔记本，只是偶尔瞥一眼刚刚翻到的那一页。

第二个规律：注意力呈现出一个漂亮的U形分布。在时间维度上，模型对最近一轮读到的内容给予最高关注（大约10%的权重），一轮之前便骤降至1.7%，中间那些搜索轮次几乎被完全忽视，只有最早期的推理内容会出现一个反弹，回升到约4%。这个U形告诉我们：AI天然地重视"刚刚看到的"和"最初想到的"，对中间积累的那些旧观测内容几乎置之不理。

遮蔽操作恰恰针对的就是这片"被遗忘的中间地带"。把AI自己都不怎么看的旧观测内容移除，在大多数情况下不会造成信息损失，反而腾出了上下文空间，让模型能够继续探索新的线索。然而，在模型能力极强的时候，它偶尔确实会用到旧观测中的某条关键线索，一旦那条线索被移除，它就找不回来了，由此引发错误。

七、AI用脚投票：翻书习惯也是一面镜子

除了注意力分布，研究者还分析了AI的工具使用行为——具体来说，是它在打开新页面时倾向于选择哪里的页面。这有点像观察一个读者在书堆里的翻书习惯：他是更愿意翻最新拿来的书，还是会回头翻很早之前的书？

统计结果显示，在所有配置下，AI打开页面的行为都呈现出明显的双峰分布：它要么选择刚刚搜到的最新页面（对应页面池末端），要么回头翻搜索旅程一开始就找到的那几个页面（对应页面池起点），而对中间积累的大量页面几乎视而不见。

遮蔽操作被激活之后，这种双峰模式变得更加明显。对于遮蔽效果越好的配置，遮蔽后模型回头重翻第一批页面的频率越高。研究者的解读是：遮蔽迫使能力相对较弱的模型主动去重新寻找它以为已经遗忘的信息，这种主动回溯行为反而让它更好地锚定了任务的起点和核心，模拟出了更强模型天然具备的那种"记得住初心"的能力。

八、工程细节也很重要：两个被证明有效的设计选择

在这些大规律之外，研究团队还专门测试了两个工程设计细节对遮蔽效果的影响，结论出人意料地清晰。

第一个细节是对工具调用出错信息的处理。研究的遮蔽规则中有一条特例：如果某一轮搜索返回的不是正常内容，而是错误提示（比如格式有误、网络失败等），这条错误信息即使再旧也不会被遮蔽移除。原因是AI需要看到自己犯过什么错，才能在下一轮做出调整。实验用两种方式对比了这条规则的影响：保留错误信息的正常配置，和连错误信息也一并移除的对照配置。结果表明，对4亿参数模型，移除错误信息后打开页面的错误率从18.6%上升到22.6%；对9亿参数模型，则从20.4%上升到24.6%。错误反馈是AI自我纠正的必要条件，移掉它会让AI在错误的路上越走越远。

第二个细节是页面链接的表达方式。研究的框架中，AI在搜索结果里看到的每个链接都是完整的URL地址，可以直接用于打开页面。另一种对照设计则是把URL替换成更模糊的页面标题，让AI自己推断如何定位。实验结果同样清晰：使用模糊标题之后，4亿参数模型的打开错误率从18.6%升至20.8%，9亿参数模型则从20.4%升至26.2%。让AI少做一件事（推断URL），就能减少一类错误，这个道理简单而实用。

九、从一个具体案例看遮蔽如何救活一道难题

论文附录里有一个典型案例，生动地展示了遮蔽如何让一个原本失败的搜索过程走向成功。题目要求找出一支在70年代由吉他手在高中组建、后来以多语言演唱著称的非洲乐队，该吉他手恰好在2003年去世，而另一支乐队的主唱也在同一年去世。

在没有遮蔽的情况下，AI在早期搜索中把目光锁定在摩洛哥民间流行乐队Nass el Ghiwane上，尽管这支乐队的许多特征与题目吻合，但吉他手的死亡年份并不准确。由于旧观测内容堆积在上下文里，模型被这些已经翻阅过的错误线索所占据，陷入了自我强化的循环，在24轮搜索后给出了错误答案Ali Benfarha。

在遮蔽开启的情况下，相同的题目走出了截然不同的路径。大量旧搜索结果被陆续移出视野（整个过程发生了32次自动归档），模型的上下文始终保持相对整洁，得以持续尝试新的搜索方向。在第32轮，它终于搜到了来自莱索托的非洲流行乐队Sankomota，确认吉他手Frank Leepa确实在2003年11月27日去世，乐队确实在70年代由他在高中组建，歌曲以祖鲁语、北索托语等多种语言演唱，最终在36轮内给出了正确答案。

这个对比案例清楚地显示了遮蔽的工作机制：它的价值在于防止AI被自己积累的错误记忆所困住，给它保留继续探索的空间。但这种帮助是有条件的——前提是检索器能找到正确的线索，模型自身没有足够能力在杂乱信息中自主筛选。

十、另一个方向的案例：遮蔽如何害了一道本来正确的题

研究者也记录了遮蔽造成损害的典型案例，这个案例与上面的"救活"形成了鲜明对照。

题目要求确定一位非洲娱乐圈人物的感情结束月份。在没有遮蔽的情况下，GPT-OSS-120B在搜索过程中打开了一篇NTV采访报道，明确记录了这位男歌手的原话：感情实际终止于2023年6月，但官方分手声明发布于2023年8月。模型保留了这个关键区别，最终在19轮搜索后正确回答了"2023年6月"。

在遮蔽开启的情况下，模型同样在早期搜索中扫到了同样的信息——NTV报道摘要里明确出现了"June 2023"字样。然而，这条搜索结果很快被自动归档移出了视野。模型没有及时打开那篇NTV报道，转而深入阅读了市民数字报（Citizen Digital）的另一篇文章，后者的发布日期是2023年8月30日，描述的是分手声明的公开时间。随着越来越多旧搜索结果被移除，包含"June 2023"区别的那条线索彻底消失于活跃上下文之外，而模型已经没有足够的判断力意识到自己需要回头重新打开那个被遮蔽的来源。最终，在29轮搜索、26次自动归档之后，模型错误回答了"2023年8月"。

这个案例揭示了遮蔽最深层的风险：当关键信息只出现在某一条特定的搜索结果中，而这条结果恰好在模型完全理解其价值之前就被移出了视野，遮蔽就会造成不可逆的信息损失。对高能力模型而言，这种损失尤为危险，因为它们本来有能力正确使用那条信息，却被遮蔽剥夺了这个机会。

说到底，这项研究讲的是一个关于"恰到好处"的故事。清理桌面这件事，在桌子刚开始变乱时效果最好；当桌子本来就没几本有用的书时，清理没什么用；当桌上坐的是一位博览群书、过目不忘的学者时，随便把一本书挪走，反而可能让他少了一条关键线索。

对普通人来说，这项研究意味着：当你使用各种AI搜索助手或者深度研究工具时，背后那套系统在悄悄帮你管理信息的方式，并不是对所有情况都有效的万能方案。一个在某款AI上工作得很好的"上下文管理"设置，换了另一款更强大的模型可能反而是累赘。选择AI工具时，关注的不应只是模型有多大，还应考虑检索能力和模型能力是否真正匹配。

研究者同时指出了未来更值得投资的方向：与其费心设计复杂的遮蔽规则，不如把精力放在提升检索质量上。更准确的检索从源头减少了噪音，让AI在一个更干净的信息环境中工作，这对任何能力水平的模型都是有益的，而不像遮蔽那样只在特定条件下才管用。

这项研究留下了一些值得继续探索的问题：能不能设计出一种智能遮蔽策略，根据实时判断决定哪些内容该留、哪些该移？不同类型的任务（比如代码调试、法律文件分析）是否会呈现出不同的遮蔽规律？如果你对这些问题感兴趣，可以通过arXiv编号2606.00408查阅完整论文，里面还有大量案例分析和技术细节等待挖掘。

Q&A

Q1：什么样的AI搜索代理最适合开启"屏蔽旧信息"功能？

A：根据该研究的实验结果，最适合开启屏蔽旧观测功能的配置，是检索器召回能力较强（能找到答案所在的页面），但模型基础准确率还处于中等水平（大约45%到65%之间）的组合。在这个区间内，屏蔽能帮助模型把注意力集中在最新线索上，最高可带来约11.7个百分点的准确率提升。而检索器太弱时，屏蔽几乎没有帮助；模型太强时，屏蔽反而可能移除它本可以用到的关键信息，造成准确率下降。

Q2：观测屏蔽会让AI搜索消耗更多资源吗？

A：会。该研究发现，开启观测屏蔽之后，AI在每道题上平均需要发起更多轮次的搜索，因为旧内容被移除后它需要重新寻找之前已经浏览过的信息。以GPT-OSS-120B为例，开启屏蔽后每道题平均多出将近69轮搜索，DeepSeek-V4-Flash-Max也多出约58轮。这部分额外开销在所有配置下都存在，区别在于对中等能力模型而言，多出的搜索轮次带来了足够多的正确答案，整体划算；对高能力饱和模型来说，额外开销无法换回对应收益。

Q3：观测屏蔽和提升检索器质量，哪个更值得投资？

A：该研究认为，从长期来看，提升检索器质量更值得投资。观测屏蔽只是一种条件性有效的辅助手段，在模型与检索器能力不匹配的特定区间才有明显效果，对高能力模型甚至可能带来负收益。而提升检索器的召回质量，从源头减少噪音、增加有效信息密度，对任何能力水平的模型都有好处，且不存在因移除关键证据而导致错误的风险。研究者明确建议，未来工程方向应从激进的启发式剪枝转向高保真的信息检索。

AI搜索代理上下文管理检索优化

分享至