
这项由厦门大学信息学院与吉林大学人工智能学院联合完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.29796,有兴趣深入了解的读者可以通过该编号查询完整论文。
一、当AI助手开始"过度搜索"
假设你家里有一位非常勤奋的助理,每次你问他一个问题,哪怕是"苹果是什么颜色的"这种小事,他也要跑出去查好几本百科全书,甚至在找到答案之后,还要继续翻阅更多资料才肯回来回答你。这种行为不只是浪费时间,还可能因为看了太多相互矛盾的资料而给你一个错误的答案。
这正是当今大语言模型在"代理搜索"(Agentic Search)领域面临的核心困境。所谓代理搜索,指的是让AI模型像一个自主的研究员一样,遇到复杂问题时主动去互联网或知识库里搜索资料,然后综合这些资料给出答案。这种方式在处理需要多个步骤才能回答的复杂问题时非常有效,比如"演奏《明格斯弹钢琴》的艺术家来自哪个州,那个州人口最多的城市赢得过哪届印地赛车赛?"
然而问题在于,这些AI代理往往不知道自己到底有多少"存货"。它们不清楚哪些答案其实自己早就知道,也不清楚什么时候已经搜集到了足够的证据可以停下来。结果就造成了两种让人头疼的状况:一种是明明自己脑子里就有答案,却还是要去外面搜索一番,徒增时间和计算成本;另一种是已经找到了足够的证据,却还要继续发起一轮又一轮的搜索,浪费资源的同时还可能引入干扰信息。
研究团队把这两种现象统称为"过度搜索"(Over-search),并针对这个问题提出了一套名为SAAS(Self-Aware Agentic Search,自我感知代理搜索)的强化学习训练框架。这套框架的核心思想可以用一个比喻来理解:培养一位真正懂得自己能力边界的侦探,知道什么时候凭经验就能断案,什么时候需要出去收集更多证据,以及在拿到关键线索之后果断收手,而不是无休止地继续调查。
二、过度搜索的问题究竟有多严重
要弄清楚为什么过度搜索是个大问题,首先需要理解现有的AI搜索代理是如何被训练出来的。目前最流行的方法叫做"基于结果的强化学习"(Outcome-based RL),简单来说就是:AI代理尝试各种方法回答问题,最终答对了就给奖励,答错了就惩罚。
研究团队用这种常规方法训练了一个搜索代理,并仔细观察了整个训练过程。结果发现了一个很有意思的现象:在训练刚开始的时候,还有相当一部分问题是AI直接凭借自己的知识回答的,不需要搜索。但随着训练的进行,这种"不搜索就直接回答"的行为几乎完全消失了——到了训练第50步左右,几乎所有问题都触发了搜索行为。更糟糕的是,在那些确实触发了搜索的问题里,继续在已经找到足够证据之后仍然发起额外搜索的比例,一路攀升到将近50%。
这说明常规强化学习给了AI一个扭曲的信号:搜索本身被视为一种总是有益的行为,因为搜索往往能提高答对的概率,所以AI学会了"多搜总比少搜好"的错误策略。就像那位勤奋助理一样,他发现每次多查几本书往往能回答得更准确,于是慢慢养成了事事都要翻书的习惯,哪怕自己明明知道答案。
面对这个问题,研究团队考虑了一个直觉上很自然的解决方案:直接惩罚搜索行为,对每次搜索扣分,逼着AI少搜索。但实验结果令人失望。施加固定惩罚后,模型的准确率不升反降,到了训练的后期甚至出现了完全崩溃的情况,搜索次数急剧减少,但答题质量也大幅下滑。
这背后有两个深层原因。第一,AI的"知识边界"是动态变化的。随着训练的推进,AI的能力不断增强,原本需要借助搜索才能回答的问题,训练到后来可能凭自身知识就能解决。研究团队实测发现,在训练第100步时,约12.7%的问题可以不依赖搜索而正确回答,但到了第300步,这个比例上升到了24.3%。一个在训练初期设定的固定惩罚标准,到了训练后期就可能已经过时了。第二,固定惩罚无法区分"该搜但没搜"和"不该搜却硬搜",只是一刀切地压制所有搜索行为,结果反而把那些真正需要外部信息的问题也给搜索禁止了,导致了性能崩溃。
由此可见,要解决过度搜索问题,不能靠简单粗暴的惩罚,而需要一套能够动态感知AI当前能力边界的智能机制。这正是SAAS框架所要解决的核心挑战。
三、SAAS框架的三重"侦探训练法"
SAAS框架由三个相互配合的核心组件构成,可以把它们理解为培养一位优秀侦探所需的三种训练:第一,让侦探准确评估自己当前的破案能力;第二,根据每个案子的性质给予有针对性的奖惩引导;第三,确保侦探先练好基本功,再学习何时应该收手。
**搜索边界建模**是SAAS的第一个核心组件,也是整个框架最独特的地方。每次训练更新时,框架会对同一个问题生成两组平行的答题轨迹:一组是"禁止搜索版",AI只能凭自己的知识回答;另一组是"允许搜索版",AI可以自由调用搜索引擎。通过对比这两组的答题结果,框架可以将每个问题归入三种类别。
如果禁止搜索版有足够多的轨迹答对了(超过阈值δ,默认设为2),说明在当前的训练阶段,AI自身知识已经足以解决这个问题,此时搜索完全多余,将其标记为"无需搜索"类型。如果禁止搜索版一个都没答对,但允许搜索版有至少一个答对了,说明这个问题目前超出了AI的知识边界,必须借助外部搜索才能解决,将其标记为"需要搜索"类型。如果两组都没有答对,那就说明这个问题目前对AI来说太难了,连搜索也帮不上忙,暂时归入"待定"类型,不做额外干预。
这个机制的妙处在于它是"在线"的,随着每次训练迭代而更新。随着AI能力的增长,问题的类别会动态调整,昨天需要搜索的问题,今天可能就被重新归为无需搜索。
**边界感知奖励模块**是第二个组件,负责把上述分类结果转化为具体的训练信号。对每条答题轨迹,总奖励由两部分构成:答题准确度奖励和搜索行为奖励。准确度奖励使用F1分数衡量,F1分数比简单的对错判断更细腻,能够反映部分正确的情况,给AI一个更平滑的学习信号。
搜索行为奖励则根据问题类别而有所不同。对于"无需搜索"类型的问题,框架采用零容忍策略:每发起一次搜索就扣去相应的分数(惩罚系数为α乘以搜索次数)。这迫使AI在这类问题上学会直接用自己的知识回答,完全不依赖外部工具。
对于"需要搜索"类型的问题,框架不惩罚搜索本身,但会惩罚那些超出必要范围的冗余搜索。具体来说,框架会统计在所有成功答对的允许搜索轨迹中,最少用了几次搜索就解决了问题,把这个最小值记为Nmin。然后,对于一条具体的答题轨迹,只有当其搜索次数超过Nmin时,超出部分才会被扣分。这就好比说:你至少需要查阅3份资料才能破这个案子,那你查了3份是合理的,查了5份就要扣分了,因为多出来的2次调查是没有必要的浪费。
对于"待定"类型的问题,由于目前还不清楚到底需不需要搜索、需要搜多少,框架不施加任何额外限制,让AI自由探索。
此外,搜索行为奖励还设置了一个额外的保护机制:只有在答题完全正确的情况下,搜索惩罚才会被激活。这样设计是为了防止AI还没学会怎么用搜索的时候,就因为搜索惩罚而提前放弃使用这个工具。
**分阶段优化策略**是第三个组件,解决了"什么时候开始引入搜索限制"的问题。如果从训练一开始就同时施加准确度奖励和搜索惩罚,AI很可能陷入一种投机取巧的状态:为了躲避搜索惩罚,在还没学会有效利用搜索工具的情况下就放弃搜索,换来的是表面上搜索次数少了,但答题质量也大幅下滑。
为了避免这种情况,SAAS将训练分为两个阶段。第一阶段叫做"能力获取阶段",只使用准确度奖励,让AI专心学习如何推理、如何调用搜索工具、如何整合检索到的证据来回答问题。只有当验证集上的表现停止提升、说明AI已经掌握了基本的搜索使用能力之后,才进入第二阶段。第二阶段叫做"效率精炼阶段",同时启用准确度奖励和边界感知搜索奖励,开始引导AI学会在恰当的时机搜索、在恰当的时机停止搜索。
这个策略的逻辑类似于培训一位侦探:你不会在第一天就告诉他"调查时间越短越好",因为他还没建立起基本的破案直觉。你首先让他充分实践,积累足够的经验和判断力,然后再引入效率考核。
四、实验结果:少搜索,还能答得更准
研究团队在七个开放域问答基准上对SAAS进行了全面评测,其中包括三个单跳问题数据集(每个问题只需要一步推理即可回答,如TriviaQA、PopQA和自然问题NQ)以及四个多跳问题数据集(需要多个推理步骤串联,如HotpotQA、2WikiMultiHopQA、MuSiQue和Bamboogle)。实验使用了两种规模的Qwen2.5模型(3B和7B参数版本)以及Qwen3-4B模型作为骨干。对比的基线方法涵盖了直接推理、拒绝采样微调(RFT),以及多种基于强化学习的代理搜索方法(Search-R1、StepSearch、HiPRAG)。
在准确率方面,SAAS在Qwen2.5-3B版本上取得了七个数据集平均45.8%的准确率,超越了最强对比方法HiPRAG的43.6%,提升幅度达到2.2个百分点。在Qwen2.5-7B版本上,SAAS的平均准确率为48.7%,与最强基线HiPRAG的49.8%相比略有不及,但基本保持了竞争力。在多跳问题上,SAAS的优势尤为明显,比如在Bamboogle数据集上,SAAS比HiPRAG高出整整8个百分点。
在搜索效率方面,SAAS的表现更加突出。在Qwen2.5-3B版本上,SAAS平均每个问题只需要1.13次搜索,而StepSearch需要1.69次,HiPRAG需要2.19次。换算一下,SAAS比最强对比方法节省了将近一半的搜索调用。在Qwen2.5-7B版本上,SAAS平均只需要0.97次搜索——这意味着平均每个问题甚至不到一次搜索,而同期的GRPO基线需要2.94次,节省了约67%的搜索开销。
这种效率提升背后有两个具体的机制在发挥作用。针对"不必要搜索"(即本来不需要搜索却触发了搜索)的问题级别抑制,SAAS在Qwen2.5-7B上把这一比率从GRPO的100%降低到了45.9%,相当于超过半数原本"多此一举"的搜索被成功避免。针对"冗余搜索"(即已经找到答案之后仍然继续搜索)的步骤级别抑制,SAAS在Qwen2.5-7B上把这一比率从GRPO的15.4%降低到了6.3%。
研究团队还特别记录了训练过程中的动态变化。在第一阶段(能力获取阶段),随着训练推进,模型的F1分数和平均搜索次数都在同步上升,说明模型正在学习如何有效利用搜索工具来提高答题质量。进入第二阶段(效率精炼阶段)后,平均搜索次数从约2.0次急剧下降到1.0次以下,而F1分数仅出现轻微短暂的下降后便趋于稳定。这与此前"固定惩罚"实验中出现的训练崩溃形成了鲜明对比,充分说明分阶段优化策略成功避免了奖励欺骗现象。
五、消融实验:拆开看,每个零件都不可缺
为了验证SAAS三个核心组件各自的贡献,研究团队做了消融实验,逐一移除其中的组件,观察性能变化。
移除分阶段优化策略之后,平均搜索次数确实进一步下降到了0.95次,但平均准确率从45.8%骤降至40.9%,降幅高达4.9个百分点。这印证了前面的分析:过早引入搜索惩罚会在AI还没学会有效使用搜索工具之前就限制了它的探索行为,最终导致整体性能下降。
将在线边界建模替换为离线边界建模(即只用训练前的基础模型评估一次搜索边界,之后固定不变)之后,准确率下降到42.8%,搜索次数为1.07次,均低于完整版SAAS。这说明随着训练进行,AI能力不断提升,静态的搜索边界会越来越跟不上当前策略的实际状态,导致错误的奖励信号。
参数敏感性分析方面,研究团队重点考察了阈值δ(决定多少条禁止搜索的轨迹答对了才算"无需搜索")的影响。当δ=1时,搜索次数降至1.05,但准确率仅43.1%,说明标准过于宽松导致错误地把许多实际上需要搜索的问题也归为了"无需搜索"类型,过度压制了必要的搜索行为。当δ=3或δ=4时,准确率分别降至43.7%和43.0%,说明标准过严反而引入了噪声,使得边界估计不够稳定。δ=2是准确率和搜索效率最优平衡点,最终被确定为默认参数。
六、案例展示:有图有真相的过度搜索对比
研究团队提供了两个具体案例,直观地展示了SAAS和常规GRPO训练方法的行为差异。
第一个案例的问题是:"熊猫是哪个国家的国宝?"这是一个任何对中国文化稍有了解的人都能直接回答的问题。SAAS训练的模型直接在思考阶段回忆起"大熊猫产自中国,是中国的国家象征",然后给出了答案"中国",全程零搜索。而常规GRPO训练的模型则先发起了第一次搜索"熊猫是哪个国家的国宝",拿到了相关文档,然后思考了一下觉得"需要进一步确认",又发起了第二次搜索"大熊猫是中国的国宝吗",再次拿到文档,才最终回答"中国"。两者都答对了,但SAAS用了0次搜索,GRPO用了2次——这就是典型的"不必要搜索"。
第二个案例的问题是:"德国莱茵-赫尔纳运河沿线的工业城市是哪座?"答案是杜伊斯堡。SAAS训练的模型发起了1次搜索,找到了"莱茵-赫尔纳运河连接杜伊斯堡港口"的文档,确认了答案,然后直接给出了答案。而常规GRPO训练的模型发起了第一次搜索,找到了相关文档(其中已经出现了"杜伊斯堡"),但随后思考认为"还需要确认哪些城市在这条运河上",又发起了第二次搜索,然后第三次,最后第四次搜索去确认"杜伊斯堡的工业地位",共计4次搜索,才回答了同一个答案。这就是典型的"冗余搜索"——第一次搜索已经给出了充分的证据,后续三次完全是多余的。
归根结底,SAAS的价值不在于让AI变得"懒惰",而在于让AI变得"聪明"——清楚地知道什么时候自己的知识已经够用,什么时候需要借助外部工具,以及在工具给出了足够信息之后果断停下来。这种"自我感知"能力不仅节省了大量计算资源,也减少了因引入噪声信息而导致错误答案的风险。
对于普通人而言,随着AI助手越来越多地进入日常生活,这项研究意味着未来的AI助手不仅能回答得更准确,还能回答得更快、消耗更少的能源。一个总是在已知答案的情况下还要出门查资料的助手,既费时又浪费资源;而一个能准确判断"这个我知道"和"这个我需要查一查"的助手,才是真正实用的工具。
研究团队也坦承了当前的局限性:SAAS目前只在基于文本的单模态搜索场景下进行了验证,尚未拓展到包含图片、表格或结构化数据库的多模态搜索场景。不过,SAAS的核心机制本身并不依赖于文本这种特定的输入形式,将其扩展到多模态场景是一个自然的未来研究方向。感兴趣的读者可以通过arXiv编号2605.29796查阅完整论文,深入了解所有技术细节和实验数据。
---
Q&A
Q1:SAAS框架是怎么判断一个问题需不需要搜索的?
A:SAAS会针对同一个问题同时生成两组答题轨迹,一组不允许搜索,一组允许搜索,通过对比这两组结果来判断。如果禁止搜索的情况下有足够多次答对,就认为当前AI自身知识已足够,不需要搜索。如果禁止搜索全都答错但允许搜索能答对,则认为需要搜索。这个判断会随着训练进展动态更新,不是一次性固定的。
Q2:为什么给AI搜索行为加固定惩罚反而会让性能变差?
A:固定惩罚无法区分"该搜而搜"和"不该搜也搜"这两种完全不同的情况。随着AI能力的提升,知识边界是不断变化的,固定惩罚很快就会和实际情况脱节。此外,如果从训练初期就施加惩罚,AI还没学会如何有效使用搜索工具就被迫放弃使用,最终导致整体答题质量下降,甚至出现训练崩溃。
Q3:SAAS对冗余搜索是怎么处理的?
A:对于那些确实需要搜索的问题,SAAS不惩罚搜索本身,但会统计所有成功答对的轨迹里最少用了几次搜索,把这个最小值作为"充分证据门槛"。如果某条轨迹的搜索次数超过了这个门槛,超出的部分就会被扣分。这样既不压制必要的证据收集,又能有效遏制无意义的额外搜索。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。