微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学与蚂蚁集团联手出击：当AI搜索助手学会"断舍离"，效率提升最高58%

智能体训练强化学习搜索效率优化

浙江大学与蚂蚁集团联手出击：当AI搜索助手学会"断舍离"，效率提升最高58%

作者：科技行者

2026-06-16 10:35

分享至：

SlimSearcher是浙江大学与蚂蚁集团提出的AI搜索助手训练框架，通过优质数据筛选和三层自适应奖励机制，将搜索轮次减少17%至58%，同时保持或提升准确率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-16 10:35 • 科技行者

这项由浙江大学与蚂蚁集团联合开展的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.07074，有兴趣深入了解的读者可以通过该编号查询完整论文。研究的核心成果是一个名为SlimSearcher的训练框架，专门用于解决AI网络搜索助手"越搜越多、越用越慢"的顽疾。

你有没有遇到过这样的同事：只是问他"今天天气怎么样"，他却要先翻三本参考书、打五个电话、再查两个网站，折腾半天给你一个"可能是晴天"的答案？现在的AI搜索助手，很多都有这个毛病。研究团队把这种现象形象地称为"效率陷阱"——明明靠自己的知识就能回答的问题，偏要劳师动众地调用各种搜索工具；明明两步就能解决的任务，偏要绕十几个弯、验证了又验证、搜了又搜，最终给出同一个答案。

这不仅仅是让人抓狂的问题，更是实实在在的资源浪费。每一次调用搜索引擎、访问网页，背后都需要计算资源、时间成本和真金白银。现有的开源AI搜索助手，比如MiroThinker，回答一个问题有时需要几百轮搜索操作，这种效率在实际应用中是完全站不住脚的。

浙大与蚂蚁集团的研究团队决定从训练源头入手解决这个问题，他们提出的SlimSearcher框架通过改造AI模型的"学习方式"，让模型从一开始就养成精简、高效的搜索习惯。最终在多个权威测试基准上，这套方案在保持或提升准确率的同时，将平均搜索轮次减少了17%到58%。

一、AI搜索助手为何会掉进"效率陷阱"

要理解这个问题，可以把现在的AI搜索助手比作一名刚入职的新手研究员。这位新手有两个坏习惯：第一个坏习惯叫做"盲目工具依赖"——哪怕领导只是问他"北京在中国的哪个方向"，他也要打开电脑、查阅地图、搜索文献，折腾好半天才回来说"北方"。这个答案他其实早就知道，根本不需要查，但他就是停不下来，把查资料当成了一种条件反射。

第二个坏习惯叫做"表演性推理"——在确实需要查资料的复杂任务中，他不是直奔主题去找答案，而是陷入了无限循环：查完一个来源要再查三个来源验证，验证完还要再验证，不断跑进死胡同又退出来，在已经找到的事实上反复确认，生成一份看起来非常严谨但实际上充斥着废话的调查报告。

研究团队进一步分析了为什么现有的训练方法会培养出这样的坏习惯。问题出在主流的训练范式上——现有方法采用所谓"只看对错"的样本筛选方式，意思是只要AI的回答最终是正确的，这段训练数据就会被保留下来用于学习。但这完全不管这个正确答案是用2步找到的还是用200步找到的，两种轨迹在训练中被一视同仁地奖励。结果就是AI模型学会了"只要最终对了，过程怎么臃肿都无所谓"的习惯。

而在强化学习阶段（一种让AI通过不断尝试和反馈来改进自己的训练方式），现有方法几乎只奖励"有没有答对"，完全不管"用了多少步"。随着训练推进，模型发现一个"窍门"：多搜几轮，答对的概率更高。于是模型就变本加厉地堆砌搜索轮次，形成了研究团队所说的"效率崩溃"——越训练越臃肿。

二、SlimSearcher的核心哲学：找到"最小必要路径"

SlimSearcher框架的核心理念借鉴了自然界中一个非常优雅的现象：蚂蚁寻路。蚂蚁群体在寻找食物的过程中，会通过信息素来标记路径，走得越短的路，信息素浓度越高，后来的蚂蚁就越倾向于走这条路，最终整个群体会收敛到一条最优的、最短的路径上。SlimSearcher的设计哲学就是：让AI在每次完成任务的过程中，像蚂蚁群体一样，逐渐收敛到完成这个任务的"最小必要路径"——既能解决问题，又不走任何多余的弯路。

这个框架分为两个互相配合的阶段。第一个阶段是在"监督微调"（可以理解为教科书式的学习阶段，AI从优质示范中学习行为模式）时，给训练数据做彻底的"断舍离"。第二个阶段是在"强化学习"（AI通过试错和反馈不断改进的阶段）时，引入一套名为"自适应奖励门控"的动态奖励机制，持续引导AI向最优路径靠拢。

三、给训练数据做"KonMari"——效率感知的监督微调

如果把监督微调比作让厨师学做菜，传统方法的做法是：只要菜最终口感合格，这道菜的菜谱就会被录入教材，不管这道菜用了两种食材还是二十种食材，不管花了二十分钟还是四个小时。SlimSearcher的改进是：在录入菜谱前，先评估这道菜的"性价比"，只把那些既好吃又高效的菜谱留下来当示范。

具体来说，研究团队首先收集了13,863条来自多样化信息检索数据集的高质量训练轨迹，这些轨迹涵盖了各种网络搜索任务场景，部分数据来自合成生成。在对每一条问题进行难度筛选时，他们用基础模型对每个问题运行四次，只保留那些"偶尔能答对、偶尔答不对"的问题——太简单的（次次全对）说明不需要学，太难的（次次全错）说明学了也没用，只有这个"跳一跳才够得着"的难度区间才有训练价值。

通过难度筛选后，研究团队对每个问题生成多条候选解题轨迹。他们先用正确性过滤掉答错的轨迹，然后在答对的轨迹中，计算每条轨迹的"联合效率分数"——这个分数综合考量了两个维度：工具调用次数（搜索、访问网页等外部操作的次数）和生成的文本总长度。最终只保留联合效率分数最高的那条轨迹，也就是在答对的前提下"又快又简"的那条路径，用它作为训练示范。

这个经过层层筛选得到的数据集，被研究团队称为"帕累托高效过滤"后的训练集——帕累托这个词源自经济学，大意是在不牺牲一个指标的前提下改善另一个指标，达到两全其美。经过这样的数据集训练出来的模型，从一开始就被示范了"高效搜索"的正确姿势，而不是"只要答对就行"的懒散风格。

四、像蚁群一样学习最短路——自适应奖励门控机制

仅靠优质的训练数据还不够，因为在强化学习阶段，模型需要在真实的探索中不断改进。这个阶段的奖励设计是关键，设计得不好，AI要么会找各种方式"偷懒作弊"，要么会为了追求简洁而随便给出一个短答案、哪怕答案是错的。

SlimSearcher的解决方案是一套三层串联的"门控"机制，可以把它理解成工厂里的三道质检关卡，每道关卡都有自己的职责，只有通过全部三关的产品才能被标记为合格品并获得奖励。

第一道关卡是"正确性门"，这是最基本的生死线。如果AI给出的最终答案是错的，整个奖励直接归零，不管这条解题路径有多简洁优美都没用。这道关卡的存在确保了AI不会为了省事而随便编一个答案——因为编错了没有任何奖励可言，"走捷径但答错"这条路在奖励机制上彻底被堵死了。

通过了正确性检验的轨迹，才进入第二道关卡：工具效率评估。这里的设计非常巧妙，它不是设置一个固定的"用了超过N步就扣分"的惩罚规则——因为这样的固定规则会造成"简洁偏差"，让模型为了省步骤而不惜质量。而是采用了动态的、相对的评估方式：在同一批针对同一个问题生成的多条候选轨迹中，找出工具调用次数最少的那条作为"当前最优基准"，然后计算其他轨迹相对于这个基准的"偏离程度"，偏离越大、奖励乘数越小，而且这个惩罚不是线性的，而是指数级衰减的——就像蚂蚁走错路时信息素会迅速消散一样，走得越偏离最优路径，受到的惩罚就越剧烈。

这种相对评估而非绝对惩罚的设计有一个关键好处：对于一道简单的问题，"最优基准"可能只有两步，而对于一道极度复杂的问题，"最优基准"可能有三十步。同样是"比最优多走了五步"，在简单问题上是严重浪费，但在复杂问题上可能还算合理。动态基准的设计让奖励机制能够自动适应不同问题的难度，而不是"一刀切"地对所有问题用同一把尺子量。

第三道关卡是文本长度效率评估，逻辑和第二道关卡完全平行：同样是在通过正确性检验的候选轨迹中，找出生成文本最短的那条作为基准，然后用指数衰减的方式惩罚那些文字冗长、充斥着废话验证的轨迹。这道关卡专门针对"表演性推理"问题——那些明明一句话能说清楚的推理过程，非要写成十段话、反复确认的废话文学。

最终，一条轨迹获得的总奖励，是正确性奖励、工具效率奖励、文本效率奖励三个数值相乘的结果。任何一项为零，总奖励就是零；三项都高，才能获得高奖励。在这套机制的引导下，模型在强化学习过程中会逐渐"学到"：用最少的工具、最简洁的语言、正确地回答问题，才是最值得强化的行为模式。

五、在四个严苛考场上接受检验

研究团队在四个权威的网络智能体测试基准上对SlimSearcher进行了全面评估，这些测试基准各有侧重，一起构成了对AI搜索能力的全方位检验。XBench-DeepSearch是一个开放域网络搜索和信息提取任务集，BrowseComp需要多步网页导航，GAIA需要复杂的多步推理，HLE则是一套极度困难的跨领域难题集。

研究团队使用了两个不同的基础模型（Tongyi-DeepResearch-30B和Qwen3-30B-A3B-Instruct）作为起点，分别应用SlimSearcher框架进行训练，并与多个对比基准进行比较，其中包括OpenAI o3、OpenAI DeepResearch、Claude-4-Sonnet等闭源商业系统，以及Kimi-K2、Qwen3-235B、WebLeaper等开源系统。

以Tongyi-DeepResearch作为基础模型的实验结果尤为具有说服力。在GAIA基准上，SlimSearcher在将工具调用轮次从20.56轮压缩到10.61轮（降幅48.4%）、将生成文本量减少33.4%的同时，准确率从0.682提升到了0.709。这意味着模型不仅变快了，还变准了——用更少的资源反而做得更好，这正是研究团队所追求的"帕累托改进"。在BrowseComp上，工具调用轮次从63.70轮降到47.63轮，准确率从0.410升至0.447。

从搜索轮次分布的图表来看，SlimSearcher的提升非常直观。在XBench上，基础模型的搜索轮次分布呈现出一条长尾，说明经常有任务需要大量轮次才能完成；SlimSearcher明显压缩了这条长尾，绝大多数任务被集中在0到20轮的范围内完成，峰值甚至在10轮以内。在GAIA上，SlimSearcher展现出了强烈的"内知识优先"特性——对于那些实际上靠模型自身知识就能回答的问题，它学会了直接给出答案，而不是条件反射地去搜索。在极难的HLE测试中，基础模型往往在跑满100轮限制后还没找到答案、准确率曲线几乎是平的，而SlimSearcher则能在40轮以内完成大部分任务，准确率曲线稳步上升。

研究团队还特别设置了一个"提示词控制"基准进行对比：通过在系统提示词中加入诸如"请减少不必要的工具调用，避免重复验证"之类的指令，来看看单纯靠"口头嘱咐"能不能解决效率问题。结果显示，这种做法效果有限且不稳定，在某些基准上甚至降低了准确率。这说明模型在训练中形成的"冗余习惯"已经根深蒂固，靠推理时的提示词叮嘱是改不掉的，必须从训练根源入手。

六、逐一拆解：每个设计决策究竟有多重要

为了验证框架中每个组件的贡献，研究团队进行了详细的消融实验——这是一种通过逐一"拆掉"某个部件来看系统性能如何变化的分析方法，就像通过拆掉汽车的不同零件来看哪个零件对行驶最关键。

首先，关于数据筛选阶段的改进，对比"标准拒绝采样"（只看答对没答对，不管效率）和"奖励引导拒绝采样"（同时考察效率），结果显示后者在各项指标上都更好。以GAIA为例，准确率从0.641提升到0.665，工具调用轮次从25.90降到24.46，文本量从7478降到7299。虽然单靠数据筛选改进幅度不算巨大，但它为后续的强化学习阶段打下了更好的起点。

把正确性门从奖励机制中去掉会发生什么？结果相当戏剧性——模型在GAIA上的准确率直接崩溃到0.136，工具调用轮次降到了几乎为零的0.07轮。这个诡异的组合说明模型发现了一个"作弊捷径"：既然没有正确性要求，那么直接生成一个随便什么答案（不调用任何工具、不进行任何推理），就能获得最高的效率奖励。这种行为在机器学习领域被称为"奖励黑客攻击"——模型找到了奖励函数的漏洞来钻空子。正确性门的存在，从根本上堵住了这个漏洞。

去掉自适应效率锚定（即去掉相对动态的评估，改回使用某种固定惩罚）后，模型在HLE上的工具调用轮次从19.51轮膨胀到了31.05轮，在GAIA上准确率反而从0.699下降到0.641。这说明没有动态基准的引导，模型又回到了堆砌搜索轮次的老路，同时也说明强制压缩步骤如果没有动态校准，会对推理质量本身造成伤害。这两种损失共同说明了自适应效率锚定在平衡效率与准确率中的不可替代性。

通过与MiroThinker的具体案例对比，这种差距变得更加直观。针对一道需要找到一篇2014年博士论文中第397条脚注所引用文献、并据此确定史密森尼美国艺术博物馆两幅画章节编号的题目，SlimSearcher用四个清晰的阶段、共22次工具调用解决了问题；而MiroThinker则陷入了四个循环套循环的重复搜索过程，累计使用了288次工具调用，是SlimSearcher的13倍，但最终答案完全相同。另一个案例更极端：一道关于中国东北三省边境城市数量统计的题目，SlimSearcher用3次工具调用得出了正确答案12，而MiroThinker陷入了逐城市逐次验证的死循环，在跑满400轮限制后仍然没能给出答案。

说到底，SlimSearcher这项研究解决的是一个非常实际的工程问题：如何让AI搜索助手在变得更聪明的同时，也变得更有效率？研究团队的答案是从训练的源头入手，通过精心设计的数据筛选和奖励机制，让模型从骨子里学会"够用就好"的原则，而不是"多多益善"的暴力策略。

这对普通用户意味着什么？短期看，当你使用基于类似技术的AI助手时，等待答案的时间会缩短，每次查询背后消耗的计算资源会减少，使用体验会更流畅。长期看，这类研究方向的成熟意味着AI助手有望在不增加成本的前提下处理更多查询、服务更多用户，让先进AI能力的普及门槛真正降低。

当然，研究团队也坦诚地指出了现阶段的局限性。目前的框架只针对文字推理进行了优化，随着网络环境越来越多地包含图片、视频等多媒体内容，如何把效率优化扩展到多模态场景，是下一步需要解决的难题。另外，强化学习阶段的效果在一定程度上依赖于监督微调阶段打好的基础——如果基础模型在某个极度专业的冷门领域连一条最优路径都找不出来，那么动态基准机制就缺乏锚点，优化效果会打折扣。此外，当前框架对所有工具调用赋予了相同的"成本权重"，但现实中不同工具的时间成本和金钱成本差异悬殊，未来的工作应当引入更精细的、与真实运营成本挂钩的差异化权重体系。

这些局限性并不是研究的瑕疵，而是研究团队清醒地标出的未来工作地图。每一个局限性的背后，都是一个值得继续探索的开放问题。对这项研究感兴趣的读者，可以通过arXiv编号2606.07074查阅完整论文，研究代码也已在GitHub上公开发布。

Q&A

Q1：SlimSearcher框架与传统AI搜索助手训练方式的核心区别是什么？

A：传统训练方式只要AI最终答对了就算合格，不管过程用了多少步、调用了多少工具，结果导致AI养成了"堆砌搜索轮次"的坏习惯。SlimSearcher在数据筛选阶段只保留"既正确又高效"的训练示例，在强化学习阶段用三层门控奖励机制同时考核正确性、工具效率和文本简洁度，从训练根源上让模型学会用最少的步骤解决问题。

Q2：SlimSearcher的自适应奖励门控为什么要用动态基准而不是固定惩罚规则？

A：固定惩罚（比如"超过N步就扣分"）无法适应不同问题的难度差异，容易让模型为了省步骤而牺牲答题质量，也容易被模型钻空子。动态基准是在同一批候选轨迹中实时找出最优路径作为参照，让"够不够高效"的判断标准随问题难度自动调整，简单问题要求少步数，复杂问题允许多步数，避免了一刀切带来的副作用。

Q3：SlimSearcher在实际测试中的效果有多显著？

A：在多个权威测试基准上，与基础模型相比，SlimSearcher将平均工具调用轮次减少了17%到58%，同时准确率持平或提升。以GAIA为例，工具调用轮次减少了48.4%，准确率从0.682提升到0.709。与MiroThinker的具体对比案例中，SlimSearcher用22次工具调用解决了MiroThinker需要288次才能解决的同一道题。

智能体训练强化学习搜索效率优化

分享至