
这项由伊利诺伊大学厄巴纳-香槟分校、加州大学伯克利分校和Chroma公司联合完成的研究,于2026年6月发表在arXiv预印本平台,论文编号为arXiv:2606.02373v1。
先从一个场景出发。你委托一位助理去图书馆查资料,给他列了十几个需要核实的问题。助理出发了,但你给他的只是一个空空的脑袋——没有记事本,没有便利贴,没有任何地方可以记下"这本书查过了"、"这条线索还没核实"、"那个名字在第三本和第七本里都出现过"。他只能凭记忆工作,翻着翻着就忘了自己从哪里来、查到了什么、还差什么没查。最终交给你的报告漏洞百出,不是因为他不努力,而是因为工作环境根本没有给他提供应有的支持。
现在的AI搜索助手,处境跟这位可怜的助理几乎一模一样。研究团队观察到,当人们让大型语言模型承担多轮搜索任务时,这些模型被迫同时做两件完全不同的事:一方面要做出"搜什么、选哪篇、核实哪个说法、什么时候停下来"这样的智慧判断,另一方面还要在脑子里记住"已经看过哪些文档、候选集里有哪些、哪些证据相互印证、哪些说法还没被验证"这样的账本工作。把聪明的判断力和繁琐的记账工作混在一起,结果是两件事都做不好。
这篇论文提出的核心思路,可以用一句话概括:把账本工作从AI的脑袋里搬出来,交给外部环境去维护,让AI只专注于做判断。研究团队把这个外部账本系统叫做"Harness"(缰绳/框架),整个项目因此命名为Harness-1。
一、为什么AI搜索助手会在"记账"上栽跟头
要理解这个问题,得先明白现在的AI搜索助手是怎么工作的。当你给它一个问题,它会去搜索引擎里查,读回来的内容会被追加到一个越来越长的对话记录里。下次它要做决定的时候,就从这份越积越厚的记录里重新梳理:哪些文档我看过?哪些要点我还没核实?哪些线索值得追下去?
这种方式有一个根本性的缺陷:随着搜索轮次增加,这份记录会变得又长又乱,重要信息被淹没在大量无关内容里。更麻烦的是,当用强化学习来训练这个AI时,它的学习信号非常模糊。如果最终搜出来的结果不好,失败究竟是因为搜索策略错了、还是因为看到了好文档却忘记保留、还是因为没有去核实关键说法?这些原因混在一起,AI很难从失败中学到正确的东西。
研究团队把这个问题描述为"把两种完全不同性质的工作混在一起":其一是语义决策,也就是需要真正智慧的部分,包括"这个问题应该从哪个角度切入"、"这篇文档值不值得深读"、"这个说法需不需要交叉核实";其二是状态记录,也就是纯粹的机械账本工作,包括"候选文档池里现在有哪些"、"已确认的文档集里有多少"、"哪些实体在多篇文档里都出现过"。前者需要判断力,后者只需要准确和可靠。把这两件事都塞进AI的有限注意力里,是一种极大的浪费。
Harness-1的设计哲学,用研究团队的话说,叫做"状态认知卸载"——把机械性的账本工作从AI模型里卸载出去,交给外部系统可靠地维护,让模型的注意力和学习能力完全集中在真正需要判断的地方。
二、外接大脑里装了什么:Harness的七本账
具体来说,Harness系统维护着七种不同的状态记录,每一种都对应着多轮搜索中某类需要持续追踪的信息。
第一本账叫做候选文档池。每当AI执行一次搜索,返回的文档就会经过压缩和去重处理,进入这个池子。池子记录着每篇文档的ID、摘要和完整原文,但不会把所有内容塞进AI当前的提示词里——原文被存放在外部,AI可以随时通过"重读文档"这个操作来调取,不需要让它始终占据宝贵的上下文空间。这就像图书馆里的书架,书可以随时取,但不需要把所有书都摆在桌子上。
第二本账是精选文档集,也是整个系统最核心的状态。这个集合最多容纳30篇文档,是AI最终要交付给下游回答系统的成果。每篇文档进入这个集合时,AI必须给它打一个重要性标签:极高、高、一般、低,共四个等级。当集合满了需要添加新文档时,系统会自动淘汰重要性最低的那篇,腾出空间给新的候选者。这给了AI一种明确的语言来表达自信程度,而不是把所有搜到的东西不加区分地堆在一起。
第三本账叫做证据图谱。每当有新文档进入候选池,系统就会用一个轻量级的正则表达式扫描文档内容,提取三类实体:多词大写专有名词(人名、地名、机构名等)、四位数年份或年代,以及具体日期。系统维护着"实体到文档"和"文档到实体"两张映射表。在每次更新提示词时,系统会渲染出一个紧凑的证据图谱:哪些实体同时出现在多篇文档里(这些是桥接文档,往往是多跳推理的关键)、哪些实体只出现在一篇文档里(这些是孤立节点,可能是新的追查线索)。这样,AI就不需要每次都重读全部文档来回答"关于实体X,我见过什么信息"——它直接查账本就行了。
第四本账是核实记录。AI可以用"核实"这个操作,写下一个需要验证的说法,并指定一批文档来测试这个说法。系统会调用一个专门的语言模型来判断每篇文档的内容是否支持这个说法,并把判断结果(支持或不支持,附带简短理由)记录下来。核实成功的文档可以被升级为"极高"重要性;这给了AI一个闭环的自我检验机制,而不是盲目地把任何看起来相关的文档都推进最终集合。
第五本账是搜索历史与结果摘要。每次搜索操作的工具类型、返回文档数、新增文档数、对候选池和精选集的影响,都会被记录下来。AI因此能清楚地看到自己的搜索进展,而不是在重复搜索同样的内容或在一个死胡同里打转。
第六个机制是压缩与去重。搜索返回的内容会经过BM25句子评分(一种根据关键词匹配度给句子打分的方法),只保留与查询最相关的几个句子,再以原始顺序呈现。文档还会经过内容指纹检测,近似重复的内容不会重复出现在提示词里,但在奖励计算时仍然计入轨迹覆盖率。这防止了无关内容大量占据AI的有限注意力。
第七本账是上下文预算标记。每次更新提示词时,系统都会标注当前已用的上下文比例。当使用率超过75%,系统会提示AI开始收尾;超过90%则会强烈建议终止搜索。这防止了因上下文溢出而导致的混乱或静默失败。
每一轮对话里,AI看到的不是原始的搜索记录堆叠,而是这七本账经过精心整理后渲染出来的一份结构化"工作记忆"。它的左边是精选集(按重要性分级展示)、右边是候选池(显示近期新增)、下面是搜索历史和证据图谱。账本清晰,AI才能专心做判断。
三、AI能做什么:五类操作,各司其职
有了这个外接大脑,AI可以做的操作也被设计成五大类,每一类都直接对应着某种需要判断力的决策。
搜索类操作包括四种。"扇形搜索"允许AI同时发起最多五个不同角度的查询,返回的结果经过重排序后统一进入候选池;"精准搜索"是针对单一查询的混合检索(同时使用关键词匹配和语义相似度);"精确模式匹配"则用正则表达式在文档库里查找特定字符串,适合需要精确定位某个日期、编号或专有名词的情形;"读取文档"调取某篇特定文档的完整原文。
记忆检索类操作只有一种:"回顾文档"。这个操作让AI重新渲染已经在记忆中存储过的文档,而不需要重新向文档库发起请求。当AI需要在做决定之前再仔细看看某篇文档时,这个操作省去了重复检索的开销。
管理类操作是"精选"。AI指定要添加、移除哪些文档,以及给新增文档打什么重要性标签。这是整个工作记忆系统的核心编辑操作。
核实类操作是"核实"。AI写下一个具体的待验证说法,选择若干记忆中的文档,系统替它执行逐文档的支持度判断,结果存入核实记录。
终止类操作是"结束搜索"。AI认为精选集已经足够充分时,主动提交结束,系统返回按重要性排序的精选文档集给下游回答模型。
值得特别说明的是"自动播种"机制。研究团队发现,如果精选集一开始是空的,那么许多早期的搜索轮次奖励信号几乎相同(都是零),AI从这些轮次里几乎学不到任何有用的东西。为了解决这个问题,系统在第一次成功搜索后,会自动把排名最靠前的8篇文档以"一般"重要性加入精选集,作为初始种子。这样一来,AI面对的任务就不再是从零开始构建一个集合,而是从一个已有的粗略集合出发进行精炼:哪些留下、哪些升级、哪些踢出去——这种从精炼出发的学习,比从空白出发要稳定得多。
四、怎么训练这只经过改造的AI
Harness-1的基础模型是gpt-oss-20b,一个参数量约为200亿的混合专家架构模型。训练分为两个阶段,逻辑上与工具设计一脉相承:先教会模型操作这套账本系统,再让模型在这套系统里学会做更好的判断。
第一阶段是监督微调,也就是让模型跟着老师学。老师是GPT-5.4,一个性能极强的前沿大模型。研究团队让这位老师在完整的Harness系统里真实运行,执行跨越四个领域的搜索任务:BrowseComp+(一个以多约束网络问题为主的基准)、Web合成数据、美国专利局专利文件、以及美国证券交易委员会的财务文件。老师在搜索时,系统会通过特定的提示引导它遵循良好习惯:搜索之后要立即整理精选集;在把文档升级为高可信度之前,应该先核实;搜索产出越来越少时要及时调整策略;精选集足够充分时要果断终止。
收集到大约1000条轨迹之后,团队过滤掉最终精选召回率低于10%的那些(大约保留了899条),然后把每条轨迹按轮次展开,每一轮产生一条监督训练数据。这大约产生了2.6万条训练样本。监督微调用LoRA(一种参数高效的微调方法)运行了3个周期,目标是让模型学会工具调用的格式规范、搜索到精选的工作节奏、重要性标签的使用方式、核实前置的工作习惯,以及回顾文档的恰当时机。注意,这个阶段的目标是窄而精的:只教操作接口,不强求搜索策略。
第二阶段是强化学习,从监督微调的第550步检查点出发,使用CISPO算法(一种策略梯度方法,通过组内优势归一化来稳定训练)在证券交易委员会领域的3453条训练查询上进行训练。训练设置是每步128个查询、每个查询做8次随机展开,共训练80步,总计约82000次完整轨迹展开,每个轨迹最长40轮。奖励在每条轨迹结束时才给出(终端奖励),没有额外的KL散度惩罚把模型拉回到监督微调的起点。
奖励函数的设计是整个训练体系里另一个精心之处。奖励的主体来自搜索质量:精选集与标注相关文档的F2分数(这个评分比F1更强调召回率,因为作为搜索助手漏掉重要文档是比纳入无关文档更严重的失败),以及整条轨迹遇到过的相关文档比例。在此之上,还有专门针对"回答文档"(那些直接包含问题答案的文档)的奖励项:如果答案文档进了精选集,有额外奖励;如果在轨迹中遇到了答案文档但最终没有纳入精选集,有惩罚。此外还有工具多样性奖励:使用了更多种类工具的轨迹会获得加分,防止模型退化成只会重复搜索。还有轮次惩罚:超过20轮后每多用一轮都会扣一点分,鼓励模型高效完成任务。精选集为空时,整条轨迹直接获得固定的负奖励。
五、实验结果:一个20B的模型打败了更大的对手
评测在8个检索基准上展开,覆盖网络百科型问题(BrowseComp+和Web合成数据)、法律领域(美国专利局专利文件)、财务领域(证券交易委员会文件)、以及多跳问答(LongSealQA、Seal0QA、FRAMES、HotpotQA)。每个基准的搜索结果用三个指标衡量:精选集召回率(最终提交的30篇文档里,覆盖了多少标注相关文档)、回答文档召回率(最终集合里,覆盖了多少直接包含答案的文档),以及轨迹召回率(整条搜索轨迹中任意时刻见过的相关文档比例)。
在平均精选集召回率这个最核心的指标上,Harness-1达到了73.0%,是所有开源小模型里最高的。与它规模相当的最强开源搜索代理——Tongyi DeepResearch 30B——平均达到60.3%,Harness-1领先整整11.4个百分点。那些用了更多参数的开源模型,如Search-R1(32B)和Qwen3(32B),分别只有28.9%和21.6%,差距悬殊。
更让人意外的是与前沿大模型的比较。GPT-5.4和Sonnet-4.6在这套搜索协议下平均只有44.6%和49.6%,Kimi-K2.5为59.0%,GPT-OSS-120B(一个参数量是Harness-1六倍的模型)为26.2%。Harness-1以参数量更少的身躯,在平均精选集召回率上超过了这些规模大得多的对手。唯一一个在均值上领先的是Opus-4.6,达到了76.4%,但那是一个在参数量、训练成本和推理成本上都远超Harness-1的前沿商用模型。
有一个细节值得细说,那就是精选集召回率与轨迹召回率之间的差距。轨迹召回率衡量的是"整条轨迹中有没有见过这篇相关文档",精选集召回率衡量的是"最终提交的文档里有没有它"。两者之间的差距,可以理解为"找到了但没选进来"的损失。Harness-1的轨迹召回率达到80.7%,而精选集召回率是73.0%,差距相对较小,说明它不仅发现率高,选择效率也相当好。相比之下,Opus-4.6的轨迹召回率是79.4%,精选集召回率是76.4%,这两个数字都很高,而且差距更小,说明它在最终的"筛选"上比Harness-1还要精准一些——这是Harness-1目前主要的提升空间。
六、最重要的发现:在从未训练过的领域,Harness-1进步更大
研究团队把8个基准分成两组:训练相关组(BrowseComp+、Web、专利、证券交易委员会,这四个领域在监督微调阶段直接用过),以及迁移测试组(LongSealQA、Seal0QA、FRAMES、HotpotQA,这四个从未出现在任何训练数据里)。然后计算Harness-1相对于最强开源基线(Context-1)的提升幅度。
结果出人意料:在训练相关的四个基准上,Harness-1平均提升了7.9个百分点;而在从未参与训练的四个基准上,平均提升了17.0个百分点,是训练相关领域提升幅度的2.2倍。其中表现最突出的是LongSealQA,提升了32.8个百分点;Seal0QA提升18.4个百分点。
为什么在陌生领域进步反而更大?研究团队给出的解释是:Harness-1学到的不是特定领域的知识,而是一套领域无关的搜索操作——精炼自动种子集、沿着证据图谱里的桥接实体追查、重读不确定的候选文档、核实后升级重要性,然后提交紧凑的精选集。这套操作建立在明确的搜索状态之上,不依赖于具体的领域知识,因此能够迁移到完全陌生的场景里。相比之下,那些直接在大量领域数据上训练的模型,学到的更多是该领域特有的模式,迁移起来反而受限。
训练数据量的对比也很有意思。Harness-1的监督微调只用了899条轨迹、强化学习用了3453条查询,加起来4352条训练样本。Context-1报告使用了超过8000条合成监督数据和9159条强化学习查询。Search-R1没有监督微调,强化学习用了221328条查询,数量是Harness-1的五十倍。但在最终的召回率上,Harness-1全面领先。这说明,结构良好的搜索状态接口本身就承载了大量的行为先验,让模型不需要从海量数据里自己摸索工作节奏和账本维护的方式。
七、把每个机制单独拆掉,看看会发生什么
为了验证每个设计决策的实际贡献,研究团队做了一组消融实验:使用已经训练好的Harness-1模型,在推理时逐一关闭某个机制,观察性能变化。这组实验的关键设计是,不重新训练——如果模型已经习惯了依赖某个机制来工作,关掉这个机制会强迫它在缺乏相应支撑的情况下运行,正好暴露该机制的实际价值。
关闭重要性标签(改为二值化的有无标签、用先进先出顺序淘汰),精选集召回率相对下降4.1%,回答文档召回率相对下降7.9%,是影响最大的单一机制。在失败的案例分析里,模型在缺少重要性梯度的情况下,很快退化为大量重复搜索,几乎不再深读文档或执行核实——没有重要性标签,模型就失去了判断"哪个候选值得进一步投入"的语言工具。
关闭BM25句子压缩(让完整的搜索片段直接进入上下文),精选集召回率略微提升0.2%,但回答文档召回率相对下降7.0%。召回率微微上升是因为没有压缩偶尔会保留更多原始内容,但更多的噪声遮掩了真正关键的桥接句子,导致模型找到了相关文档却没能识别出它是答案文档。
关闭自动种子(精选集从空开始),召回率下降0.3%,回答文档召回率下降6.4%。下降主要集中在冷启动阶段:没有初始候选集,早期轮次里每个文档看起来都差不多重要,模型在最初几轮里留下了一批错误的候选文档,这批错误难以在后续轮次里被完全纠正。
关闭证据图谱(隐藏跨文档实体关联信息),召回率下降2.6%,回答文档召回率下降5.4%。失败案例里,模型无法有效进行多跳推理——它知道要查某个实体,但不知道应该在哪些已有文档里寻找它,只能盲目地再次发起搜索。
关闭核实操作(让核实返回"不可用"),召回率下降3.1%,回答文档召回率下降3.9%。关闭回顾文档操作,精选集召回率意外提升2.4%,但回答文档召回率同样下降3.9%。回顾操作的价值在于让模型在不发起新搜索的情况下重新审视候选文档;缺少这个操作,模型倾向于用更多轮的新搜索来弥补,这在覆盖率上稍有改善,但在精准识别答案文档方面则有所削弱。
关闭内容去重,精选集召回率和回答文档召回率都略微上升。研究团队解释说,这是因为部分数据集里的标注相关文档本身就包含高度相似的版本,去重有时会把两个本应都算分的文档合并成一个。不过去重的设计初衷是节省上下文预算,而非提升召回率,这个小小的代价是有意为之的权衡。
最能说明问题的是把所有机制同时关掉的那一行:精选集召回率比完整版本相对下降12.2%,回答文档召回率下降6.4%。单一机制的损失都小于全部关闭的损失,说明这些机制之间存在协同效应,共同构成了一个有机整体。模型在没有任何账本支撑的情况下,依然会搜索,依然会消耗上下文,但就是无法把搜索带宽转化为一个有区分度的精选集。搜索努力了,判断却失去了立足之地。
八、一个令人警醒的训练动态:丰富的工具还不够,奖励设计才是关键
研究团队记录了两次强化学习训练过程,唯一的区别是是否开启工具多样性奖励。两次都从同一个监督微调检查点出发,用相同的超参数训练。
没有多样性奖励的那次,模型很快学会了发起大量的"扇形搜索"——这种操作一次能返回很多文档,轨迹召回率因此迅速提升。但随着训练推进,模型使用的工具种类从大约6种迅速萎缩到3.5种,精选集的精炼和核实操作几乎消失,精选集召回率在0.53附近停滞不前。模型找到了一个"奖励捷径":把所有精力放在发现文档上,完全绕过判断和筛选的过程。
加入多样性奖励后,工具使用种类稳定在大约4.3种,模型开始定期把搜索和精炼、核实结合起来。早期召回率的增长更慢(因为模型花了更多轮次在整理上),但最终精选集召回率更高,达到约0.60。搜索效率的牺牲换来了判断质量的提升。
这个发现有一个深刻的含义:即使账本设计得再好,如果奖励函数不能让使用账本成为模型的理性选择,模型依然会绕开账本走捷径。工具丰富度和奖励相容性,是让Harness发挥作用的两个缺一不可的条件。研究团队把这总结为Harness设计的三个"可训练性要求":热启动的精选集(自动种子解决冷启动问题)、紧凑的状态渲染(让账本内容在有限上下文里高效呈现),以及多样性保全的激励(让搜索、精炼、核实的完整节奏成为模型的首选路径,而非回避精炼的短路)。
九、最终成果会不会帮助下游回答系统?
为了验证搜索质量的提升是否真正有用,研究团队设计了一个"模块化RAG"实验:把不同搜索代理产出的精选文档集,分别交给四个冻结的前沿生成模型(GPT-5.4、Sonnet-4.6、Opus-4.6、Kimi-K2.5)来生成答案,然后用严格的自动评判计算回答正确率。生成模型只看到问题和搜索代理提交的文档,看不到任何搜索轨迹或中间过程。
结果是清晰的:精选集质量高的搜索代理,不管配上哪个生成模型,最终回答正确率都更高。Harness-1的精选集交给四个生成模型后,在各基准上的正确率普遍优于其他开源搜索代理的精选集。与此同时,闭卷回答(生成模型仅凭记忆)和简单RAG(单次检索,取前10篇)在最难的BrowseComp+基准上正确率都不到5%,说明这类需要深度搜索的问题确实需要多轮代理检索,搜索质量的差异会直接影响最终答案的质量。
说到底,Harness-1这项工作传递的核心信息是:在构建搜索代理时,"给AI更强的大脑"和"给AI更好的工作环境"并不是同一件事,两者的效果也大相径庭。当一个AI不得不同时承担"聪明判断"和"机械记账"两种完全不同性质的任务时,两件事都会做得很差。把记账工作搬出来,交给专门的外部系统可靠地维护,AI才能把注意力和学习能力集中在真正需要判断力的地方。
这种思路不只适用于搜索代理。任何需要多轮决策的AI系统,如果系统状态复杂而可维护,都可能从"状态外置"这个设计原则中受益。更进一步,这项工作表明,学到的行为是在操作状态上的通用模式,而不是特定领域的记忆,这正是迁移性更强、数据效率更高的根本原因。
有兴趣深入了解这项研究全部技术细节的读者,可以通过论文编号arXiv:2606.02373查询完整论文,原始代码也已在GitHub上公开,地址是github.com/pat-jj/harness-1。
Q&A
Q1:Harness-1和普通AI搜索助手相比有什么本质区别?
A:普通AI搜索助手把"聪明判断"和"机械记账"混在一起做,随着搜索轮次增加效率急剧下降。Harness-1的核心区别在于把账本工作——候选文档池、精选集、证据图谱、核实记录等——全部搬到外部系统维护,AI只专注于"搜什么、选哪篇、什么时候停"这类真正需要判断力的决策,两者职责分离,各自在最擅长的事上发力。
Q2:Harness-1为什么在没训练过的领域反而进步更大?
A:因为它学到的不是特定领域知识,而是一套通用的搜索操作模式:精炼候选集、沿着实体关联追查、核实后再升级重要性。这套操作依赖于明确的搜索状态账本,不依赖领域先验知识,所以能自然迁移到陌生领域。在从未参与训练的四个基准上,Harness-1平均比最强开源基线高出17个百分点,是训练相关领域提升幅度的2.2倍。
Q3:Harness-1的训练需要多少数据?
A:出乎意料地少。监督微调只用了899条过滤后的轨迹,强化学习用了3453条查询,合计约4352条训练样本。相比之下,Search-R1使用了超过22万条强化学习查询。Harness-1数据效率更高的原因是,结构清晰的状态接口本身就承载了大量行为先验,让模型不需要从海量数据中自己摸索工作节奏。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。