
这项由中国人民大学高岭人工智能学院与北京人工智能研究院联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.24486,感兴趣的读者可通过该编号查阅完整原文。
设想一下这样一个场景:你是一名侦探,接到了一起极其复杂的案子,需要在浩如烟海的线索中找出真相。单枪匹马地调查,你可能在某条死胡同里耗费大量时间,却对其他重要线索一无所知。现在,如果你有几位搭档同时出发,各自追查不同方向,然后通过一本共享的"案件笔记本"随时更新各自的发现——哪条线索被排除了、哪条看起来很有希望——那么整个破案效率将会大幅提升。这正是AgentFugue这项研究所做的事情:让多个AI侦探共享一本"推理笔记本",协力破解复杂任务。
在当前的人工智能领域,研究者们一直在努力让AI能够完成那些需要长时间、多步骤推理的复杂任务,比如深度网络搜索、跨文档信息整合、多领域专业问题解答等。过去的主流思路是"强化单个侦探":给AI装备更强大的"大脑"(更强的基础模型)、更多的"调查工具"(工具调用能力)、更好的"办案流程"(智能体脚手架)。这个路线确实有效,但它本质上只是让一个侦探变得更厉害,而不是让多个侦探形成真正的合力。
研究团队注意到,此前也有人尝试过"多智能体"的路线,但那些方案大多像是给多名侦探分配了不同的固定职责——一个负责搜证、一个负责分析、一个负责汇总。这种分工协作固然有效,但它预设了角色,限制了灵活性。研究团队想探索一个更纯粹的问题:如果多个能力相当的侦探同时调查同一个案子,彼此之间没有预定的角色分工,只是实时共享各自的推理进展,能不能产生真正的协同增益?
这项研究提出的AgentFugue框架给出了肯定的答案,而且用一个极具美感的比喻命名了这个系统——"赋格曲"(Fugue)。在巴洛克音乐中,赋格曲是一种多声部作品,多个声部各自独立演奏旋律,却彼此呼应、相互发展,最终形成一个远比任何单一声部都丰富的整体。AgentFugue中的多个AI智能体,正像赋格曲中的声部一样:各自独立探索,却通过一个共享的"推理枢纽"相互借鉴对方已经发现或已经排除的线索。
一、为什么"多个侦探"不等于"更强的侦探"
要理解AgentFugue解决的核心问题,需要先明白为什么简单地增加侦探数量并不能自动提升破案质量。
在侦探的世界里,每一次调查都是在一个巨大的"可能性空间"中搜寻。这个空间里有正确的线索,也有无数条死胡同。一个优秀的单人侦探会顺着某些线索深入,但由于时间和精力有限,他只能覆盖这个空间的一小部分。另一个侦探独立调查同一个案子,可能会走进完全不同的方向,覆盖另一片区域。
研究团队将这个概念形式化为"目标知识空间":解决一个复杂任务所需的全部证据和推理链,构成一个完整的知识空间。每个单独的侦探(智能体)在探索过程中,只能发现这个完整空间的一个子集。如果多个侦探各自独立工作,他们的发现加在一起可能覆盖更大的范围,但如果彼此不沟通,每个侦探都不知道其他人已经排除了哪些死胡同,仍然会重复无用的工作。
另一个极端同样有问题:如果侦探们把所有调查笔记都不加筛选地共享,案件笔记本会很快被冗余信息淹没,真正有价值的线索反而会被噪音遮盖,而且所有侦探可能会因为看到同一条"最有希望的线索"而不约而同地收敛到同一个方向,失去了多路探索的多样性。
因此,真正的挑战在于:如何让多个侦探有选择性地共享彼此的推理进展,既能互相借鉴有价值的发现,又能保持各自探索方向的独立性?这就是AgentFugue的核心设计目标。
二、共享推理枢纽:那本关键的"案件笔记本"
AgentFugue的核心组件是一个被称为"共享推理枢纽"(Shared Reasoning Hub)的机制,可以把它理解为一本所有侦探共用的智能案件笔记本。这本笔记本不是由某个"主侦探"主导管理的,而是一个独立的、平等服务于所有侦探的外部工具。
当一个侦探(智能体)在调查过程中积累了足够多的信息,达到一个预设的"书写时机"时,他会把当前阶段的调查进展压缩成一份简洁的"案情摘要"(episode note),记录到共享笔记本中。这份摘要不是简单地抄录所有调查细节,而是经过精心提炼的:确认了什么事实、尝试了哪些方向但失败了、还有哪些疑问悬而未决。写完之后,侦探自己工作区里的详细记录被这份精简摘要替换,从而腾出空间继续调查新的方向。
这个设计解决了一个很实际的问题:AI智能体有"工作记忆"的上限(就像人脑一样,不能同时记住无限多的细节)。通过把已完成阶段的信息压缩归档,侦探的工作记忆始终保持清爽,可以专注于当前的探索,而不会被过去的海量细节所拖累。
另一方面,当一个侦探(比如侦探A)在调查过程中遇到困境,或者意识到某个方向可能与另一个侦探(侦探B)正在探索的领域有关时,他可以向共享笔记本发出一个有针对性的"查询请求"。这个请求包含两部分:一是他的"查询意图",也就是他现在具体想知道什么;二是他想要深入阅读的具体摘要编号(他已经通过浏览笔记本上的摘要列表知道哪些摘要可能相关)。
收到查询请求后,共享笔记本(推理枢纽)会从档案中取出那份摘要对应的完整原始记录,然后根据侦探A的具体查询意图,从中提炼出最相关的信息,生成一份定制化的"读取报告"反馈给侦探A。这就好比侦探A对笔记本说:"我现在在追查嫌疑人在某年某月的行踪,B已经调查过他的朋友圈,能帮我从B的笔记中整理出与此相关的部分吗?"
这种"两级设计"非常精妙:粗粒度的摘要让每个侦探能快速了解同伴的调查进展全貌,而细粒度的意图驱动查询则让侦探在真正需要深入某个细节时才调取完整信息,避免了信息过载。研究团队将整个侦探团队的工作状态形式化描述为:每个侦探的当前工作区包含自己过去阶段的摘要、已查阅的其他侦探的摘要,以及当前正在进行的实时调查记录。
三、让"笔记本"更聪明:从模仿学习到强化学习
共享推理枢纽本身也是一个AI模型,需要经过专门的训练才能发挥最大作用。研究团队使用了一个规模适中的语言模型(基于Qwen3.5-9B)来实现笔记本的写入和读取功能,并通过两个阶段的训练来提升它的能力。
第一阶段是"模仿学习"阶段。研究团队让一个能力更强的教师模型观察完整的调查过程,为每个阶段生成高质量的示范摘要,以及每次查询请求的示范回答。然后,推理枢纽模型通过大量学习这些示范样本,掌握"如何写好摘要"和"如何回答查询"的基本技能——就像一个新来的文员通过大量阅读优秀前辈写的案情报告来学习写作规范。
第二阶段是"端到端强化学习"阶段,这是让笔记本真正聪明起来的关键。在这个阶段,推理枢纽模型被放入完整的多侦探协作系统中,接受真实的任务考验。每次协作的最终成果(任务完成质量)都会作为奖励信号反馈给推理枢纽,推动它不断调整自己的写作和查询回答策略。特别之处在于,侦探们(任务智能体)自己在这个阶段是"冻结"的,不会发生改变。所有的优化压力都集中在推理枢纽上,迫使它学会生成真正对侦探们有用的摘要和回答,而不只是表面上看起来规范的内容。
强化学习的奖励函数也很有意思:它不只奖励最终任务成功,还有一个"简洁奖励"——倾向于奖励那些能让侦探团队用更少步骤完成任务的笔记本输出。这意味着推理枢纽要学会提供真正有用的信息,而不是空洞的废话,因为高质量的引导能帮助侦探少走弯路。
四、同质团队与异质团队:两种不同的协作化学反应
研究团队设计了两种不同的侦探团队配置来测试AgentFugue的效果,揭示了不同情境下协作增益的不同来源。
同质团队,顾名思义,就是所有侦探都来自同一个"门派"——使用完全相同的AI模型和配置。在这种团队中,每个侦探的能力底色是一样的,任何协作增益只能来自多路探索的多样性,以及通过共享笔记本实现的信息互补。你可以把它理解为几个受过相同训练的警探分头调查,他们的思维方式相近,但因为探索的方向不同,每个人都可能在对方没有涉足的地方发现新线索。
异质团队则更像一个由不同专业背景侦探组成的特别行动组:一个擅长互联网信息搜索,一个擅长逻辑推理,一个擅长跨语言文档分析。他们不仅探索方向不同,连思维方式、知识储备、擅长领域都不一样,因此通过共享笔记本交换的信息,往往对彼此更有"异质性价值"——对方发现的东西,正是自己思维盲区里的东西。
这种区分不只是理论上的,在实验结果中体现得非常清晰,后面会详细介绍。
五、三大考场,全面检验
研究团队选择了三个极具挑战性的长任务基准测试来检验AgentFugue的实力,每个测试考察的都是不同类型的推理能力。
第一个考场是BrowseComp,这是专门为"网络深度挖掘"设计的测试。每道题都需要AI进行多跳网络搜索——先找到一条线索,顺着这条线索找到下一条,再继续追查,最终从多个分散的网页中拼凑出一个简短但精确的事实答案。题目的设计刻意保证了无法通过单次搜索直接找到答案,必须像真正的调查记者一样层层深挖。
第二个考场是WideSearch,与BrowseComp的"深度挖掘"路线相反,WideSearch考察的是"广度覆盖"。任务要求AI从大量平行的、相互独立的信息源中收集和整合信息,比如汇总某类实体的多个属性,或者从众多独立来源构建一张信息全面的表格。评判标准是覆盖率——遗漏任何一条重要信息都会扣分。
第三个考场是HLE(Humanity's Last Exam,人类最后的考试),这是一个由各领域专家精心设计的综合推理测试,涵盖数学、自然科学、社会科学和人文学科。与前两个测试不同,HLE更多考察的是深度的多步骤逻辑推理,而不是网络搜索导航,因此可以验证AgentFugue的协作增益是否能超越搜索密集型任务,推广到更广泛的推理场景。
在效率方面,为了保证测试的公平性,所有多智能体系统都使用相同的每个智能体工具集合(在BrowseComp和WideSearch上提供网络搜索和页面访问工具,在HLE上额外提供Python执行环境和学术文献搜索工具)。同时,每个问题的总交互轮数预算被严格控制在150轮以内,AgentFugue中每个侦探最多用150轮,对比的多智能体基准系统中主控智能体和子智能体共享这150轮预算。
六、谁是对手:三组参照系
为了让结果有意义,研究团队设置了三组对比参照,覆盖了从"单兵作战"到"不同协作方式"的完整谱系。
第一组对手是"单兵ReAct侦探",也就是单个使用标准推理-行动循环的前沿AI模型,包括Claude-Opus-4.5、Kimi-K2.5、Qwen3.5-35B-A3B、GLM-4.7和DeepSeek-v4-Flash。这组对比代表了"把单个侦探做到最强"的路线能走多远。
第二组对手是"深度研究专家系统",这些是专门为长任务网络研究设计的单智能体系统,配备了更复杂的脚手架(搜索规划、摘要记忆、迭代优化):WebThinker、WebSailor、AgentFold、IterResearch、Tongyi-DeepResearch和OpenAI DeepResearch。这些系统代表了单智能体在复杂任务上已经达到的最高水平。
第三组对手也是多智能体系统,是最直接的比较对象。第一种叫做"朴素多智能体",采用经典的规划-并行搜索-汇总流程:一个主控智能体先把问题分解成子任务,分配给多个子智能体并行完成,子智能体各自独立工作后提交报告,主控智能体再综合报告给出最终答案。这是一种"垂直协调"结构,协作只发生在任务分配和最终汇总两个节点。第二种叫做"蜂群多智能体",主控智能体可以随时创建专属子智能体并分配任务,比朴素版更灵活,但子智能体之间的信息交流依然只能通过主控智能体中转,依然是最终答案式的汇报,而非中间推理过程的共享。
与这两种多智能体方案相比,AgentFugue最根本的区别在于:协作是"水平的",发生在同伴侦探之间,而非"垂直的",通过一个居高临下的主控智能体来中转;协作发生在探索进行中,而非只在最终汇报时。
七、数字说话:AgentFugue赢在哪里
实验结果令人信服。在相同骨干模型下,AgentFugue在每个基准测试上都超越了对比的多智能体方案,并且跨越了不同任务类型。
以DeepSeek-v4-Flash为骨干模型的团队为例,AgentFugue在BrowseComp上达到了71.2分,而同样使用这个模型的蜂群多智能体只有56.2分,提升了整整15分。在推理密集型的HLE上,AgentFugue以49.5分击败了蜂群的44.0分。在广度覆盖的WideSearch上,AgentFugue同样以74.2分领先于蜂群的72.7分。以Qwen3.5-35B-A3B为骨干的团队也呈现相同的规律:AgentFugue在三个测试上均优于其他多智能体方案,综合平均分54.4,分别比蜂群和朴素版高出5.4和5.9分。
与单智能体的顶尖系统相比,AgentFugue同样表现优异:DeepSeek骨干的AgentFugue以71.2分在BrowseComp上大幅超越了OpenAI DeepResearch的51.5分,也超越了Kimi-K2.5的60.6分。考虑到Kimi-K2.5本身就是极为强大的前沿模型,这个结果说明协作增益是真实的,不仅仅是因为底层模型更强。
这些结果覆盖了检索密集、推理密集、广度密集三种截然不同的任务类型,说明共享推理枢纽是一种通用的协调原语,而非专门针对某类任务的技巧。
八、添加侦探,效果如何变化:同质团队的规模实验
研究团队进一步做了一项细致的实验,专门研究在同质团队中不断增加侦探数量(团队规模N从1增长到2、3、5、8),AgentFugue的表现如何变化。
实验在BrowseComp的100题子集上进行,所有侦探都使用相同的Qwen3.5-35B-A3B模型。结果揭示了一个有趣的双重规律。
从每个侦探自身的表现来看,随着团队扩大,每个侦探的平均准确率确实在上升,从N=1时的36分攀升到N=2时的44分、N=3时的51.7分,到N=5时达到57.6分的峰值。然而,到N=8时略微回落到55.8分,说明每个侦探所能从共享笔记本中吸收的有益信息有一个上限——就像一个人能消化的同伴信息有限,超过某个点后增加更多侦探带来的边际效益开始递减。
从整个团队协作层面看,即使每个侦探的平均表现在N=5后趋于平稳,团队整体的"覆盖带宽"(不同侦探之间的最高和最低分差距)依然保持宽广,说明各侦探的探索路径没有收敛——团队保持了多样性,这对于聚合策略(从多个答案中选出最佳答案)依然有价值。
与此同时,随着团队扩大,工作模式发生了清晰的转变:每个侦探的搜索和页面访问次数单调递减(N=1时每人约10.24次搜索、30.25次页面访问,N=8时降至7.01次搜索、20.35次页面访问),而每道题上的"笔记本查询次数"则单调递增(从0.83次增至2.60次)。直观地说,团队越大,每个侦探越省力,因为可以从队友那里"继承"部分调查成果,代价是更多地依赖共享笔记本进行协调。这是一个纯粹的协作经济效应。
九、不同模型的侦探联手:异质团队的惊喜
研究团队还做了另一组更有趣的实验:从单个Qwen3.5-35B-A3B模型的侦探出发,依次加入DeepSeek-v4-Flash、GLM-4.7、Kimi-K2.5,形成一个包含越来越多不同"流派"侦探的团队(N从1增至4)。
结果非常令人振奋。每种模型的侦探在团队协作后,个人表现都超过了它独立作战时的基准线。最关键的发现是:能力较弱的侦探获益最大,弱者被强者"带飞"的效果非常显著——弱者的提升幅度远超强者,甚至连本来就很强的Kimi-K2.5加入团队后也获得了一定提升,说明共享笔记本即使对顶级侦探也能提供有价值的增量信息。
异质团队的工作模式与同质团队明显不同。当第二种模型加入时,团队的总体搜索量反而短暂增加了(因为新来的侦探带来了完全不同的探索方向,开辟了新的调查领域),之后随着互相借鉴、继承成果才逐渐下降。更显著的是,异质团队的笔记本查询频率远高于同质团队——在相近的团队规模下,异质团队的"笔记本查询次数"是同质团队的数倍。背后的逻辑很直观:来自不同模型的侦探,思维方式和知识盲区不同,因此从对方笔记中发现的信息对自己来说更新颖、更有价值,更值得主动查阅。
从团队整体答案质量的角度,异质团队的不同聚合策略(按信心最高选答案、按多数投票选答案、按最少工具调用选答案等)都随着团队规模增大而单调提升,说明规模效益是真实存在的,不依赖于特定的答案选择策略。而且与同质团队相比,异质团队中不同聚合策略的结果更接近,说明当侦探们来自不同模型时,他们的答案更独立、更分散,相互之间的共识更有意义。
十、上下文窗口的"甜蜜点":消融实验的发现
研究团队还系统测试了一个关键参数:每个侦探的"书写时机",也就是积累多少信息后才把当前阶段归档到共享笔记本。他们在N=2的团队规模下,把这个参数从16K、32K、64K、96K一直测试到128K。
结果呈现出一条优美的倒U形曲线:准确率在32K时达到峰值,向两侧都下降。太小(16K)意味着每次归档时内容太少,证据还没有充分积累就被打断;太大(96K、128K)则意味着每次归档的内容太多、太杂,其中混入了大量过时或低价值的信息,稀释了真正有用的部分,还给笔记本的注意力带来了负担。
有趣的是,研究团队在主要实验中使用的是64K的设置,而最优的32K反而表现更好(在Pass@2指标上高出整整8分)。这说明论文主表中报告的数字其实是保守的下界,如果针对具体任务调优这个参数,AgentFugue还能进一步提升——这也意味着实验中呈现的结论是"低估"而非"高估"了这个方法的潜力。
十一、成功的侦探协作是什么样子的
研究团队通过具体案例展示了共享笔记本在实践中如何发挥作用,这些案例让抽象的机制变得鲜活。
在一个成功案例中,问题是关于19世纪上海一家商店的成立年份(正确答案是1853年)。侦探1和侦探2分别调查后,都没能找到最终答案,他们的笔记本记录写明"商店仍未被确认"。侦探0在第34步调用了侦探1的笔记,获得的不是答案,而是一份详细的"失败地图":列出了所有被排查过的候选店铺(诚信公司、永安公司、新新公司等),以及每家被排除的具体原因("成立太晚"、"与横滨正金银行无关联"等),并明确标注了仍然悬而未决的方向(一家经营外国布料的东上海商店)。
侦探0看到这份失败地图后,没有从头再来,而是直接利用队友已经缩小的搜索范围,顺着"东门外国布料"这个方向重新搜索,找到了一份学术PDF,其中明确记载了"大丰商店创立于1853年,由翁念丰创办",最终正确回答了问题。这个案例完美展示了共享笔记本传递的不是答案本身,而是"过程状态"——哪些路走死了、还有哪些方向值得探索——这才是真正有价值的协作信息。
与此形成对比的是一个失败案例。另一个问题包含八个必须同时满足的严格约束条件(某历史建筑的建造年代、附近大学的在校人数区间、曾被用作监狱的战争数量、城市人口范围等)。侦探们发出了多达10次的笔记本查询,比任何其他问题都多,最终却给出了错误答案。
失败的根源很微妙:共享笔记本忠实地记录了一个候选答案(得克萨斯州的中央州立农场主楼)同时满足了其中几个约束条件,却也记录了它明确不满足另外几个条件。然而,因为笔记本在自然语言总结中反复强调它是"唯一确认满足某两个关键条件的候选",这个正面特征在多个侦探的反复查阅中被放大,而硬性排除条件("不满足第7条"、"不满足第8条")则在最终决策时被忽视。侦探们的推理最终演变为"虽然有些条件不完全符合,但考虑到线索的特殊性,这仍然是最可能的答案"——一种经典的确认偏误。研究团队据此指出,对于多约束问题,笔记本需要更结构化的状态表示(比如明确区分"活跃候选"、"已排除"、"硬性失败"),并需要一个"最终答案门禁"机制,阻止任何带有已记录硬性失败的候选答案被最终选择。
十二、方法的边界与未来的方向
研究团队对AgentFugue的局限性保持了清醒的认识,在论文中进行了诚实的讨论。当前的实验只覆盖了有限的模型规模和配置,推理枢纽使用的是9B规模的模型,目前还不清楚更大或更强的枢纽模型是否会带来更大的增益。实验场景也局限于长任务问答类基准,尚未在开放式报告撰写、持续软件工程或更丰富工具生态系统的实际工作流中验证。
此外,集体推理本身带来了新的风险:如果某个侦探的笔记质量低下、不完整或过度自信,错误信息可能通过共享笔记本扩散到整个团队;如果多个侦探反复查阅相同的高显著性笔记,探索多样性可能逐渐收缩,形成"信息茧房"效应;早期的错误假设一旦传播开来,可能很难被后续侦探纠正。研究团队认为,更好的置信度校准、多样性感知的查询策略、以及更自适应的笔记选择机制,是值得深入探索的未来方向。
从更宏观的社会影响角度,这类能够协调多个智能体收集证据、整合发现的系统,既可以用于科学辅助、开放式研究和调查分析等积极方面,也存在被用于大规模信息监控、操纵性内容生成等负面应用的风险。研究团队认为,未来的部署应当考虑访问控制、使用监控、置信度感知的枢纽输出,以及防止过度同步化的多样性保护机制。
说到底,AgentFugue这项研究的核心贡献,不仅仅是一个新的技术框架,更是一种新的思维方式:AI能力的增长,不一定只能靠让单个智能体变得更强,也可以靠让多个智能体形成真正意义上的"集体智慧"。这种集体智慧的秘密,不在于角色分工,不在于谁指挥谁,而在于那本让每个侦探都能从队友的探索历程中汲取营养的智能案件笔记本。
每当一个侦探在某条死胡同里绕了圈子,把这段历程记入笔记本,就是在为整个团队减少重复劳动。每当另一个侦探因为看到队友的发现而豁然开朗、转换方向,就是集体智慧真实发生的瞬间。多声部的赋格曲,因此变得比任何单一旋律都更丰富。对于那些有兴趣深入了解具体实现细节的读者,可以通过arXiv编号2605.24486查找原论文,该研究的代码已在GitHub上开源,地址在论文中有明确说明。
Q&A
Q1:AgentFugue中的"共享推理枢纽"和普通的多智能体系统有什么本质区别?
A:普通多智能体系统的协作通常通过主控智能体居中调度,子智能体只在任务结束后汇报结果,互相之间看不到彼此的中间推理过程。AgentFugue的共享推理枢纽是一个独立的"外部笔记本",每个智能体随时可以把阶段性发现写入其中,其他智能体也可以在推理过程中主动查询,获取针对当前需求定制的信息摘要。协作是水平发生在同伴之间的,而且贯穿整个探索过程,不只是在最终汇总阶段。
Q2:AgentFugue中同质团队和异质团队哪种效果更好?
A:两种团队都有明显效果,但增益来源不同。同质团队(所有智能体使用相同模型)的增益主要来自多路探索的互补,笔记本查询频率相对较低。异质团队(不同模型组合)由于各模型思维方式和知识盲区不同,彼此发现的信息对对方更有新颖价值,笔记本查询频率更高,团队整体的表现提升也更快,在相同团队规模下通常达到更高的总体准确率。
Q3:AgentFugue的共享推理枢纽会不会把错误信息扩散给整个团队?
A:这是研究团队明确指出的一个已知风险,论文中的失败案例正好展示了这种情况。当一个智能体对某个候选答案的部分特征过度强调,而对其不符合条件的方面描述不够显著时,后续查阅这份笔记的智能体可能会放大那个正面特征,产生确认偏误。研究团队建议未来改进方向包括使用结构化状态标签(明确区分"已排除"与"活跃候选")和设置最终答案门禁,阻止带有已记录硬性失败的候选被最终选中。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。