
这项研究由来自美国伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、英伟达和麻省理工学院的研究团队联合完成,以预印本形式于2026年4月28日发布在arXiv平台,论文编号为arXiv:2604.25917v1。
研究背景:一个AI打天下,为什么越来越吃力?
先从一个生活场景说起。假设你开了一家餐厅,刚起步的时候,一个全能大厨既能备料、又能烹饪、还能摆盘,一个人包办一切完全没问题。但随着订单量暴增、菜品种类越来越复杂,一个大厨的上限就到头了——他体力有限,注意力有限,专业深度也有限。于是聪明的老板会怎么做?把厨房拆分成不同的工位,备菜师、炒锅师傅、摆盘师分工合作,各司其职,整个厨房作为一个整体运转起来,出品质量和效率都大幅提升。
现在的人工智能领域正面临类似的处境。单一的大语言模型——就像那个全能大厨——在处理复杂任务时越来越力不从心:要么思路太短视,要么在庞大的解题空间里乱转找不到方向。于是,研究者们想到了类似"分工厨房"的方案:把多个专门化的AI模型组织成一个团队,让它们互相协作,共同解决难题。这就是所谓的"多智能体系统"(Multi-Agent System,简称MAS)——多个AI角色分工合作的大协作框架。
然而,已有的多智能体系统存在一个让人头疼的问题:这些AI之间的交流,主要依靠的是"文字传话"。就好比厨房里的师傅们每次协作,都要把想法完整地写成便条,传给下一个人,下一个人读完、理解完,再重新开始自己的工作,然后又写一张便条往下传。这个过程不仅耗时,而且每次"翻译"成文字再"解读"回来都会损耗信息,让整个团队效率大打折扣。更麻烦的是,想要通过训练让整个团队统一进化,就需要追踪每个AI的所有参数变化,工程量极其巨大。
正是为了解决这些痛点,研究团队提出了一个全新的框架,他们将其命名为**RecursiveMAS**。
一、核心创意:让AI团队在"心灵感应"层面协作,而不是靠写便条传话
RecursiveMAS的灵感,来自最近AI领域的一个有趣发现:把同一个模型"循环使用"多次,让它反复打磨同一个问题,推理能力会随着循环次数的增加而不断提升。研究者把这种方式叫做"递归语言模型"——一个模型像在脑子里反复思考一样,把上一轮的内部状态直接喂给自己的下一轮,省去了每次都重新从头讲解的麻烦。
RecursiveMAS把这个想法升级了一档:不只是一个模型自己循环,而是让**整个多智能体团队**形成一个大循环。每个AI不再把自己的思考结果转换成文字再传给下一个,而是直接传递自己大脑最深处的"意图信号"——研究者把这个称为"潜在思想"(latent thoughts)。这就好比厨房里的师傅之间不再传便条,而是直接进行心灵感应式的协作:备菜师傅一边处理食材,就把自己对这道菜的"感觉"直接传给炒锅师傅,炒锅师傅不需要读文字,直接就"感受到了"应该怎么做,然后再把他的感受传给摆盘师。整个团队共同转了一圈之后,再共同进入下一轮,每一轮都比上一轮更接近完美答案,最后在最终一轮才输出给食客看的文字答案。
这个"大循环"之所以能成立,靠的是一个叫做**RecursiveLink**(递归链接)的小模块。这个模块是整个系统的秘密武器,但它本身非常轻量,就像一根精巧的信号转换线,而不是一台巨型机器。
二、RecursiveLink是什么?轻量但精妙的"信号转换器"
先理解一个基础概念:AI模型在处理问题时,每一步都会产生一种叫做"隐状态"(hidden state)的内部信号,这是模型理解信息后在大脑深处形成的"感受",还没有被转换成人类能读的文字。这种内部信号包含的信息非常丰富,但格式和普通文字完全不一样。
RecursiveLink的任务,就是在这些内部信号之间架桥。它有两种形态,承担两种不同的工作。
第一种叫做**内部链接**(Inner Link)。每个AI在自己内部思考时,每产生一个"内部感受",内部链接就把这个感受转换一下,让它能被这个AI自己在下一步思考时直接使用,而不必先变成文字再重新"理解"。这就好比你在思考一道数学题时,脑子里的中间推理过程不需要先写在纸上、再重新看一遍,而是直接在脑内流动——内部链接让AI也能做到这一点。数学上,这个过程写起来很简单:把上一步产生的信号h,通过两层神经网络变换之后,再加回h本身(这就是"残差连接",保证信息不丢失),得到下一步的输入信号。
第二种叫做**外部链接**(Outer Link)。这是专门用来跨越不同AI之间的"语言鸿沟"的。因为不同的AI模型结构不同、内部信号的格式也不同,直接传递会出错。外部链接在内部链接的基础上多加了一个维度转换步骤,把A这个AI的内部信号格式转换成B那个AI能接收的格式,让信息无损地跨越模型边界流动。
研究团队特别解释了为什么这两个模块都要保留"加回自身"这一步(即残差连接)。道理很直觉:这一步保留了原始信号的大部分语义,让这个小模块只需要学习"如何调整信号格式的差异",而不需要从零开始学习"如何理解整个信号"。这让训练更稳定、效果更好。他们也做了实验验证这个设计选择,后文会详细讲到。
三、整个团队如何组成一个大循环?
有了RecursiveLink这根"转换线",接下来就是把所有AI串起来形成一个循环。
具体流程是这样的:首先,第一个AI(比如在顺序协作模式下叫做"规划师")接收到用户提出的问题,开始用内部链接做多步的内部思考,产生一串"潜在思想"信号序列。这些信号通过外部链接转换格式后,传递给第二个AI("批评师"),批评师在自己的输入之上叠加这些外来信号,继续用内部链接做自己的内部思考,产生新的"潜在思想"。这个过程一路传下去,直到最后一个AI("求解师")完成思考,产生了它的"潜在思想"。
然后,关键的一步来了:最后一个AI的输出信号,通过外部链接转换后,被送回给第一个AI,作为下一轮循环的起点。这样整个团队就真正形成了一个闭合的循环。在中间的所有循环轮次里,所有AI之间的通信全部是内部信号;只有在**最后一轮**,求解师才把自己的内部信号解码成人类能看的文字,作为最终答案输出。
这种设计有一个很重要的效率优势。研究团队做了数学推导(文中称之为"命题3.1"),证明了这种潜在空间协作的计算复杂度,比传统的"文字传话"方式要低得多。原因在于:传统方式每一步都需要把内部信号投影到动辄几万个词的词汇表上(计算量正比于词汇量乘以信号维度),而RecursiveMAS只需要把信号在同一维度空间内做变换(计算量正比于信号维度的平方)。在实际系统中,信号维度远小于词汇量,所以省掉这一步带来的提速是实实在在的。
四、如何训练整个系统?两阶段"内外循环"学习法
有了架构,还需要一套好的训练方法。研究团队设计了一个分两步走的训练策略,他们称之为"内外循环学习范式"(Inner-Outer Loop Training)。
**第一步是内部循环训练**,对团队里的每个AI单独进行,而且可以并行同时训练所有AI,互不干扰。目标是让每个AI的内部链接学会:在用内部信号进行多步思考时,产生的信号要尽量接近"如果我在正常处理正确答案时,大脑会有什么感受"。具体做法是把正确答案文字输入这个AI的词嵌入层(相当于把文字翻译成AI能理解的格式),得到一个"目标信号",然后让内部链接产生的信号尽量向这个目标靠拢,用余弦相似度来衡量靠拢程度。这一步就像是让每个新员工先在自己的岗位上反复练习,直到对自己工作目标有了基本感觉,才开始和整个团队协作。
**第二步是外部循环训练**,针对整个团队系统。这一步把所有AI按照循环结构串联起来,让系统从第一轮一直运行到最后一轮,最终由最后一个AI输出文字答案。用这个文字答案和正确答案之间的误差(交叉熵损失)来衡量整个系统有多差,然后把这个误差信号沿着整个计算路径**反向传播**回去——不仅穿越当前这一轮的所有AI,还穿越之前所有循环轮次的计算路径。这样每一个外部链接都能收到来自整个系统最终表现的反馈,知道自己的工作对整体结果贡献了多少,从而进行调整。
特别值得关注的是,训练过程中所有AI模型自身的参数是**完全冻结的**,只有内部链接和外部链接这两个小模块的参数在更新。这就像是工厂里的工人本身不需要去上夜校重新培训,只需要优化工位之间的传送带和接口——这大幅降低了训练成本。
五、为什么在"潜在信号"层面训练比文字层面更稳定?
这是整个研究中一个非常精彩的理论洞察,研究团队用数学定理(定理4.1)证明了这一点,但我们可以用更直观的方式理解它。
在传统的"文字传话"多AI系统里,如果要让误差信号从最后一步一路传回最初的第一步,它必须穿过一个叫做"softmax"的函数。这个函数的作用是把内部信号转换成概率分布(决定下一个词最可能是什么)。当一个AI对某个选择非常有把握时,这个概率分布会变得极端——几乎把所有概率都压在一个选项上,其他选项接近零。这种极端分布导致传递误差信号的"梯度"(可以理解为"修改信号")变得极其微小,接近零,误差信号几乎无法传回去。这个现象在深度学习里叫做"梯度消失"——就像是你在给远处的朋友大喊,但声音传到中途就消散了,朋友什么都听不到,根本无法根据你的反馈来调整自己。
RecursiveLink因为保留了残差连接(把输入信号直接加回来),其梯度的下界被证明接近1,而不会趋近于零。这就像是声音在传播过程中一直保持着足够的响度,能够传递到很远的地方,每个中间节点都能清晰地听到来自终点的反馈。
六、四种协作模式,一套框架全搞定
RecursiveMAS不局限于某一种固定的AI协作形式,研究团队把它应用到了四种在现实中常见的多AI协作模式上,展示了这个框架的通用性。
**第一种是顺序协作模式**(Sequential Style),三个AI顺序排列:规划师、批评师、求解师。规划师负责分解问题制定方案,批评师检查方案并提出改进,求解师综合前面的工作给出最终答案。这个模式有两个版本,轻量版用的是参数量在1B至1.5B级别的小模型(Qwen3-1.7B、Llama3.2-1B-Instruct、Qwen2.5-Math-1.5B-Instruct),扩展版用的是4B级别的更强模型(Gemma3-4B-it、Llama3.2-3B-Instruct、Qwen3.5-4B)。
**第二种是混合专家模式**(Mixture Style),三个领域专家AI并行工作——数学专家、代码专家、科学专家——各自对问题进行独立分析,然后由一个汇总师将三者的潜在信号合并,给出最终答案。用到的模型包括Qwen2.5-Coder-3B-Instruct负责代码、BioMistral-7B负责科学领域、DeepSeek-R1-Distill-Qwen-1.5B负责数学,以及Qwen3.5-2B作为汇总师。
**第三种是知识蒸馏模式**(Distillation Style),一个强大的专家AI(Qwen3.5-9B)和一个轻量的学习者AI(Qwen3.5-4B)配对工作。专家的内部知识通过潜在信号传递给学习者,学习者在接收到专家"感受"的基础上生成最终答案。这个模式的目标是让小模型能尽量接近大模型的表现,同时保持速度优势。
**第四种是深思熟虑模式**(Deliberation Style),一个内部反思AI(Qwen3.5-4B)和一个工具调用AI(Qwen3.5-4B,配备Python环境和搜索API)配对工作。反思AI不断检视当前方案并提出改进方向,工具调用AI负责实际执行计算和信息检索,两者反复交换潜在信号直到达成共识,最终由工具调用AI输出答案。
七、实验结果:数字说话,效果如何?
研究团队在9个不同领域的测试集上全面评估了RecursiveMAS,涵盖数学推理(MATH500、AIME2025、AIME2026)、科学与医学(GPQA-Diamond、MedQA)、代码生成(LiveCodeBench-v6、MBPP Plus)以及搜索问答(HotpotQA、Bamboogle)。这9个测试集的难度各不相同:MATH500是经典数学题合集,AIME2025和AIME2026是奥林匹克竞赛级别的难题,GPQA-Diamond则是需要研究生水平专业知识的多选题。
**与文字传话基线的对比**是第一组核心实验。在相同的多AI结构下,RecursiveMAS和"用文字传话的递归多AI系统"(Recursive-TextMAS)正面PK,随着循环轮数从1增加到3,RecursiveMAS在精度上的优势越来越大:第1轮时平均高出约8.1%,第2轮时扩大到约19.6%,第3轮时进一步扩大到约20.2%。这说明潜在信号协作的优势会随着更多轮次的反复打磨而不断放大。
与此同时,效率的优势也在同步放大。在第1轮循环时,RecursiveMAS的端到端推理速度平均快1.2倍;第2轮时加速到1.9倍;第3轮时达到2.4倍。使用的token数(可以理解为"生成的文字量",与计算成本直接相关)方面,第1轮减少了34.6%,第2轮减少了65.5%,第3轮更减少了75.6%。精度越来越高、速度越来越快、用的token越来越少——三个维度同时改善,而且改善幅度随着循环轮数增加而扩大。
**与更广泛基线的对比**(表3,固定在第3轮循环)展示了RecursiveMAS在整个AI领域里的位置。对比的方法包括:用LoRA微调的单一智能体(参数高效的微调方式)、全参数微调的单一智能体、Mixture-of-Agents(MoA,一个知名的多AI协作框架)、TextGrad(通过文字梯度优化多AI系统的方法)、LoopLM(单模型的循环推理方法)以及Recursive-TextMAS。在6个测试集上,RecursiveMAS在每个测试集上都超越了最强基线,平均超越幅度为8.3%。其中在最难的AIME2025上,RecursiveMAS达到86.7%,而次优基线仅73.3%,差距高达13.4个百分点;在AIME2026上同样达到86.7%,而次优基线仅76.7%;在GPQA-Diamond上达到66.2%,超越次优基线约4个百分点;在代码生成(LiveCodeBench)上达到42.9%,超越次优基线约3个百分点。
**四种协作模式的实验**进一步验证了RecursiveMAS的通用性。在混合专家模式下,RecursiveMAS在每个测试集上都超越了最强的单一领域专家,平均提升6.2%,说明多专家的潜在信号融合确实产生了超越任何单一专家的效果。在深思熟虑模式下,RecursiveMAS相比单独使用工具调用AI提升了4.8%,说明潜在信号层面的反思循环对工具调用类任务同样有效。在知识蒸馏模式下,RecursiveMAS的学习者相比单独的学习者提升了8.0%,而端到端速度仍然比专家模型快1.5倍——用更少的计算资源获得接近大模型的效果,这对实际部署非常有价值。
八、深入分析:这个系统到底在内部做了什么?
研究团队还做了几组非常有意思的深入分析,帮助我们理解为什么RecursiveMAS能有效果。
**RecursiveLink的结构对比实验**(表4)测试了四种不同设计:只有1层网络、1层网络加残差连接、2层网络、以及最终选用的2层网络加残差连接。实验在Math500、GPQA-Diamond和LiveCodeBench三个测试集上进行。结果清楚地显示,残差连接带来了实质性的提升(在GPQA-Diamond上,加了残差连接的1层设计能从63.2%提升到65.3%,甚至超过了没有残差连接的2层设计的64.5%),而2层结构在有残差连接的基础上进一步带来提升,最终2层加残差连接的组合在所有测试集上都取得最高分。这验证了研究团队对这个模块的设计直觉是正确的。
**语义分布可视化实验**(图7)展示了一个很直观的现象。研究团队随机抽取了500道题,让RecursiveMAS分别在第1、2、3轮循环后生成答案,然后把这些答案和正确答案都转换成向量表示,用降维方法(PCA)投影到二维平面上可视化。在第1轮时,RecursiveMAS生成的答案分布(橙色点云)和正确答案分布(紫色点云)有明显的偏移;到第2轮时两个分布开始靠近;到第3轮时几乎完全重合。这说明RecursiveMAS在每一轮循环中都在把自己的"理解"向正确答案的方向迭代修正,而不是在随机游走。
**潜在思想长度的消融实验**(图8和表9)探究了每个AI每次思考时应该产生多少步的内部信号。实验测试了从0到128步的不同设置。结果显示,随着内部思考步数增加,性能持续提升,但在大约80步时趋于饱和——继续增加步数带来的提升越来越小。这说明适度的内部思考量就足以支撑有效的协作,不需要无限增加,而且80步的内部思考比文字协作模式下需要的长思维链要紧凑得多。
**训练成本分析**(表5)对比了三种训练方式在扩展版顺序协作模式下的消耗。RecursiveMAS只需要更新13.12M个参数(占全部参数的0.31%),峰值GPU内存使用15.29GB,估算成本约4.27美元;而LoRA微调需要更新15.92M参数(0.37%),GPU内存21.67GB,成本6.64美元;全参数微调需要更新42亿参数(100%),GPU内存41.40GB,成本9.67美元。不仅如此,RecursiveMAS在下游任务上的平均精度达到74.9%,明显高于LoRA的66.9%和全参数微调的68.6%。参数最少、内存最省、成本最低,精度反而最高——这个结果相当令人印象深刻。
**递归轮数的缩放规律**(图1上半部分)展示了一个有趣的互补效应:训练时用的循环轮数越多,系统整体的"起跑线"越高;推理时用的循环轮数越多,在这个起跑线上还能继续攀升。两个维度都增加时效果最好,而且两者之间存在一定的互补性——即使训练轮数少,推理时多循环几轮仍然能有效提升效果。
九、案例分析:循环思考是如何纠错的?
论文附录中提供了一个非常生动的案例(附录F),展示了RecursiveMAS在不同循环轮次下如何改变答案。
题目是:对于多少个大于1的正整数n,2的24次方是一个完全的n次幂?
在第1轮时,求解师的推理路径出现了错误:它把"n的可能取值"理解为"24的因子对(m,n)中n的那个",列出了(2,12)、(3,8)、(4,6)、(6,4)、(8,3)、(12,2)这6对,然后说可能的n是2、3、4、6、8、12,共6个,给出了**错误答案6**。
实际上,正确的思路应该是:24的所有因子(1、2、3、4、6、8、12、24)都是合法的n,去掉n=1的情况,剩下7个,答案是**7**。第1轮的AI错误地把因子对的个数和因子的个数混淆了。
到第2轮时,系统在经过一轮潜在信号的完整循环后,求解师的思路发生了转变:它直接列出了24的所有因子(1、2、3、4、6、8、12、24),然后排除1,得到7个合法的n,给出了**正确答案7**。第3轮时依然给出正确答案,说明系统在第2轮就已经收敛到了正确的思路。
这个案例直观地说明了递归循环的作用:前一轮的潜在信号为下一轮提供了隐含的"方向感",让系统能在后续轮次中规避掉第一次尝试中的错误路径。
---
说到底,RecursiveMAS做到的事情,可以用一句话概括:让一群AI组成的团队,能够像一个会反复自我审视的整体一样运作,而不是像一条只会单向传话的流水线。这个转变带来的不只是精度的提升,更是效率的大幅改善——团队越大、循环越多,相比文字传话方式省下的计算量就越多,精度优势也越大。
这项研究对未来AI系统的设计有实际的启示意义。当我们需要部署复杂的多AI协作系统时,让它们在内部信号层面交流并形成循环,而不是依靠文字转来转去,可能是一个值得认真考虑的方向。当然,这个框架目前也有一些局限——比如潜在信号不像文字那样对人类透明可读,调试和理解系统行为时可能更困难;循环轮数的增加虽然比文字方式更高效,但总体计算量仍然是增加的。这些都是未来研究可以继续探索的方向。
有兴趣深入了解这项研究的读者,可以在arXiv上通过论文编号2604.25917查阅完整论文,项目主页也在 recursivemas.github.io 上提供了更多信息。
---
**Q&A**
Q1:RecursiveMAS和普通多智能体系统有什么本质区别?
A:普通多智能体系统里,AI之间用文字传递信息,每次都要把内部想法"翻译"成文字,下一个AI再重新"理解"。RecursiveMAS让AI直接传递内部信号(潜在思想),跳过文字翻译这一步,并且让所有AI形成一个闭合循环反复迭代,而不是单向流水线。整个系统只有最后一轮才输出人类可读的文字。
Q2:RecursiveMAS训练起来是不是很贵?需要改动每个AI模型的参数吗?
A:RecursiveMAS的训练非常轻量。所有AI模型的参数在训练过程中完全冻结,只有RecursiveLink这个小模块(约1300万参数,占全部参数的0.31%)在更新。实验显示训练成本约4.27美元,峰值GPU内存15.29GB,比LoRA微调和全参数微调都要省钱省资源,但精度反而更高。
Q3:RecursiveMAS只能用于数学题吗,还是可以处理其他任务?
A:RecursiveMAS被验证可以处理多种不同类型的任务。研究团队在9个测试集上做了实验,覆盖数学推理、科学与医学问答、代码生成以及需要联网搜索的多跳问答。四种不同的协作模式(顺序、混合专家、知识蒸馏、深思熟虑)也适用于不同场景,说明这个框架具有较好的通用性。
好文章,需要你的鼓励
这项由IIT马德拉斯与BITS Pilani联合发布的研究(arXiv:2604.21523,2026年4月)构建了FOCUS元评估基准,系统检验了评审型视觉语言大模型的可靠性。通过向超过4000个图文和图像样本中注入40种受控错误,研究发现顶尖评审AI的检测失败率在某些条件下超过50%,物理合理性和视觉细节类错误尤为难以被发现,两两比较是最可靠的评审范式。
这篇由Sylph.AI发布的技术报告提出了一套两层自动化框架,核心思想是让AI自动优化自身的运行脚手架,再进一步让AI学会如何更高效地做这种优化。内层的脚手架进化循环通过工人代理、评估代理和进化代理的协作,自动迭代改进单个任务的运行配置;外层的元进化循环则在多个任务上训练,学习一套能快速适应任何新场景的通用进化蓝图,从而彻底消除人工脚手架工程的需求。
这篇由英伟达等顶尖机构联合发表的论文提出了一种名为Voyager的新型智能体。研究团队以《我的世界》为实验平台,通过引入自动课程规划、技能库存储以及迭代反馈机制,成功让大语言模型主导的AI在完全无人类干预的情况下,实现了在复杂开放世界中的自主探索与终身学习。实验数据表明,Voyager在物品收集、探索范围及技能解锁速度上均呈现出远超传统方法的压倒性优势,为未来开发能够自主解决真实物理世界复杂任务的通用人工智能奠定了关键的理论与实践基础。
这项由浙江大学、中国科学院大学和上海人工智能实验室联合完成的研究(arXiv:2604.24819)提出了"用数据编程"(ProDa)框架,将软件工程中的测试驱动开发理念移植到AI专业知识训练中。核心创新是从原始教材中提取三层知识结构(原子概念、关系三元组、推理链),让训练数据和测试题目共享同一知识基础,从而使模型答错题时能精确追溯到具体知识缺陷,并生成针对性修复数据。经16个学科、多个模型规模验证,每轮调试均带来稳定提升,320亿参数开源模型经一轮调试后超越GPT-5.4等商业前沿模型。