微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

多所顶尖高校携手攻克AI协作难题：让多个AI像流水线工厂一样不断"迭代进化"

多智能体系统递归计算潜在空间协作

多所顶尖高校携手攻克AI协作难题：让多个AI像流水线工厂一样不断"迭代进化"

作者：科技行者

2026-05-06 15:17

分享至：

这项由伊利诺伊大学、斯坦福大学、英伟达和麻省理工学院联合发布的研究（arXiv:2604.25917，2026年4月）提出了RecursiveMAS框架，让多个异构AI模型通过轻量级模块RecursiveLink在内部信号层面直接传递"潜在思想"，形成循环协作，彻底绕开了传统多AI系统依靠文字传话的低效方式。配合两阶段内外循环训练策略，整个系统只需优化极少量参数，就能在数学、科学、代码生成和搜索问答等9个基准测试上取得平均8.3%的精度提升，同时实现最高2.4倍推理加速和75.6%的token用量削减。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-06 15:17 • 科技行者

这项研究由来自美国伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、英伟达和麻省理工学院的研究团队联合完成，以预印本形式于2026年4月28日发布在arXiv平台，论文编号为arXiv:2604.25917v1。

研究背景：一个AI打天下，为什么越来越吃力？

先从一个生活场景说起。假设你开了一家餐厅，刚起步的时候，一个全能大厨既能备料、又能烹饪、还能摆盘，一个人包办一切完全没问题。但随着订单量暴增、菜品种类越来越复杂，一个大厨的上限就到头了——他体力有限，注意力有限，专业深度也有限。于是聪明的老板会怎么做？把厨房拆分成不同的工位，备菜师、炒锅师傅、摆盘师分工合作，各司其职，整个厨房作为一个整体运转起来，出品质量和效率都大幅提升。

现在的人工智能领域正面临类似的处境。单一的大语言模型——就像那个全能大厨——在处理复杂任务时越来越力不从心：要么思路太短视，要么在庞大的解题空间里乱转找不到方向。于是，研究者们想到了类似"分工厨房"的方案：把多个专门化的AI模型组织成一个团队，让它们互相协作，共同解决难题。这就是所谓的"多智能体系统"（Multi-Agent System，简称MAS）——多个AI角色分工合作的大协作框架。

然而，已有的多智能体系统存在一个让人头疼的问题：这些AI之间的交流，主要依靠的是"文字传话"。就好比厨房里的师傅们每次协作，都要把想法完整地写成便条，传给下一个人，下一个人读完、理解完，再重新开始自己的工作，然后又写一张便条往下传。这个过程不仅耗时，而且每次"翻译"成文字再"解读"回来都会损耗信息，让整个团队效率大打折扣。更麻烦的是，想要通过训练让整个团队统一进化，就需要追踪每个AI的所有参数变化，工程量极其巨大。

正是为了解决这些痛点，研究团队提出了一个全新的框架，他们将其命名为**RecursiveMAS**。

一、核心创意：让AI团队在"心灵感应"层面协作，而不是靠写便条传话

RecursiveMAS的灵感，来自最近AI领域的一个有趣发现：把同一个模型"循环使用"多次，让它反复打磨同一个问题，推理能力会随着循环次数的增加而不断提升。研究者把这种方式叫做"递归语言模型"——一个模型像在脑子里反复思考一样，把上一轮的内部状态直接喂给自己的下一轮，省去了每次都重新从头讲解的麻烦。

RecursiveMAS把这个想法升级了一档：不只是一个模型自己循环，而是让**整个多智能体团队**形成一个大循环。每个AI不再把自己的思考结果转换成文字再传给下一个，而是直接传递自己大脑最深处的"意图信号"——研究者把这个称为"潜在思想"（latent thoughts）。这就好比厨房里的师傅之间不再传便条，而是直接进行心灵感应式的协作：备菜师傅一边处理食材，就把自己对这道菜的"感觉"直接传给炒锅师傅，炒锅师傅不需要读文字，直接就"感受到了"应该怎么做，然后再把他的感受传给摆盘师。整个团队共同转了一圈之后，再共同进入下一轮，每一轮都比上一轮更接近完美答案，最后在最终一轮才输出给食客看的文字答案。

这个"大循环"之所以能成立，靠的是一个叫做**RecursiveLink**（递归链接）的小模块。这个模块是整个系统的秘密武器，但它本身非常轻量，就像一根精巧的信号转换线，而不是一台巨型机器。

二、RecursiveLink是什么？轻量但精妙的"信号转换器"

先理解一个基础概念：AI模型在处理问题时，每一步都会产生一种叫做"隐状态"（hidden state）的内部信号，这是模型理解信息后在大脑深处形成的"感受"，还没有被转换成人类能读的文字。这种内部信号包含的信息非常丰富，但格式和普通文字完全不一样。

RecursiveLink的任务，就是在这些内部信号之间架桥。它有两种形态，承担两种不同的工作。

第一种叫做**内部链接**（Inner Link）。每个AI在自己内部思考时，每产生一个"内部感受"，内部链接就把这个感受转换一下，让它能被这个AI自己在下一步思考时直接使用，而不必先变成文字再重新"理解"。这就好比你在思考一道数学题时，脑子里的中间推理过程不需要先写在纸上、再重新看一遍，而是直接在脑内流动——内部链接让AI也能做到这一点。数学上，这个过程写起来很简单：把上一步产生的信号h，通过两层神经网络变换之后，再加回h本身（这就是"残差连接"，保证信息不丢失），得到下一步的输入信号。

第二种叫做**外部链接**（Outer Link）。这是专门用来跨越不同AI之间的"语言鸿沟"的。因为不同的AI模型结构不同、内部信号的格式也不同，直接传递会出错。外部链接在内部链接的基础上多加了一个维度转换步骤，把A这个AI的内部信号格式转换成B那个AI能接收的格式，让信息无损地跨越模型边界流动。

研究团队特别解释了为什么这两个模块都要保留"加回自身"这一步（即残差连接）。道理很直觉：这一步保留了原始信号的大部分语义，让这个小模块只需要学习"如何调整信号格式的差异"，而不需要从零开始学习"如何理解整个信号"。这让训练更稳定、效果更好。他们也做了实验验证这个设计选择，后文会详细讲到。

三、整个团队如何组成一个大循环？

有了RecursiveLink这根"转换线"，接下来就是把所有AI串起来形成一个循环。

具体流程是这样的：首先，第一个AI（比如在顺序协作模式下叫做"规划师"）接收到用户提出的问题，开始用内部链接做多步的内部思考，产生一串"潜在思想"信号序列。这些信号通过外部链接转换格式后，传递给第二个AI（"批评师"），批评师在自己的输入之上叠加这些外来信号，继续用内部链接做自己的内部思考，产生新的"潜在思想"。这个过程一路传下去，直到最后一个AI（"求解师"）完成思考，产生了它的"潜在思想"。

然后，关键的一步来了：最后一个AI的输出信号，通过外部链接转换后，被送回给第一个AI，作为下一轮循环的起点。这样整个团队就真正形成了一个闭合的循环。在中间的所有循环轮次里，所有AI之间的通信全部是内部信号；只有在**最后一轮**，求解师才把自己的内部信号解码成人类能看的文字，作为最终答案输出。

这种设计有一个很重要的效率优势。研究团队做了数学推导（文中称之为"命题3.1"），证明了这种潜在空间协作的计算复杂度，比传统的"文字传话"方式要低得多。原因在于：传统方式每一步都需要把内部信号投影到动辄几万个词的词汇表上（计算量正比于词汇量乘以信号维度），而RecursiveMAS只需要把信号在同一维度空间内做变换（计算量正比于信号维度的平方）。在实际系统中，信号维度远小于词汇量，所以省掉这一步带来的提速是实实在在的。

四、如何训练整个系统？两阶段"内外循环"学习法

有了架构，还需要一套好的训练方法。研究团队设计了一个分两步走的训练策略，他们称之为"内外循环学习范式"（Inner-Outer Loop Training）。

**第一步是内部循环训练**，对团队里的每个AI单独进行，而且可以并行同时训练所有AI，互不干扰。目标是让每个AI的内部链接学会：在用内部信号进行多步思考时，产生的信号要尽量接近"如果我在正常处理正确答案时，大脑会有什么感受"。具体做法是把正确答案文字输入这个AI的词嵌入层（相当于把文字翻译成AI能理解的格式），得到一个"目标信号"，然后让内部链接产生的信号尽量向这个目标靠拢，用余弦相似度来衡量靠拢程度。这一步就像是让每个新员工先在自己的岗位上反复练习，直到对自己工作目标有了基本感觉，才开始和整个团队协作。

**第二步是外部循环训练**，针对整个团队系统。这一步把所有AI按照循环结构串联起来，让系统从第一轮一直运行到最后一轮，最终由最后一个AI输出文字答案。用这个文字答案和正确答案之间的误差（交叉熵损失）来衡量整个系统有多差，然后把这个误差信号沿着整个计算路径**反向传播**回去——不仅穿越当前这一轮的所有AI，还穿越之前所有循环轮次的计算路径。这样每一个外部链接都能收到来自整个系统最终表现的反馈，知道自己的工作对整体结果贡献了多少，从而进行调整。

特别值得关注的是，训练过程中所有AI模型自身的参数是**完全冻结的**，只有内部链接和外部链接这两个小模块的参数在更新。这就像是工厂里的工人本身不需要去上夜校重新培训，只需要优化工位之间的传送带和接口——这大幅降低了训练成本。

五、为什么在"潜在信号"层面训练比文字层面更稳定？

这是整个研究中一个非常精彩的理论洞察，研究团队用数学定理（定理4.1）证明了这一点，但我们可以用更直观的方式理解它。

在传统的"文字传话"多AI系统里，如果要让误差信号从最后一步一路传回最初的第一步，它必须穿过一个叫做"softmax"的函数。这个函数的作用是把内部信号转换成概率分布（决定下一个词最可能是什么）。当一个AI对某个选择非常有把握时，这个概率分布会变得极端——几乎把所有概率都压在一个选项上，其他选项接近零。这种极端分布导致传递误差信号的"梯度"（可以理解为"修改信号"）变得极其微小，接近零，误差信号几乎无法传回去。这个现象在深度学习里叫做"梯度消失"——就像是你在给远处的朋友大喊，但声音传到中途就消散了，朋友什么都听不到，根本无法根据你的反馈来调整自己。

RecursiveLink因为保留了残差连接（把输入信号直接加回来），其梯度的下界被证明接近1，而不会趋近于零。这就像是声音在传播过程中一直保持着足够的响度，能够传递到很远的地方，每个中间节点都能清晰地听到来自终点的反馈。

六、四种协作模式，一套框架全搞定

RecursiveMAS不局限于某一种固定的AI协作形式，研究团队把它应用到了四种在现实中常见的多AI协作模式上，展示了这个框架的通用性。

**第一种是顺序协作模式**（Sequential Style），三个AI顺序排列：规划师、批评师、求解师。规划师负责分解问题制定方案，批评师检查方案并提出改进，求解师综合前面的工作给出最终答案。这个模式有两个版本，轻量版用的是参数量在1B至1.5B级别的小模型（Qwen3-1.7B、Llama3.2-1B-Instruct、Qwen2.5-Math-1.5B-Instruct），扩展版用的是4B级别的更强模型（Gemma3-4B-it、Llama3.2-3B-Instruct、Qwen3.5-4B）。

**第二种是混合专家模式**（Mixture Style），三个领域专家AI并行工作——数学专家、代码专家、科学专家——各自对问题进行独立分析，然后由一个汇总师将三者的潜在信号合并，给出最终答案。用到的模型包括Qwen2.5-Coder-3B-Instruct负责代码、BioMistral-7B负责科学领域、DeepSeek-R1-Distill-Qwen-1.5B负责数学，以及Qwen3.5-2B作为汇总师。

**第三种是知识蒸馏模式**（Distillation Style），一个强大的专家AI（Qwen3.5-9B）和一个轻量的学习者AI（Qwen3.5-4B）配对工作。专家的内部知识通过潜在信号传递给学习者，学习者在接收到专家"感受"的基础上生成最终答案。这个模式的目标是让小模型能尽量接近大模型的表现，同时保持速度优势。

**第四种是深思熟虑模式**（Deliberation Style），一个内部反思AI（Qwen3.5-4B）和一个工具调用AI（Qwen3.5-4B，配备Python环境和搜索API）配对工作。反思AI不断检视当前方案并提出改进方向，工具调用AI负责实际执行计算和信息检索，两者反复交换潜在信号直到达成共识，最终由工具调用AI输出答案。

七、实验结果：数字说话，效果如何？

研究团队在9个不同领域的测试集上全面评估了RecursiveMAS，涵盖数学推理（MATH500、AIME2025、AIME2026）、科学与医学（GPQA-Diamond、MedQA）、代码生成（LiveCodeBench-v6、MBPP Plus）以及搜索问答（HotpotQA、Bamboogle）。这9个测试集的难度各不相同：MATH500是经典数学题合集，AIME2025和AIME2026是奥林匹克竞赛级别的难题，GPQA-Diamond则是需要研究生水平专业知识的多选题。

**与文字传话基线的对比**是第一组核心实验。在相同的多AI结构下，RecursiveMAS和"用文字传话的递归多AI系统"（Recursive-TextMAS）正面PK，随着循环轮数从1增加到3，RecursiveMAS在精度上的优势越来越大：第1轮时平均高出约8.1%，第2轮时扩大到约19.6%，第3轮时进一步扩大到约20.2%。这说明潜在信号协作的优势会随着更多轮次的反复打磨而不断放大。

与此同时，效率的优势也在同步放大。在第1轮循环时，RecursiveMAS的端到端推理速度平均快1.2倍；第2轮时加速到1.9倍；第3轮时达到2.4倍。使用的token数（可以理解为"生成的文字量"，与计算成本直接相关）方面，第1轮减少了34.6%，第2轮减少了65.5%，第3轮更减少了75.6%。精度越来越高、速度越来越快、用的token越来越少——三个维度同时改善，而且改善幅度随着循环轮数增加而扩大。

**与更广泛基线的对比**（表3，固定在第3轮循环）展示了RecursiveMAS在整个AI领域里的位置。对比的方法包括：用LoRA微调的单一智能体（参数高效的微调方式）、全参数微调的单一智能体、Mixture-of-Agents（MoA，一个知名的多AI协作框架）、TextGrad（通过文字梯度优化多AI系统的方法）、LoopLM（单模型的循环推理方法）以及Recursive-TextMAS。在6个测试集上，RecursiveMAS在每个测试集上都超越了最强基线，平均超越幅度为8.3%。其中在最难的AIME2025上，RecursiveMAS达到86.7%，而次优基线仅73.3%，差距高达13.4个百分点；在AIME2026上同样达到86.7%，而次优基线仅76.7%；在GPQA-Diamond上达到66.2%，超越次优基线约4个百分点；在代码生成（LiveCodeBench）上达到42.9%，超越次优基线约3个百分点。

**四种协作模式的实验**进一步验证了RecursiveMAS的通用性。在混合专家模式下，RecursiveMAS在每个测试集上都超越了最强的单一领域专家，平均提升6.2%，说明多专家的潜在信号融合确实产生了超越任何单一专家的效果。在深思熟虑模式下，RecursiveMAS相比单独使用工具调用AI提升了4.8%，说明潜在信号层面的反思循环对工具调用类任务同样有效。在知识蒸馏模式下，RecursiveMAS的学习者相比单独的学习者提升了8.0%，而端到端速度仍然比专家模型快1.5倍——用更少的计算资源获得接近大模型的效果，这对实际部署非常有价值。

八、深入分析：这个系统到底在内部做了什么？

研究团队还做了几组非常有意思的深入分析，帮助我们理解为什么RecursiveMAS能有效果。

**RecursiveLink的结构对比实验**（表4）测试了四种不同设计：只有1层网络、1层网络加残差连接、2层网络、以及最终选用的2层网络加残差连接。实验在Math500、GPQA-Diamond和LiveCodeBench三个测试集上进行。结果清楚地显示，残差连接带来了实质性的提升（在GPQA-Diamond上，加了残差连接的1层设计能从63.2%提升到65.3%，甚至超过了没有残差连接的2层设计的64.5%），而2层结构在有残差连接的基础上进一步带来提升，最终2层加残差连接的组合在所有测试集上都取得最高分。这验证了研究团队对这个模块的设计直觉是正确的。

**语义分布可视化实验**（图7）展示了一个很直观的现象。研究团队随机抽取了500道题，让RecursiveMAS分别在第1、2、3轮循环后生成答案，然后把这些答案和正确答案都转换成向量表示，用降维方法（PCA）投影到二维平面上可视化。在第1轮时，RecursiveMAS生成的答案分布（橙色点云）和正确答案分布（紫色点云）有明显的偏移；到第2轮时两个分布开始靠近；到第3轮时几乎完全重合。这说明RecursiveMAS在每一轮循环中都在把自己的"理解"向正确答案的方向迭代修正，而不是在随机游走。

**潜在思想长度的消融实验**（图8和表9）探究了每个AI每次思考时应该产生多少步的内部信号。实验测试了从0到128步的不同设置。结果显示，随着内部思考步数增加，性能持续提升，但在大约80步时趋于饱和——继续增加步数带来的提升越来越小。这说明适度的内部思考量就足以支撑有效的协作，不需要无限增加，而且80步的内部思考比文字协作模式下需要的长思维链要紧凑得多。

**训练成本分析**（表5）对比了三种训练方式在扩展版顺序协作模式下的消耗。RecursiveMAS只需要更新13.12M个参数（占全部参数的0.31%），峰值GPU内存使用15.29GB，估算成本约4.27美元；而LoRA微调需要更新15.92M参数（0.37%），GPU内存21.67GB，成本6.64美元；全参数微调需要更新42亿参数（100%），GPU内存41.40GB，成本9.67美元。不仅如此，RecursiveMAS在下游任务上的平均精度达到74.9%，明显高于LoRA的66.9%和全参数微调的68.6%。参数最少、内存最省、成本最低，精度反而最高——这个结果相当令人印象深刻。

**递归轮数的缩放规律**（图1上半部分）展示了一个有趣的互补效应：训练时用的循环轮数越多，系统整体的"起跑线"越高；推理时用的循环轮数越多，在这个起跑线上还能继续攀升。两个维度都增加时效果最好，而且两者之间存在一定的互补性——即使训练轮数少，推理时多循环几轮仍然能有效提升效果。

九、案例分析：循环思考是如何纠错的？

论文附录中提供了一个非常生动的案例（附录F），展示了RecursiveMAS在不同循环轮次下如何改变答案。

题目是：对于多少个大于1的正整数n，2的24次方是一个完全的n次幂？

在第1轮时，求解师的推理路径出现了错误：它把"n的可能取值"理解为"24的因子对（m,n）中n的那个"，列出了(2,12)、(3,8)、(4,6)、(6,4)、(8,3)、(12,2)这6对，然后说可能的n是2、3、4、6、8、12，共6个，给出了**错误答案6**。

实际上，正确的思路应该是：24的所有因子（1、2、3、4、6、8、12、24）都是合法的n，去掉n=1的情况，剩下7个，答案是**7**。第1轮的AI错误地把因子对的个数和因子的个数混淆了。

到第2轮时，系统在经过一轮潜在信号的完整循环后，求解师的思路发生了转变：它直接列出了24的所有因子（1、2、3、4、6、8、12、24），然后排除1，得到7个合法的n，给出了**正确答案7**。第3轮时依然给出正确答案，说明系统在第2轮就已经收敛到了正确的思路。

这个案例直观地说明了递归循环的作用：前一轮的潜在信号为下一轮提供了隐含的"方向感"，让系统能在后续轮次中规避掉第一次尝试中的错误路径。

---

说到底，RecursiveMAS做到的事情，可以用一句话概括：让一群AI组成的团队，能够像一个会反复自我审视的整体一样运作，而不是像一条只会单向传话的流水线。这个转变带来的不只是精度的提升，更是效率的大幅改善——团队越大、循环越多，相比文字传话方式省下的计算量就越多，精度优势也越大。

这项研究对未来AI系统的设计有实际的启示意义。当我们需要部署复杂的多AI协作系统时，让它们在内部信号层面交流并形成循环，而不是依靠文字转来转去，可能是一个值得认真考虑的方向。当然，这个框架目前也有一些局限——比如潜在信号不像文字那样对人类透明可读，调试和理解系统行为时可能更困难；循环轮数的增加虽然比文字方式更高效，但总体计算量仍然是增加的。这些都是未来研究可以继续探索的方向。

有兴趣深入了解这项研究的读者，可以在arXiv上通过论文编号2604.25917查阅完整论文，项目主页也在 recursivemas.github.io 上提供了更多信息。

---

**Q&A**

Q1：RecursiveMAS和普通多智能体系统有什么本质区别？

A：普通多智能体系统里，AI之间用文字传递信息，每次都要把内部想法"翻译"成文字，下一个AI再重新"理解"。RecursiveMAS让AI直接传递内部信号（潜在思想），跳过文字翻译这一步，并且让所有AI形成一个闭合循环反复迭代，而不是单向流水线。整个系统只有最后一轮才输出人类可读的文字。

Q2：RecursiveMAS训练起来是不是很贵？需要改动每个AI模型的参数吗？

A：RecursiveMAS的训练非常轻量。所有AI模型的参数在训练过程中完全冻结，只有RecursiveLink这个小模块（约1300万参数，占全部参数的0.31%）在更新。实验显示训练成本约4.27美元，峰值GPU内存15.29GB，比LoRA微调和全参数微调都要省钱省资源，但精度反而更高。

Q3：RecursiveMAS只能用于数学题吗，还是可以处理其他任务？

A：RecursiveMAS被验证可以处理多种不同类型的任务。研究团队在9个测试集上做了实验，覆盖数学推理、科学与医学问答、代码生成以及需要联网搜索的多跳问答。四种不同的协作模式（顺序、混合专家、知识蒸馏、深思熟虑）也适用于不同场景，说明这个框架具有较好的通用性。

多智能体系统递归计算潜在空间协作

分享至