
这项由独立研究者Nicole Koenigstein完成的研究,以预印本形式发布于2026年5月,编号为arXiv:2605.27466,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。研究成果已同步开源,代码托管于GitHub平台。
假设你经营着一家大型餐厅,厨房里有不同专长的厨师:有人擅长冷盘,有人擅长火候,有人专门负责摆盘,还有一个专职品控员。现在来了一张订单,你需要决定:这道菜让哪位厨师做?要不要让品控员中途抽检?上桌前要不要再过一道摆盘工序?如果今天客流量很大,能不能省略某些步骤以节约时间?这些决定每天都在发生,而且每道菜的情况都不一样——有些菜简单,有些菜需要多道工序严格把关。
这正是当今AI系统面临的真实困境。大型语言模型(也就是ChatGPT那类AI)已经不再是单打独斗了,现实中的复杂任务往往需要多个AI智能体协同完成——一个负责规划,一个负责查找资料,一个负责生成答案,一个负责审核,还有一个负责最终综合。问题在于,如何决定每次任务让哪些智能体上阵、用什么方式、按什么顺序?过去的做法是人工把这套流程写死,就像印好了固定食谱,每道菜都按同样步骤做。这项研究的出发点就是:固定食谱行不通,需要一套能根据每道菜的特点自动调整的"智能调度系统"。
这套系统被命名为AgensFlow,名字来自拉丁语"agens"(意为行动、驱动、主导)与英语"flow"(流动)的结合,意在强调这是一套动态流动的协作机制,而非一成不变的静态流程。
一、为什么固定流程会出问题
回到餐厅的比喻:如果你规定每道菜必须经过冷盘厨师、火候厨师、摆盘厨师和品控员这四道工序,那做一碗简单的汤也要走这四步——这显然是浪费。更糟糕的是,当一道复杂的融合料理来临,你的固定流程可能根本没有设计处理它的步骤,整个厨房就会乱套。
AI的多智能体系统面临同样的问题。研究者发现,在这套系统里,至少有四个维度的决策同时交织在一起,缺一不可。第一个维度是任务类型——这道"菜"是简单的单文档查询,还是需要跨多个来源综合推理的复杂任务,抑或是系统从未见过的全新问题类型?第二个维度是技能协议——给智能体的"工作指导"是简洁回答、引用证据、严格验证,还是特定领域的专门处理方式?第三个维度是模型绑定——把任务分配给哪个AI模型?不同模型在能力、成本和速度上各有差异,就像厨师有高级大厨和学徒之分。第四个维度是协调拓扑——哪些环节要运行,按什么顺序,哪些步骤可以这次直接跳过?
这四个维度相互影响。换了一个模型,整个系统的行为可能就变了;调整了任务顺序,结果也会不一样。研究者把这称为"联合设计空间"——你不能只优化某一个维度,因为它们是一个整体。靠工程师的直觉或者一次性测试来手工设计这套配置,就像只凭厨师长的经验来应对每天变化莫测的菜单,迟早要出问题。
二、AgensFlow的核心构想:让协调决策变得可学习
AgensFlow的根本想法是:与其让人来写死这套流程,不如让系统从每次任务的实际结果中自己学习,逐渐形成"经验",下次遇到类似情况时做出更好的决定。这在技术上被称为"在线策略学习",通俗地说就是"边干边学"。
具体来说,系统每处理完一批任务,就会获得一个质量反馈分数。系统会把这个分数和"当时做了什么决定"对应起来记录下来。随着处理的任务越来越多,系统就慢慢知道了:对于某类任务,用某个特定组合(什么技能+什么模型+要不要跳过某个步骤)往往能得到更好的结果。这些经验被存储在一个叫做"策略图"的结构里,就像餐厅积累出来的一本活的菜谱经验手册,记录着不同情况下哪种做法最靠谱。
值得特别说明的是,系统并不会死记硬背每一道具体的菜,而是学会了归纳。比如,它会总结出"凡是需要跨多个来源对比分析的任务,记得让验证环节参与;而单文档的直接查询,验证环节可以跳过,省时省钱"。这种归纳能力意味着,即使来了一道系统没有完全见过的新菜,只要它的特征属于某个已知类别,系统就能做出合理的调度决定。
三、系统如何"读懂"一项任务
在深入了解学习机制之前,有必要理解系统是如何描述一项任务的。AgensFlow用一套叫做"折叠签名"的方法来刻画每个任务的特征,可以把它理解为给任务贴标签。
每个任务会被折叠成一组特征标签的组合。首先是"工况标签",描述这个任务属于哪种基本类型:是直截了当的(straightforward)、证据繁多需要综合的(evidence_heavy)、信息含糊的(ambiguous)、信息之间存在矛盾的(contradictory)、高风险需要格外谨慎的(high_risk),还是探索性的(exploratory)。
其次是"交接状态掩码",用七个开关记录任务处理到了哪个阶段:目标是否已明确、子问题是否已分解、证据是否已收集、是否已经有批评意见、是否已通过验证、是否已有初稿答案、是否已有最终综合答案。
第三部分是四个连续的"信念估计值":当前答案的预期正确程度、不确定程度、矛盾风险程度,以及证据充分程度。这四个数值会随着每个智能体的工作进展而不断更新——比如当查找资料的智能体找到了很多证据,证据充分程度就会上升;当批评智能体提出了质疑,矛盾风险程度就会升高。
这套签名的精妙之处在于,两个在内容上完全不同的任务,只要它们的签名相同,就可以共享学到的经验。比如一个关于网络安全的分析任务和一个关于分布式系统故障的任务,如果都属于"需要跨多文档对比、证据充分、矛盾风险中等"这个签名,那系统就会用同一套策略来处理它们。这正是系统能够泛化学习的基础。
四、系统可以做哪些动作
明确了如何描述任务之后,系统在每一个调度节点能做的选择有三大类。第一类是"召唤某个智能体用某个模型处理当前步骤",比如让规划智能体用经济型模型出一个子任务分解,或者让求解智能体用高能力模型生成详细答案。第二类是"跳过某个原本计划中的步骤",也就是那个关键的skip:X动作。第三类是"终止",不过这一类不是系统主动选的,而是当评估智能体认为任务完成、预算用完、没有合法动作可做、或者违反了治理规则时自动触发的。
在系统的配置里,求解环节有九种不同的变体,来自三种技能协议(简洁回答型、思维链型、证据引用型)与三种模型(haiku、fast、mini)的组合,此外还有规划智能体、记忆检索智能体、两种网络搜索工具、两种验证智能体和一个评估智能体。系统在每个节点都要从当前合法的动作里选一个执行,然后观察结果,更新状态,再做下一个决定。
跳过动作特别值得关注。在传统的固定流程里,每个步骤要么执行要么不执行,这是在设计系统时就写死的。而在AgensFlow里,"要不要跳过这一步"本身也是系统通过学习来决定的——如果历史数据表明某类任务跳过验证步骤并不影响质量,系统就会学会跳过它,节省时间和成本;如果跳过之后质量下降,系统就会学会保留这一步。这就把流程形状本身变成了一个可以优化的变量。
五、系统如何在经验中成长
每次任务完成后,系统会收到一个综合奖励分数,这个分数由三部分组成。质量得分占最大比重,由一个叫做RelativeJudge的评估模块给出,这个分数不是孤立打出来的,而是把同一类任务的多条处理轨迹放在一起横向比较,看哪条轨迹处理得更好,就像评委同时看到所有参赛选手的表演后再打分,而不是分开看完就打。质量得分之外,还有代币消耗成本的惩罚(消耗得越多,扣分越多)和失败重试次数的惩罚。
得到这个综合分数后,系统会把它"反推"回刚才做的每一个决策节点,告诉系统这次选择是好的还是差的。这个反推机制在技术上叫做UCB1算法的可靠性感知变体,通俗地说,就是一套"赏罚分明的经验积累规则"。
这套规则有几个特点。第一,对于系统还没怎么尝试过的选择,会主动去探索(给予更高的"尝鲜分"),就像新厨师愿意多尝试新做法一样。第二,随着某个选择被尝试的次数越来越多,这种探索倾向会逐渐降低,系统开始更多依赖积累的经验(探索系数从初始的1.4逐步衰减,大约75次之后稳定在0.5的下限)。第三,对于那些经常出错的选择(比如经常触发格式错误或执行失败),即使最终结果还算过得去,也会因为可靠性差而被扣分。这样的设计让系统在追求高质量的同时,也会本能地回避那些不稳定的选择。
积累下来的经验存储在策略图里。策略图是以任务签名为键的结构,每个(签名,动作)组合都记录着历史访问次数、平均奖励、奖励方差、代币使用统计和失败记录。任何人都可以打开这个图,看到系统在处理不同类型任务时偏好什么配置、成功率如何、失败点在哪里——这种透明性是系统设计的刻意追求,方便运维人员理解和干预系统的行为。
六、评估反馈的可靠性也是个问题
系统是否真的学到了正确的东西,取决于反馈分数本身是否准确。研究者专门为此设计了RelativeJudge模块,并引入了交叉评审机制来验证反馈信号的可靠性。
RelativeJudge的工作方式是将同类任务的多条处理轨迹放在一起,让评判模型按照明确的评分维度打分。这四个评分维度分别是目标达成程度、答案的证据支撑程度、协调质量,以及从错误中恢复的能力。最终分数是这四个维度的加权求和,权重可以根据实际需求调整。
更重要的是,系统不只依赖单一评判模型。在正式审计阶段,研究者采用了来自不同AI家族的三个模型同时打分(Anthropic的Claude Haiku 4.5、OpenAI的GPT-5.4 mini,以及Qwen3.6-flash),取平均值作为最终结果。三个评判者的分歧程度本身也会被记录下来,作为分数可信度的指标——分歧越大,这个分数的参考价值就越低,在策略更新时的权重也相应减小。
这种设计背后有一个重要的认识:AI系统打出的分数本身可能存在偏差。如果只用一个评判模型,而这个模型碰巧对某类回答风格特别偏爱,那系统学到的就不是真正好的调度策略,而是"如何哄好这一个评判者"。用多个来自不同背景的评判模型交叉审核,能有效减少这种偏差。
七、两个领域的实验验证
研究者在两套评估任务集上测试了AgensFlow。第一套是60个分布式系统故障分析任务,涉及Paxos和Raft等共识算法、逻辑时钟、流言传播协议、一致性哈希、故障检测等技术概念。第二套是60个合成安全建议任务,跨越六个虚构的软件供应商,测试系统在跨文档推理、修复方案正确性判断、证据综合和未见场景应对等方面的能力。这60个安全任务又被细分为八种场景类别:C1程序性任务、C2单文档任务、C3跨文档多供应商推理、C4综合分析、C5超出语料库的模糊情况、C6程序性衍生任务、C7修复方案正确性、C8跨供应商配对分析。
在安全建议任务上,研究者同时运行了四套方案进行对比。固定基线方案是一个七步固定流程,一次性运行,不做任何学习。禁用跳过的消融方案运行了八轮学习,但禁止了skip:X动作,强制每次都走完所有步骤。主方案同样运行八轮,启用了skip:X,从零开始冷启动学习。热启动方案也运行八轮,启用skip:X,但初始策略图直接用从分布式系统任务上学来的443个节点的经验来初始化,相当于带着跨领域的"前人经验"来处理安全任务。
实验结果在几个维度上都很清晰。从最终质量来看,经过学习的主方案在三评判者审计下得分为0.817,而固定基线只有0.749,提升幅度为0.068。热启动方案达到了0.829,比基线高0.080。禁用跳过的方案虽然单评判者分数有所改善(0.662对比基线的0.622),但代价是代币消耗几乎翻倍(25198对比基线的12960),而且由于实验没有对其进行三评判者审计,无法直接与其他方案做最终质量比较。主方案在代币消耗上仅比基线高出15%(14870对比12960),热启动方案甚至只高出3%(13371对比12960)。
按任务类别细看结果则更能说明问题。固定流程在程序性任务(C1)上表现本来就不错(得分0.848),学习方案在C1上反而微弱下降了0.042;在超出语料库的模糊情况(C5)上,学习方案也略低于基线(-0.024)。但在那些真正需要复杂协调的任务类别上,学习方案的优势非常明显:跨文档多供应商推理(C3)提升了0.181,跨供应商配对分析(C8)提升了0.156,修复方案正确性(C7)提升了0.131。这个结果说明,学习的价值主要体现在那些固定流程处理起来力不从心的复杂协调场景,而对于简单的程序性任务,固定流程本来就能应付,学不学习意义不大。
在模型选择行为上,系统也展现出了有意思的模式。默认的求解变体是思维链+Haiku的组合,但学习后的系统在八类场景中的七类都偏离了这个默认,在C1和C2上偏向了证据引用型变体,在C3、C4、C5、C6、C8上偏向了简洁回答型变体,只有在修复方案正确性(C7,答错代价最高)上继续使用了默认的思维链+Haiku组合。这表明系统并非简单地倾向于选更便宜的变体,而是根据每类任务的特点和风险来做有差异的选择。
八、从一个领域学到的经验,能用在另一个领域吗
热启动实验专门回答了这个问题:在分布式系统任务上积累的协调经验,能不能迁移到安全建议任务上?
从单一评判者的角度看,热启动方案在全部八轮中都优于冷启动方案,平台期(第6到8轮)质量高出0.052,全程平均高出0.055。但当三评判者审计出场后,这个质量优势大幅收窄——平台期只高出0.012,全程平均只高出0.003。
然而代币成本的差异是跨评判者稳定存在的:热启动方案在平台期少用了约10%的代币,在全程少用了约21%的代币。换句话说,热启动的主要价值不在于最终质量的大幅提升,而在于让系统更快找到高效的处理方式,减少了早期的探索成本。
这个发现同时揭示了一个重要的系统性问题:单一评判者给出的结论和三评判者审计的结论可能相差很大。这意味着,如果在学习过程中只依赖单一评判者的反馈,策略图积累的经验可能带有偏差,最终结果看起来不错但实际上并不可靠。研究者把这个结论推广到了更一般的层面:如果连一个精心设计的同类对比评判机制都可能产生这种偏差,那依靠工程直觉手工设计协调流程的偏差只会更大。评估信号的可靠性,本身就是协调系统设计的一部分,而不是可以后来再单独处理的问题。
九、冷启动阶段的动态学习过程
研究者还记录了主方案从零开始学习的完整过程,这个过程本身也很有说明价值。在学习初期,系统大量使用跳过动作,代币消耗迅速下降,但随即质量也出现了下降——系统跳过得太多,影响了处理效果。收到质量下降的反馈后,系统开始调整,减少了一些本不该跳过的步骤,质量随之回升。这个"激进压缩→质量下降→重新调整→质量稳定"的过程在图表中形成了明显的波动曲线,最终在第六轮前后进入平稳的高质量阶段。
这个过程证明了跳过动作的确在受奖励信号的调节,而不是随机跳过或者机械地固定跳过。系统确实在从反馈中学习如何更好地平衡效率和质量。
归根结底,这项研究提出的核心洞察可以用一句话来概括:在多智能体系统里,"哪套协调方式最好"这个问题没有固定答案,它取决于任务类型、当前状态和操作约束,而这些因素的组合空间大到人工直觉无法可靠地覆盖。AgensFlow给出的应对方案是:把这个问题变成一个可以边做边学、有迹可查、随时可审计的在线学习问题,而不是一次性由人设计好就再也不动的固定流程。
这对于实际构建AI系统的人来说意味着:选哪个模型并不是最重要的问题,如何根据任务特点动态安排多个模型和步骤的配合方式,才是决定系统整体表现的关键。而这套配合方式最好从实际任务的结果中学习,而不是从工程师的直觉中推断。系统的当前版本还只覆盖了线性加跳过的拓扑形式,并行执行、分层规划、多验证者协作等更复杂的结构形式都是有待探索的方向。奖励信号的设计和可靠性也需要在不同部署场景下继续检验。有兴趣深入了解这套框架设计细节和完整实验数据的读者,可以通过arXiv编号2605.27466查阅原论文。
Q&A
Q1:AgensFlow和AutoGen这类多智能体框架有什么本质区别?
A:AutoGen等框架让智能体通过自由对话来协调,协调决策和内容混在一起,很难复用和审计。AgensFlow则把协调决策单独提取出来,用结构化的签名和策略图记录,让系统可以从重复的任务中学习哪种配置更好,而不是每次都靠人工写死流程。
Q2:AgensFlow的skip:X跳过动作是怎么决定要不要跳的?
A:skip:X不是随机跳过,也不是预先设定哪些步骤可选。系统会根据历史任务的反馈结果来学习:如果某类任务跳过某个步骤后质量没有下降,系统就会倾向于跳过;如果跳过后质量明显下降,系统就会学会保留这一步。整个过程受UCB1算法驱动,平衡探索新选择和利用已有经验。
Q3:只用一个AI模型来评分会不会影响AgensFlow学到的策略?
A:会的,研究实验证明了这一点。用单一评判模型时,热启动方案看起来比冷启动方案在质量上有明显优势;但换成三个不同家族模型交叉评审后,这个质量差距大幅缩小,主要差别变成了代币消耗的减少。这说明单一评判者的分数可能带有偏差,依赖它来指导学习会让系统走偏,因此AgensFlow将多评判者交叉审计内置为系统的一部分。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。