微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

华为诺亚方舟实验室造出了一家"AI公司"：让一群不同血统的AI智能体，真正像公司员工一样协同工作

多智能体系统异构智能体协作组织级自进化

华为诺亚方舟实验室造出了一家"AI公司"：让一群不同血统的AI智能体，真正像公司员工一样协同工作

作者：科技行者

2026-05-05 15:18

分享至：

这项由华为诺亚方舟实验室、伦敦大学学院和利物浦大学联合完成的研究，提出了一个名为OneManCompany（OMC）的多智能体框架，于2026年4月以arXiv:2604.22446发布。OMC把真实公司的组织管理逻辑完整移植到AI系统中：用"Talent档案+Container工位"架构统一管理异构AI员工，用E?R树搜索实现有理论保障的动态任务拆解，并通过个人反思、项目复盘和HR绩效考核实现双层自进化。在PRDBench基准上，OMC以84.67%的成功率超越所有已知系统15个百分点以上。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-05 15:18 • 科技行者

这项由华为诺亚方舟实验室、伦敦大学学院和利物浦大学联合开展的研究，于2026年4月24日以预印本形式发布在arXiv平台，编号为arXiv:2604.22446v1，研究方向属于人工智能中的多智能体系统领域。有兴趣深入了解的读者可以通过该编号直接查询完整论文。

**一件让所有AI工程师头疼的事**

假设你是一家公司的老板，手下有几十个员工。有人擅长写代码，有人擅长画图，有人擅长写文案。你想做一个产品，需要这些人协同配合——前端工程师要等设计师出图，设计师要等产品经理定需求，所有人做完之后还需要一个质检员来验收。这听起来是再正常不过的公司运作方式，但在AI的世界里，这件事却出奇地难。

现有的多智能体AI系统有点像一个剧本早已写死的话剧团：演员（AI智能体）固定，剧情（工作流程）固定，每个角色只能照着剧本走，即便中途发现某个场景需要加一个新角色，也没有办法临时"招人"。更麻烦的是，不同"门派"出身的AI——比如谷歌系、Anthropic系、开源社区系——各自有各自的运行规范，彼此之间根本没法无缝沟通，就像一个说中文的员工和一个说英文的员工，连基本对话都困难。

研究团队把这个问题看得很透彻：问题的根源不在于单个AI不够聪明，而在于缺少一套真正的"组织管理层"。于是他们做了一件很有意思的事——把一家真实公司的运作逻辑，原封不动地搬进了AI系统，造出了一个叫做 **OneManCompany（简称OMC）** 的框架。

**一、从"工具箱"到"员工档案"：重新定义AI的身份**

现有的AI能力扩展方式，有点像给一把瑞士军刀加工具。你想让AI会搜索，就给它加个搜索插件；想让它会画图，就接入一个画图API。这些插件和工具，业内叫做"技能（Skills）"，每种技能就像军刀上的一个小刀片，只服务于拥有这把刀的那个AI本身，换一个AI就得重新配。

OMC的研究团队觉得，这种方式太局限了。他们提出了一个更高层次的概念——**Talent（人才包）**。

如果说技能是刀片，那Talent就是一份完整的员工档案。这份档案里包含了这个AI的角色定位（比如"软件工程师"或者"艺术设计师"）、工作原则、配备的工具清单、专属技能，以及行为准则。更关键的是，这份档案是"可移植的"——就像一个有丰富工作经验的人，不管去哪家公司，他的能力和经验都跟着他，不会因为换了办公室就变成另一个人。

与Talent配套的，是另一个概念——**Container（运行容器）**。如果Talent是员工本人，Container就是员工的工位和工作环境。OMC目前支持三种不同类型的"工位"：基于LangGraph的工位适合需要频繁调用工具的任务，基于Claude Code的工位适合长时间深度思考和编程的任务，还有基于脚本的轻量级工位适合简单快速的任务。三种工位规格不同，但都能接纳同一份Talent档案。这就实现了一个关键突破：同一个AI"员工"，可以被安置在不同类型的"工位"上工作，而不同血统的AI，也可以在同一个OMC框架下共存、协作。

把Talent和Container合在一起，就构成了一个完整的OMC "员工"。这个员工有编号、有档案、有工位、有绩效记录，从入职到离职，整个生命周期都被系统管理着。

为了让这套接口体系更严格，Container被设计成必须提供六个标准化的"组织接口"，就像公司要求所有员工都必须遵守相同的入职流程、汇报格式和沟通规范一样。这六个接口分别负责：执行任务并返回结果、管理每个员工的任务队列（同一时间只能处理一项任务，不能同时开工）、在组织内部发布和接收事件通知、读写持久化的记忆存储、在执行任务前组装好完整的上下文（包括角色定位、工作原则、历史记忆）、以及在任务前后执行检查和自我优化的钩子程序。这六个接口的设计，研究者自己也坦言，和操作系统内核的六大子系统高度对应——进程管理、内存管理、文件系统、I/O管理、进程间通信、安全审计——这套设计哲学已经在计算机科学领域被验证了几十年。

**二、公司不自己造员工，而是去市场上招人：数字人才市场**

一家真实的公司不会把所有员工都从头培训，更常见的做法是去劳动力市场招募已经具备相应技能的专业人才。OMC也遵循了这个逻辑，搭建了一个配套的**Talent Market（人才市场）**。

这个市场里有三类"候选人"来源。第一类是来自成熟开源社区的现成agent实现，这些都是经过社区验证、有实际使用记录的agent，打包成标准Talent格式后上架。第二类是从一个叫做Agency-Agents的项目中提取的140多个专业角色定义，这些角色定义详细描述了工作原则和交付标准，但本身没有配工具；OMC的系统会自动去另一个叫SkillsMP的技能市场里，根据角色需求检索并组装配套工具，变成完整的可部署Talent。第三类则是完全动态组装的——当某个领域既没有现成的实现，又没有合适的角色定义时，HR agent会根据任务需求描述，直接从SkillsMP里搜索合适的技能片段，从零拼装出一个全新的Talent，作为冷启动的兜底方案。

当一个项目需要某种当前团队不具备的能力时，HR agent会主动查询Talent Market，按技能匹配度和社区评分生成一份候选推荐列表，提交给CEO（也就是人类用户）审批。CEO选定之后，系统自动为这个新"员工"配置工位、分配工具权限、注册到组织架构里——全程无需人工操作。这个过程，和现实中HR部门从猎头平台筛选候选人、入职后IT部门配发电脑权限、行政部门分配工位，几乎是一模一样的。

**三、公司怎么承接项目？一套有理论保障的任务拆解机制**

一个大型项目摆在面前，怎么拆？拆成几个部分？谁来做哪部分？如果某人做出来的东西不过关，怎么办？这些问题，在现实公司里靠经验和制度来解决，在OMC里，有一套叫做 **E?R树搜索（Explore-Execute-Review）** 的机制来处理。

E?R的灵感来自棋类游戏中的蒙特卡洛树搜索，但它处理的不是棋局，而是真实的工作任务。整体逻辑是这样运转的：

先说**探索阶段（Explore）**。当一个任务节点需要被拆解时，负责该节点的AI"主管"（比如COO或资深员工）会根据当前的组织状态、员工档案和历史绩效，决定如何拆分子任务，以及把每个子任务分配给谁。这个过程天然面临"用熟手还是试新人"的权衡——选绩效好的老员工更稳妥，但尝试新员工或者招募新人或许能发现惊喜。

再说**执行阶段（Execute）**。每个被分配了任务的员工通过组织接口开始工作，调用自己的工具和技能，产出结果。执行本身对组织层来说是个"黑盒"——不管里面用了什么模型、什么推理策略，外层只关心输入和输出。

最后是**评审阶段（Review）**。任务完成后，由该节点的"父级"主管（或COO）来评审结果，给出"通过"或"不通过"的判断。如果通过，结果会解锁下游依赖这个任务的其他任务；如果不通过，系统会回到探索阶段，用失败的上下文信息作为参考，重新拆解这个子任务或者换人重做。

整个项目被组织成一棵动态生长的树形结构，树的节点是任务，树的边是父子关系（谁拆了谁）和依赖关系（谁等谁）。依赖关系构成的图必须是无环的（就像施工顺序不能出现循环依赖），这个约束在每次添加新任务时都会自动检查。

为了防止系统"卡死"，OMC设计了三个保险开关：如果一个子任务被评审拒绝超过3次，就上报给更高层主管处理；如果一个任务执行超过3600秒，直接标记为失败；如果整体消耗超过预算上限，暂停执行等待人工介入。

从理论角度，OMC提供了七条形式化保证：任务图永远是无环的、每个员工同时只处理一个任务、任务不会被重复执行（崩溃恢复后也不会）、每个节点最多被评审固定次数后强制上报、取消一个任务会传导取消所有依赖它的下游任务、每次任务状态变更都会触发依赖检查避免遗漏、系统崩溃恢复后能从一致状态继续执行。这七条保证，解决了现有多智能体系统最头疼的"任务悄悄卡住没人知道"的问题。

每个任务节点在生命周期中会经历一系列状态变迁：从等待分配（Pending）、执行中（Processing）、因依赖未满足而搁置（Holding）、已完成等待评审（Completed）、评审通过（Accepted）、最终结束（Finished），以及可能的失败（Failed）、被取消（Cancelled）等状态。其中，"已完成"到"评审通过"之间的这一步必须经过主管明确审核，不能自动跳过——这条设计阻止了"AI自说自话、把错误结果当成功结果传下去"的常见问题。

**四、公司怎么越做越好？个人成长与组织学习的双轨机制**

一家只会干活不会学习的公司，很快就会被淘汰。OMC在这一点上的设计，和现实公司的人才培养体系惊人地相似。

**个人层面**，每个AI员工都维护一份持续更新的"成长档案"，包含跨任务的进度日志和经过AI总结提炼的工作原则。有两个场景会触发员工的自我反思：一是CEO和该员工进行"一对一谈话"（CEO通过界面直接给员工发反馈），员工会据此梳理自己的行为偏差并更新工作原则；二是每次任务完成后，员工会回顾自己的决策轨迹、工具使用情况和遇到的障碍，写一条经验总结追加到成长日志里。这些更新不会修改底层大语言模型的权重，只是修改Talent档案中的工作原则文本——相当于员工自己在日记本上记下新的心得，下次接任务时带着这份心得去做，而不需要"重新上学"。

**组织层面**，每个项目结束后，COO会召集一次正式的"项目复盘"。参与项目的每个员工提交自评，COO汇总这些自评，再结合任务重试次数、评审被拒原因、资源消耗等客观数据，提炼出两类输出：一是针对每个员工的个人反馈（更新他们的工作原则），二是组织级别的标准操作程序（SOP）——比如"前后端集成之前必须先确认API接口规范"这样的组织规律。这些SOP会以文档形式持久存储，在后续项目中自动注入到相关员工的上下文里，确保组织知识不只停留在某个员工的记忆里，而是真正成为公司的"制度记忆"。

**HR绩效管理**方面，每完成三个项目，HR agent会自动对参与员工展开一次绩效评估，考察任务完成质量、评审通过率和协作效果。连续三次绩效不达标的员工会进入"绩效改进计划（PIP）"，在更密集的辅导和监督下工作；如果PIP期间再次不达标，系统会触发自动"离职"流程——注销该员工的Container、释放工位，并将能力缺口标记为需要重新招募。

研究团队自己指出，这套HR生命周期管理机制在现有AI agent研究中没有先例——把"绩效考核、改进计划、自动解雇"这套人力资源管理逻辑完整地移植到AI系统里。

**五、实验结果：真实战绩说话**

研究团队选用了PRDBench作为定量评测基准。这是一个模拟真实软件开发场景的基准测试，包含50个项目级任务，横跨20多个不同领域，每个任务有一份完整的产品需求文档（PRD），配套了详细的测试计划和可执行的评测脚本。这个基准测试的特点是不考核孤立的代码片段，而是考核从理解需求、拆分任务、实现功能、到满足验收条件的完整项目能力。

OMC的具体配置是：一个基于Gemini 2.1 Flash Lite Preview的LangGraph agent作为"创始团队"成员，加上从Talent Market招募的三位专职员工——一位基于Claude Code和superpowers插件的软件工程师、一位来自agency-agents项目的软件架构师、一位同样来自agency-agents项目的代码评审员。测试采用单次零样本设置，每个任务只提交一次PRD，不允许中间反馈或人工干预。

最终结果是OMC以**84.67%的成功率**高居榜首，比排名第二的Claude-4.5（69.19%）高出15.48个百分点，比GPT-5.2（62.49%）高出22个百分点，更远超Claude Code独立模式（56.65%）和其他各类商业及开源模型。50个任务的总花费为345.59美元，折合每个任务约6.91美元，成本来自多智能体协调的额外开销——但其他baseline系统的成本数据未被原始论文报告，所以直接的成本效率比较无法进行。

研究者分析，这个成绩背后有三个关键因素：任务树在执行过程中能根据中间结果动态调整，而不是死守最初的计划；"已完成→评审通过"这个强制门控阻止了错误结果向下游传播；Container与Talent的分离让系统可以在同一个项目里调用不同家族的AI，给不同子任务匹配最合适的工具。

**六、四个真实案例：不只会写代码**

除了PRDBench的量化成绩，研究团队还展示了四个跨领域的应用案例，来证明OMC的组织框架不依赖特定领域。

第一个案例是**内容生成**。CEO输入一句话："帮我组建一个搜索-写作团队，生成过去一周GitHub上最热门的AI Agent仓库周报，包含真实链接，完成后发邮件给我。"系统随即招募了一位GPT-4o驱动的研究员和一位Claude Sonnet 4驱动的撰稿人，研究员负责从GitHub采集真实数据，撰稿人负责写报告并发送邮件。整个流程耗时不到10分钟，总花费约4.48美元。研究团队事后人工核实了报告中所有仓库链接和星标数，全部属实。

第二个案例是**游戏开发**。CEO要求开发一款具有精良视觉效果的街机格斗网页游戏。系统招募了Claude Sonnet 4驱动的游戏开发者和Gemini 2.5驱动的美术设计师。美术设计师先生成角色动作帧（待机、行走、踢击、受击），游戏开发者等待素材就绪后集成到代码里。第一版完成后发送给外部人类评测员，评测员发现精灵图（sprite sheet）的帧切割有问题，反馈回系统。COO和EA商议后，没有打补丁了事，而是给美术设计师创建了一个新技能——用程序自动切割精灵图帧。有了这个新技能，美术设计师重新处理了所有素材，游戏开发者再次集成，最终通过评审。这个案例展示了OMC在外部反馈驱动下自主扩展自身能力的过程。

第三个案例是**有声读物制作**。CEO要求用动物角色重新演绎《浴血黑帮》第一、二集，每集生成8张场景插图，配英语配音，最终剪辑成视频。系统招募了一位小说撰稿人（负责改编剧本）和一位基于Gemini 3.1 Pro的AV制作人（负责图像生成、语音合成、视频剪辑）。两者通过共享任务树协作，分两个阶段完成项目：先写脚本，再逐场景生产素材并组装。最终产出16张场景图、16条配音、背景音乐和两段完整视频，总花费仅1.57美元。

第四个案例是**自动化学术调研**。CEO提交一句话："调研2021-2026年间'具身智能与机器人世界模型'这一课题，生成详细思维导图，并提出三个可行的研究方向。"系统招募了两位Claude Sonnet 4.6驱动的研究科学家和一位自托管AI工程师。三人并行工作：一人搭建调研框架和初始论文清单（35篇种子论文），一人精读17篇论文并归纳8个开放问题与11种失效模式，一人评估28个系统的部署就绪度。Phase 2中，团队产出了纳入协议文件、931行文献综述框架，以及三个基于失效模式分析的具体研究方向。整个过程不足一小时，花费16.26美元，产出17份结构化文档和一张涵盖6大主题约70个节点的思维导图。研究团队人工验证了引用论文的真实性，并对其中第三个研究方向（将元学习与保形预测结合用于仿真到真实场景的迁移）评价为具有真实创新性。

**七、与同类系统的对比：差距在哪里**

研究团队把OMC和八类代表性系统做了结构性对比，包括MetaGPT、ChatDev、AutoGen、LangGraph、CrewAI、OpenHands、AIOS、AgentScope和Paperclip。对比维度涵盖设计范式、执行模型、智能体与平台的交互契约、状态管理方式、是否支持异构后端、智能体来源，以及个体自进化和组织级进化能力。

对比结果显示，现有所有系统中没有任何一个同时具备以下三点：支持多种异构执行后端共存、提供可证明终止性和无死锁的动态任务分解机制，以及同时实现个体和组织两个层面的持久化自我进化。OMC在这三个维度上都给出了正向答案。

Paperclip是相对接近的系统，它也支持多家族智能体混合和人工战略导演角色，但没有"创始团队"用于冷启动，更没有结构化的绩效管理机制——研究团队认为Paperclip的角色是靠描述性提示词定义的，不如OMC的Talent合约机制可靠。

**八、坦诚面对局限**

研究团队在论文中直接指出了两个尚待解决的问题。

定量评测目前只在PRDBench这一个基准上进行，而PRDBench本质上还是软件开发任务，虽然案例研究证明了跨领域能力，但在非编程类任务上的系统性评估还缺失。

自进化机制（一对一谈话、项目复盘、绩效考核）已经在系统中实现并上线，但每个机制对最终成绩贡献多少，目前没有做过消融实验，需要跨越多个项目的纵向研究才能量化。

成本方面，多智能体协调带来了显著的额外开销——每个PRDBench任务约6.91美元，远高于单一模型直接做的成本。研究团队为此引入了"自适应分发模式"：CEO可以选择把简单任务路由给单个agent，只在任务复杂度超过阈值时才启动完整的多智能体流程。

---

归根结底，这项研究做的事情是把一个几千年来经过人类反复验证的管理智慧——如何让一群能力不同的人协同完成复杂目标——翻译成了AI系统能理解和执行的语言。当你的公司有HR负责招聘、有COO负责统筹、有一对一谈话来帮员工成长、有项目复盘来提炼经验，整个组织就能越来越好。OMC的核心发现是：这套逻辑对AI同样成立。

对普通人而言，这意味着未来使用AI工具的门槛可能会进一步降低——你不需要知道哪个模型最适合哪种任务，也不需要手动编排工作流程，只需要像真正的老板一样说一句"帮我做这件事"，后面的招聘、分工、协调、检查、优化，都可以交给这套组织机制去完成。

当然，从实验室到真正落地还有很长的路。成本控制、非编程场景的普适性、组织自进化的量化证明……这些都是接下来需要回答的问题。有兴趣深入探索的读者，可以通过arXiv编号2604.22446查阅完整论文，也可以访问项目主页 one-man-company.com 或代码仓库体验这套系统的实际运作。

---

**Q&A**

Q1：OneManCompany框架中的Talent和普通的AI技能插件有什么区别？

A：普通AI技能插件就像给一个工具加功能，只对拥有它的那个AI有效，换一个AI就得重新配。Talent则是一份完整的员工档案，包含角色定位、工作原则、工具清单和技能组合，可以在不同运行环境之间移植，不会因为换了"工位"就失效。简单说，技能是刀片，Talent是整个人。

Q2：E?R树搜索是怎么保证任务不会卡死或无限循环的？

A：OMC设计了三个保险机制：同一个子任务被评审拒绝超过3次就强制上报给更高层；单个任务执行超过3600秒直接标记失败；总消耗超出预算则暂停等待人工处理。同时，每个任务节点都有一套状态机来追踪当前所处阶段，任务依赖图在每次添加时都会检查是否成环，从根源上避免循环依赖导致的死锁。

Q3：OneManCompany在PRDBench上比Claude Code单独使用高出这么多，主要靠什么？

A：主要有三个原因。第一，任务树是动态的，可以根据中间结果调整分解方案，而不是一开始就把路线写死。第二，每个子任务完成后必须经过主管明确审核才能解锁下游任务，阻止了错误结果在系统内扩散。第三，框架允许同一个项目里混用不同家族的AI，可以把最适合的工具分配给最对口的子任务，而不是强迫所有任务都用同一个模型。

多智能体系统异构智能体协作组织级自进化

分享至