
这项由亚马逊和加州大学伯克利分校联合开展的突破性研究发表于2026年3月25日,论文编号为arXiv:2603.22359v1。研究团队提出了一个名为"STEM Agent"的全新AI智能体架构,这个名字代表着"自适应、工具使能、可扩展、多智能体系统"。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。
传统的AI智能体就像一台只能执行固定程序的机器,一旦设计完成就很难改变。但这项研究彻底颠覆了这种思路,他们从生物学中汲取灵感,设计出了一种能够像干细胞一样"自我分化"的AI系统。
在生物学中,干细胞最神奇的地方在于它既是一张"白纸",又拥有分化成任何类型细胞的潜能。当身体需要心脏细胞时,它就变成心脏细胞;当需要神经细胞时,它就变成神经细胞。研究团队将这种生物学原理应用到AI智能体设计中,创造出了一个"未分化"的核心系统,这个核心可以根据不同的任务需求和用户习惯,动态地"分化"成各种专门化的功能模块。
目前市面上的AI智能体框架都存在一个严重问题,研究团队称之为"架构锁定"。这就好比你买了一台只能播放DVD的播放器,后来想播放蓝光光盘却发现完全不兼容,必须重新买一台设备。现有的AI智能体一旦选择了某种特定的交互协议或工具集成方式,就很难适应其他的工作环境或用户需求。
为了解决这个问题,STEM Agent采用了一种全新的五层架构设计。最底层是基础设施层,就像房屋的地基;往上是MCP集成层,负责连接各种外部工具;中间是记忆系统,存储和管理智能体的经验;核心是智能体大脑,处理思考和决策;最顶层是标准接口层,负责与用户和其他系统沟通。
一、多协议互操作能力:打破沟通壁垒
在现实世界中,不同的AI系统使用着完全不同的"语言"来互相交流,就像一群来自不同国家的人试图合作,但彼此说着不同的方言。STEM Agent的第一个重大突破就是成为了一个"超级翻译官",能够同时掌握五种不同的通信协议。
传统上,每个AI智能体框架只能使用一种特定的通信方式。这就好比一个人只会说英语,遇到说中文的人就完全无法交流。而STEM Agent就像是一个精通多国语言的外交官,可以在同一个系统中同时处理五种不同的通信协议。
第一种是A2A协议,专门用于智能体之间的直接对话。当两个AI系统需要合作完成任务时,它们可以通过这种协议交换任务信息、分享工作进度,就像两个同事通过即时通讯软件协调工作一样。
第二种是AG-UI协议,这是一种实时的用户界面流协议。你可以把它想象成一个实时的工作进度条,当AI在思考问题时,用户可以看到它正在经历哪些思维步骤,是在分析问题、调用工具,还是在生成回答。这种透明度让用户能够更好地理解AI的工作过程。
第三种是A2UI协议,用于动态生成用户界面。这就像是AI可以根据当前任务的需要,临时搭建一个专门的操作界面。比如当用户询问天气信息时,系统可能会生成一个包含温度图表和天气图标的界面;当用户需要填写表单时,系统会动态创建相应的输入框和按钮。
第四和第五种协议是这项研究的全新贡献:UCP通用商务协议和AP2智能体支付协议。UCP协议让AI智能体能够处理商务交易,包括创建购物会话、管理购物车和处理订单。AP2协议则进一步支持基于授权的自动付款,AI可以在用户预设的权限范围内自动完成付款操作。
这种多协议支持的威力在于打破了不同AI系统之间的壁垒。以往,如果你想让来自不同公司的AI智能体协同工作,就像试图让不同品牌的电器用一个遥控器控制一样困难。现在,STEM Agent就像是一个万能适配器,可以让原本无法互通的系统实现无缝协作。
二、智能化用户画像系统:越用越懂你
STEM Agent的第二个重大创新是它的"调用者画像系统",这个系统就像一个非常细心的私人助理,会默默观察和记住每个用户的工作习惯和偏好,然后据此调整自己的行为方式。
传统的AI系统对待每个用户都是一模一样的,就像一个刻板的服务员,不管面对什么客人都用同样的语调说同样的话。但每个人的工作习惯、交流风格和需求偏好都是不同的。有些人喜欢简洁明了的回答,有些人希望看到详细的分析过程;有些人偏好保守稳妥的建议,有些人愿意尝试创新方案。
STEM Agent的用户画像系统会从四个维度来了解每个用户。第一个维度是哲学层面的偏好,比如这个用户是更注重实用性还是更看重创新性,是风险厌恶型还是风险偏好型。第二个维度是工作原则,比如用户是更重视准确性还是更看重速度,是否特别关注安全性要求。第三个维度是沟通风格,包括用户偏好的正式程度、详细程度和技术深度。第四个维度是行为习惯,比如用户通常在什么时间段工作,喜欢一次性完成任务还是分步骤迭代。
这个系统采用了一种叫做"指数移动平均"的学习机制。你可以把它想象成一个会学习的秤,它不仅记住你最近的行为模式,也会保留对你历史习惯的记忆,然后在这两者之间找到最合适的平衡点。每次用户与系统交互时,系统都会提取当前交互中的信号,然后用这些新信号更新用户画像,但更新的幅度会根据系统对该用户的了解程度来调节。
特别有趣的是,系统还引入了"置信度门控"机制。当系统对某个用户还不够了解时(交互次数少于5次),它会更多地依赖当前对话中的信号来判断用户需求。随着交互次数增加,系统会逐渐增加对历史学习到的用户画像的信任度,形成更稳定和准确的个性化服务。
这种个性化学习的效果是显著的。同样是问"明天的天气怎么样",对于一个习惯简洁交流的用户,系统可能直接回答"明天多云,16-22度";而对于一个喜欢详细信息的用户,系统可能会提供"明天多云转晴,气温16-22摄氏度,湿度65%,微风2-3级,建议穿薄外套,适合户外活动"。
三、动态工具集成:像乐高积木一样灵活组装
传统的AI智能体就像一个功能固定的瑞士军刀,虽然集成了多种工具,但这些工具都是在设计时就确定好的,无法根据新的需求添加或更换。STEM Agent采用了一种革命性的工具集成方式,让AI能够像玩乐高积木一样,根据任务需要动态地"拼装"各种功能模块。
这种灵活性的核心在于采用了模型上下文协议(MCP)。你可以把MCP想象成一个标准化的插座系统,任何遵循这个标准的工具都可以轻松地"插入"到AI系统中。就像你可以在同一个电源插座上使用不同品牌的电器一样,STEM Agent可以动态地连接和使用各种外部工具和服务。
当AI需要查询数据库时,它会通过MCP连接相应的数据库工具;当需要进行文件操作时,它会调用文件管理工具;当需要发送邮件时,它会接入邮件服务。这些工具的加载是完全动态的,系统启动时会自动发现可用的工具,然后根据任务需求选择合适的工具组合。
更重要的是,STEM Agent将领域知识和推理能力进行了清晰的分离。AI的核心推理能力(如何思考、如何制定计划、如何解决问题)保留在系统内部,而具体的领域知识和操作能力(如何操作特定的软件、如何访问特定的数据库)则通过MCP协议外部化。这就像是将"思维能力"和"专业技能"分开,思维能力是AI的内在特质,而专业技能可以根据需要随时学习和获得。
这种设计带来了巨大的灵活性优势。当一个新的工具或服务出现时,只要它遵循MCP协议,就可以立即被AI系统识别和使用,无需修改AI的核心代码。这就像是为AI提供了一个可以无限扩展的工具箱,随着可用工具的增加,AI的能力也会相应增强。
四、认知处理管道:模拟人类思维过程
STEM Agent的核心是一个精密设计的八步认知处理管道,这个管道模拟了人类解决问题时的思维过程。就像一个经验丰富的专家在面对复杂问题时会有条不紊地分析、思考、规划和执行一样,STEM Agent也遵循着类似的认知流程。
整个处理过程从"感知"阶段开始。当收到用户的问题或任务时,系统首先要理解这个任务的本质:这是一个什么类型的问题?复杂程度如何?需要哪些信息才能解决?系统会将意图分类到10个不同的类别中,并根据词汇数量、实体密度和代码存在等因素评估复杂程度。
接下来是"适应"阶段,系统会加载该用户的学习画像,根据用户的偏好和习惯调整自己的行为参数。这就像一个好的顾问在提供建议之前,会先回忆这个客户的性格特点和以往的偏好一样。
第三步是"技能匹配"阶段,系统会检查是否已经掌握了解决类似问题的成熟技能。如果找到了合适的已有技能,系统可以直接使用这个技能的预设方案,大大提高处理效率。这就像一个经验丰富的医生在诊断常见病症时可以快速给出标准治疗方案一样。
如果没有现成的技能可用,系统会进入"策略选择"阶段。根据任务的特点,系统会从四种不同的推理策略中选择最合适的一种:对于需要使用工具的任务,采用ReAct策略(推理-行动循环);对于复杂问题,使用反思策略,让AI反复检视自己的推理过程;对于分析性和创意性任务,采用内部辩论策略,让AI从多个角度思考问题;对于一般性任务,使用思维链策略,按步骤推理。
确定推理策略后,系统进入"规划"阶段,选择需要的工具并构建执行计划。这个计划会考虑任务之间的依赖关系,尽可能地安排并行执行以提高效率。
"执行"阶段负责协调各种工具调用,处理失败重试和断路保护。如果某个步骤失败,系统会自动重试,如果连续失败达到阈值,会触发重新规划。
处理完成后,系统会根据用户的偏好对结果进行"格式化",确保输出符合用户的交流习惯和详细程度要求。
最后是异步的"学习"阶段,系统会更新用户画像,记录技能激活的结果,并尝试从积累的经验中提炼出新的技能模式。
五、生物启发的技能获取机制:让AI自己学会新技能
STEM Agent最令人震撼的创新之一是它的技能获取机制,这个机制完全模拟了生物细胞的分化过程。在生物学中,细胞分化是指一个未分化的细胞逐渐特化为具有特定功能的细胞的过程。研究团队将这个概念巧妙地应用到了AI的技能学习上。
在这个系统中,每当AI遇到反复出现的任务模式时,这些模式就像是细胞分化的"信号分子"。当系统检测到某种行为模式在多次交互中重复出现,并且这种模式具有一定的成功率时,就会"结晶"出一个新的技能。这个过程就像干细胞在接收到特定信号后开始向某种特定细胞类型分化一样。
新生成的技能并不会立即投入使用,而是要经历一个类似细胞成熟的发展过程。技能从"祖细胞"状态开始,这时它只是一个潜在的能力,系统会观察但不会依赖它。当这个技能被成功激活3次且成功率超过60%时,它就进入"已承诺"状态,这时系统开始信任这个技能,可以在遇到相似情况时直接跳过复杂的推理和规划过程,直接使用这个技能的预设方案。
如果技能继续表现良好,成功激活达到10次后,它就会达到"成熟"状态,获得最高的匹配优先级。但如果一个技能在10次激活中成功率低于30%,系统会启动"凋亡"机制,将这个不可靠的技能从系统中清除。
这种机制的妙处在于它完全是自发的。AI不需要人工预设所有可能的技能,也不需要程序员手动编写每一种处理方案。相反,AI会在与用户的交互过程中自然地识别出有效的行为模式,然后将这些模式固化为可重用的技能。这就像一个工匠在长期实践中总结出各种高效的工作技巧,然后在类似情况下自动应用这些技巧一样。
当然,系统也支持手动技能注册,就像生物学中的"诱导分化"一样。用户或开发者可以直接向系统添加特定的技能插件,绕过自然结晶过程。但自动技能获取机制的存在意味着AI具备了真正的自主学习和适应能力。
六、四层记忆系统:构建AI的长期记忆
人类的记忆系统非常复杂,包括短期记忆、长期记忆、程序性记忆等不同类型。STEM Agent借鉴了这种生物学设计,构建了一个四层的记忆系统,让AI能够像人类一样积累经验、提取模式、形成直觉。
第一层是"情节记忆",就像人类对特定事件的详细回忆。系统会存储每一次完整的交互过程,包括用户的问题、AI的思考过程、使用的工具、最终的结果以及用户的反馈。每个情节都被赋予一个重要性评分,重要的交互会被长期保留,而日常的简单交互可能会随时间淡化。系统使用向量嵌入技术来组织这些记忆,使得AI可以通过相似性搜索快速找到相关的历史经验。
第二层是"语义记忆",对应人类的知识性记忆。系统会从情节记忆中提取抽象的知识模式,形成"主语-谓语-宾语"的知识三元组。比如从多次天气查询的经验中,系统可能会提取出"用户在出行前通常会询问天气"这样的模式。这些知识具有置信度和版本信息,随着更多证据的积累会不断更新和完善。
第三层是"程序性记忆",就像人类的技能和习惯。系统会记录成功的策略和工具使用模式,包括在什么情况下使用哪些工具最有效、哪些参数设置能够获得最好的结果等。这种记忆类型支持最佳实践的匹配,当遇到相似任务时,AI可以快速调用已经验证过的高效方法。
第四层是"用户上下文记忆",专门存储每个用户的个人信息、会话历史和个性化偏好。这层记忆支持GDPR的"被遗忘权",用户可以要求删除自己的相关数据。
系统还设计了智能的记忆整合机制。随着交互次数的增加,系统会定期进行记忆整理:删除过时的情节记忆,将重复的语义知识去重,提取新的程序性模式。这种整合机制确保记忆系统的增长是亚线性的,即使在长期使用后也不会因为记忆过载而影响性能。
七、十个自调节行为参数:精细化的个性定制
STEM Agent具备十个可以连续调节的行为参数,这些参数就像一个高级音响设备的均衡器,可以根据任务特性和用户偏好进行精细调节。
推理深度参数控制AI思考问题的仔细程度,默认值是3层深度。当面对简单问题时,系统可能只进行浅层分析;当遇到复杂问题时,会进行更深入的多层次推理。探索与利用平衡参数决定AI是选择已知的可靠方法还是尝试新的创新方案,默认值0.3表示更偏向于使用已验证的方法。
详细程度参数影响回答的丰富度,从简洁的要点总结到详细的分步说明都可以调节。置信度阈值参数设定AI对自己答案确信程度的标准,高阈值意味着AI只有在非常确定时才会给出答案。
工具使用偏好参数平衡AI自主推理和依赖外部工具的倾向。创造性参数影响AI在生成解决方案时的新颖程度,保守设置会产生常规答案,而高创造性设置可能产生更有想象力的方案。
主动建议参数控制AI是否会主动提供额外的相关建议,而不仅仅回答用户的直接问题。自我反思频率参数决定AI多长时间检查一次自己的推理过程,默认每5个步骤进行一次反思。
最大计划步骤参数限制AI生成的执行计划的复杂度,防止过于复杂的计划导致执行困难。记忆检索广度参数控制AI在寻找相关历史经验时搜索的范围大小。
这些参数会在每次交互中根据任务特征和用户画像进行动态调整。比如对于一个偏好详细分析的用户,详细程度参数会自动调高;对于喜欢创新方案的用户,创造性参数会相应增加。这种自适应调节让每个用户都能获得最符合自己需求的交互体验。
八、全面测试验证:413项测试确保系统可靠性
为了验证STEM Agent的可靠性和正确性,研究团队开发了一套极为全面的测试体系,包含413项不同的测试用例,覆盖系统的每一个组件和功能。整个测试套件可以在不到3秒的时间内完成,并保持100%的通过率。
测试范围包括各个认知引擎的单元测试,验证感知、推理、规划和执行引擎是否正确工作。协议处理器集成测试确保A2A JSON-RPC协议的合规性、AG-UI事件序列的正确性、UCP幂等性要求的满足,以及AP2审计跟踪的完整性。
记忆系统测试验证四种不同记忆类型的存储和检索功能,确保记忆整合机制正常工作。MCP集成测试检查动态工具发现、工具调用和错误处理机制。安全中间件测试验证身份验证、授权和速率限制功能的正确性。
框架适配器测试确保与AutoGen、CrewAI、LangGraph和OpenAI智能体SDK的兼容性。网关端到端测试验证整个请求处理流程的完整性。
虽然测试数量本身不能完全保证系统的正确性,但这种全面的测试覆盖为系统各组件之间的集成提供了信心保证。特别是跨越五个架构层的集成测试,确保了不同组件之间的协调工作。
研究团队还进行了架构开销分析,发现每个协议处理器只是在共享的认知管道上添加了一层薄薄的路由和序列化层。由于所有处理器都委托给同一个智能体核心管道,协议特定的开销主要来自序列化和中间件遍历,而不是计算密集的推理过程。
九、与现有框架的对比优势
通过与现有主流AI智能体框架的对比,STEM Agent在多个维度上展现出显著优势。AutoGen、MetaGPT、CrewAI和LangChain等现有框架通常只支持一种标准化的互操作协议,而STEM Agent同时支持五种协议,其中包括两种全新提出的商务相关协议。
在个性化适应方面,现有框架基本上对所有用户采用相同的行为模式,缺乏学习和适应用户偏好的能力。STEM Agent通过多维度的用户画像系统实现了真正的个性化服务。
记忆系统的设计也体现出明显差异。大多数现有框架只有基础的对话历史记录功能,最多支持一到两种记忆类型。STEM Agent的四层记忆系统提供了更全面和智能的经验积累机制。
在技能获取方面,传统框架完全依赖预编程的功能模块,无法根据使用经验自主学习新技能。STEM Agent的生物启发技能获取机制让AI具备了真正的自主学习能力。
商务功能支持是STEM Agent独有的优势。UCP和AP2协议让AI智能体可以直接参与商务交易流程,这在传统框架中是完全空白的领域。
十、技术实现细节与架构创新
STEM Agent采用TypeScript单一代码库的实现方式,包含六个工作空间包:共享类型定义、智能体核心、标准接口层、MCP集成、记忆系统和调用者层。整个系统基于Express.js 5构建,每个协议处理器通过可插拔的createRouter模式挂载。
网关架构的设计特别巧妙,每个协议处理器都实现一个createRouter方法,返回Express.js路由器。网关将所有路由器挂载到共享的中间件上,包括身份验证、速率限制、请求关联和错误处理。添加新协议只需要实现相应的处理器并挂载其路由器,无需修改现有代码。
系统还包含四个框架适配器,可以将AutoGen、CrewAI、LangGraph和OpenAI智能体SDK的外部约定转换为STEM Agent的内部格式,确保与现有生态系统的兼容性。
在基础设施方面,系统依赖PostgreSQL 17配合pgvector扩展作为关系数据库和向量存储,Redis 7用于会话缓存,Anthropic Claude系列模型提供LLM能力,OpenAI嵌入模型用于向量化文本。
部署通过Docker Compose实现,包含三个核心服务和开发环境下的pgAdmin管理界面。系统支持成本防护和分层模型选择,根据任务复杂度自动选择合适的模型:Haiku用于感知任务,Sonnet用于一般推理,Opus用于复杂推理。
说到底,STEM Agent代表了AI智能体架构设计的一次重大突破。通过借鉴生物学的干细胞分化原理,研究团队创造出了一个真正具备自适应能力的AI系统。这个系统不仅可以同时支持多种通信协议,打破不同AI系统之间的壁垒,还能够根据每个用户的特点提供个性化服务,甚至可以从经验中自主学习新技能。
这项研究的意义远不止于技术创新本身。它为未来AI智能体的发展指明了方向:从固定功能的工具向自适应学习的伙伴进化。当AI能够像生物体一样适应环境、学习成长时,我们与AI的关系也将发生根本性的改变。
对于普通用户而言,这意味着未来的AI助手将真正"懂你",能够根据你的工作习惯和偏好提供量身定制的服务。对于企业而言,这种多协议互操作能力将大大降低AI系统集成的复杂度和成本。对于开发者而言,生物启发的架构设计提供了全新的思路和方法。
当然,这项研究也存在一些局限性。系统还没有经过大规模的实际部署验证,用户画像系统相对简单,无法处理复杂的用户偏好变化。新提出的商务协议还需要更广泛的采用和安全威胁建模。但这些局限性并不能掩盖这项研究的突破性价值。
研究团队已经在规划后续工作,包括开发STEM平台来支持多智能体系统的编排,进行基准测试评估,以及与更多协议标准的互操作等。随着这些工作的推进,我们有理由相信,STEM Agent所代表的自适应AI架构将成为未来智能系统的重要发展方向。
Q&A
Q1:STEM Agent是什么?
A:STEM Agent是亚马逊和加州大学伯克利分校联合开发的AI智能体系统,采用了生物学干细胞分化原理,能够像生物细胞一样根据不同需求"分化"成专门的功能模块,具备自我学习和适应能力。
Q2:STEM Agent比现有AI智能体有什么优势?
A:STEM Agent同时支持五种通信协议,能够打破不同AI系统间的壁垒;具备个性化学习能力,会根据每个用户的习惯调整服务方式;还能从经验中自主学习新技能,不需要人工预设所有功能。
Q3:普通人如何使用STEM Agent?
A:目前STEM Agent还处于研究阶段,普通用户暂时无法直接使用。但这项技术未来可能会集成到各种AI助手和商务应用中,让AI服务变得更加智能和个性化。
好文章,需要你的鼓励
加州大学洛杉矶分校等机构联合推出的Unify-Agent突破了传统AI图像生成的知识局限,通过整合"思考-搜索-整理-绘制"四步工作流程,让AI画师具备主动查找资料的能力。该系统在FactIP基准测试中相关性指标提升61%,特别擅长处理需要准确世界知识的长尾内容和文化特色图像生成任务。
中科院团队开发的FlowPIE系统首次将动态文献探索与创意进化相结合,突破传统AI科学创意生成的同质化局限。该系统通过流引导蒙特卡洛树搜索实现文献检索与创意生成的紧密耦合,并采用类生物进化机制持续优化创意质量。实验显示,FlowPIE在新颖性、可行性等维度显著超越现有方法,展现出强大的跨领域泛化能力,为AI辅助科研开辟了新路径。
阿里巴巴DAMO研究院推出Lingshu-Cell虚拟细胞建模系统,采用掩码离散扩散模型技术,能够精确模拟和预测细胞在基因编辑、药物刺激等干预下的反应。该系统在国际虚拟细胞挑战赛中表现出色,为个性化医疗和药物开发开辟了全新路径,标志着数字生物学时代的到来。
上海AI实验室联合多所高校发布GEMS技术,通过智能团队协作机制让60亿参数的小模型在图像生成上超越顶级商业模型。该系统包含循环优化、记忆管理和技能库三大核心,采用多轮迭代和专业技能匹配,在主流测试中提升14分以上,为资源受限环境下的高质量AI应用提供新方案。