
这项由ServiceNow AI Research、蒙特利尔大学、麦吉尔大学、蒙特利尔理工学院以及加拿大人工智能研究所CIFAR联合开展的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.21463。有兴趣深入了解的读者可以通过该编号查询完整原文。
**一段关于"记性太好"的烦恼**
你有没有遇到过这样一种情况:朋友给你推荐了一家馆子,说"那家红烧肉特别好吃",结果你到了那里发现今天根本没有红烧肉,只有清蒸鱼。朋友的建议并没有错,但她的记忆停留在上次她去的时候,而那个"记忆"放到你今天的情况里就完全不管用了。
人工智能助手面临的问题和这个类似。当我们让AI帮我们完成一些复杂任务——比如在网上购物、操作企业软件系统、或者完成家务类的虚拟任务——AI往往需要"记住"过去的经验,才能在新任务中少走弯路。于是研究者们开始给AI配备"记忆库",把过去的经验存起来,下次遇到类似情况时翻出来用。
但问题来了:这种翻出来的记忆往往是死板的。就像你朋友那句"红烧肉特别好吃"的推荐,被原封不动地贴在你今天的菜单上——不管今天有没有红烧肉,推荐就是推荐。AI在面对和过去"相似但不完全相同"的新任务时,检索出来的旧经验会带着过去的具体细节,把AI引向错误的方向,甚至越帮越忙。
这篇论文的研究团队决定换一个思路。他们设计了一套叫做**Mem-π**(读作"Mem-pi")的新框架,把AI的记忆从"仓库里翻档案"变成"根据当前情况现场生成建议"。更关键的是,这套系统还学会了判断:什么时候应该给出建议,什么时候应该保持沉默。
---
**一、从"查档案"到"现场出主意":记忆方式的根本转变**
大多数现有的AI记忆系统工作方式有点像图书馆员。图书馆里存了大量书籍(也就是过去的经验),当你来问一个问题,图书馆员根据你的问题找出最相关的那本书递给你。这种方式叫做"检索式记忆",技术上的名字叫RAG(检索增强生成)。它的好处是可靠——书里写什么就是什么,不会捏造。但缺点也很明显:书里写的是过去某个具体情境的经验,而你现在的情境可能和当初稍有不同。
比如,记忆库里有一条经验是"找出店铺排名前2的搜索词",但你今天的任务是"找出前3的搜索词"。图书馆员直接递给你那本写着"找前2个"的书,AI就会照着做,最终给你错误的答案。原因很简单:旧经验的"2"被原封不动地搬到了新任务里。
Mem-π的做法完全不同。它不维护一个需要不断翻阅的档案库,而是把大量过去的经验"消化吸收"到一个专门的小模型里——这个小模型就是所谓的"记忆策略模型"(πmem)。当新任务来临,这个小模型不是去翻旧档案,而是根据当前任务的具体情境,现场生成一段量身定制的建议。就像一位资深厨师,他不需要翻菜谱,而是凭借对烹饪的深刻理解,直接告诉你这道菜今天怎么做最好。
而且,这位"资深厨师"还有一个更厉害的本领:当他判断你这道菜其实很简单,或者他的建议可能帮倒忙时,他会主动选择闭嘴。这就是Mem-π的"弃权"机制——系统会自动判断"现在需不需要给建议",而不是任何情况下都开口说话。
---
**二、两阶段的成长历程:先博览群书,再历练实战**
Mem-π的记忆策略模型是怎么培养出来的?这个过程分为两个阶段,可以把它理解为一个年轻厨师的成长故事。
第一阶段叫做"经验蒸馏"。在这个阶段,模型要读大量的"菜谱集"——也就是研究者从AI过去执行任务的轨迹中整理出来的经验提示库。这个提示库由另一个工具(JEF-Hinter)负责生成,它能从长长的操作记录里提炼出关键步骤,变成简洁、可复用的操作建议。记忆模型通过监督学习(就像临摹字帖)大量阅读这些经验,把它们内化成自己的知识。
完成第一阶段之后,模型已经掌握了大量通用知识,但还不够聪明——它不知道什么时候该说话,也不知道自己生成的建议是不是真的有用。于是进入第二阶段,叫做"适应蒸馏"。
在这个阶段,模型进入了真实的任务环境,通过强化学习来精进自己。强化学习的核心逻辑是:你做的事情是否让下游的AI任务成功了?成功了就是好的,失败了就要反思。模型在真实任务中反复尝试,收到任务成功与否的反馈信号,逐渐学会两件事:第一,什么样的建议真正有用;第二,什么时候应该保持沉默。
为了支持"保持沉默"这个能力,研究团队给模型的词表里加了两个特殊标记:`[GENERATE]`(我要生成建议)和`[ABSTAIN]`(我选择不说话)。每次模型接到一个任务,它都要先决定说还是不说,如果选择说,再决定说什么。
---
**三、训练中的精妙设计:让"说"与"说什么"分开学习**
这里有一个很微妙的技术挑战,也是这篇论文最有创意的地方之一。
如果你直接用常规方法训练模型同时学"要不要说话"和"说什么内容",就会遇到一个不公平的竞争问题。"要不要说话"只有一两个词(`[GENERATE]`或`[ABSTAIN]`),而"说什么"可能有几十上百个词。在梯度更新时,内容部分的信号会压倒性地盖过决策部分,模型根本学不好"要不要说话"这件事。
这就好像你同时评估一个厨师的两件事:一是他决定做不做这道菜(一个简单的是/否选择),二是他怎么做这道菜(一整套复杂的操作)。如果你把所有反馈放在一起打分,"怎么做"的细节会淹没"要不要做"这个决定的学习。
为了解决这个问题,研究团队设计了"决策-内容解耦策略优化"方法。具体做法是这样的:在训练时,对于每一个任务,模型都会生成一组结构化的尝试——强制包含一个"弃权"版本和三个"生成建议"版本。然后,研究团队把学习信号拆成两层:一层是"决策层信号",专门用来评估弃权和生成相比哪个更有利,这个信号只作用于决策标记;另一层是"内容层信号",用于评估三个生成版本中哪个建议更好,这个信号只作用于内容部分的词。
更精妙的是,内容层的学习还有一个"门控"机制——只有当生成建议比弃权更好的时候,内容层的信号才被激活。如果弃权表现更好,那就不应该去优化"生成了什么内容",因为根本就不应该生成任何内容。这个设计确保了模型不会在"应该闭嘴的情况下反而越学越爱说话"。
此外,模型还有一个"建议不要太长"的惩罚机制。建议越冗长,奖励就会被轻微扣除,这促使模型生成简洁有用的建议,而不是把所有能想到的内容一股脑塞进去。
---
**四、四个测试场地:在真实战场上接受检验**
研究团队在四个差异显著的任务环境中测试了Mem-π,覆盖了网页操作、企业软件、终端命令行和文字游戏世界等不同场景。
第一个测试场地是WebArena,一个包含812个网页操作任务的仿真环境,涵盖网上购物、内容管理系统、GitLab代码仓库、Reddit论坛和地图服务五个领域。每个任务都要求AI在真实的网页界面上点击、填写、搜索,完成一系列多步骤操作,难度相当高。
第二个是WorkArena,一个基于ServiceNow企业软件平台的测试环境,考察AI处理企业日常工作流的能力,包括菜单导航、表单填写、列表筛选和知识库查询四类任务。这里有33种任务模板,每种模板会用不同的随机参数实例化,测试AI能否举一反三,而不是死记硬背。
第三个是LifelongAgentBench(LAB),专门测试AI在终端环境中的长期经验复用能力。测试分两个子集:一个是数据库操作(SQL命令,22种技能),另一个是操作系统操作(Bash命令,29种技能)。每个子集各有500个任务,按7:3分为训练集和测试集。
第四个是ALFWorld,一个文字版的家务模拟环境。AI需要在文字描述的家居场景中找到物品、清洁物品、加热或冷藏物品,再放到指定位置。虽然是文字游戏,但任务需要多步规划,难度不低。
对比的基准方法包括:直接使用基础AI(不加任何记忆),RAG检索(BM25算法找最相似的经验),Mem0(RAG加上规则管理),Memory-R1(用强化学习训练记忆管理器),以及MemRL(学习Q值来做有用性感知检索)。所有实验使用gpt-5.4-mini作为基础下游智能体模型,Mem-π的记忆策略模型则基于Qwen-2.5-7B-Instruct构建,两者是完全独立的模型。
---
**五、成绩单:全面领先,WebArena相对提升近50%**
结果相当清晰。在所有四个基准测试上,Mem-π的表现均优于所有对比方法。
在WebArena上,Mem-π的平均任务成功率达到43.1%,而基础智能体(不加记忆)为27.1%,提升幅度约为59%,相对改善接近50%(从基础值来看)。在CMS子任务上,Mem-π从基础的14.6%提升到42.8%,这28.2个百分点的绝对提升格外醒目;在Reddit子任务上,从28.8%提升到52.6%,同样惊人。在WorkArena上,平均成功率从42.0%提升到50.3%,表单类任务的提升幅度接近15个百分点。在ALFWorld上,从85.3%提升到91.6%,在一个已经很高基线上仍有明显进步。在LAB上,数据库和操作系统任务的综合成功率从26.8%提升到36.7%。
一个有趣的发现是:仅完成第一阶段训练(经验蒸馏,没有强化学习)的Mem-π,在WebArena上就已经达到35.0%的成功率,和需要完整强化学习训练的Memory-R1(33.2%)和MemRL(34.0%)不相上下。这说明把经验"内化"到模型参数里本身就是一种非常强效的初始化策略——换句话说,"消化吸收了大量菜谱的厨师",在没有经过真实厨房历练的情况下,表现就已经和"在厨房里摸爬滚打很久但没好好读书的厨师"差不多了。而加上第二阶段的强化学习之后,Mem-π在WebArena上再提升8.1个百分点,充分说明两个阶段缺一不可。
---
**六、消融实验:每个设计都有它的道理**
为了验证每个设计选择的必要性,研究团队做了一系列"拆零件"测试,看看去掉某个部分后性能会下降多少。
去掉第一阶段初始化(直接从零开始强化学习):WebArena下降5.2个百分点,ALFWorld下降4.7个百分点。这说明没有扎实的知识积累,强化学习在这个场景下很难收敛。
把两个阶段合并为一个阶段(同时用相似度奖励和任务成功奖励训练):性能下降更大,WebArena下降6.8个百分点,ALFWorld下降5.9个百分点。原因在于两个奖励信号存在冲突:相似度奖励要求模型的建议和参考答案相似,而任务成功奖励要求建议真正有用——这两件事并不总是一致的。
去掉"结构化对比采样"(不强制每组包含弃权版本):WebArena下降4.8个百分点,ALFWorld下降4.5个百分点,是所有强化学习相关设计中最关键的一项。没有弃权版本做对照,模型就失去了学习"什么时候不说话"的机会。
去掉"门控"机制(弃权表现更好时仍然更新内容层梯度):WebArena下降1.8个百分点,ALFWorld下降2.0个百分点,说明门控机制能有效防止"在应该沉默的时候反而越说越多"。
去掉长度惩罚:性能也有轻微下降,说明简洁的建议确实比冗长的建议更有利于下游任务。
---
**七、深度分析:弃权不是逃避,而是智慧**
研究团队进一步分析了弃权行为和任务难度之间的关系,结果揭示了一个优雅的模式。
他们把WebArena的任务按照基础智能体的成功率分成五组:0-20%(最难),20-40%,40-60%,60-80%,80-100%(最简单)。对于每一组,他们统计了Mem-π的弃权率和任务成功率提升幅度。
结果清晰明了:在最简单的任务组(基础成功率80-100%),Mem-π大约71%的情况下选择弃权;而在最难的任务组(基础成功率0-20%),弃权率只有约13%。与此同时,任务提升最大的恰恰是最难的那组,提升幅度达9.7个百分点,而最简单那组只提升1.3个百分点。
这个模式传达的信息很清楚:Mem-π学会了一种有分寸的智慧——简单的任务基础智能体自己就能搞定,额外建议只会引入噪音;困难的任务才真正需要经验性的指引。这不是保守,而是精准的判断。
---
**八、跨模型迁移:给弱智能体训练的记忆,能否帮助强智能体?**
这个问题很有实践价值。如果企业用一个较弱的开源模型训练了记忆策略,能不能把这个记忆策略直接迁移到更强大的闭源模型上使用?
研究团队做了对比:Mem-π记忆策略分别搭配训练时使用的Qwen2.5-7B(较弱的开源模型)和未见过的GPT-5.4-mini(更强的闭源模型)。在WebArena上,搭配Qwen2.5-7B时,Mem-π带来的提升是18.2个百分点(而RAG只有4.2个百分点);搭配GPT-5.4-mini时,提升是16.0个百分点(RAG只有4.3个百分点)。Mem-π的提升幅度是RAG的3到5倍。
这意味着:基于弱智能体训练出来的记忆策略,确实能迁移到强智能体上继续发挥作用。直觉上可以理解:当记忆策略被训练用于帮助一个"比较笨"的智能体时,它必须把任务建议说得非常清晰明确,这种显式表达对于更强的智能体同样有用,甚至可能更有用。
---
**九、用更少的词说更有用的话:效率的双重收益**
Mem-π不仅表现更好,还更省。在WebArena上,Mem-π平均每个任务向智能体注入138个"记忆词",而仅完成第一阶段训练的版本是200个词,Memory-R1是225个词。Mem-π用比Stage 1少31%、比Memory-R1少38%的词汇量,反而取得了更高的成功率。
原因不复杂:弃权机制让模型不再给已经可以搞定的任务添乱,省下来的词汇预算反而提升了整体效率。一直说话不如按需说话,按需说话不如说到点子上。
---
**十、案例分析:说与不说之间的微妙边界**
研究团队在WebArena上做了详细的案例分析,把测试集按照基础智能体、RAG和Mem-π三者的成功与失败情况分成了八个区域,逐一分析Mem-π的优势和局限。
在Mem-π独立成功(RAG失败)的案例中,最典型的是"数量不匹配"问题。任务问的是"列出排名前3的搜索词",但记忆库里最相似的经验来自一个关于"前2名"的任务。RAG直接把那个经验搬出来,建议里写的是"读取前两行"——数字直接错了。Mem-π则根据当前任务里明确写着"3"这个数字,自动生成了"取前三行"的建议,精准命中。
在弃权成功(RAG失败,弃权赢)的案例中,有一个任务是"找到最适合存放40张Switch游戏卡的收纳方案"。记忆库里的经验锁定在"游戏卡盒"或"卡带收纳盒"这一类窄范围产品上。RAG把这个偏颇的搜索建议传给了智能体,让它只看了一部分产品就做出判断,最终搜索范围太窄。Mem-π判断这个任务不需要限制搜索方向,直接弃权,让基础智能体自由搜索,反而找到了更合适的收纳方案。
当然,Mem-π也有失手的情况。在一个关于"预览Magento主题"的任务里,正确操作是点击"操作"列下的"查看"链接,而Mem-π生成的建议反而告诉智能体"不要点击操作列"——恰恰和正确做法相反。RAG在这个任务上反而成功了,因为它直接复制了来源任务的原始步骤,而生成的建议在这里出现了不合理的"创作"。这类逆转案例占总体很少(4个任务),但说明生成式方法在某些情况下确实可能产生合理但有误的指令。
此外,还有一类情况是所有方法都无能为力——通常是因为底层工具存在限制。比如某个任务需要刷新Magento的统计报表,但服务器在有限步数内无法完成刷新,任何再好的记忆建议都无法帮助智能体突破工具层面的瓶颈。
---
说到底,Mem-π这套框架做的事情,换一种说法其实相当直观:它在教一个AI助手"什么时候该开口,什么时候该闭嘴",以及"开口了要说得有针对性,而不是照搬过去的说法"。这听起来像是人之常情,但对AI系统来说,做到这一点需要相当精心的设计。
这项研究的意义不仅仅在于性能数字的提升。它揭示了一个更深层的问题:在AI系统中,记忆不应该是一个被动的"存档-检索"机制,而应该是一个主动的、能感知当前情境的决策过程。这和认知科学对人类记忆的理解也是一致的——人类在回忆时并非播放录像,而是根据当前需要动态重构。
对普通用户来说,这个研究方向意味着未来的AI助手可能真的更"懂你"——不是因为它记住了你的一切,而是因为它学会了在合适的时候、用合适的方式,提供真正切题的帮助,并在帮了倒忙的时候主动收手。
研究团队也坦诚地指出了未来的方向:闭环的持续记忆学习(让智能体在运行中不断更新记忆策略),以及可溯源的记忆(能追踪生成建议的依据,兼顾灵活性和可靠性)。有兴趣的读者可以通过arXiv编号2605.21463查阅完整论文,里面包含了更详细的实验数据和技术细节。
---
**Q&A**
Q1:Mem-π的弃权机制是怎么训练出来的,为什么不直接让模型一直生成建议?
A:Mem-π通过强化学习的"结构化对比采样"来训练弃权行为——每次训练强制生成一个弃权版本和三个生成建议版本,比较两者对下游任务的贡献。研究发现,如果模型一直生成建议,在任务本身已经很简单的情况下,多余的建议反而引入噪音,拉低成功率。弃权机制让模型学会"简单任务不插嘴",平均节省了约31%的建议词数,同时提升了整体表现。
Q2:Mem-π和RAG检索记忆相比,最核心的区别是什么?
A:RAG是"找最像的旧经验直接搬过来用",生成的建议固定不变,遇到和旧经验细节不符的新任务就容易出错,比如把"前2名"的经验套用到"前3名"的任务上。Mem-π把经验"消化"进模型参数,遇到新任务时根据当前具体内容重新生成建议,能自动修正数量、格式等细节差异。简单来说,RAG是"复印",Mem-π是"理解后重写"。
Q3:Mem-π的记忆策略模型和执行任务的智能体模型是同一个吗?
A:不是,两者完全独立。记忆策略模型(πmem)是专门训练来生成任务建议的小模型,基于Qwen-2.5-7B-Instruct构建;执行任务的下游智能体是单独的模型,论文主实验用的是gpt-5.4-mini。这种分离设计的好处是:可以用一个较小的私有模型作为记忆策略,搭配更强大的前沿模型执行任务;而且记忆策略训练好后,可以迁移到不同的下游智能体上使用,无需重新训练。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。