微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

蒙特利尔大学等机构联合研发：AI助手终于学会了"按需记忆"，不再什么都往脑子里塞

人工智能强化学习自适应记忆生成

蒙特利尔大学等机构联合研发：AI助手终于学会了"按需记忆"，不再什么都往脑子里塞

作者：科技行者

2026-05-27 15:02

分享至：

Mem-π是一个让AI智能体学会"按需生成记忆建议"的框架，通过两阶段训练让模型自主判断何时提供建议、建议说什么，在多个任务基准上平均提升超过20%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 15:02 • 科技行者

这项由ServiceNow AI Research、蒙特利尔大学、麦吉尔大学、蒙特利尔理工学院以及加拿大人工智能研究所CIFAR联合开展的研究，以预印本形式发表于2026年5月，论文编号为arXiv:2605.21463。有兴趣深入了解的读者可以通过该编号查询完整原文。

**一段关于"记性太好"的烦恼**

你有没有遇到过这样一种情况：朋友给你推荐了一家馆子，说"那家红烧肉特别好吃"，结果你到了那里发现今天根本没有红烧肉，只有清蒸鱼。朋友的建议并没有错，但她的记忆停留在上次她去的时候，而那个"记忆"放到你今天的情况里就完全不管用了。

人工智能助手面临的问题和这个类似。当我们让AI帮我们完成一些复杂任务——比如在网上购物、操作企业软件系统、或者完成家务类的虚拟任务——AI往往需要"记住"过去的经验，才能在新任务中少走弯路。于是研究者们开始给AI配备"记忆库"，把过去的经验存起来，下次遇到类似情况时翻出来用。

但问题来了：这种翻出来的记忆往往是死板的。就像你朋友那句"红烧肉特别好吃"的推荐，被原封不动地贴在你今天的菜单上——不管今天有没有红烧肉，推荐就是推荐。AI在面对和过去"相似但不完全相同"的新任务时，检索出来的旧经验会带着过去的具体细节，把AI引向错误的方向，甚至越帮越忙。

这篇论文的研究团队决定换一个思路。他们设计了一套叫做**Mem-π**（读作"Mem-pi"）的新框架，把AI的记忆从"仓库里翻档案"变成"根据当前情况现场生成建议"。更关键的是，这套系统还学会了判断：什么时候应该给出建议，什么时候应该保持沉默。

---

**一、从"查档案"到"现场出主意"：记忆方式的根本转变**

大多数现有的AI记忆系统工作方式有点像图书馆员。图书馆里存了大量书籍（也就是过去的经验），当你来问一个问题，图书馆员根据你的问题找出最相关的那本书递给你。这种方式叫做"检索式记忆"，技术上的名字叫RAG（检索增强生成）。它的好处是可靠——书里写什么就是什么，不会捏造。但缺点也很明显：书里写的是过去某个具体情境的经验，而你现在的情境可能和当初稍有不同。

比如，记忆库里有一条经验是"找出店铺排名前2的搜索词"，但你今天的任务是"找出前3的搜索词"。图书馆员直接递给你那本写着"找前2个"的书，AI就会照着做，最终给你错误的答案。原因很简单：旧经验的"2"被原封不动地搬到了新任务里。

Mem-π的做法完全不同。它不维护一个需要不断翻阅的档案库，而是把大量过去的经验"消化吸收"到一个专门的小模型里——这个小模型就是所谓的"记忆策略模型"（πmem）。当新任务来临，这个小模型不是去翻旧档案，而是根据当前任务的具体情境，现场生成一段量身定制的建议。就像一位资深厨师，他不需要翻菜谱，而是凭借对烹饪的深刻理解，直接告诉你这道菜今天怎么做最好。

而且，这位"资深厨师"还有一个更厉害的本领：当他判断你这道菜其实很简单，或者他的建议可能帮倒忙时，他会主动选择闭嘴。这就是Mem-π的"弃权"机制——系统会自动判断"现在需不需要给建议"，而不是任何情况下都开口说话。

---

**二、两阶段的成长历程：先博览群书，再历练实战**

Mem-π的记忆策略模型是怎么培养出来的？这个过程分为两个阶段，可以把它理解为一个年轻厨师的成长故事。

第一阶段叫做"经验蒸馏"。在这个阶段，模型要读大量的"菜谱集"——也就是研究者从AI过去执行任务的轨迹中整理出来的经验提示库。这个提示库由另一个工具（JEF-Hinter）负责生成，它能从长长的操作记录里提炼出关键步骤，变成简洁、可复用的操作建议。记忆模型通过监督学习（就像临摹字帖）大量阅读这些经验，把它们内化成自己的知识。

完成第一阶段之后，模型已经掌握了大量通用知识，但还不够聪明——它不知道什么时候该说话，也不知道自己生成的建议是不是真的有用。于是进入第二阶段，叫做"适应蒸馏"。

在这个阶段，模型进入了真实的任务环境，通过强化学习来精进自己。强化学习的核心逻辑是：你做的事情是否让下游的AI任务成功了？成功了就是好的，失败了就要反思。模型在真实任务中反复尝试，收到任务成功与否的反馈信号，逐渐学会两件事：第一，什么样的建议真正有用；第二，什么时候应该保持沉默。

为了支持"保持沉默"这个能力，研究团队给模型的词表里加了两个特殊标记：`[GENERATE]`（我要生成建议）和`[ABSTAIN]`（我选择不说话）。每次模型接到一个任务，它都要先决定说还是不说，如果选择说，再决定说什么。

---

**三、训练中的精妙设计：让"说"与"说什么"分开学习**

这里有一个很微妙的技术挑战，也是这篇论文最有创意的地方之一。

如果你直接用常规方法训练模型同时学"要不要说话"和"说什么内容"，就会遇到一个不公平的竞争问题。"要不要说话"只有一两个词（`[GENERATE]`或`[ABSTAIN]`），而"说什么"可能有几十上百个词。在梯度更新时，内容部分的信号会压倒性地盖过决策部分，模型根本学不好"要不要说话"这件事。

这就好像你同时评估一个厨师的两件事：一是他决定做不做这道菜（一个简单的是/否选择），二是他怎么做这道菜（一整套复杂的操作）。如果你把所有反馈放在一起打分，"怎么做"的细节会淹没"要不要做"这个决定的学习。

为了解决这个问题，研究团队设计了"决策-内容解耦策略优化"方法。具体做法是这样的：在训练时，对于每一个任务，模型都会生成一组结构化的尝试——强制包含一个"弃权"版本和三个"生成建议"版本。然后，研究团队把学习信号拆成两层：一层是"决策层信号"，专门用来评估弃权和生成相比哪个更有利，这个信号只作用于决策标记；另一层是"内容层信号"，用于评估三个生成版本中哪个建议更好，这个信号只作用于内容部分的词。

更精妙的是，内容层的学习还有一个"门控"机制——只有当生成建议比弃权更好的时候，内容层的信号才被激活。如果弃权表现更好，那就不应该去优化"生成了什么内容"，因为根本就不应该生成任何内容。这个设计确保了模型不会在"应该闭嘴的情况下反而越学越爱说话"。

此外，模型还有一个"建议不要太长"的惩罚机制。建议越冗长，奖励就会被轻微扣除，这促使模型生成简洁有用的建议，而不是把所有能想到的内容一股脑塞进去。

---

**四、四个测试场地：在真实战场上接受检验**

研究团队在四个差异显著的任务环境中测试了Mem-π，覆盖了网页操作、企业软件、终端命令行和文字游戏世界等不同场景。

第一个测试场地是WebArena，一个包含812个网页操作任务的仿真环境，涵盖网上购物、内容管理系统、GitLab代码仓库、Reddit论坛和地图服务五个领域。每个任务都要求AI在真实的网页界面上点击、填写、搜索，完成一系列多步骤操作，难度相当高。

第二个是WorkArena，一个基于ServiceNow企业软件平台的测试环境，考察AI处理企业日常工作流的能力，包括菜单导航、表单填写、列表筛选和知识库查询四类任务。这里有33种任务模板，每种模板会用不同的随机参数实例化，测试AI能否举一反三，而不是死记硬背。

第三个是LifelongAgentBench（LAB），专门测试AI在终端环境中的长期经验复用能力。测试分两个子集：一个是数据库操作（SQL命令，22种技能），另一个是操作系统操作（Bash命令，29种技能）。每个子集各有500个任务，按7:3分为训练集和测试集。

第四个是ALFWorld，一个文字版的家务模拟环境。AI需要在文字描述的家居场景中找到物品、清洁物品、加热或冷藏物品，再放到指定位置。虽然是文字游戏，但任务需要多步规划，难度不低。

对比的基准方法包括：直接使用基础AI（不加任何记忆），RAG检索（BM25算法找最相似的经验），Mem0（RAG加上规则管理），Memory-R1（用强化学习训练记忆管理器），以及MemRL（学习Q值来做有用性感知检索）。所有实验使用gpt-5.4-mini作为基础下游智能体模型，Mem-π的记忆策略模型则基于Qwen-2.5-7B-Instruct构建，两者是完全独立的模型。

---

**五、成绩单：全面领先，WebArena相对提升近50%**

结果相当清晰。在所有四个基准测试上，Mem-π的表现均优于所有对比方法。

在WebArena上，Mem-π的平均任务成功率达到43.1%，而基础智能体（不加记忆）为27.1%，提升幅度约为59%，相对改善接近50%（从基础值来看）。在CMS子任务上，Mem-π从基础的14.6%提升到42.8%，这28.2个百分点的绝对提升格外醒目；在Reddit子任务上，从28.8%提升到52.6%，同样惊人。在WorkArena上，平均成功率从42.0%提升到50.3%，表单类任务的提升幅度接近15个百分点。在ALFWorld上，从85.3%提升到91.6%，在一个已经很高基线上仍有明显进步。在LAB上，数据库和操作系统任务的综合成功率从26.8%提升到36.7%。

一个有趣的发现是：仅完成第一阶段训练（经验蒸馏，没有强化学习）的Mem-π，在WebArena上就已经达到35.0%的成功率，和需要完整强化学习训练的Memory-R1（33.2%）和MemRL（34.0%）不相上下。这说明把经验"内化"到模型参数里本身就是一种非常强效的初始化策略——换句话说，"消化吸收了大量菜谱的厨师"，在没有经过真实厨房历练的情况下，表现就已经和"在厨房里摸爬滚打很久但没好好读书的厨师"差不多了。而加上第二阶段的强化学习之后，Mem-π在WebArena上再提升8.1个百分点，充分说明两个阶段缺一不可。

---

**六、消融实验：每个设计都有它的道理**

为了验证每个设计选择的必要性，研究团队做了一系列"拆零件"测试，看看去掉某个部分后性能会下降多少。

去掉第一阶段初始化（直接从零开始强化学习）：WebArena下降5.2个百分点，ALFWorld下降4.7个百分点。这说明没有扎实的知识积累，强化学习在这个场景下很难收敛。

把两个阶段合并为一个阶段（同时用相似度奖励和任务成功奖励训练）：性能下降更大，WebArena下降6.8个百分点，ALFWorld下降5.9个百分点。原因在于两个奖励信号存在冲突：相似度奖励要求模型的建议和参考答案相似，而任务成功奖励要求建议真正有用——这两件事并不总是一致的。

去掉"结构化对比采样"（不强制每组包含弃权版本）：WebArena下降4.8个百分点，ALFWorld下降4.5个百分点，是所有强化学习相关设计中最关键的一项。没有弃权版本做对照，模型就失去了学习"什么时候不说话"的机会。

去掉"门控"机制（弃权表现更好时仍然更新内容层梯度）：WebArena下降1.8个百分点，ALFWorld下降2.0个百分点，说明门控机制能有效防止"在应该沉默的时候反而越说越多"。

去掉长度惩罚：性能也有轻微下降，说明简洁的建议确实比冗长的建议更有利于下游任务。

---

**七、深度分析：弃权不是逃避，而是智慧**

研究团队进一步分析了弃权行为和任务难度之间的关系，结果揭示了一个优雅的模式。

他们把WebArena的任务按照基础智能体的成功率分成五组：0-20%（最难），20-40%，40-60%，60-80%，80-100%（最简单）。对于每一组，他们统计了Mem-π的弃权率和任务成功率提升幅度。

结果清晰明了：在最简单的任务组（基础成功率80-100%），Mem-π大约71%的情况下选择弃权；而在最难的任务组（基础成功率0-20%），弃权率只有约13%。与此同时，任务提升最大的恰恰是最难的那组，提升幅度达9.7个百分点，而最简单那组只提升1.3个百分点。

这个模式传达的信息很清楚：Mem-π学会了一种有分寸的智慧——简单的任务基础智能体自己就能搞定，额外建议只会引入噪音；困难的任务才真正需要经验性的指引。这不是保守，而是精准的判断。

---

**八、跨模型迁移：给弱智能体训练的记忆，能否帮助强智能体？**

这个问题很有实践价值。如果企业用一个较弱的开源模型训练了记忆策略，能不能把这个记忆策略直接迁移到更强大的闭源模型上使用？

研究团队做了对比：Mem-π记忆策略分别搭配训练时使用的Qwen2.5-7B（较弱的开源模型）和未见过的GPT-5.4-mini（更强的闭源模型）。在WebArena上，搭配Qwen2.5-7B时，Mem-π带来的提升是18.2个百分点（而RAG只有4.2个百分点）；搭配GPT-5.4-mini时，提升是16.0个百分点（RAG只有4.3个百分点）。Mem-π的提升幅度是RAG的3到5倍。

这意味着：基于弱智能体训练出来的记忆策略，确实能迁移到强智能体上继续发挥作用。直觉上可以理解：当记忆策略被训练用于帮助一个"比较笨"的智能体时，它必须把任务建议说得非常清晰明确，这种显式表达对于更强的智能体同样有用，甚至可能更有用。

---

**九、用更少的词说更有用的话：效率的双重收益**

Mem-π不仅表现更好，还更省。在WebArena上，Mem-π平均每个任务向智能体注入138个"记忆词"，而仅完成第一阶段训练的版本是200个词，Memory-R1是225个词。Mem-π用比Stage 1少31%、比Memory-R1少38%的词汇量，反而取得了更高的成功率。

原因不复杂：弃权机制让模型不再给已经可以搞定的任务添乱，省下来的词汇预算反而提升了整体效率。一直说话不如按需说话，按需说话不如说到点子上。

---

**十、案例分析：说与不说之间的微妙边界**

研究团队在WebArena上做了详细的案例分析，把测试集按照基础智能体、RAG和Mem-π三者的成功与失败情况分成了八个区域，逐一分析Mem-π的优势和局限。

在Mem-π独立成功（RAG失败）的案例中，最典型的是"数量不匹配"问题。任务问的是"列出排名前3的搜索词"，但记忆库里最相似的经验来自一个关于"前2名"的任务。RAG直接把那个经验搬出来，建议里写的是"读取前两行"——数字直接错了。Mem-π则根据当前任务里明确写着"3"这个数字，自动生成了"取前三行"的建议，精准命中。

在弃权成功（RAG失败，弃权赢）的案例中，有一个任务是"找到最适合存放40张Switch游戏卡的收纳方案"。记忆库里的经验锁定在"游戏卡盒"或"卡带收纳盒"这一类窄范围产品上。RAG把这个偏颇的搜索建议传给了智能体，让它只看了一部分产品就做出判断，最终搜索范围太窄。Mem-π判断这个任务不需要限制搜索方向，直接弃权，让基础智能体自由搜索，反而找到了更合适的收纳方案。

当然，Mem-π也有失手的情况。在一个关于"预览Magento主题"的任务里，正确操作是点击"操作"列下的"查看"链接，而Mem-π生成的建议反而告诉智能体"不要点击操作列"——恰恰和正确做法相反。RAG在这个任务上反而成功了，因为它直接复制了来源任务的原始步骤，而生成的建议在这里出现了不合理的"创作"。这类逆转案例占总体很少（4个任务），但说明生成式方法在某些情况下确实可能产生合理但有误的指令。

此外，还有一类情况是所有方法都无能为力——通常是因为底层工具存在限制。比如某个任务需要刷新Magento的统计报表，但服务器在有限步数内无法完成刷新，任何再好的记忆建议都无法帮助智能体突破工具层面的瓶颈。

---

说到底，Mem-π这套框架做的事情，换一种说法其实相当直观：它在教一个AI助手"什么时候该开口，什么时候该闭嘴"，以及"开口了要说得有针对性，而不是照搬过去的说法"。这听起来像是人之常情，但对AI系统来说，做到这一点需要相当精心的设计。

这项研究的意义不仅仅在于性能数字的提升。它揭示了一个更深层的问题：在AI系统中，记忆不应该是一个被动的"存档-检索"机制，而应该是一个主动的、能感知当前情境的决策过程。这和认知科学对人类记忆的理解也是一致的——人类在回忆时并非播放录像，而是根据当前需要动态重构。

对普通用户来说，这个研究方向意味着未来的AI助手可能真的更"懂你"——不是因为它记住了你的一切，而是因为它学会了在合适的时候、用合适的方式，提供真正切题的帮助，并在帮了倒忙的时候主动收手。

研究团队也坦诚地指出了未来的方向：闭环的持续记忆学习（让智能体在运行中不断更新记忆策略），以及可溯源的记忆（能追踪生成建议的依据，兼顾灵活性和可靠性）。有兴趣的读者可以通过arXiv编号2605.21463查阅完整论文，里面包含了更详细的实验数据和技术细节。

---

**Q&A**

Q1：Mem-π的弃权机制是怎么训练出来的，为什么不直接让模型一直生成建议？

A：Mem-π通过强化学习的"结构化对比采样"来训练弃权行为——每次训练强制生成一个弃权版本和三个生成建议版本，比较两者对下游任务的贡献。研究发现，如果模型一直生成建议，在任务本身已经很简单的情况下，多余的建议反而引入噪音，拉低成功率。弃权机制让模型学会"简单任务不插嘴"，平均节省了约31%的建议词数，同时提升了整体表现。

Q2：Mem-π和RAG检索记忆相比，最核心的区别是什么？

A：RAG是"找最像的旧经验直接搬过来用"，生成的建议固定不变，遇到和旧经验细节不符的新任务就容易出错，比如把"前2名"的经验套用到"前3名"的任务上。Mem-π把经验"消化"进模型参数，遇到新任务时根据当前具体内容重新生成建议，能自动修正数量、格式等细节差异。简单来说，RAG是"复印"，Mem-π是"理解后重写"。

Q3：Mem-π的记忆策略模型和执行任务的智能体模型是同一个吗？

A：不是，两者完全独立。记忆策略模型（πmem）是专门训练来生成任务建议的小模型，基于Qwen-2.5-7B-Instruct构建；执行任务的下游智能体是单独的模型，论文主实验用的是gpt-5.4-mini。这种分离设计的好处是：可以用一个较小的私有模型作为记忆策略，搭配更强大的前沿模型执行任务；而且记忆策略训练好后，可以迁移到不同的下游智能体上使用，无需重新训练。

人工智能强化学习自适应记忆生成

分享至