微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学等机构研究:AI智能体的记忆系统,能像人脑一样不断进化吗?

浙江大学等机构研究:AI智能体的记忆系统,能像人脑一样不断进化吗?

2026-06-02 14:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-02 14:03 科技行者

这项由浙江大学、阿里巴巴集团、同济大学及MemTensor等机构联合开展的研究,于2026年5月27日以预印本形式发布在arXiv平台,论文编号为arXiv:2605.28773。研究提出了一个名为FluxMem的全新AI记忆框架,致力于让AI智能体的记忆系统像人类大脑一样,能随着经验的积累不断自我完善和进化。

一、一个让AI头疼的老问题:记忆太"死板"了

每个人脑子里都有一套自己的记忆整理方式。你今天帮朋友修了电脑,明天遇到类似问题就会想起上次怎么解决的;多次经历类似情况之后,你甚至能总结出一套通用的排查思路。这种"经验积累→形成规律→灵活调用"的过程,对人类来说再自然不过。然而,对于当今的AI智能体来说,这件事却难得出奇。

目前,绝大多数具备记忆功能的AI系统,都像是用一个固定格式的纸质档案柜来保存信息——每次任务来了,就按预先设定好的步骤去翻档案,找出看起来相关的内容,然后交给AI参考。这套流程是提前写死的,不管任务怎么变、环境怎么变,检索和整理记忆的方式都一成不变。这种设计在简单固定的任务里还凑合,但一旦遇到复杂多变的真实场景,问题就接连出现了。

研究团队把这些问题归纳为两大类。第一类叫做"记忆连接不准确"。具体来说,有时候AI会漏掉关键信息——明明有一份相关档案,但因为检索方式不够灵活,就是没找到,导致AI在关键时刻缺少必要的参考依据,像是侦探破案时把最重要的线索落在了抽屉里没拿出来。另一种情况正好相反,AI会检索出一堆无关紧要的内容,把真正有用的信息淹没在噪音里,就像侦探把整个城市的监控录像都调出来看,反而不知道从哪里入手。第二类问题叫做"记忆内容颗粒度不合适"。有时候记忆里存的东西太粗糙,只有一个大概方向,缺少执行所需的细节;有时候又太细碎,只有零散的操作步骤,却看不出任务的整体脉络。这两种情况都会导致AI拿到记忆之后,仍然无法做出正确决策。

除此之外,还有一个更深层的问题:现有系统无法让记忆真正"成长"。每次任务结束后,AI或许会把这次经历存下来,但下次遇到类似任务时,它只是机械地把旧记录翻出来参考,而不会从反复出现的成功经验中提炼出规律、形成可复用的通用技能。这就好比一位厨师,每次做某道菜都要重新翻食谱,从来不把心得体会整理成自己的一套烹饪心法——时间再长,手艺也不会真正精进。

二、像人脑一样建档:FluxMem的三层记忆图谱

面对上述挑战,研究团队提出了FluxMem这套框架。理解FluxMem的核心,可以用"档案馆里的立体关系网"这个意象来帮助思考。

在FluxMem里,所有记忆不是平铺在一个平面上的,而是被组织成一张由三种不同类型节点构成的"异质图"。每一条记忆都是图中的一个节点,而节点与节点之间通过边相互连接,形成一张关系网络。这三类节点分别对应三种不同功能的记忆层。

第一层叫做"语义知识层",负责存储静态的事实性知识,比如工具的使用文档、背景知识库、对话历史记录等。这一层就像档案馆里存放百科全书和参考手册的区域,是提供"原材料"的地方。第二层叫做"情节经验层",记录的是AI实际执行任务时的完整过程,包括每一步看到了什么、做了什么,就像侦探办案时写下的详细案件笔记,记录着每个案子从头到尾的具体经过。第三层叫做"程序技能层",存放的是从多次成功经历中提炼出来的通用方法或推理模板,类似于侦探总结出来的"破案通用套路"——不针对某个具体案子,而是可以反复复用的思维框架。

这三层之间并不是孤立的,而是通过两种类型的边相互关联。当AI在执行某项任务时,从事实知识库里找到的某条具体知识为当前任务提供了支撑,这条关系就被记录下来,形成知识层和经验层之间的连接。当多次类似任务的经历被提炼成一个通用技能时,经验层和技能层之间就建立起另一种连接。如此一来,整个记忆系统就像一张纵横交错的神经网络,既有纵向的层次结构,又有横向的关联关系。

每当AI面对一个新任务时,它不是去翻一个杂乱的记忆堆,而是在这张大网上激活一个局部子图——选出当前任务最相关的那些节点和边,把它们串联起来,形成此刻决策所需的上下文。这个"激活的局部子图"就是AI当前的工作记忆,而优化记忆的过程,本质上就是不断调整和修剪这个子图,让它越来越精准地服务于当前任务。

三、三个阶段,让记忆从"粗糙草图"变成"精密电路"

FluxMem的运作方式分为三个阶段,可以把这个过程理解为:先画一张草图,再根据实际反馈反复修改,最后把成功经验固化成标准模板。

第一阶段叫做"初始连接形成",在每次任务执行的每一步开始时都会进行。AI会根据当前观察到的内容,同时去三层记忆里各取所需。在语义知识层,它通过综合计算三种相似度指标——密集向量相似度、稀疏关键词匹配度,以及大语言模型本身的判断——来找出最相关的事实知识,这三种方式结合起来,就像用望远镜、显微镜和直觉一起观察,比单一方法更可靠。在情节经验层,它通过向量相似度找出过去最相近的几次任务经历。在程序技能层,它并不直接搜索,而是顺着已经找到的经验节点,自动继承与这些经验相关联的通用技能节点。三层内容汇聚在一起,形成当前这一步的初始工作上下文,相当于侦探刚到案发现场时初步整理出的线索集合——这是一个起点,还比较粗糙,但足以支撑第一步的行动。

第二阶段叫做"反馈驱动的连接优化",在AI执行完一步动作并收到反馈之后立刻启动。反馈可以来自外部环境——比如操作失败的报错,也可以来自AI自身的自我核查——比如它判断自己给出的答案逻辑上有问题。收到反馈后,系统会分析失败原因,然后对当前的记忆子图进行有针对性的修改。

这种修改有三种具体形式。如果反馈表明当前上下文缺少某些关键信息,系统会主动把那些原本没有激活的节点纳进来,建立新的连接——就像侦探意识到某条线索被遗漏了,赶紧去补调相关档案。如果反馈表明上下文里有噪音在干扰判断,系统会剪断那些不相关的连接,把干扰源移除——就像侦探清理掉桌上一堆无关证物,让真正的关键线索更清晰地呈现出来。还有第三种情况:如果检索到的记忆内容方向对了,但颗粒度不合适,系统就会对节点本身的内容进行改写——要么拆解得更细,要么提炼得更抽象,让记忆的精细程度和当前任务的需求匹配起来。这个修改-执行-再反馈的循环可以反复进行,直到任务成功,或者达到预设的最大迭代轮次为止。

第三阶段叫做"长期连接固化",是在任务完成之后离线进行的。系统会把本次任务的完整执行轨迹存入情节经验层,然后对所有已有的经验记录按照语义相似度进行聚类——简单说,就是把做过的事情按"类型"分类整理,把内容相近的经历归到同一组。对于每一组相似经历,系统会调用大语言模型来提炼这一组经历的共同规律,生成一个新的程序技能节点,就像老侦探把自己多年办案的心得汇总成一本内部手册,供以后遇到类似案子时直接参考。

然而仅仅生成这个技能节点还不够,因为第一次提炼出来的"心法"未必真的管用。于是系统引入了一个专门的质量评估指标,叫做PEMS(程序进化成熟度评分)。这个分数由三部分决定:这个技能指导下,相关任务的平均成功率有多高(越高越好);技能描述的文字有多精炼(越短越好,代表提炼得越精华);与上一个版本相比,这次修改带来了多大的实质性变化(变化太小说明已经趋于稳定)。系统会根据PEMS的高低对技能进行反复修改,直到分数不再显著提升为止,此时认为这个技能已经"成熟",可以稳定地为未来的任务提供指引。当某类任务的技能足够成熟之后,AI在遇到同类任务时甚至可以直接激活对应的成熟子图,跳过繁琐的检索和迭代,大幅提升效率。

四、三场考试,看看FluxMem的真实成绩

研究团队在三个截然不同的测试场景中检验了FluxMem的表现,可以理解为安排这位"新型侦探"参加了三场风格迥异的考试。

第一场考试是LoCoMo,专门测试对超长对话内容的记忆和推理能力。这个数据集包含10段极长的对话,平均每段对话有588轮、超过一万六千个词,研究团队从中提取了1540个问题,分为单跳问题、多跳推理问题、时间推理问题和开放领域问题四类。使用GPT-4.1-mini作为基础模型时,FluxMem达到了95.06分的平均得分。作为参照,直接把整段对话全部塞给AI让它自己找答案的"全文上下文"方法只有81.23分,而此前最强的同类记忆系统EverMemOS也只有93.05分。换用另一个基础模型Qwen3时,FluxMem同样以93.44分领先,而"全文上下文"方法在这个模型下直接跌到了74.87分——说明在记忆整理和精准检索这件事上,FluxMem带来的提升是真实且稳定的。

第二场考试是Mind2Web,模拟真实的网页操作任务,比如在网站上完成搜索、点击、填写表单等连续操作。这类任务的难度在于:网页元素繁多,干扰信息密集,AI必须在一大堆无关的按钮和链接中找到正确的操作目标。研究团队特别区分了两种测试设置:一种是"过滤版",提前人工剔除掉非关键元素,降低了难度;另一种是"真实版",保留所有元素,更接近实际使用场景。在真实版测试中,以跨任务成功率这个指标为例,不使用记忆的基础系统只有2.8%,之前最强的记忆系统AWM达到了3.6%,而FluxMem直接提升到了8.1%。换用Gemini-2.5-flash时,FluxMem的跨任务成功率进一步提升到9.6%,而AWM在这个模型下只有5.6%。

第三场考试是GAIA,测试的是通用任务能力,包含从简单的工具调用到复杂的多步骤推理等各种类型的任务,按难度从低到高分为三个级别。FluxMem的测试方式是在Flash-Searcher这个已有的搜索框架基础上加入记忆机制,与同样在这个框架上运行的MemEvolve进行对比。使用Kimi K2模型时,Flash-Searcher基准成功率为52.12%,加入MemEvolve之后提升到61.21%,而加入FluxMem则直接跳升到64.85%,绝对提升幅度达到12.73个百分点。在最难的第三级任务中,FluxMem的成功率从基准的34.62%提升到46.15%,提升了超过11个百分点。

五、拆开来看:哪个部件最关键?

为了弄清楚这三个阶段各自贡献了多少,研究团队专门做了消融实验,也就是依次去掉某一个阶段,看看性能会下降多少。

在LoCoMo测试中,去掉第二阶段(反馈优化)带来的损失最大——GPT-4.1-mini的平均分从95.06直接跌到85.32,Qwen3模型则从93.44跌到84.74,而去掉另外两个阶段的影响相对较小。这个结果很容易理解:LoCoMo本质上是一个精准检索的任务,答案都藏在对话记录里,只要能准确找到、筛选出来就能回答正确。第二阶段通过反复扩充和修剪检索结果,正好击中了这类任务的核心需求。

而在Mind2Web测试中,结论完全反转——去掉第三阶段(长期固化)带来的损失最大,跨任务成功率从8.1%直接跌到3.2%,去掉第二阶段的影响反而相对有限。这同样说得通:网页操作任务需要复杂的多步骤规划能力,光靠即时检索和修正还不够,必须有从大量经验中提炼出来的稳定技能框架来支撑,第三阶段正是提供这种框架的关键所在。

研究团队还专门分析了第二阶段迭代次数的影响。在LoCoMo上,从0轮迭代(也就是不做反馈优化)到5轮迭代,平均得分从85.32稳步提升到95.06,而且改善曲线相当平滑,几乎每增加一轮都有可见的提升。不过在第4轮到第5轮之间,提升幅度只有0.54%,说明性能开始接近上限。这个趋势暗示,存在一个性价比最高的迭代次数区间,不需要无限迭代,在合适的轮次停下来就足够了。

第三阶段的PEMS指标同样呈现出清晰的收敛规律:从第0轮的0.072,在前四轮内迅速爬升到0.158,然后在第5轮时趋于稳定,停在0.159附近。这种收敛趋势意味着系统可以自动判断"技能什么时候已经足够成熟",从而适时停止迭代,避免浪费计算资源。

六、一个具体案例:AI如何处理一道奥运奖牌统计题

研究团队在论文中分享了一个具体的案例,能够很直观地说明FluxMem三个阶段是如何配合工作的。

任务是:给定一个包含各国参赛运动员人数和奖牌数量的CSV文件,找出平均每位运动员获得奖牌最多的国家。

在第一阶段,系统激活了一个初始工作上下文,包括:关于CSV文件解析的工具文档、一段过去处理过类似排名问题的任务经历,以及一个关于"表格问答"的通用技能节点。这个通用技能的内容大概是"读取文件→检查列结构→进行排序",属于一个比较粗糙的模板。

AI按照这个上下文开始执行,第一步成功读取了文件结构。但第二步出问题了——AI调用了一个电子表格可视化工具来做数据聚合,结果触发了环境报错:这个工具不支持这种操作,渲染超时失败了。第二阶段随即启动:系统判断这是一个"连接不准确"的问题,于是剪断了与电子表格工具相关的连接,同时把Python数据分析库的相关文档节点拉进了工作上下文,建立了新的连接。切换工具之后,聚合计算成功执行了。

然而接下来,AI做了自我核查,发现虽然数据处理成功了,但调用的那个通用技能模板有问题——它能处理"对现有统计数据排序"这类任务,却不知道该怎么"先计算每人奖牌数再排序"这个需要组合计算的操作。于是第二阶段再次发挥作用,这次触发了"节点重塑":把原来那个粗糙的通用技能节点替换成一个更精细的节点,这个新节点明确描述了"按实体分组→推导指标→归一化→比较"这样一套更完整的统计聚合流程。有了这个更细致的指引,AI正确计算出了每个国家的平均奖牌数,并给出了正确答案。

这个案例清楚地展示了FluxMem的三种修正机制是如何在同一个任务里按需依次触发的,而不是机械地按固定顺序走流程。

七、目前还做不到的事情

研究团队对这套框架的局限性持坦诚态度,指出了几个目前尚未解决的问题。

第一是计算开销。第二和第三阶段都需要反复调用大语言模型来做验证、修改和技能归纳,这意味着每完成一个任务,背后要消耗相当多的API调用次数和时间。研究团队坦言,目前的实验主要关注任务成功率,没有系统地测量延迟、API费用和token消耗,而这些对于实时应用或资源受限的场景来说是非常现实的约束。

第二是测试场景的局限。三个测试数据集都是预先收集好的静态数据,不能完全模拟真实世界中持续变化、任务边界模糊的场景。在真正的开放世界里,任务分布会不断漂移,记忆还需要主动管理遗忘机制,而这些场景目前还没有被充分验证。

第三是超参数的敏感性。框架里有几个关键参数需要人工设定,比如第二阶段最多迭代多少轮、PEMS的收敛阈值、检索时取前多少个结果。目前的实验更多关注各组件的有效性,还没有对这些参数在不同模型和不同任务类型下的稳健性做系统测试。

第四是离线固化的调度问题。第三阶段目前是周期性地批量离线执行,没有研究在线执行和离线固化之间的动态调度策略,也没有评估固化频率对在线性能的影响。这些都是未来需要继续探索的方向。

说到底,FluxMem这项研究想解决的,是AI智能体记忆系统长期以来的一个根本性缺陷:记忆太"静"了。现有的系统把记忆当成一个固定的档案柜,存进去什么就是什么,检索方式也是一成不变的。而FluxMem的思路是把记忆变成一张活的关系网,允许在任务执行过程中动态调整哪些节点被激活、哪些连接被保留或切断,并且在长期积累中把成功经验提炼成越来越成熟的通用技能。

对普通用户来说,这项研究的意义在于:未来的AI助手有可能真正从与你的历次互动中"学到东西",而不只是每次都从零开始。你跟它沟通一次,下次遇到类似问题时,它的处理方式会更准确、更贴合你的习惯——不是因为它死记硬背了你说过的每一句话,而是因为它真的提炼出了一套更好用的处理思路。当然,这距离真正成熟的实用化还有距离,计算成本、实时性、跨场景的稳定性都还需要进一步打磨。但这个方向本身,代表着AI记忆研究从"存储"向"进化"的一次重要转变,值得持续关注。对这项研究感兴趣的读者,可以通过arXiv平台以论文编号arXiv:2605.28773查阅完整原文。

Q&A

Q1:FluxMem和普通AI记忆系统有什么区别?

A:普通AI记忆系统通常采用固定的存储和检索流程,不会根据任务反馈进行调整。FluxMem的核心区别在于它将记忆建模为一张动态关系图,可以在任务执行过程中实时增加或删减节点连接,还能通过长期积累将成功经验提炼成可复用的通用技能。简单说,普通系统的记忆是"静态档案柜",而FluxMem的记忆更像是会自我整理和优化的活体知识网络。

Q2:PEMS评分是怎么衡量技能质量的?

A:PEMS(程序进化成熟度评分)综合了三个维度:技能指导下相关任务的平均成功率越高分越高,技能描述的文字越简洁精练分越高,与上一版本相比变化越小说明越趋于稳定分越高。三者结合,既要求技能真的管用,又要求描述精炼不冗余,还要求经过多次迭代后趋于收敛,从而筛选出真正高质量且稳定的通用技能节点。

Q3:FluxMem在哪些实际场景下最有用?

A:从三个测试结果来看,FluxMem在需要精准信息检索的长对话场景、需要多步骤规划的复杂网页操作场景,以及需要综合多种能力的通用助手任务中均有明显提升。实际应用中,最有潜力的场景包括需要长期记忆用户偏好的个人AI助手、需要积累操作经验的自动化办公智能体,以及需要在复杂信息环境中精准决策的搜索和问答系统。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-