微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 北卡罗来纳大学教堂山分校等机构联合提出:让AI记忆系统自己给自己"动手术",效果提升近八成

北卡罗来纳大学教堂山分校等机构联合提出:让AI记忆系统自己给自己"动手术",效果提升近八成

2026-05-21 12:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-21 12:03 科技行者

这项由北卡罗来纳大学教堂山分校、加州大学伯克利分校与加州大学圣克鲁兹分校联合完成的研究,以预印本形式于2026年5月13日发布,论文编号为arXiv:2605.13941,感兴趣的读者可通过该编号查阅完整原文。

你有没有遇到过这样的烦恼:你每天都在用的助手——无论是手机上的语音助手,还是在线客服机器人——明明昨天你告诉它你不喜欢吃辣,今天它却又给你推荐了一道麻辣火锅。这种"记性不好"的问题,困扰着无数与AI打交道的人。更深层的问题是,即便这些AI系统确实存储了你的喜好,它们检索和调用这些记忆的方式,也常常刻板、笨拙,一成不变。

这篇论文要解决的,正是这个"记忆系统检索机制僵化"的根本问题。研究团队开发了一套名为EVOLVEMEM的系统,其核心思想可以用一个厨师学徒的故事来理解。

设想一位刚入行的厨师学徒,第一天进厨房,只会用盐来调味。不管是炒菜、炖汤还是甜点,他都只会加盐。这当然不行。于是他开始记录每道菜客人的反馈:这道汤太咸了,那道炒菜淡而无味,那道甜点加了盐反而毁了整道菜。他把这些反馈仔细分析,发现问题所在,然后主动尝试加醋、加糖、加香料。每次尝试后,他再次记录反馈,不断调整。几轮下来,他从一个只会加盐的学徒,成长为一位能根据不同菜品灵活运用多种调味技巧的厨师。

EVOLVEMEM做的事情,与这位厨师学徒几乎一模一样——只不过它调的不是菜,而是自己检索记忆的方式。

一、为什么AI的"记忆柜"需要一套会自我进化的检索手册

要理解这项研究的价值,先得弄清楚AI的记忆系统平时是怎么工作的。

当一个AI助手与你交谈了数十次、数百次之后,它的"记忆柜"里装满了各种各样的信息片段:你喜欢看什么书、你的孩子叫什么名字、你上周抱怨过哪家快递太慢……这些信息被一条条存储起来。当你问它问题的时候,它需要从这个装满信息的柜子里,找出最相关的那几条,然后给你回答。

问题在于,不同的问题需要用完全不同的方式去"翻柜子"。比如,你问"我女儿叫什么名字",这是一个精确的事实查询,需要像查字典一样直接匹配关键词。你问"我上个月去旅游之后心情怎么样",这是一个时间相关的问题,需要把记忆按照时间顺序排列,找最近的那条。你问"根据我平时的习惯,我会喜欢这部新上映的电影吗",这需要把你长期以来的喜好综合推断,像拼图一样组合多条记忆。你问"我有没有提到过喜欢某个叫张三的人",但这个问题故意把名字弄错了——这就需要先忽略名字,专注于人物关系来搜索。

面对这四种问题,如果AI永远用同一套固定的"翻柜子"规则,必然会在某些类型的问题上频频出错。而现有的绝大多数AI记忆系统,恰恰就是这样——它们的检索规则在系统出厂那天就定好了,从不改变。研究团队把这种现象称为"检索基础设施的冻结",就像一家图书馆永远只用按拼音排列的方式找书,不管你是要找作者还是要找主题,都只给你一个拼音顺序的书目,哪怕这对你完全没用。

EVOLVEMEM的突破,在于它是第一个把"检索规则本身"也变成可以自动优化的对象的系统。它不仅能更新记忆里的内容,还能自动更新自己翻柜子的方式。

二、记忆柜的结构:分门别类才能存得好、找得准

在了解EVOLVEMEM如何进化之前,先要明白它是怎么存储记忆的。

这套系统的记忆存储不是简单地把对话原文一段段堆在那里,而是把每一条信息提炼成一个"记忆单元",每个记忆单元包含四个部分:用自然语言写成的内容描述、一个用来表示语义含义的数学向量(可以把它理解为一个坐标,语义相近的内容坐标也相近)、一个表示这条记忆属于哪类知识的类型标签,以及一堆辅助元数据——包括这条记忆有多重要、可信度有多高、涉及哪些人物和地点、创建于什么时间。

类型标签分为六大类,分别对应六种不同的知识形态:亲历的事件记录、通用的事实知识、个人偏好与习惯、正在进行的项目状态、当前工作摘要,以及操作流程类知识。这种分类,类似于我们整理书房时不会把食谱和技术手册混放在一起——分好类,才能找得快。

从对话中提取这些记忆单元的过程,也颇为讲究。系统采用"滑动窗口"的方式处理长对话,每次截取一段对话,用一个语言模型读懂这段对话的内容,然后提炼出若干条独立完整的记忆单元。为了防止漏掉重要信息,系统设有三道保险:如果提取过程中途出错,会自动重试;如果对话内容太长塞不进模型,会自动切成更小的片段分别处理;还有一个"覆盖验证员",专门检查提取出来的记忆是否遗漏了原始对话中的关键词,如果发现遗漏,立刻重新提取缺失的部分。

记忆存进去之后,系统还会定期做"整理"。如果两条记忆的内容高度相似(超过80%的词语重叠),就把重复的那条删掉,只留重要性更高的那条。此外,越久远的记忆会自动"褪色"——重要性分值随时间缓慢下降,但永远不会归零,保持一个最低值,确保旧记忆不会彻底消失。每当某条记忆里涉及的人物或实体被新的查询频繁提及,这条记忆的"被强化分"就会上涨,让系统知道这个话题最近很热门。

三、三管齐下的检索引擎:像用三种不同的工具同时找书

弄清楚记忆怎么存,再来看记忆怎么找。

EVOLVEMEM的检索系统同时使用三种完全不同的方式来搜索记忆,就像一个图书管理员同时拥有三种找书的本领:一种是按书名中的关键字逐字比对,一种是按照书的意思和主题来联想,一种是按照作者姓名、出版地点等具体标签来筛选。

第一种方式叫做"词汇检索",使用的是一种叫BM25的经典算法。这个算法的工作原理,类似于用搜索引擎搜索一个词,看哪些文档里出现了这个词、出现了多少次、这个词有多罕见。BM25非常擅长找到包含精确关键词的内容,但它不擅长处理同义词——如果你问"我喜欢什么运动",而记忆里存的是"我热爱踢足球",BM25可能就找不到,因为"运动"和"踢足球"不是同一个词。

第二种方式叫做"语义检索",利用之前提到的数学向量坐标来工作。两条意思相近的内容,即便用词完全不同,它们的坐标也会挨得很近。所以这种方式能突破字面限制,根据意思找到相关记忆。这弥补了BM25的短板,但它对需要精确匹配的场景(比如找一个具体的名字)就不如前者可靠。

第三种方式叫做"结构化元数据检索",专门根据记忆单元中存储的人名、地点名称、实体名称来过滤。比如你问"关于北京的事情",这种方式会直接找出所有地点字段里标注了"北京"的记忆,既快又准。

三种方式各自找出一批候选记忆之后,系统需要把它们合并排序,这个过程叫"融合"。系统支持三种融合策略:最简单的是直接把三种方式的得分加在一起排序;稍复杂的是给三种方式分别设置权重,根据权重加权求和;最精妙的一种叫"倒数排名融合",不看具体分数,只看每条记忆在各自方式里的排名,把排名取倒数之后相加,这样即便三种方式的评分标准完全不同,也能公平地合并。

最终的排序不只看检索相关性,还会叠加上记忆的重要性分值、时间新鲜度和被强化分,形成一个综合排名,然后把排名靠前的若干条记忆一起交给后续的问答环节使用。

此外,系统还有两个可选的"增强工具"。一个专门对付刻意混淆人名的问题——遇到这类问题时,系统会把问题里的人名全部剔除,只用剩下的内容重新搜索,然后把两次搜索的结果合并,避免被混淆的名字带偏。另一个工具专门处理需要把一个大问题拆成若干小问题才能回答的复杂查询——系统会先用语言模型把这个大问题分解成几个独立的小问题,分别去检索,然后把结果合并。

这整套检索系统的每一个参数——三种方式各自找多少条候选、最终传递给问答模块的记忆条数上限、用哪种融合策略、各种权重是多少、要不要启用名字剔除工具、要不要启用问题分解工具——全部都暴露出来,等待后续的"进化引擎"来自动调整。

四、进化引擎:AI怎么给自己的检索系统"动手术"

现在到了最核心的部分——EVOLVEMEM是如何自动进化它的检索配置的。

整个进化过程可以用"厨师学徒"的故事来完整类比。每一轮进化,都由四个步骤构成,形成一个闭环:评估、诊断、提议、守护。

评估阶段,系统用当前的检索配置,对一批有标准答案的问题进行完整测试,把每一道题的问题、系统给出的答案、正确答案、得分,以及系统实际检索到了哪些记忆条目,全部记录在一个日志文件里。这个日志就像厨师学徒每天记录的"客人反馈本"。

诊断阶段,一个专门负责分析的语言模型读入这份日志,按照一套固定的分析框架,识别出失败的题目属于哪种原因:是检索到了错误的记忆条目、是检索到的信息量不够、是时间判断混乱、还是答案格式不对……这个分析模块会把失败案例归类,找出最突出的问题模式,就像一位有经验的大厨帮学徒分析:"你最近做失败的菜,大部分是因为加糖的时机不对。"

提议阶段,这个分析模块在完成诊断之后,会生成一份具体的调整建议,明确告诉系统哪些参数需要改、改成什么值。比如建议把语义检索的候选数量从8增加到12,或者建议给某一类问题单独启用问题分解工具,或者建议把融合策略从简单加法改成倒数排名融合。

守护阶段,一个"元分析器"负责把这份建议转化成实际的参数修改,并对结果进行验证,同时执行三条安全规则。第一条:如果这一轮的得分比上一轮下降超过一个阈值,立即撤销这次修改,回退到上一个最好的配置,防止错误的修改持续生效。第二条:如果连续两轮得分几乎没有变化,说明系统陷入了局部最优,需要主动给参数加入一些随机扰动,逼迫系统跳出当前的局限,去探索更大的参数空间。第三条:如果诊断模块发现是记忆库本身就缺少某些信息,会触发重新提取,补充缺失的记忆,而不是在一个不完整的记忆库上继续调整检索配置。

这个闭环最多进行七轮。每轮结束后,系统保存当前最好的配置;如果连续几轮改进幅度低于阈值,系统自动停止,返回整个过程中表现最好的配置。

研究团队特别强调了一个精彩的发现:进化过程中,诊断语言模型不仅能调整原本就在"可调旋钮清单"上的参数,还能自己发明出清单上原本不存在的新机制。就像那位厨师学徒,不只是把盐换成糖,而是自己发明了"先腌后炒"这个原本没人教他的技巧。在实际实验中,名字剔除机制、问题分解机制、二次验证机制这三个对最终效果贡献最大的新功能,都不是研究团队手工设计进去的,而是诊断模块通过阅读失败日志,自己发现并提出的。

五、在两个测试场地上的实战表现

研究团队在两个公开数据集上测试了EVOLVEMEM,并与目前公认最强的几套同类系统进行了对比。

第一个测试场地叫LoCoMo,是一个模拟长期对话的数据集。里面的对话跨越多个时间段,每段对话动辄几百轮,问题类型涵盖五种:需要精确匹配的单跳问题、需要结合时间信息的时间问题、需要推理和联想的多跳问题、需要综合多条信息的开放域问题,以及故意把人名搞错来测试系统的对抗性问题。整个测试集包含10段对话、接近两千道问答题,可以说是一个相当全面的"记忆系统压力测试"。

EVOLVEMEM从一个极简的初始配置开始——只用BM25关键词检索,只找5条候选,只传8条记忆给答题模块,所有增强工具全部关闭。这相当于那位学徒第一天进厨房,只有一撮盐。初始配置的得分是30.5%。七轮进化之后,得分提升到了54.3%。以百分比计算,这相当于相对改进了78%——从30.5提升到54.3,几乎是把得分拉高了一倍。

与其他系统的对比同样鲜明。当前公认最强的同类系统SimpleMem,在同样的测试条件下得分为43.2%,而EVOLVEMEM的54.3%比它高出了25.7%(相对提升)。具体到五种问题类型上,时间类问题的提升最为惊人,相对改进超过63%;单跳精确匹配问题的相对改进接近69%;连最难的多跳推理问题,也获得了可观的提升。

第二个测试场地叫MemBench,测试风格和LoCoMo完全不同——它使用选择题格式,问题类型包括简单回忆、比较判断、聚合计算、条件筛选、知识更新、后处理,以及专门测试"记忆噪音干扰"的鲁棒性类别。EVOLVEMEM在这个测试集上同样拿下了最高分:GPT-4o骨干下准确率67.9%,比最强基线高出18.9%;更强的GPT-5.1骨干下准确率提升至71.4%,比最强基线高出11%。其中"回忆类"问题(需要直接检索存储的信息)相对改进高达40%,"推理类"问题相对改进超过33%。

这里还有一个值得专门介绍的实验,研究团队叫它"跨场地迁移测试",用来验证进化出来的检索策略是不是真的学到了普遍规律,而不只是背熟了某个特定测试场的套路。

实验思路很简单:先在LoCoMo上跑完七轮进化,得到一套成熟配置;然后不做任何修改,直接拿这套配置去MemBench上测试。结果,这套从没见过MemBench题目的配置,在MemBench上居然也拿到了54.3%的成绩,远超随机乱猜的水平,说明配置确实迁移过来了。

更有意思的是,如果在这个LoCoMo来的配置基础上,继续在MemBench上再跑几轮进化,最终得分能达到79.2%,比从零开始在MemBench上进化的最终成绩67.9%还要高16.6%。换句话说,有了LoCoMo积累的"烹饪经验",在MemBench这个"新厨房"里反而学得更快更好。而且在MemBench上的继续进化,没有损害LoCoMo上的成绩,反而还小幅提升了一点。这说明这套方法学到的是真正普遍的"好厨艺",而不是专门为某道菜练出来的"表演技巧"。

六、拆开看各部分的贡献:哪块砖搬走最疼

研究团队还系统地做了"拆零件"实验,每次只关掉系统的一个功能,看整体表现下降多少,以此衡量每个组件的实际贡献。

关掉提取质量的三道保险(自动重试、自动分块、覆盖验证)是损失最大的一个操作,得分从54.3%暴跌到31.08%,几乎腰斩。这说明再好的检索算法,如果记忆库里的原材料就是不完整的,也是巧妇难为无米之炊。

关掉语义检索,得分下降10.32个百分点,是单个检索方式中影响最大的。这符合直觉——很多问题问的是意思,而不是字面词语,语义检索在这类场景下不可或缺。关掉BM25关键词检索损失6.87个百分点,关掉结构化元数据检索损失2.33个百分点,三种检索方式都有独立贡献,没有哪个是多余的。

将智能诊断模块替换成随机参数扰动,得分下降9.63个百分点。这个对比直接证明了,读取失败日志、分析失败原因、有针对性地提调整建议,这整套"智能诊断"流程,确实比无脑乱调参数有意义得多。

三个由诊断模块自主发现的新功能——名字剔除、问题分解、二次验证——合计贡献了7.77个百分点,而且这三个功能在研究开始时根本不在系统的"可调项目清单"上,完全是在进化过程中被"发明"出来的。这是整项研究中最令人印象深刻的发现之一:系统不只是调好了已有的旋钮,还在进化过程中发现了原本没有旋钮的地方需要安装旋钮。

七、一道题的故事:四轮进化如何把得分从零推到满分

为了让进化过程的细节更直观,研究团队选取了一个具体的例子,完整展示了四轮配置调整是如何逐步让一道题从答错变成答对的。

这道题来自一段真实对话,题目是"梅拉妮和她的家人露营时都做了什么",正确答案是"探索了大自然、烤了棉花糖、去远足了"。这听起来是一道非常简单的题,但对于一个只会用关键词匹配的初始系统来说,却非常棘手——因为这段对话里有多次提到露营,其中有一次是观看流星雨,BM25只看"露营"这个词,就把流星雨那次的记录也检索出来了,导致系统给出了错误答案"在露营时观看了英仙座流星雨",得分为零。

第一轮进化之后,系统开启了语义检索,把检索到的候选条目数量从5条扩大到16条,还启用了名字剔除机制。这次系统找到了更多与"露营活动"语义相关的记忆,答案变成了"探索自然、烤棉花糖、远足、观看英仙座流星雨"——前三项对了,但流星雨的干扰还在,F1得分提升到0.44。

第二轮进化之后,系统把结构化元数据检索的权重提高了,同时开启了基于时间的排序。结构化检索专门找出了涉及"梅拉妮、家人、露营"这三个实体的记忆,把检索范围锚定在了对的那次露营事件上;时间排序进一步压低了较老的流星雨记忆的权重。这次流星雨的干扰消失了,答案变成了准确的"探索自然、烤棉花糖、去远足了",F1达到了1.0满分。

第三轮,系统因为上一轮的激进调整导致整体得分下滑,安全守护机制自动把配置回退到第一轮结束时的最优状态,同时针对这道题把检索候选扩展到了20条。这道题的答案基本正确,但缺少了"和"字这个连接词,F1略降到0.94,这是一个轻微的措辞问题而非内容错误。

第四轮,诊断模块注意到许多"开放域聚合类"问题的答案格式有问题,于是为这一类问题专门设置了一个"答案风格覆盖":要求答案必须使用明确的列举连词。这一覆盖让这道题的答案重新补上了"和"字,F1回到了1.0满分。

这道题的故事,以最小的颗粒度呈现了EVOLVEMEM每一轮进化的价值:不是一步到位的突变,而是针对具体问题的逐步精准修正,每一步都有迹可循、有据可查。

归根结底,EVOLVEMEM做的事情,是把人类研究者在调试一个AI系统时会做的事——观察失败、分析原因、提出假设、验证假设、保留有效调整——都交给了系统自己来做。这套"自动做科研"的范式,叫做AutoResearch,意思是系统在自动研究自己的架构。七轮下来,它发现的有效策略,不亚于一个经验丰富的工程师人工调参几周的成果,而且它找到的部分方案,是人工设计者最初根本没有想到的。

这对普通用户意味着什么?意味着未来的AI助手,不需要工程师每隔一段时间人工下场调整参数,就能随着你的使用时间越来越长,自己变得越来越懂你——不只是存的内容越来越多,连找内容的方式也在持续进化。这就像一个管家,不只是记性越来越好,连找东西的本事也在自己不断摸索中越练越精。

当然,这项研究也坦诚地指出了自身的局限。在MemBench的"鲁棒性"类别中,涉及需要对已存储记忆进行后处理的问题,EVOLVEMEM的表现仍然是最弱的一块——经过分析,根本原因在于记忆库里根本没有存入相关信息,这是记忆提取环节的覆盖率问题,不是检索配置能够弥补的。换句话说,无论检索手册进化得多好,如果书架上根本没有那本书,再厉害的图书管理员也无能为力。未来的研究方向,除了把这套自动进化机制延伸到动态实时场景和多模态(图片、语音)记忆之外,可能还需要在记忆提取的完整性上下更多功夫。

Q&A

Q1:EVOLVEMEM和普通AI记忆系统有什么区别?

A:普通AI记忆系统只会更新存储的内容,检索规则一旦设定就不再改变。EVOLVEMEM的不同之处在于,它会定期分析自己回答错误的题目,找出失败原因,然后自动调整自己检索记忆的方式——不只存的内容在变,连找内容的规则也会随时间自动优化,这个过程完全不需要人工干预。

Q2:EVOLVEMEM的自我进化过程具体要花多长时间?

A:根据论文中的效率分析,在一个包含约200道问题和900条记忆的标准测试样本上,完整跑完7轮进化大约需要25到35分钟,其中大部分时间花在用语言模型逐题评估上。每轮的智能诊断本身只需要大约15秒。系统会在改进幅度低于阈值时自动停止,不需要等到7轮全部跑完。

Q3:EVOLVEMEM在不同类型问题上的提升幅度一样吗?

A:不一样,提升最显著的是时间类问题和单跳精确匹配类问题,相对改进分别超过63%和68%,因为这两类问题特别依赖时间排序和语义检索,而这两个机制在进化早期就被激活了。多跳推理类问题也有明显提升,主要来自问题分解机制的贡献。相对而言,对抗性名字混淆类问题从初始的高分出发,提升空间较小,但系统也通过名字剔除机制维持了较好的表现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-