
这项由南加州大学(University of Southern California)和加州大学圣巴巴拉分校(University of California, Santa Barbara)联合开展的研究,以预印本形式于2026年4月13日发布在arXiv平台,论文编号为arXiv:2604.11610v1,研究方向属于计算语言学(cs.CL)领域。感兴趣的读者可通过该编号直接检索完整论文。
一、记忆力,AI的最后一块短板
每隔几天,你就要在聊天窗口里重新告诉AI助手:"我不吃辣"、"我是程序员"、"我正在学法语"——哪怕上周你们已经聊过这些。这种感觉就像雇了一位每天早上都会失忆的秘书:聪明、能干,却根本不记得你是谁。
这个痛点并非无解。近几年,越来越多的研究者开始给AI配上"记事本",让它把每次对话中的重要信息提取出来存下来,下次对话时再翻出来用。这个过程叫做"记忆提取",听起来简单,实则暗藏玄机。
问题的复杂性在于:不同类型的对话,需要记住的东西截然不同。当你和AI聊日常生活时,它该记住你的饮食偏好、家庭成员的名字;当你让AI帮你解一道数学题时,它该记住解题策略和常见错误;当AI在帮你自动化完成某项任务时,它又该记住上次执行任务时走过的弯路。一句"把重要信息记下来",根本无法覆盖这么多样的场景。
这就好比一位速记员,在法庭上要记录关键证词,在厨房里要记录食谱步骤,在健身房里要记录运动数据——每种场合"重要信息"的定义都完全不同,用同一套模板去记,必然会在某些场合记错重点,甚至记一堆没用的东西。
这篇论文的研究团队正是注意到了这个被学界长期忽视的问题。他们不仅把问题说清楚了,还搭建了一套测试框架,并提出了一个真正能适应多样场景的解决方案。
二、十八个战场,一张统一的考卷
为了系统研究这个问题,研究团队做了一件颇费心思的工作:他们把18个已有的数据集重新改造,统一成同一套测试格式,搭建了一个名为BEHEMOTH的基准测试平台。这个名字是"Benchmark for Extracting HElpful Memory On Tasks with Heterogeneity"的缩写,中文可以理解为"跨异质任务的有效记忆提取基准"。
这18个数据集被分成三大类。第一类叫"个性化任务",包含5个数据集,涵盖日常闲聊和个人偏好记录,比如用户告诉AI自己不喜欢某类食物、习惯某种沟通风格;第二类叫"问题解决任务",包含7个数据集,覆盖数学竞赛题、物理工程题、代码编程题等需要推理的场景;第三类叫"智能体任务",包含6个数据集,记录AI在虚拟环境中完成任务的行动轨迹,比如在模拟家居环境中搬运物品、在知识库中核实事实。
每个测试案例的结构都一致:一段"来源对话"(过去发生的对话),一个"目标问题"(未来需要回答的问题),以及一个"评分函数"(用于衡量AI借助提取的记忆回答目标问题的准确性)。评分方式根据任务类型不同而变化,有的用准确率,有的用规则验证,有的用代码执行通过率。核心逻辑始终如一:记忆提取得越好,AI在新对话中表现越好。
特别值得一提的是,测试团队刻意选择了不告诉AI每个案例来自哪个数据集或属于哪种任务类型。AI只能看到原始对话内容,必须自己判断该提取什么类型的信息。这就像让一位记者在没有任何栏目提示的情况下,单凭采访录音判断这条新闻该放在政治版、娱乐版还是科技版——真实世界的AI助手面临的挑战,恰恰就是这种"不知道自己在做什么类型的任务"的处境。
三、一张通用模板,为什么注定行不通
在测试现有方法之前,研究团队先回答了一个基础问题:有没有一种静态的提取指令,能在所有任务上都表现优异?答案是否定的,而且结果相当直白。
研究团队评估了五种不同的静态提取指令。最简单的一种叫"Simple",只是让AI提取有用信息,不做任何限定;稍复杂的一种叫"Mem0",来自业界实际部署的产品,专门针对用户偏好、个人事实、重要日期等信息设计了详细的提取规则;另一种叫"ReasoningBank",专门针对智能体任务中的成功策略和失败教训设计;还有两种更宏观的分类方案,"OpenMemory"把记忆分成五类(情节记忆、语义记忆、程序记忆、情感记忆、反思记忆),"Survey"则把记忆分成两类(事实记忆和经验记忆)。
测试结果非常清晰地呈现出一个"此消彼长"的规律。Mem0在个性化任务上表现最好,宏观准确率高达73.31%,相比最简单的指令提升了将近30个百分点;但在问题解决任务上,它反而比简单指令还差了3.7个百分点。ReasoningBank在问题解决任务上有不错的表现,提升了约7个百分点,但在个性化任务上却下滑了超过10个百分点。那两种分类方案虽然更均衡,但在任何一个单独任务上都没有特别突出的表现。
这个现象用速记员的比喻来理解就很直观了:一位专门训练为法庭速记的记者,去厨房记菜谱时就会不自觉地把步骤写成证词格式;而一位什么都记一点的通才记者,在每个场合都只能记个大概,关键细节容易丢失。此外,研究还发现,更复杂的分类方案并不意味着更好的提取效果——OpenMemory的五类体系并没有超越Survey的两类体系,说明提取质量取决于AI能否正确理解并执行指令,而不仅仅取决于指令本身的细致程度。
四、让AI自己摸索规律:进化式框架的尝试
既然没有一张通用模板能打遍天下,一个自然的想法就出现了:能不能让AI从实际任务反馈中自己学习,逐渐摸索出一套有效的提取策略?这类方法被称为"自进化框架"(self-evolving frameworks),核心思路是:每次提取之后,根据最终回答的质量来判断提取得好不好,然后用这个反馈来改进提取指令,循环迭代,越来越好。
研究团队测试了三种已有的自进化框架。第一种叫GEPA,每次只看一小批案例,用这批案例的反馈来改进指令;第二种叫ACE,对每次提取行为进行细粒度分析,把指令中的每条规则标记为"有帮助"或"有害",再用统计结果做出增删改;第三种叫MemEvolve,会让一个工具型AI助手检索大量案例日志,再由另一个AI根据分析结果提出改进建议。
这三种方法在均匀分布的单一任务上都表现不错,但在BEHEMOTH这种混合任务的情境下,都出现了明显的"偏科"现象。GEPA在智能体任务上提升了14个百分点,却在个性化任务上下滑了2个百分点以上。MemEvolve在个性化任务上提升了近11个百分点,却在智能体任务上下滑了超过3个百分点。ACE的情况介于两者之间,总体改善有限。
为什么会这样?研究团队分析了根本原因。GEPA因为每次只处理少量案例,容易被最近几批数据"带偏"——如果最近几批恰好都是智能体任务,指令就会向智能体方向倾斜,牺牲其他任务的表现。MemEvolve虽然处理的案例更多,但把来自不同类型任务的反馈信号混在一起分析,各种任务的特殊需求互相抵消,最终只能得到一个模糊的"平均值",既没有充分利用个性化任务的反馈,也没有充分利用智能体任务的反馈。这就好比一位厨师向几百位食客同时征求意见:有人嫌太辣,有人嫌不够辣,最终做出来的菜对所有人来说都不是最满意的。
五、CluE:先分组,再分析,最后综合
为了解决"混合反馈信号相互抵消"这个根本问题,研究团队提出了自己的方法,取名CluE,代表"基于聚类的进化"(Cluster-based Evolution)。
CluE的核心思想可以用一个类比来理解:一位优秀的培训督导,在收集员工反馈时,不会把法务部、研发部、销售部的意见混在一起处理,而是先按部门分组,分别分析每组的共性问题,再从这些组别分析中提炼出全公司通用的改进方向。
CluE的运作分为四个步骤,每轮训练都会完整走一遍这个流程。第一步是"摘要化":对当前批次中的每一个案例,让一个AI助手(称为Summarizer)阅读案例日志,写出两到三句话描述这个案例的"提取场景"——也就是需要提取什么类型的信息、提取过程中面临什么挑战。这些摘要刻意略去表面细节(比如是哪个数据集、具体内容是什么),专注于提取任务本身的性质。
第二步是"聚类":一个叫做Cluster Manager的AI助手读取所有案例的摘要,把具有相似提取场景的案例归为一组,并给每个组起一个描述性的名字。关键在于,分组不按原始数据集或任务类别来划分,而是按提取场景来划分。比如,"从冗长对话中提取程序性知识"这个组,可能同时包含智能体任务中的行动轨迹案例和数学题解题过程案例,因为两者在提取层面面临相同的挑战。
第三步是"分组分析":针对每个组,有一个专门的Cluster Analyzer深入分析该组内案例的成功模式和失败模式——成功的提取在哪些方面做得好,失败的提取缺少了什么,针对这类场景应该如何改进指令。由于每个分析师只负责自己组内的案例,建议的针对性非常强,不会受到其他类型任务的干扰。
第四步是"跨组综合":一个叫做Proposer的AI助手读取所有组的分析报告,寻找跨组的通用规律,将它们整理成全局性的提取原则,同时把各组的特定建议整合进一套有层次的记忆分类体系,形成新的提取指令。如果不同组的建议相互矛盾,Proposer会通过限定适用范围来化解冲突,而不是强行做出取舍。
整个过程循环运行多轮,每轮都在前一轮的指令基础上进一步优化。值得注意的是,分组结构本身也会随着训练进展发生变化:初始的细粒度小组可能会因为相似性太高而被合并,偶尔也会有新的小组从已有组中分裂出来,比如当系统发现代码相关案例需要专门处理时。
六、数字说话:CluE到底好在哪里
在BEHEMOTH的完整测试中,CluE从最简单的初始指令出发,最终在所有18个数据集上的综合相对提升达到了9.04%。更重要的是,这9.04%是在三大任务类别上全面提升的结果:个性化任务提升12.34%,问题解决任务提升8.39%,智能体任务提升7.22%。相比之下,其他三种自进化框架虽然也有正向的总体提升,但各自都有明显的"塌陷"——GEPA在个性化任务上退步,MemEvolve在智能体任务上退步,ACE的改善幅度整体偏低。
研究团队还测试了从更强的初始指令(Survey)出发的情况。这个测试更能说明问题:Survey已经是一个相当不错的起点,再想提升就像在一个已经收拾整齐的房间里再优化一样,很容易把原本好的地方改坏。结果GEPA完全没有找到可改进的方向,返回了原始指令不变。ACE和MemEvolve都产生了负向结果,总体上比Survey还差(分别下滑1.44%和0.74%)。只有CluE实现了正向提升,总体相对改善6.54%,三个类别全部进步。
除了性能表现,研究团队还比较了各方法的运算效率。CluE的总运行时间约为5.5小时,与最高效的MemEvolve(约5.0小时)相差甚微,比运行时间最长的ACE(约12.4小时)快了一倍有余。代价是CluE用于指令优化的LLM调用次数(221次)多于MemEvolve(30次),但这些额外的调用带来了实质性的性能提升,从投入产出比来看相当划算。
七、记忆的质量,在连续使用中愈发重要
以上所有测试都是"单步提取"——每次只从一段对话中提取记忆,用于回答一个问题。但现实中,AI助手的使用是连续的:今天提取的记忆,可能被存储起来,明天又被调出来用于辅助处理新的问题,后天又有新的记忆加入进来。
研究团队在两个具体任务上模拟了这种"连续记忆"的使用场景,分别是需要连续数字计算的"24点游戏"和需要在虚拟家居环境中完成任务的"AlfWorld"。在这两个场景下,CluE不仅保持了相对于MemEvolve的优势(24点游戏:50.83对43.33,AlfWorld:67.25对62.57),还揭示了一个重要规律:低质量的记忆在连续累积时会产生叠加的负面效果。仅使用简单初始指令的AI,在24点游戏的连续场景中,表现甚至低于完全不使用记忆的基线水平。换句话说,如果记了一堆没用甚至有误导的信息,还不如什么都不记。
这个发现用一个生活中的场景来理解:如果你随手记下的备忘录质量很差(比如把"牛奶500毫升"记成了"牛奶5升"),单次购物时你还能通过常识纠正;但如果你每次都把这些错误记录叠加在一起,慢慢地这份备忘录就会变成一堆误导信息的集合,到时候还不如不看备忘录直接凭记忆。CluE提取的记忆质量更高,这个优势在长期连续使用中被进一步放大。
八、打开指令本身:为什么CluE的策略有效
研究团队还直接比较了各种方法进化出来的最终提取指令,从结构上分析了差异所在,这一对比相当直观地解释了性能差距的来源。
GEPA进化出来的指令,包含大量专门针对AlfWorld(一个虚拟家居任务)的具体规则,比如"用`go to <object> <id>`格式导航"这样的命令语法细节,还附上了来自AlfWorld的具体案例。这显然是因为GEPA的小批量更新在最后几轮恰好处理了大量AlfWorld案例,指令就被"带偏"到了这个方向。
MemEvolve进化出来的指令篇幅简短,没有形成任何有组织的记忆分类体系,只留下了一条"只提取用户原话"的强硬规则,以及一段明确禁止提取程序性步骤的"惩罚条款"。这说明大批量混合处理时,各种任务的正面信号相互抵消,最终只剩下各任务共同"踩过的坑"形成的禁止性规则。
ACE进化出来的指令虽然结构上与CluE类似,但篇幅极为冗长(1403个词),这是因为它的规则库只增不减,不断叠加新规则,导致指令过于复杂,AI在执行时反而难以准确遵循。
CluE进化出来的指令(936个词)则呈现出清晰的两层结构:一层是对所有类型的记忆都适用的通用原则,另一层是针对五类记忆(事实数据与时间消歧、用户偏好与情感情境、程序性与技术知识、逻辑与组合推理、翻译与风格要求)分别制定的具体指南,每类都有定义、提取方法和注意事项。这种结构不是人工设计的,而是从数据中自然涌现出来的,恰恰反映了真实世界中记忆任务的多样性。
九、还有哪些问题有待解决
研究团队对这项工作的局限性保持了诚实的态度。BEHEMOTH虽然涵盖18个数据集,在学术测试框架中已属相当全面,但真实世界的用户对话远比这更复杂多变,存在更长的互动历史和更细碎的场景切换。
此外,CluE目前在单步提取场景下进化提取指令,在连续记忆场景下使用同一套指令,并未针对记忆的存储、检索和管理环节进行优化。记忆的全生命周期管理是一个更宏大的挑战,这项工作只触及了第一个环节。
还有一个特别有趣的实验细节值得一提:当使用Gemini-3-Flash(谷歌的一款更强的AI模型)作为提取后端时,CluE仍然在总体上领先其他所有方法,但所有方法在智能体任务上都出现了一定程度的下滑。研究团队的解释是:Gemini-3-Flash本身能力更强,即使用简单指令也能做得相当好,留给任何优化方法的提升空间都变小了,在这种情况下,稍微过于具体的指令反而会起副作用。这个发现提示了一个有趣的方向:AI模型的能力越强,记忆提取指令的设计反而需要更精细地拿捏"说多少"的尺度。
归根结底,这项研究用一个具体的测试平台和一种有效的方法,把"AI记忆"这个工程实践中普遍存在但缺乏系统研究的问题,放在了一个可以严格比较的框架里。CluE的思路——先按提取场景分组,再分别分析,最后综合成统一指令——既不是纯粹的通用方案(忽略了任务差异),也不是纯粹的专项方案(每个任务单独一套规则),而是在两者之间找到了一个能够自动适应数据分布的平衡点。
对于普通用户而言,这意味着未来的AI助手有望真正做到"跨场景的智能记忆":不管你是在和它聊家常、解数学题,还是让它帮你执行复杂任务,它都能自动判断该记住什么、该怎么记,而不是死板地套用同一套模板。这一天或许还需要一段时间,但这项研究清晰地指出了通向那一天的路。感兴趣深入研究的读者,可通过arXiv编号2604.11610查阅完整论文。
Q&A
Q1:BEHEMOTH基准测试和普通AI记忆测试有什么不同?
A:BEHEMOTH最大的不同在于它同时覆盖了个性化对话、数学推理、智能体任务等完全不同类型的场景,并且用统一的评分标准(提取的记忆是否真正帮助AI回答了后续问题)来衡量所有场景,而不是每种任务用自己单独的评分方式。此外,测试中AI看不到任何任务类型标签,必须靠原始对话内容判断该提取什么,这更接近真实使用环境。
Q2:CluE的聚类是人工分类的还是AI自动完成的?
A:聚类是由AI自动完成的,不需要人工介入。CluE中有一个叫做Cluster Manager的AI助手,它读取每个案例的摘要描述,自动把具有相似提取场景的案例归为一组,并且会随着训练进展动态调整分组,可以合并相近的组、拆分过于笼统的组,整个过程完全自动化。
Q3:记忆提取指令变好了,AI真的会因此在实际对话中表现更好吗?
A:从BEHEMOTH的测试结果来看,确实如此,而且在连续使用场景中效果更明显。实验显示,在多轮连续记忆的任务中,使用CluE进化出的高质量提取指令,AI的任务完成率比使用简单指令高出约20个百分点;而低质量记忆在连续累积后甚至会拖累AI表现,使其低于完全不使用记忆的基线水平。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。