微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

南加州大学与加州大学圣巴巴拉分校联手：当AI助手终于学会"记事"，却发现记什么比怎么记更难

大语言模型记忆提取自进化框架

南加州大学与加州大学圣巴巴拉分校联手：当AI助手终于学会"记事"，却发现记什么比怎么记更难

作者：科技行者

2026-04-30 14:05

分享至：

这项由南加州大学和加州大学圣巴巴拉分校联合开展的研究（arXiv:2604.11610）系统性地研究了AI助手跨异质任务的记忆提取问题。研究构建了涵盖18个数据集的BEHEMOTH基准测试，证明了没有任何单一静态提取指令能在个性化、问题解决和智能体三类任务上全面领先。针对现有自进化框架在混合任务下的"偏科"缺陷，研究提出了CluE方法，通过先聚类再分析最后综合的流程，实现了跨任务的稳定提升，综合相对改善达9.04%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-30 14:05 • 科技行者

这项由南加州大学（University of Southern California）和加州大学圣巴巴拉分校（University of California, Santa Barbara）联合开展的研究，以预印本形式于2026年4月13日发布在arXiv平台，论文编号为arXiv:2604.11610v1，研究方向属于计算语言学（cs.CL）领域。感兴趣的读者可通过该编号直接检索完整论文。

一、记忆力，AI的最后一块短板

每隔几天，你就要在聊天窗口里重新告诉AI助手："我不吃辣"、"我是程序员"、"我正在学法语"——哪怕上周你们已经聊过这些。这种感觉就像雇了一位每天早上都会失忆的秘书：聪明、能干，却根本不记得你是谁。

这个痛点并非无解。近几年，越来越多的研究者开始给AI配上"记事本"，让它把每次对话中的重要信息提取出来存下来，下次对话时再翻出来用。这个过程叫做"记忆提取"，听起来简单，实则暗藏玄机。

问题的复杂性在于：不同类型的对话，需要记住的东西截然不同。当你和AI聊日常生活时，它该记住你的饮食偏好、家庭成员的名字；当你让AI帮你解一道数学题时，它该记住解题策略和常见错误；当AI在帮你自动化完成某项任务时，它又该记住上次执行任务时走过的弯路。一句"把重要信息记下来"，根本无法覆盖这么多样的场景。

这就好比一位速记员，在法庭上要记录关键证词，在厨房里要记录食谱步骤，在健身房里要记录运动数据——每种场合"重要信息"的定义都完全不同，用同一套模板去记，必然会在某些场合记错重点，甚至记一堆没用的东西。

这篇论文的研究团队正是注意到了这个被学界长期忽视的问题。他们不仅把问题说清楚了，还搭建了一套测试框架，并提出了一个真正能适应多样场景的解决方案。

二、十八个战场，一张统一的考卷

为了系统研究这个问题，研究团队做了一件颇费心思的工作：他们把18个已有的数据集重新改造，统一成同一套测试格式，搭建了一个名为BEHEMOTH的基准测试平台。这个名字是"Benchmark for Extracting HElpful Memory On Tasks with Heterogeneity"的缩写，中文可以理解为"跨异质任务的有效记忆提取基准"。

这18个数据集被分成三大类。第一类叫"个性化任务"，包含5个数据集，涵盖日常闲聊和个人偏好记录，比如用户告诉AI自己不喜欢某类食物、习惯某种沟通风格；第二类叫"问题解决任务"，包含7个数据集，覆盖数学竞赛题、物理工程题、代码编程题等需要推理的场景；第三类叫"智能体任务"，包含6个数据集，记录AI在虚拟环境中完成任务的行动轨迹，比如在模拟家居环境中搬运物品、在知识库中核实事实。

每个测试案例的结构都一致：一段"来源对话"（过去发生的对话），一个"目标问题"（未来需要回答的问题），以及一个"评分函数"（用于衡量AI借助提取的记忆回答目标问题的准确性）。评分方式根据任务类型不同而变化，有的用准确率，有的用规则验证，有的用代码执行通过率。核心逻辑始终如一：记忆提取得越好，AI在新对话中表现越好。

特别值得一提的是，测试团队刻意选择了不告诉AI每个案例来自哪个数据集或属于哪种任务类型。AI只能看到原始对话内容，必须自己判断该提取什么类型的信息。这就像让一位记者在没有任何栏目提示的情况下，单凭采访录音判断这条新闻该放在政治版、娱乐版还是科技版——真实世界的AI助手面临的挑战，恰恰就是这种"不知道自己在做什么类型的任务"的处境。

三、一张通用模板，为什么注定行不通

在测试现有方法之前，研究团队先回答了一个基础问题：有没有一种静态的提取指令，能在所有任务上都表现优异？答案是否定的，而且结果相当直白。

研究团队评估了五种不同的静态提取指令。最简单的一种叫"Simple"，只是让AI提取有用信息，不做任何限定；稍复杂的一种叫"Mem0"，来自业界实际部署的产品，专门针对用户偏好、个人事实、重要日期等信息设计了详细的提取规则；另一种叫"ReasoningBank"，专门针对智能体任务中的成功策略和失败教训设计；还有两种更宏观的分类方案，"OpenMemory"把记忆分成五类（情节记忆、语义记忆、程序记忆、情感记忆、反思记忆），"Survey"则把记忆分成两类（事实记忆和经验记忆）。

测试结果非常清晰地呈现出一个"此消彼长"的规律。Mem0在个性化任务上表现最好，宏观准确率高达73.31%，相比最简单的指令提升了将近30个百分点；但在问题解决任务上，它反而比简单指令还差了3.7个百分点。ReasoningBank在问题解决任务上有不错的表现，提升了约7个百分点，但在个性化任务上却下滑了超过10个百分点。那两种分类方案虽然更均衡，但在任何一个单独任务上都没有特别突出的表现。

这个现象用速记员的比喻来理解就很直观了：一位专门训练为法庭速记的记者，去厨房记菜谱时就会不自觉地把步骤写成证词格式；而一位什么都记一点的通才记者，在每个场合都只能记个大概，关键细节容易丢失。此外，研究还发现，更复杂的分类方案并不意味着更好的提取效果——OpenMemory的五类体系并没有超越Survey的两类体系，说明提取质量取决于AI能否正确理解并执行指令，而不仅仅取决于指令本身的细致程度。

四、让AI自己摸索规律：进化式框架的尝试

既然没有一张通用模板能打遍天下，一个自然的想法就出现了：能不能让AI从实际任务反馈中自己学习，逐渐摸索出一套有效的提取策略？这类方法被称为"自进化框架"（self-evolving frameworks），核心思路是：每次提取之后，根据最终回答的质量来判断提取得好不好，然后用这个反馈来改进提取指令，循环迭代，越来越好。

研究团队测试了三种已有的自进化框架。第一种叫GEPA，每次只看一小批案例，用这批案例的反馈来改进指令；第二种叫ACE，对每次提取行为进行细粒度分析，把指令中的每条规则标记为"有帮助"或"有害"，再用统计结果做出增删改；第三种叫MemEvolve，会让一个工具型AI助手检索大量案例日志，再由另一个AI根据分析结果提出改进建议。

这三种方法在均匀分布的单一任务上都表现不错，但在BEHEMOTH这种混合任务的情境下，都出现了明显的"偏科"现象。GEPA在智能体任务上提升了14个百分点，却在个性化任务上下滑了2个百分点以上。MemEvolve在个性化任务上提升了近11个百分点，却在智能体任务上下滑了超过3个百分点。ACE的情况介于两者之间，总体改善有限。

为什么会这样？研究团队分析了根本原因。GEPA因为每次只处理少量案例，容易被最近几批数据"带偏"——如果最近几批恰好都是智能体任务，指令就会向智能体方向倾斜，牺牲其他任务的表现。MemEvolve虽然处理的案例更多，但把来自不同类型任务的反馈信号混在一起分析，各种任务的特殊需求互相抵消，最终只能得到一个模糊的"平均值"，既没有充分利用个性化任务的反馈，也没有充分利用智能体任务的反馈。这就好比一位厨师向几百位食客同时征求意见：有人嫌太辣，有人嫌不够辣，最终做出来的菜对所有人来说都不是最满意的。

五、CluE：先分组，再分析，最后综合

为了解决"混合反馈信号相互抵消"这个根本问题，研究团队提出了自己的方法，取名CluE，代表"基于聚类的进化"（Cluster-based Evolution）。

CluE的核心思想可以用一个类比来理解：一位优秀的培训督导，在收集员工反馈时，不会把法务部、研发部、销售部的意见混在一起处理，而是先按部门分组，分别分析每组的共性问题，再从这些组别分析中提炼出全公司通用的改进方向。

CluE的运作分为四个步骤，每轮训练都会完整走一遍这个流程。第一步是"摘要化"：对当前批次中的每一个案例，让一个AI助手（称为Summarizer）阅读案例日志，写出两到三句话描述这个案例的"提取场景"——也就是需要提取什么类型的信息、提取过程中面临什么挑战。这些摘要刻意略去表面细节（比如是哪个数据集、具体内容是什么），专注于提取任务本身的性质。

第二步是"聚类"：一个叫做Cluster Manager的AI助手读取所有案例的摘要，把具有相似提取场景的案例归为一组，并给每个组起一个描述性的名字。关键在于，分组不按原始数据集或任务类别来划分，而是按提取场景来划分。比如，"从冗长对话中提取程序性知识"这个组，可能同时包含智能体任务中的行动轨迹案例和数学题解题过程案例，因为两者在提取层面面临相同的挑战。

第三步是"分组分析"：针对每个组，有一个专门的Cluster Analyzer深入分析该组内案例的成功模式和失败模式——成功的提取在哪些方面做得好，失败的提取缺少了什么，针对这类场景应该如何改进指令。由于每个分析师只负责自己组内的案例，建议的针对性非常强，不会受到其他类型任务的干扰。

第四步是"跨组综合"：一个叫做Proposer的AI助手读取所有组的分析报告，寻找跨组的通用规律，将它们整理成全局性的提取原则，同时把各组的特定建议整合进一套有层次的记忆分类体系，形成新的提取指令。如果不同组的建议相互矛盾，Proposer会通过限定适用范围来化解冲突，而不是强行做出取舍。

整个过程循环运行多轮，每轮都在前一轮的指令基础上进一步优化。值得注意的是，分组结构本身也会随着训练进展发生变化：初始的细粒度小组可能会因为相似性太高而被合并，偶尔也会有新的小组从已有组中分裂出来，比如当系统发现代码相关案例需要专门处理时。

六、数字说话：CluE到底好在哪里

在BEHEMOTH的完整测试中，CluE从最简单的初始指令出发，最终在所有18个数据集上的综合相对提升达到了9.04%。更重要的是，这9.04%是在三大任务类别上全面提升的结果：个性化任务提升12.34%，问题解决任务提升8.39%，智能体任务提升7.22%。相比之下，其他三种自进化框架虽然也有正向的总体提升，但各自都有明显的"塌陷"——GEPA在个性化任务上退步，MemEvolve在智能体任务上退步，ACE的改善幅度整体偏低。

研究团队还测试了从更强的初始指令（Survey）出发的情况。这个测试更能说明问题：Survey已经是一个相当不错的起点，再想提升就像在一个已经收拾整齐的房间里再优化一样，很容易把原本好的地方改坏。结果GEPA完全没有找到可改进的方向，返回了原始指令不变。ACE和MemEvolve都产生了负向结果，总体上比Survey还差（分别下滑1.44%和0.74%）。只有CluE实现了正向提升，总体相对改善6.54%，三个类别全部进步。

除了性能表现，研究团队还比较了各方法的运算效率。CluE的总运行时间约为5.5小时，与最高效的MemEvolve（约5.0小时）相差甚微，比运行时间最长的ACE（约12.4小时）快了一倍有余。代价是CluE用于指令优化的LLM调用次数（221次）多于MemEvolve（30次），但这些额外的调用带来了实质性的性能提升，从投入产出比来看相当划算。

七、记忆的质量，在连续使用中愈发重要

以上所有测试都是"单步提取"——每次只从一段对话中提取记忆，用于回答一个问题。但现实中，AI助手的使用是连续的：今天提取的记忆，可能被存储起来，明天又被调出来用于辅助处理新的问题，后天又有新的记忆加入进来。

研究团队在两个具体任务上模拟了这种"连续记忆"的使用场景，分别是需要连续数字计算的"24点游戏"和需要在虚拟家居环境中完成任务的"AlfWorld"。在这两个场景下，CluE不仅保持了相对于MemEvolve的优势（24点游戏：50.83对43.33，AlfWorld：67.25对62.57），还揭示了一个重要规律：低质量的记忆在连续累积时会产生叠加的负面效果。仅使用简单初始指令的AI，在24点游戏的连续场景中，表现甚至低于完全不使用记忆的基线水平。换句话说，如果记了一堆没用甚至有误导的信息，还不如什么都不记。

这个发现用一个生活中的场景来理解：如果你随手记下的备忘录质量很差（比如把"牛奶500毫升"记成了"牛奶5升"），单次购物时你还能通过常识纠正；但如果你每次都把这些错误记录叠加在一起，慢慢地这份备忘录就会变成一堆误导信息的集合，到时候还不如不看备忘录直接凭记忆。CluE提取的记忆质量更高，这个优势在长期连续使用中被进一步放大。

八、打开指令本身：为什么CluE的策略有效

研究团队还直接比较了各种方法进化出来的最终提取指令，从结构上分析了差异所在，这一对比相当直观地解释了性能差距的来源。

GEPA进化出来的指令，包含大量专门针对AlfWorld（一个虚拟家居任务）的具体规则，比如"用`go to <object> <id>`格式导航"这样的命令语法细节，还附上了来自AlfWorld的具体案例。这显然是因为GEPA的小批量更新在最后几轮恰好处理了大量AlfWorld案例，指令就被"带偏"到了这个方向。

MemEvolve进化出来的指令篇幅简短，没有形成任何有组织的记忆分类体系，只留下了一条"只提取用户原话"的强硬规则，以及一段明确禁止提取程序性步骤的"惩罚条款"。这说明大批量混合处理时，各种任务的正面信号相互抵消，最终只剩下各任务共同"踩过的坑"形成的禁止性规则。

ACE进化出来的指令虽然结构上与CluE类似，但篇幅极为冗长（1403个词），这是因为它的规则库只增不减，不断叠加新规则，导致指令过于复杂，AI在执行时反而难以准确遵循。

CluE进化出来的指令（936个词）则呈现出清晰的两层结构：一层是对所有类型的记忆都适用的通用原则，另一层是针对五类记忆（事实数据与时间消歧、用户偏好与情感情境、程序性与技术知识、逻辑与组合推理、翻译与风格要求）分别制定的具体指南，每类都有定义、提取方法和注意事项。这种结构不是人工设计的，而是从数据中自然涌现出来的，恰恰反映了真实世界中记忆任务的多样性。

九、还有哪些问题有待解决

研究团队对这项工作的局限性保持了诚实的态度。BEHEMOTH虽然涵盖18个数据集，在学术测试框架中已属相当全面，但真实世界的用户对话远比这更复杂多变，存在更长的互动历史和更细碎的场景切换。

此外，CluE目前在单步提取场景下进化提取指令，在连续记忆场景下使用同一套指令，并未针对记忆的存储、检索和管理环节进行优化。记忆的全生命周期管理是一个更宏大的挑战，这项工作只触及了第一个环节。

还有一个特别有趣的实验细节值得一提：当使用Gemini-3-Flash（谷歌的一款更强的AI模型）作为提取后端时，CluE仍然在总体上领先其他所有方法，但所有方法在智能体任务上都出现了一定程度的下滑。研究团队的解释是：Gemini-3-Flash本身能力更强，即使用简单指令也能做得相当好，留给任何优化方法的提升空间都变小了，在这种情况下，稍微过于具体的指令反而会起副作用。这个发现提示了一个有趣的方向：AI模型的能力越强，记忆提取指令的设计反而需要更精细地拿捏"说多少"的尺度。

归根结底，这项研究用一个具体的测试平台和一种有效的方法，把"AI记忆"这个工程实践中普遍存在但缺乏系统研究的问题，放在了一个可以严格比较的框架里。CluE的思路——先按提取场景分组，再分别分析，最后综合成统一指令——既不是纯粹的通用方案（忽略了任务差异），也不是纯粹的专项方案（每个任务单独一套规则），而是在两者之间找到了一个能够自动适应数据分布的平衡点。

对于普通用户而言，这意味着未来的AI助手有望真正做到"跨场景的智能记忆"：不管你是在和它聊家常、解数学题，还是让它帮你执行复杂任务，它都能自动判断该记住什么、该怎么记，而不是死板地套用同一套模板。这一天或许还需要一段时间，但这项研究清晰地指出了通向那一天的路。感兴趣深入研究的读者，可通过arXiv编号2604.11610查阅完整论文。

Q&A

Q1：BEHEMOTH基准测试和普通AI记忆测试有什么不同？

A：BEHEMOTH最大的不同在于它同时覆盖了个性化对话、数学推理、智能体任务等完全不同类型的场景，并且用统一的评分标准（提取的记忆是否真正帮助AI回答了后续问题）来衡量所有场景，而不是每种任务用自己单独的评分方式。此外，测试中AI看不到任何任务类型标签，必须靠原始对话内容判断该提取什么，这更接近真实使用环境。

Q2：CluE的聚类是人工分类的还是AI自动完成的？

A：聚类是由AI自动完成的，不需要人工介入。CluE中有一个叫做Cluster Manager的AI助手，它读取每个案例的摘要描述，自动把具有相似提取场景的案例归为一组，并且会随着训练进展动态调整分组，可以合并相近的组、拆分过于笼统的组，整个过程完全自动化。

Q3：记忆提取指令变好了，AI真的会因此在实际对话中表现更好吗？

A：从BEHEMOTH的测试结果来看，确实如此，而且在连续使用场景中效果更明显。实验显示，在多轮连续记忆的任务中，使用CluE进化出的高质量提取指令，AI的任务完成率比使用简单指令高出约20个百分点；而低质量记忆在连续累积后甚至会拖累AI表现，使其低于完全不使用记忆的基线水平。

大语言模型记忆提取自进化框架

分享至