微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI真的能"记住"你吗？Kenotic Labs提出的这套评估体系，正在重新定义人工智能的记忆边界

人工智能自然语言处理评估基准

AI真的能"记住"你吗？Kenotic Labs提出的这套评估体系，正在重新定义人工智能的记忆边界

作者：科技行者

2026-04-22 13:03

分享至：

这项由Kenotic Labs完成的研究提出了ATANT评估框架，首次正式定义了AI系统"连续性"的概念及其七条可测试属性，并构建了包含250个生活叙事故事和1835道验证题的测试语料库。框架通过十个检查点覆盖写入与读取两条路径，无需语言模型介入即可完成确定性评估。研究团队的参考实现从58%的遗留架构基线出发，在六天内于隔离模式下实现满分，累积模式下达到96%，证明AI连续性本质上是架构设计问题而非参数调优问题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 13:03 • 科技行者

这项由Kenotic Labs开发的研究成果发表于2026年4月的第39届神经信息处理系统大会（NeurIPS 2025），论文编号为arXiv:2604.06710v1，感兴趣的读者可通过该编号查阅完整原文。

你有没有遇到过这样的经历：和一个朋友聊了很久，讲了自己最近工作上的烦恼、感情里的纠结，甚至还分享了一些只有彼此知道的小秘密。然而下一次见面时，对方却完全不记得你说过的任何一件事——仿佛你们之间的每一次对话都发生在一个记忆被清空的平行宇宙里。这种感觉很糟糕，对吗？

遗憾的是，这正是当今绝大多数AI助手与用户互动的真实写照。你今天告诉它你在备考证书，明天再来聊天时，它已经完全不认识你了。你上周提到你妈妈身体不好，下周它依然会用同样陌生的语气问你"有什么需要帮忙的吗"。每一次对话，都是全新的开始，也是全部的终结。

AI行业其实已经意识到这个问题，并且推出了各种各样的"记忆"组件来打补丁：有的系统会把对话历史存进数据库，有的用向量搜索来找相似内容，有的给用户建一个"个人档案"保存基本信息。这些方案听起来不错，但Kenotic Labs的研究团队发现，这些组件加在一起，依然无法真正解决问题。原因很简单——这些方案都只是在做"存储"和"检索"，却没有人去认真回答一个更根本的问题：AI到底应该如何真正地"持续了解一个人"？

正是为了回答这个问题，研究团队构建了一套名为ATANT（Automated Test for Acceptance of Narrative Truth，叙事真相验收自动化测试）的评估框架。这套框架第一次从学术层面正式定义了什么叫做AI的"连续性"，并且提供了一套可以实际操作的测试方法来衡量任何AI系统是否真正具备这种能力。

一、"记住"和"了解"之间，究竟差了什么

在正式介绍这套框架之前，有一个概念上的区分非常重要，而且非常容易被混淆——"记忆"和"连续性"到底有什么不同？

把这两个概念区分清楚，可以用一个档案员的比喻来理解。一个普通的档案员，他的工作是把每一份文件归档入库，当你来查询的时候，他能从海量文件里找出和你要求最相似的那一份递给你。这就是"记忆加检索"——存储、搜索、返回。现有的绝大多数AI记忆方案都停留在这个层次。

但一个真正了解你的人——比如你的家庭医生或者一位相交多年的老友——做的事情远不止于此。他不只是翻出你的病历记录，他能告诉你："你上次来的时候，你的血压比这次高，那时候你正好在经历离婚，情绪压力很大；现在血压降下来了，你说你最近开始锻炼了，这很好，但你之前提到的膝盖旧伤要注意，锻炼方式需要调整。"这种能力，才是研究团队所说的"连续性"——它不是检索，而是重建。它能知道什么事情现在还有效，什么已经发生了变化，什么情况下两件相似的事情其实属于完全不同的背景，以及当你需要了解某件事的来龙去脉时，系统能把相关的碎片拼成一个完整的现状图景。

换句话说，检索回答的是"过去记录了什么"，而连续性回答的是"现在的实际情况是什么"。这个差别，在用户只和AI聊过一次的时候几乎感觉不出来；但当用户已经和AI交流了几个月、经历了各种生活变化之后，两种系统的表现就会产生天壤之别。

二、连续性的七条铁律：一个合格的AI"老友"必须做到的事情

为了把"连续性"从一个模糊的概念变成可以测量的标准，研究团队通过大量的真实叙事场景测试，归纳出了七条任何声称具备连续性的AI系统都必须满足的属性。这七条属性并非凭空想象，而是在实际构建和测试系统的过程中，一条条通过"如果缺失这个能力，系统会在哪里崩溃"的方式发现并确认的。

第一条是"超越会话的持久性"。道理很简单：如果你把AI关掉再打开，它还认识你吗？系统需要能够在进程终止并重启之后，以完全相同的准确度找回所有之前存储的信息。这是最基础的要求，却已经是很多系统迈不过去的第一道门槛。

第二条是"更新处理能力"。生活是会变化的。你之前说你在和一个叫Mia的女生交往，后来你们分手了，你开始了新的感情。一个具备连续性的系统，必须能够在接收到新信息之后，正确返回当前状态，同时还能区分"现在的情况"和"以前的情况"——而不是把旧信息和新信息混在一起，或者用旧信息覆盖掉新信息却失去历史痕迹。

第三条是"时间顺序"。人在表达时间的方式充满了模糊性："上周"、"下个月初"、"大概三周前"——系统必须能够正确解析这些相对时间表达，把它们换算成具体的时间点，并且正确理解事件的前后顺序和当前状态。

第四条是"消歧义能力"，这也是整个框架中最难、最关键的一条。当系统的数据库里同时存放着几百个不同用户的生活故事时，这些故事之间难免存在相似之处——两个用户都提到了"工作面试"，都提到了"妈妈生病了"，都提到了"搬家计划"。系统必须能够准确地把每个问题的答案对应到正确的人，绝对不能把张三的妈妈和李四的妈妈搞混，也不能把王五的面试结果张冠李戴地告诉赵六。

第五条是"重建能力"。当你问"我现在的感情状况怎么样"的时候，一个具备连续性的系统不应该只吐出一个孤零零的名字或者一条孤立的记录，而应该能够把所有相关的碎片拼合起来——对方是谁、住在哪里、你们之间最近发生了什么、还有哪些事情悬而未决——形成一个完整的情况概述。

第六条是"模型独立性"。这条属性的意思是，连续性层的正确性，不应该依赖于某一个特定的AI模型。用一个模型写入的信息，用另一个模型来读取，准确度不能下降。连续性是独立于智能层存在的系统属性。

第七条是"操作实用性"。一个连续性系统必须能够在至少两个完全不同的应用领域里正常工作，而不需要对连续性层本身做任何架构上的修改。它不是为某一类特定场景定制的专用工具，而是一个通用的基础能力。

三、测试框架的设计：像给建筑做全套验收检查

定义完了什么是连续性，下一个问题是：怎么测？

研究团队设计了一套包含十个检查点的评估方法，这十个检查点分成三大组。前四个（CP1到CP4）负责检验"写入路径"——系统接收到用户的话之后，有没有正确地理解、分类、存储和索引这些信息。后四个（CP5到CP8）负责检验"读取路径"——当用户提出问题时，系统有没有正确地理解问题、找到相关信息、整合多个碎片并给出正确答案。最后两个（CP9和CP10）负责检验跨越写入和读取两个方向的横切关注点，分别是时间推理和情境适应。

在写入路径中，CP1检验的是"输入分类"，也就是系统能不能正确理解用户这段话属于什么类型的信息；CP2检验"事实提取与存储"，确认所有关键信息都被完整地保存下来；CP3检验"预测性索引"，也就是系统在存储信息的同时，有没有预先预测用户未来可能会用什么方式来问这个问题；CP4检验"类型标注"，确认存储的对象被打上了正确的类别标签。

在读取路径中，CP5检验问题本身被正确分类了没有；CP6检验候选答案里有没有包含正确的事实；CP7检验系统有没有把多个相关碎片汇聚在一起；CP8则是最终裁定——系统给出的答案里，是否包含了所有必须出现的关键词。

CP8是整个评估体系中最核心的检查点，是最终成绩的唯一来源。其他九个检查点都是诊断工具——当CP8失败时，它们能告诉你具体是哪个环节出了问题。

判断一个问题是否通过测试的标准刻意设计得很直白：研究团队为每道测试题预先指定了一组"必须出现的关键词"，只要系统的回答中包含了所有这些关键词（不区分大小写，允许子串匹配），这道题就算通过。这种方法虽然有局限性，但它有一个巨大的优点——完全不需要另一个AI来做评判，整个评估过程是确定性的、可重复的。

四、测试题库的构建：250个真实人生片段组成的考卷

有了评估方法，还需要实际的测试内容。研究团队构建了一个包含250个故事、合计1835道验证题的叙事测试语料库，这是整个框架中最花心思的部分之一。

这些故事不是干巴巴的"用户A在时间T1说了事实F1"这样的机器化数据。它们是真实人生场景的模拟——多轮对话，横跨模拟的数小时、数天甚至数周，内容涵盖一个真实的人可能经历的各种生活面向。研究团队选择了六个生活领域作为覆盖范围：职业发展（包括面试、晋升、被裁员等）、人际关系（伴侣、家人、朋友）、健康（就医、健身、康复）、学习（课程、考证、备考）、日常生活（日常习惯、零碎事务、兴趣爱好），以及人生大事（搬家、出生、死亡、结婚、人生里程碑）。

选择这六个领域是有深刻用意的。连续性这种能力，本质上是关于"帮助一个人把自己的生活往前推进"的——它不应该是一个专门处理工作任务的工具，而应该是一个真正陪伴在用户生命历程中的存在。

在内容设计上，每个故事都特意加入了各种各样的"陷阱"，来测试系统在极端情况下的表现。比如，一句话里同时包含多个事实（"我和我哥哥昨天去医院，他检查出了高血压，我顺便也查了个血糖"）；使用共享主语结构（"我哥哥和我"这样的表达，需要区分各自的信息）；代词链（连续几句话里都用"他/她/它"来指代同一个人或不同的人）；时间更新（"哦对了，会议不是周四了，改到周三了"）；通用知识陷阱（用户突然问"法国的首都是哪里"——这不是需要存储的个人信息，系统不应该把它当作用户的个人事实）；情绪叠加；否定表达；以及含义模糊的谓词。

这250个故事被分成五个阶段完成，每阶段50个故事，从基础覆盖六大生活领域，到泛化测试、新型模式、边缘案例，最后是专门设计的对抗性故事。随着阶段推进，测试难度逐渐升级，考验的是系统在面对越来越意想不到的表达方式时是否依然可靠。

五、四个合规等级：从入门到精通的连续性成绩单

为了给不同发展阶段的系统提供一个清晰的定位坐标，研究团队定义了四个合规等级，形成一条由易到难的进阶路径。

最基础的等级叫做"ATANT-Core"，要求是对50个故事进行隔离模式（每个故事单独测试，数据库里只有这一个故事的信息）测试，通过这个等级，证明系统能在六个生活领域里实现基本的连续性。

第二个等级叫"ATANT-Stress"，要求是对完整的250个故事进行隔离模式测试，通过这个等级，证明系统的连续性能力可以泛化到各种新奇的叙事模式，不只在精心调整过的那50个故事上有效。

第三个等级叫"ATANT-Cumulative"，要求是对50个故事进行累积模式（所有50个故事的数据同时存在于数据库中）测试，通过这个等级，证明系统在多个叙事共存的情况下能正确消歧义，不会把不同用户的信息混淆。

最高等级叫"ATANT-Scale"，要求是对250个故事进行累积模式测试，通过这个等级，证明系统的消歧义能力在大规模数据负载下依然有效。这是最难的考验，也是最接近真实应用场景的测试。

每个等级都有三个分数档：金牌（100%通过率）、银牌（95%到99%）和铜牌（90%到94%）。

六、从58%到100%：一次真实的架构蜕变记录

研究团队不只是提出了框架，还真实记录了他们自己的系统（NURA Memory Pipeline）在这套框架下经历的完整演进过程，包括失败、回归和最终突破。

故事从2026年1月开始。那时候系统使用的是一个依赖大型语言模型参与评估过程的"遗留架构"，在50个故事上的通过率是58%——也就是说，将近一半的问题都答错了。团队随后进行了调优，2月时一度提升到72%，但随即发生了一个令人沮丧的现象：继续调优反而导致了回退，分数重新降回58%。这就是所谓"过度调优回归"——为了让系统在某一类叙事模式上表现更好，结果破坏了它在另一类模式上的表现。这是一个非常典型的信号，说明这个系统的问题不是参数没调好，而是架构本身存在根本性的缺陷。

2026年3月8日，团队用全新的架构重新出发，彻底去掉了评估环节中的语言模型依赖，转而采用基于语法的分类、确定性的路径收敛和结构化匹配。结果：50个故事，304道题，全部通过，通过率100%。

接下来的进展非常迅速。3月9日，扩展到100个故事，671道题，仍然保持100%。3月10日，150个故事，1057道题，依然100%。3月12日，完整250个故事，1835道题，全面通过，隔离模式满分。3月14日，进入累积模式，50个故事同时存于数据库，304道题，100%通过。

从3月8日到3月14日，仅仅六天，系统从零开始在越来越苛刻的测试条件下实现了满分。这个速度本身就说明了一件事：一旦架构对了，连续性问题是可以被系统性地解决的，而不是需要无休止地尝试和调参的黑盒问题。

在完整的250故事累积模式下，系统的最终表现是96%——1835道题中有1761道通过，74道未通过。这74道题失败的原因是：当250个不同的生活故事同时存在于数据库中时，来自不同故事的、名称相近的谓词（也就是描述事情的词语）互相竞争，系统必须通过上下文、实体信息和路径收敛来区分它们。这个4%的缺口，代表的是整个研究目前面对的最前沿挑战。

研究团队还诚实地报告了另外一类失败：在类型标注这个检查点（CP4）上，系统的通过率只有51.4%。具体来说，当故事里出现一些非常小众的领域专有名词时——比如养蜂业里的"瓦螨"、文物保护领域里的"Paraloid B-72粘合剂"——系统无法正确判断这些词语属于什么类型的对象。不过研究团队特别指出，这些类型标注失败是诊断性的，并不影响最终的答案准确率——CP8的通过率是独立于CP4的。

七、这项研究告诉我们什么，又坦承了什么不足

研究团队在论文中直接讨论了这套框架目前存在的几个明显局限，没有回避。

关键词匹配这种验证方式有一个内在的弱点：系统只要在回答里塞进了正确的关键词，就算通过，哪怕整段回答读起来逻辑混乱甚至自相矛盾。也就是说，CP8验证的是"该说的话有没有说"，而不是"说出来的东西有没有真正成为一个有用的、连贯的答案"。研究团队认为，未来版本需要加入专门测量重建质量的指标。

整个250个故事的语料库都出自同一位作者之手，这意味着语言风格的多样性和文化代表性都非常有限。不同年龄、不同文化背景、不同语言习惯的用户在表达信息时有很大差异，这些差异目前还没有被覆盖。

语言方面，整个语料库目前只有英文，多语言场景下的连续性能力完全未经测试。

最后一点，也是研究团队特别呼吁的：到目前为止，只有研究团队自己的系统接受了ATANT的测试。一个评估框架的价值，很大程度上来自于它被独立的、不同架构的系统广泛使用并产生可比较的结果。研究团队在论文中明确邀请所有正在构建AI连续性能力的团队都来运行ATANT并发布结果。

这项研究的核心主张——连续性是一个架构问题，而不是一个调参问题——在遗留系统的58%天花板和新架构的快速满分之间得到了充分体现。一个没有设计连续性支持的系统，无论你怎么调整它的参数，都会在某些叙事模式上进步的同时在另一些地方退步；而一个从架构层面解决了持久化、更新、时序、消歧义和重建问题的系统，则可以在极短时间内达到并维持高准确率。

说到底，这件事关乎我们和AI之间到底能建立一种什么样的关系。如果AI每次开口都是一个全然陌生的存在，那它充其量只是一个聪明的查询工具。但如果AI能真正记住你经历了什么、你在乎什么、事情如何演变——那它才算得上是一个真正意义上的长期陪伴者。ATANT这套框架做的事情，就是第一次为这个目标画出了一张清晰的地图，告诉人们这条路要怎么走，走到哪里算是走对了，哪里还有缺口需要填补。

对于普通用户来说，这意味着未来的AI助手有望真正"认识"你——不是通过一个静态的个人档案，而是通过对你生活持续、动态的理解。对于开发者来说，这意味着评估AI助手的标准终于可以超越"它答对了几道知识题"，转向"它有没有真正陪伴用户走过了时间"。感兴趣深入了解的读者，可以通过arXiv:2604.06710v1查阅完整论文，或访问研究团队的开源代码库获取框架规范和评估协议。

Q&A

Q1：ATANT框架和传统的AI记忆系统（比如RAG检索增强生成）有什么本质区别？

A：RAG这类系统做的是"相似度检索"——你问什么，它就找和你问题最像的存储内容返回给你。ATANT框架所测试的"连续性"要求的是"状态重建"——系统不只是找到相关的旧记录，还要能正确区分哪些信息已经更新了、哪些事情属于哪个用户、多个碎片如何拼成完整的当前状态。简单说，检索回答的是"以前记录了什么"，连续性回答的是"现在的实际情况是什么"，这两个目标有着根本性的不同。

Q2：ATANT里的"累积模式"测试为什么比"隔离模式"难那么多？

A：隔离模式下，数据库里只有正在测试的那一个故事的数据，系统只需要在这一份材料里找答案，干扰项很少。累积模式下，250个完全不同的用户生活故事同时存在于一个数据库里，系统接到"她妈妈身体怎么样了"这样的问题时，必须能正确判断"她"指的是哪个用户，而不是把张三的妈妈和李四的妈妈搞混。当故事数量增加到250个时，相似主题的信息大量堆积，消歧义的难度急剧上升，这正是目前96%通过率中那4%缺口的根本来源。

Q3：ATANT评估框架对普通用户使用AI助手有什么实际意义？

A：对普通用户而言，ATANT意味着未来可以用这套标准来判断一个AI产品是否真正具备长期陪伴能力，而不是只看它"聊起来像不像人"。一个通过了ATANT-Scale金牌认证的AI助手，意味着它在250个不同用户的生活场景共存的条件下，依然能准确记住你的事、不把你的情况和别人搞混，并且在你的生活发生变化后能同步更新认知。这比"有没有记忆功能"这个笼统的宣传语要具体和可靠得多。

人工智能自然语言处理评估基准

分享至