微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI助手"读懂"你的习惯：韩阳大学团队让智能体真正记住你这个人

人工智能自然语言处理个性化记忆增强

当AI助手"读懂"你的习惯：韩阳大学团队让智能体真正记住你这个人

作者：科技行者

2026-04-29 11:33

分享至：

这项由韩国汉阳大学团队完成的研究（arXiv:2604.17886）提出了两项成果：多会话个性化工具调用基准MPT和记忆增强方法PREFINE。MPT包含265个多会话对话，设计了偏好回忆、偏好归纳、偏好迁移三类难度递增的测试。PREFINE通过"生成-验证-精炼"循环将用户历史行为提炼为抽象偏好假设，仅用全历史方法1.24%的token量即可显著提升AI工具调用中的个性化准确率，并在服务接口发生变化时依然保持有效。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-29 11:33 • 科技行者

这项由韩国汉阳大学自然语言处理团队完成的研究，以预印本形式于2026年4月发表在arXiv平台上，论文编号为arXiv:2604.17886v1。感兴趣的读者可以通过该编号检索到完整论文原文。

你有没有遇到过这样的情况：你打开某个订餐应用，每次都要重新告诉它"我要便宜的"；或者跟语音助手说"帮我订个机票"，它却问你要商务舱还是经济舱——明明你过去一百次都选的经济舱。这种体验说明了一件事：现在的AI助手有记忆，却没有真正"认识"你。

汉阳大学的研究团队正是从这个日常痛点出发，着手解决一个被忽视已久的问题：当用户说出一句不完整的请求，AI能不能凭借对你过去行为的理解，自动补上那些你没说出口的细节？

这听起来简单，但做起来相当复杂。关键在于，人的偏好往往不是直接说出来的，而是藏在一次次选择的背后。你点过三次廉价韩餐，又选了免费入场的公园，再加上一辆紧凑型租车——如果把这些行为连起来看，你其实是个注重性价比的人。但没有任何一次对话里，你明确说过"我偏好低价"。研究团队把这种隐而不显的规律称为"潜在偏好"，而让AI学会识别和利用这种偏好，就是这篇论文的核心任务。

为了研究这个问题，团队做了两件事：一是建立了一个专门的测试数据集，叫做MPT（多会话个性化工具调用基准）；二是提出了一种新的方法，叫做PREFINE，用来帮助AI从过去的对话记录中提炼出用户的潜在偏好，并在未来的请求中加以应用。实验结果显示，PREFINE不仅提升了准确率，还只用了完整历史记录所需token数量的1.24%，极大节省了计算资源。

---

一、为什么"记住你选过什么"还不够

在深入了解这项研究之前，有必要先理解一个根本性的区别：记住你做过的事，和理解你为什么这么做，是完全不同的两件事。

以一个侦探破案的思路来理解这个问题。一个普通的记录员只会把每个案发现场的情况抄下来，而一个真正的侦探会在多个案件之间找到共同规律，最终推断出犯罪嫌疑人的行为动机。AI助手在处理用户偏好时面临同样的挑战：仅仅记录"这次点了经济舱"是记录员的做法，而从多次出行记录中推断出"这个用户总是倾向于省钱"，才是侦探的做法。

研究团队发现，现有的AI记忆方法大多是"记录员"。比如常见的RAG（检索增强生成）方法，会把过去的对话原文存起来，用的时候检索相关片段；Mem0和LangMem这类系统会把对话压缩成简短的事实性摘要。这些方法在处理简单的重复性需求时还算够用，但一旦遇到需要跨场景推断的情况，就会露出破绽。

比如，如果用户以前只有餐厅和出行的记录，现在突然要订酒店，过去的具体行为并不直接告诉AI该选几星级酒店。但如果AI真的理解了这个人"骨子里就是个省钱型用户"，它自然会往低星级靠拢。这种从具体行为中抽象出普遍规律，再把规律应用到新情境的能力，就是研究团队所定义的"潜在偏好建模"。

---

二、给"偏好"画一张地图：MPT数据集是怎么建成的

要研究和测试AI对用户偏好的理解能力，首先得有一个合适的考题集。研究团队构建的MPT数据集，就像是为侦探能力考试设计的一套卷子，专门测试AI能否在复杂情境下推断出用户的隐性需求。

MPT建立在一个叫做SGD（Schema-Guided Dialogue，模式引导对话）的已有数据集之上。SGD包含了两万多个涵盖20个生活服务领域的对话，包括餐厅预订、机票购买、酒店入住、租车、景点游览等等。研究团队从中挑选出适合的对话，把来自同一位虚拟用户的多个单独对话重新组合成"多会话历史"，模拟一个真实用户在不同时间、不同需求下与AI助手打交道的完整记录。

接下来是最关键的一步：偏好标注。由于SGD本身并不带有偏好标签，研究团队需要手动把各种API参数（也就是AI调用服务时填写的选项，比如价格档次、出行人数）归类到更高层次的偏好类别里。他们设计了两大偏好组：预算偏好和出行规模偏好。预算偏好又细分为"低消费"和"高消费"两种，前者覆盖的参数包括"价格档次=便宜"、"是否免费入场=是"、"车型=紧凑型"、"舱位=经济舱"等，后者则对应"价格档次=高档"、"车型=大型"、"酒店星级=四五星"等。出行规模偏好则区分了"独行"和"多人同行"两种模式。

这套标注体系的巧妙之处在于，它不是按照具体的字段名称来分类，而是按照行为背后的逻辑来划分。换句话说，不管是在哪个服务领域、用哪个字段名，只要这个选择反映了"用户想省钱"，就归入同一类偏好。这使得这套分类体系可以跨越不同服务接口，具有很强的通用性。

为了验证这套分类是否符合大众认知，研究团队还邀请了19位普通志愿者参与标注验证实验。结果显示，预算类别的一致率达到89.7%，出行规模类别更高达97.4%，统计学上的一致性系数（Fleiss' κ）分别为0.701（属于"实质性一致"等级）和0.880（属于"近乎完美一致"等级）。这证明研究团队设计的偏好分类方式，确实和普通人的直觉高度吻合。

在构建测试题目时，团队还刻意设计了两种难度的问题：一种是"情境引导型"（Context-Guided），对话里已经给出了部分明确信息，但某个关键参数没说；另一种是"无情境型"（Context-Free），连明确信息也没有，完全靠用户的历史行为来猜测偏好。后者相当于考卷里的难题——用户什么都没说，AI必须单凭"侦探档案"来做出判断。

最终，MPT包含265个多会话对话，涵盖2020个单独会话和近四万轮对话，平均每个用户有7.6个历史会话，每个会话有19.7轮对话。数据集涵盖332道"偏好回忆"题（用户在同一领域反复做了相同的选择）、293道"偏好归纳"题（需要跨领域汇总线索），以及472道"偏好迁移"题（目标领域完全没有先例，必须从其他领域的规律迁移过来）。

---

三、三种考题，考验三种不同的侦探能力

研究团队把用户偏好的推断难度分成了三个层次，每个层次都对应着侦探工作中的一种挑战，理解这三种挑战是读懂这篇论文的关键。

第一种叫"偏好回忆"。以机票订购为例，假设用户过去的历史记录里有三次购买记录，全都选了经济舱。现在用户又说"帮我订一张机票"，AI需要填写舱位字段。这种情况下，侦探只需要翻翻同类型的旧档案，找到一致的规律，直接照搬就行了。这是最简单的一种，要求的是"记忆"而非"推断"。

第二种叫"偏好归纳"。假设用户从来没有在飞机出行记录里明确选过舱位，但是在餐厅选了便宜的韩餐，在景点选了免费公园，在租车时选了紧凑型车。现在AI面对的是一道综合题：这些来自不同领域的节俭行为，能不能拼凑出一个"这个人倾向于低消费"的结论，并以此推断他会选经济舱？这要求侦探具备跨案件归纳的能力，从表面上看起来不相关的线索中找出共同模式。

第三种叫"偏好迁移"。难度再升一级：用户不仅没有在目标领域（比如机票）有过明确选择，甚至连可以横向类比的其他领域的选择也很少。AI必须从极为有限的、跨域的行为证据出发，推断出一个可以应用到全新场景的偏好，这如同侦探面对一个全新类型的案件，必须调用以往所有办案经验来做出判断，而没有任何直接相似的先例可以参考。

研究团队发现，现有的AI记忆方法在第一种考题上表现尚可，但在第二、第三种考题上成绩大幅下滑，甚至可以说是基本失败。以最基础的"全历史提示"方法为例，在无情境题目中，偏好回忆的F1分数是53.19%，偏好归纳是43%，到了偏好迁移，只剩下16.26%。这个断崖式的下滑说明了一件事：把历史记录全部塞给AI看，并不等于AI能真正理解用户。

---

四、PREFINE：像培养一个真正了解你的助手

正是为了解决上述问题，研究团队设计了PREFINE这套方法。如果说普通的记忆系统是一个把所有案卷堆在桌上的档案员，PREFINE更像是一个经验丰富的侦探，会不断总结、修正自己对案件规律的判断，并把结论写成可以随时调用的"行为画像"。

PREFINE的工作方式可以用一个循环来理解：每当一次新的对话结束，侦探（也就是AI）会检视这次对话里发生了什么，尝试提出一个新的假设来解释用户的行为；然后对这个假设进行自我审查，看它是否真的经得起推敲；如果不行，就修改这个假设，再检查一遍。这个"提出假设→检验假设→修正假设"的过程，在论文里被称为"生成-验证-精炼"循环（Generate-Verify-Refine Loop）。

具体来说，PREFINE的"提出假设"模块负责从当前的对话内容、用完的服务接口，以及之前积累的偏好记忆出发，生成一个对用户偏好的新描述。这个描述不是具体的选项记录，而是一种抽象的行为规律，比如"用户倾向于在各类服务中选择经济实惠的选项"。

"检验假设"模块则扮演质疑者的角色，按照四条标准来判断这个假设是否靠谱：第一，证据是否充分，也就是说这个假设是否由多次一致的行为来支撑；第二，抽象程度是否合适，不能只是把某一次具体选择重新换个说法；第三，是否具有可操作性，这个假设必须能够指导未来的具体选择；第四，是否在时间上保持一致，如果用户最近的行为改变了，不能还守着过时的结论。

如果检验通过，这个假设就存入记忆，作为用户的当前"偏好画像"。如果检验没通过，"修正假设"模块会根据质疑意见调整描述，然后再过一遍检验，最多循环三次。论文中的一个例子展示了这个过程的细节：在看完第一次对话（用户选了评分为6的电影）之后，AI最初提出"用户偏好评分中等的电影"，但这被检验模块否决，认为这个描述过于具体且缺乏足够依据；修改后变成"用户偏好容易获取的电影内容"，再次被否，认为对未来决策的指导意义不够；第三次修改为"用户对电影兴趣有限"，这才通过了检验。随着更多会话的加入，偏好描述逐渐演化为"用户在各类服务中倾向于经济实惠和简单的选择"，最终凝练为一句话的行为画像存入记忆。

PREFINE还有一个关键设计：记忆内容是抽象的、与具体服务接口无关的语言描述，而不是某个特定服务字段的值。这意味着，即便将来AI要调用的服务接口换了一套字段名称，甚至进入了以前完全没见过的服务领域，之前积累的偏好记忆依然可以使用。在接入新接口时，AI会把抽象的偏好描述重新映射到新接口的具体字段上。论文对这一特性专门做了验证，在七个全新服务领域（包括露营地预订、城市旅游、烹饪课程、健身课、滑雪通票、停车场和主题公园）上测试了PREFINE的表现，这些领域在训练时从未出现过，字段名称也完全不同。结果显示，使用GPT-5作为推理模型时，情境引导型题目的精确匹配率从3.75%跃升至47.00%，无情境型题目的F1分数从36.39%提升至51.45%，证明PREFINE的记忆内容具有真正意义上的跨域迁移能力。

---

五、数字背后的故事：实验结果说明了什么

研究团队用MPT数据集对多种方法进行了系统性对比实验，参与对比的推理模型涵盖从轻量级到旗舰级的多个档次，包括CodeGemma-7B、Gemma-3-12B、R1-Distill-Llama-8B、R1-Distill-Qwen-7B、GPT-4o-mini、GPT-5-mini、GPT-5以及Gemini-3-Flash。对比的基准方法则包括直接提供全部历史记录的"全历史提示"方式，以及RAG、Mem0、LangMem三种记忆增强方法。

在情境引导型题目上，PREFINE在偏好精确匹配率（P-EM，衡量AI是否填对了那些没说出口的关键参数）方面平均比全历史提示方式高出约13个百分点。在更难的无情境型题目上，PREFINE在偏好推断F1分数方面平均提升幅度约为3.4个百分点，在偏好归纳类别上提升9个百分点。

RAG方法在偏好回忆类题目上表现尚可（精确匹配率达到50.6%），但在偏好归纳和偏好迁移上明显掉队。LangMem在回忆类题目上甚至达到64.4%，但同样无法保持这种优势在更难的题目上延续。这印证了研究团队的核心判断：现有方法擅长的是表面记录，而非深层推断。

内存效率方面的对比数据同样引人关注。全历史提示方法平均每个用户需要使用1883.57个token来存储记忆内容；LangMem需要209.22个；RAG需要133.58个；Mem0需要119.87个；而PREFINE只需要23.28个，仅相当于全历史方式的1.24%。更值得注意的是，随着会话数量不断增加，全历史提示所需的token量持续攀升，到第十个会话已经需要2812个token；而PREFINE的记忆大小几乎保持不变，始终在20到25个token左右徘徊。这是因为PREFINE存储的不是原始记录，而是精炼后的行为规律，新的会话只会更新和完善这条规律，而不会叠加新的原始内容。

研究团队还分析了PREFINE对AI预测行为的另一个改善：参数数量的校准。API调用不仅要填对值，还要判断应该填几个参数——既不能多填不必要的字段（增加误判风险），也不能少填必要的字段（导致服务执行失败）。研究发现，使用全历史提示方法时，AI预测的参数数量与真实所需参数数量之间的平均绝对偏差为0.77（情境引导型）和1.08（无情境型）；使用PREFINE之后，这个偏差分别降至0.56和0.77，对应减少28.1%和28.7%。换句话说，PREFINE让AI在决定"该填什么"的同时，也更清楚地知道"该填多少"。

实验中也诚实地指出了PREFINE并非对所有模型都表现出均匀的增益。对于R1-Distill-Llama-8B这类本就倾向于低估参数数量的模型，PREFINE进一步收紧行动空间的效果反而导致它填写的参数更少，EA-F1（明确参数的填写准确率）出现了轻微下降。研究团队认为，这不是PREFINE的根本缺陷，而是一个可预期的权衡：更精准的范围限定会在某些情况下以召回率换取精确率。

---

六、PREFINE和它的竞争对手到底有何不同

在进一步理解PREFINE为何有效之前，有必要把它与其他几种记忆方法做一个更细致的比较，就像侦探事务所里不同流派的工作方式一样。

RAG（检索增强生成）的工作方式是把所有历史对话的原文存档，需要时根据当前问题找出最相近的几段历史内容。这就像一个档案馆员工，每次接待客户都去翻阅原始文件，按相关性排序后呈上。它的问题在于，原始文件里充满了细节噪音，而且相关性判断依赖文字表面的相似性，不涉及行为规律的理解。

Mem0的方式则是把历史对话压缩成简短的事实陈述，比如"用户订了经济舱"、"用户选了便宜餐厅"，然后存储这些摘要事实，检索时找出最匹配的几条。问题在于，这些仍然是具体行为的记录，而不是行为背后的规律。

LangMem更进一步，它会用AI把历史信息整理成结构化的知识，包括语义类（关于用户偏好的描述）、情节类（特定事件记录）和程序类（用户的操作习惯）三种类型。它比Mem0更接近"理解"，但仍然主要以"已知事实"的形式存储，缺乏动态验证和跨域抽象的机制。

PREFINE的独特之处在于，它存储的不是"用户做了什么"，而是"用户为什么这么做的抽象规律"；不是一堆事实记录，而是一条经过多轮验证、反复修正的行为假设。这条假设足够抽象，可以跨越服务领域；足够精练，仅需一句话就能表达；又足够可操作，可以直接指导具体的参数填写。研究团队把这种记忆形式总结为"可修订的偏好假设"，强调了它的动态性和可操作性，这是其他方法所不具备的特征。

---

说到底，这项研究揭示了一个关于AI个性化的根本问题：真正了解一个人，不是记住他做过什么，而是明白他为什么这么做。

现在的AI助手在记忆层面已经不短缺了，RAG可以存很多，Mem0可以存很多，LangMem也可以存很多。但研究团队的实验结果清楚地说明，存的越多不等于懂的越多。一个把用户所有历史记录都塞进来的AI，在面对新的、跨域的偏好推断时，表现甚至不如一个把历史行为提炼成一句精准结论的AI。

PREFINE的思路给出了一个值得关注的方向：与其让AI背诵你的选择清单，不如让它学会识别你行为背后的逻辑。这种逻辑一旦被准确提炼出来，不仅适用于你曾经使用过的服务，也适用于你将来第一次使用的任何新服务。这意味着什么？意味着一个真正"懂你"的AI助手，在你第一次订豪华露营套餐时，就能根据你过去一贯的省钱习惯，自动推荐标准帐篷而不是豪华木屋，而不需要你再次解释"我就是不想花太多钱"。

当然，这项研究也有很多尚未解决的问题。目前MPT的偏好类别还比较有限，现实中人的偏好要复杂得多，而且会随时间演变。同一个人在不同时期、不同情绪下的选择可能截然不同。此外，真实用户的历史记录往往更加杂乱，充满噪音和矛盾。研究团队自己也指出，未来的工作需要扩展到更丰富的偏好分类、能够随时间演化的偏好建模，以及应对更长、更嘈杂的交互历史。

对于普通用户来说，这项研究带来的启示是：未来的AI助手可能会越来越少地问你"你想要什么"，而是越来越多地根据对你这个人的理解，主动给出恰当的建议。不过，这也引出了一个值得思考的问题：你愿意让AI助手以这种方式"了解"你吗？当AI不再只是一个工具，而是一个真正记住你行为规律的"同伴"，你会如何看待这种关系？

有兴趣深入了解的读者可以通过arXiv编号2604.17886查阅完整论文，同时MPT数据集和PREFINE代码均已开源，分别发布在HuggingFace的HYU-NLP/MPT项目和GitHub的HYU-NLP/PRefine仓库中。

---

Q&A

Q1：MPT基准数据集中的"偏好归纳"和"偏好迁移"有什么区别？

A：偏好归纳要求AI从多个不同领域的行为中找出共同规律，比如用户在餐厅、景点和租车时都选便宜的选项，AI需要归纳出"用户偏好低消费"这一抽象规律，并用它来预测新情境下的选择。偏好迁移则更难，目标领域里没有任何直接的历史证据，必须把从其他领域总结出的规律直接套用到一个全新的服务上，相当于零先例情况下的推断。

Q2：PREFINE的"生成-验证-精炼"循环具体是怎么运作的？

A：每当一轮新对话结束，PREFINE会先生成一个对用户偏好的抽象描述，然后用四条标准来验证：证据是否充分、抽象程度是否合适、是否能指导未来选择、是否与最新行为一致。验证通过则存入记忆；不通过则根据反馈修改描述，重新验证，最多循环三次。最终存储的是一句精炼的行为规律描述，而非具体的选项记录。

Q3：PREFINE的记忆内容为什么能在服务接口更换后依然有效？

A：因为PREFINE存储的是抽象的行为规律描述，比如"用户倾向于在各类服务中选择经济实惠的选项"，而不是某个特定服务字段的具体值。在使用新的服务接口时，AI会把这条抽象描述重新映射到新接口的具体字段上。实验中使用了七个全新服务领域进行验证，字段名称与训练时完全不同，结果依然保持了明显的性能优势。

人工智能自然语言处理个性化记忆增强

分享至