微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 罗彻斯特大学等机构联合研发:给AI"装上记忆",让它真正记住你做了什么

罗彻斯特大学等机构联合研发:给AI"装上记忆",让它真正记住你做了什么

2026-05-26 09:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-26 09:35 科技行者

这项由罗彻斯特大学、MIT-IBM沃森人工智能实验室与威斯康星大学麦迪逊分校联合开展的研究,以预印本形式于2026年5月18日发布在arXiv平台,论文编号为arXiv:2605.18652。研究的核心成果被命名为MEMENTOGUI,感兴趣的读者可通过上述编号查阅完整原文。

你有没有遇到过这样的场景:雇了一个助手帮你在电脑上完成一项复杂任务,比如"帮我把这份报告整理好,发给上周会议上提到的那位客户",结果助手每换一个窗口,就把前一步做了什么忘得一干二净?当你的任务需要跨越十几个步骤、打开七八个应用才能完成时,这个助手频繁"失忆"的问题就会变得非常致命。这其实正是当下最先进的AI图形界面操作代理(也就是那些能自动点击、打字、浏览网页帮你完成电脑操作任务的AI程序)面临的核心困境。

近年来,AI在"看一眼就知道该点哪里"这件事上已经做得相当不错了,但一旦任务变长、步骤变多,它就开始出错——忘记之前选了什么选项、重复做无效操作、或者干脆忘记任务的最终目标是什么。这支研究团队把这个问题比喻为:现有AI的瓶颈不再是"眼力",而是"记性"。于是他们提出了MEMENTOGUI这套框架,试图给AI装上一套真正好用的记忆系统,让它在执行长任务时也能保持清醒的头脑。

---

一、为什么AI"记性不好"是个大问题

要理解这项研究的价值,得先搞清楚AI在操作电脑时究竟是怎么工作的。目前主流的GUI代理(GUI就是我们平时看到的窗口、按钮、菜单这些图形界面的统称)的工作方式,有点像一个只能靠照片记事的人。每一步操作之前,AI会"拍一张截图",然后根据这张截图决定下一步做什么。

问题在于,如果任务有二三十个步骤,AI就得把前面所有的截图和操作记录都"塞进脑子里"一起考虑。这就好比你去超市购物,导购员每次回答你的问题,都要先把你从进门开始说过的每一句话全部重新念一遍,效率极低,而且越念越乱。研究人员把这种方式叫做"历史重放",它有两个致命缺点:一是信息量太大,大量重复、无关的截图把真正有用的信息淹没了;二是截图虽然保存了视觉信息,但如果不加筛选地全部堆砌进去,AI反而会被无关内容干扰。

另一种常见的处理方式是"只用文字总结",也就是把每一步发生了什么用文字写下来,只记文字不记图片。这样虽然节省了空间,但又丢失了很多只有图片才能传达的视觉信息。比如,你曾经在某个下拉菜单里选中了"张三"这个选项,但如果只记文字,下次AI再遇到类似界面时,就找不到"张三那个选项长什么样"这条关键线索了。

更麻烦的是,随着任务步骤越来越多,这两种方式都会让AI逐渐"迷失方向"——忘掉约束条件、走回头路、或者在某个子目标上反复打转。这支研究团队在包括手机跨应用操作和网页多步骤任务在内的多个测试场景里都观察到了这一失效模式,从而得出结论:问题的本质不是AI的"眼力"不够,而是它缺乏一套主动管理信息的记忆机制。

---

二、"记忆秘书"登场:MEMENTOCORE是什么

这套解决方案的核心思路,可以用一个职场场景来理解。假设你有一位非常厉害的专业助手(这就是那个"冻结"不动、不需要重新培训的GUI核心模型),但他只负责"看当前情况、做当前决策"。现在,你给他配备了一位专职的"记忆秘书"——这就是MEMENTOCORE。

这位记忆秘书不自己做决策,他的全部工作就是在每个操作步骤前后,帮助助手整理、压缩、存取记忆,然后把真正有用的信息递给助手,让助手做出更明智的选择。最关键的一点是:助手本身不需要任何改动,这套记忆系统是"插件式"的,可以接在任何现有的GUI模型上,无需重新训练核心模型。

MEMENTOCORE在技术上是通过一个叫做"LoRA适配器"的轻量化模块来实现的。你可以把它理解为给一台已经组装好的电脑加装了一块专用内存条,而不需要把整台电脑拆掉重装。这个记忆秘书承担了四项专门的工作,研究团队把它们分别命名为步骤处理器、工作记忆压缩器、情节记忆写入器和情节记忆选择器。这四个角色各司其职,共同构成了一套完整的记忆管理流水线。

整个系统还维护着两种不同时间尺度的记忆:一种叫"工作记忆",专门记录当前任务进行过程中积累的关键信息;另一种叫"情节记忆",储存的是以往完成过的任务的经验,可以在新任务中被调出来参考。这两种记忆的分工,有点像我们大脑里短期记忆和长期记忆的区别。

---

三、记忆秘书的四项工作究竟怎么运作

步骤处理器是记忆秘书的第一道工序,也是最频繁工作的环节。每次AI助手完成一个操作步骤之后,步骤处理器就会介入,对刚刚发生的事情做出评估:这一步重要吗?值得记下来吗?如果值得,那么应该记录哪些内容?界面上发生变化的区域在哪里?

这里有一个很精妙的设计。步骤处理器不会无脑地把每一步都记下来,而是会给每一步打一个"重要性分数"。只有分数超过某个阈值的步骤,才会被写入工作记忆。这就好比一位速记员,她不会把会议上每一句废话都记录下来,而是只记那些对最终结论真正有价值的发言。更重要的是,步骤处理器在记录时不只记文字,还会精确标记出界面截图里哪个区域发生了关键变化,并把那个区域"裁剪"出来保存。这种"带图坐标"的记忆,比单纯的文字描述要精准得多。

步骤处理器还有第三项职责:判断当前是否需要调取以往的任务经验。如果遇到了某个似曾相识的场景,它会举手示意:"喂,我们可能在某次历史任务里做过类似的事情,要不要去翻翻档案?"这个信号一旦触发,就会激活情节记忆的检索流程。

工作记忆压缩器负责处理"记忆过载"的问题。随着任务步骤越来越多,工作记忆里积累的条目也会越来越多,总不能无限制地堆下去。当记忆条目数量超过容量上限时,压缩器就开始工作:它会把较早的那些条目进行汇总整合,生成一段更紧凑的概要,同时保留最有代表性的几张界面图片作为视觉参考。这个过程类似于一位速记员在记满一页纸之后,把前几段话提炼成几句核心要点,腾出空间继续记录新内容,同时不丢失重要线索。

情节记忆写入器和情节记忆选择器则负责跨任务的长期记忆管理。每当一个任务完成之后,写入器会对这次任务做一个全面的复盘总结,把任务目标、执行结果、关键操作步骤以及有代表性的界面截图打包存入"档案室",供未来的任务参考。而当一个新任务需要调取过往经验时,选择器会从档案室里筛选出真正相关的记录,而不是把所有历史任务一股脑全部拿出来——无关的历史经验只会添乱,不会帮忙。

---

四、这套记忆系统是怎么被"教会"工作的

要训练这四位"记忆秘书",研究团队面临的第一个挑战是:去哪里找足够多的训练素材?毕竟,你需要让它们学会"什么时候该记、记什么、怎么压缩、哪段历史经验最相关",这些判断都需要大量的例子来训练。

研究团队选择了一个叫做PSAI的计算机操作数据集作为原材料。这个数据集包含大量真实的电脑操作录像,记录了人类在完成各种电脑任务时的完整过程。团队开发了一套自动化的数据加工流水线,把这些录像转化为四种记忆控制操作的训练样本。

具体来说,他们对每段录像进行了两个层次的标注。一是逐帧比对相邻画面,提取出每一步操作的详细信息,包括发生了什么动作、界面哪个区域发生了变化、对应的坐标框在哪里。二是从更宏观的角度把整个任务切分成若干个子目标段落,每个段落对应一个阶段性的小目标。这两层标注互相配合,给四种记忆操作分别提供了专属的训练数据。

训练分为两个阶段。第一阶段是标准的监督学习,也就是给模型看"正确答案",让它学着模仿。第二阶段则引入了一种叫做"偏好学习"(DPO)的方法,专门用于步骤处理器和工作记忆压缩器这两个最关键的角色。偏好学习的逻辑是:先用规则或AI评审自动生成一些"故意出错"的负面样本,然后让模型在正确答案和错误答案之间学会辨别。这就像训练一位编辑,先给他看优秀稿件和糟糕稿件的对比,让他逐渐养成辨别好坏的直觉。

整个数据加工和训练流程几乎不需要人工干预,研究团队只对200条轨迹做了人工质量验证,结果有197条被判定为完全正确,验证了这套自动化流程的可靠性。

---

五、专属评测台:MEMENTOGUI-BENCH的设计

现有的GUI代理测评工具大多是为短任务设计的,遇到需要长期记忆的复杂任务就捉襟见肘了。研究团队为此专门设计了一个新的测评基准,叫做MEMENTOGUI-BENCH。

这个基准从PSAI数据集里精选了200条任务轨迹,总共包含6953个操作步骤,平均每条任务有34.8个步骤。这已经是相当长的任务链了——对于一个频繁"失忆"的AI来说,维持三十多步的连贯性是非常高的要求。其中80条轨迹用于实际测试,另外120条则被用来给情节记忆库"预热",也就是让系统提前积累一些可供参考的历史经验。测试重点集中在那些"下一步正确操作依赖于前面某个早已发生过的信息"的场景,正是当前AI最容易出错的地方。

除了这个新基准,研究团队还设计了三个专门面向长任务的评估指标,用来衡量那些传统指标衡量不到的东西。基于视觉语言模型的行动匹配(VAM)评估的是AI预测的操作步骤在语义上是否与正确答案等价,而不是要求一字不差地匹配,这更接近"做对了没有"这个问题的本质。任务进度分数(TPS)衡量的是整个预测序列是否让任务稳步向前推进,有没有绕圈子或者停滞不前。记忆一致性分数(MCS)则专门检验AI的记忆状态是否与任务实际进展保持一致,比如它记住的"已完成子目标"是否真的完成了、记住的"用户约束"是否一直被遵守。这三个指标共同构成了一套更全面的长任务评估体系。

---

六、实验数字背后的故事

研究团队把MEMENTOGUI在三个不同的测试环境里进行了全面检验,分别是GUI-Odyssey(手机跨应用操作场景)、MM-Mind2Web(网页多步骤操作场景)以及他们自己设计的MEMENTOGUI-BENCH。为了测试系统的"插件"特性,他们选了四个不同的开源GUI模型作为基础,并把MEMENTOGUI直接接在这些模型上,不对基础模型做任何修改。

以其中一个叫做UI-Venus-1.5-8B的模型为例,在不提供任何历史信息的情况下,它在GUI-Odyssey上的行动匹配分数是54.58,任务完成率是1.29。加入了工作记忆之后,行动匹配分数跃升至67.69,任务完成率提升到2.69。再加上情节记忆,行动匹配进一步提升至68.32,任务完成率达到3.57。换句话说,相比于完全不记忆的情况,任务完成率提升了接近两倍。

与其他记忆策略相比,MEMENTOGUI的优势也非常明显。传统的"把所有历史截图都塞进去"这种方式,有时候甚至比完全不提供历史信息还要差——在GUI-Owl-1.5-8B这个模型上,行动匹配从40.15反而下降到38.88,这生动说明了无序的历史信息有时候是帮倒忙的。相比之下,只提供文字总结的策略虽然有所改善,但因为缺少视觉信息,提升效果远不如完整的MEMENTOGUI。

特别值得关注的是任务长度对各种方法的影响。研究团队按照任务步骤数量把测试样本分成了几个区间,发现随着任务变长,传统方法的性能下滑非常明显,而MEMENTOGUI则能更好地维持稳定。在步骤数超过20步的长任务里,MEMENTOGUI的优势尤为突出,这正好印证了它设计初衷——专门应对长任务场景。

情节记忆库的大小对结果也有显著影响。随着历史任务积累越来越多(从0条增加到1000条),任务完成率呈现稳步上升的趋势,这说明"经验越多越有参考价值"这一直觉在这套系统里得到了实证验证。

---

七、"只记文字"和"去掉图片"会损失多少

为了进一步搞清楚MEMENTOGUI为什么有效,研究团队做了一系列拆解实验,逐一去除某个功能组件,观察性能变化。

第一个实验验证的是视觉信息的价值。他们保留了所有的文字记忆功能,但把记忆里的界面截图裁剪图(即前面提到的"带图坐标"的那部分)全部去掉,观察只靠文字记忆能得到什么结果。结果显示,去掉视觉信息之后,在两个模型上的表现都出现了明显下滑,但仍然好于纯文字总结的基准方法。这说明记忆控制本身(决定记什么、什么时候记)就有独立价值,但加上视觉锚点之后效果更好。对于记忆一致性分数这个指标,视觉信息的作用尤为突出,从6.68提升到7.00——这意味着有了图片参考,AI在追踪"之前的界面状态是什么样的"这件事上会更加准确。

第二个实验验证的是情节记忆选择策略的价值。研究团队设计了三种对比:随机选取一段历史经验塞进去、直接用向量相似度检索出最相关的一条、以及MEMENTOGUI使用的两阶段检索(先向量粗筛,再用AI精筛)。结果非常清楚:随机选取的历史经验不仅没有帮助,反而比没有历史经验更差;单纯向量检索比随机好,但依然逊色于两阶段精筛。这说明"选择什么样的历史经验"这个问题本身就需要智能决策,不是随便来一段记录就有用的。

---

八、"秘书"本身变强,会带来更好的结果吗

既然记忆秘书是一个独立的可插拔模块,一个自然的问题是:如果把这位秘书换得更聪明,任务完成情况会更好吗?研究团队为此做了专门的规模化实验,对比了2亿参数、40亿参数和80亿参数三种规模的记忆控制器。

总体趋势是:更大的记忆控制器通常能带来更好的任务支持,尤其是在工作记忆与情节记忆组合使用的情况下,规模提升的收益更为明显。80亿参数的控制器在行动匹配和语义匹配这两个核心指标上达到了最好的成绩。不过,规模提升也会带来额外的推理延迟,2亿参数的控制器在GUI-Odyssey上完成一条轨迹约需41.98秒,而80亿参数版本需要72.47秒。这个延迟增量是否在可接受范围内,取决于具体的应用场景。

关键在于,无论换用哪种规模的记忆控制器,底层的GUI操作模型本身都不需要任何改动。这意味着系统升级的成本极低——只需要替换那块"内存条",不需要动整台"电脑"。从工程实用性的角度来看,这是一个非常有吸引力的设计特性。

研究团队还验证了这套记忆系统对闭源商业AI(如GPT-5.5和Gemini-3.1-Pro)同样有效。把MEMENTOGUI的工作记忆作为单步推理的上下文注入这些模型后,任务完成率也有所提升。Gemini-3.1-Pro的记忆一致性分数从2.75大幅提升至7.22,提升幅度达到162.55%,这说明即使是已经非常强大的商业模型,在长任务的记忆管理方面也存在明显的改进空间。

---

说到底,MEMENTOGUI这项研究的价值在于它把一个被长期忽视的问题重新框架化了。过去大家都在想"怎么让AI的眼睛更好用",但这支团队发现,真正的瓶颈其实在于"怎么让AI的记性更好用"。他们给出的答案不是让AI变得更大更强,而是给它配一位专职的记忆秘书,负责在合适的时候记住合适的东西,同时把不重要的信息过滤掉。

这项研究对我们普通用户的实际意义在于:未来你在使用AI帮你完成复杂的电脑操作任务时,它出错、走回头路、忘记之前说过什么这类问题有望得到实质性改善。无论是帮你整理文件、填写表格、还是跨多个应用协调完成一项工作,AI助手的可靠性都将因此提高。

当然,这套系统目前仍有一些值得进一步探索的方向。比如,记忆控制器本身的判断有时候可能出错——错误地认为某一步不重要而没有记录,或者调取了不相关的历史经验。如何让记忆系统本身更鲁棒、如何在推理速度和记忆质量之间找到更好的平衡点,都是后续研究可以深入的方向。感兴趣的读者可以通过arXiv编号2605.18652查阅完整论文,以及访问zzzmyyzeng.github.io/MementoGUI获取相关资源。

---

Q&A

Q1:MEMENTOGUI和普通AI助手记历史记录有什么本质区别?

A:普通AI助手要么把所有历史截图全塞进去(信息过载),要么只记文字(丢失视觉信息)。MEMENTOGUI通过一个专门的记忆控制器,主动筛选哪些步骤值得保存、只截取界面中真正发生变化的区域图片,并能在需要时调取过去完成的类似任务的经验,做到信息精准而不冗余。

Q2:MEMENTOGUI需要重新训练原有的GUI操作模型吗?

A:不需要。MEMENTOGUI是完全插件式的设计,原有的GUI操作模型保持"冻结"状态,不做任何修改。记忆控制器作为独立模块接入,只负责整理和传递记忆上下文,相当于给现有AI配了一位专职秘书,而不是重新培训这位AI本身。

Q3:MEMENTOGUI-BENCH和现有的GUI测试基准有什么不同?

A:现有大多数GUI测试基准针对的是短任务,无法衡量AI在长任务中的记忆表现。MEMENTOGUI-BENCH专门选取了平均超过34步的长任务,并设计了三个专属指标:行动语义匹配度、任务推进连贯性、以及记忆状态与任务进展的一致性,从多个角度评估AI在需要长期记忆的场景下的真实表现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-