微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

机器人"失忆症"终于有救了？INSAIT与KU Leuven联手让机械臂真正"记住"自己在做什么

机器人控制自回归序列建模动作记忆机制

机器人"失忆症"终于有救了？INSAIT与KU Leuven联手让机械臂真正"记住"自己在做什么

作者：科技行者

2026-05-26 11:15

分享至：

AR-VLA为机器人设计了持久动作记忆系统，通过自回归动作专家和混合缓存机制，解决了现有视觉语言动作模型每次"失忆重启"的根本性缺陷，在多项操控任务中超越主流方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-26 11:15 • 科技行者

这项由保加利亚索非亚大学INSAIT研究所与比利时鲁汶大学（KU Leuven）联合开展的研究，于2025年5月以预印本形式发布，论文编号为arXiv:2603.10126v2。研究团队横跨机器人自动化、语音图像处理以及机器视觉等多个方向，致力于从根本上解决当前智能机器人控制中长期存在的"短期记忆"缺陷。

当你教一个新员工做事，他每隔几秒就把刚才发生的一切全忘掉，然后从零开始重新判断该怎么办——这听起来像在开玩笑，但这几乎正是今天最先进的机器人在工作时的真实状态。现有的机器人视觉语言动作模型（也就是那些能"看图说话还能动手"的AI机器人大脑）有一个深藏不露的结构性问题：它们每次做动作，都是基于"此刻这张照片"做出反应，完全不记得自己刚才做了什么、手臂在往哪个方向运动、任务进行到了哪一步。研究团队把这个现象称为"马尔可夫失忆症"——用专业话说就是每一步决策只依赖当前状态，与历史完全切断。

AR-VLA这项研究的核心贡献，就是为机器人设计了一套真正意义上的"动作记忆"系统，让机械臂不再是每隔几步就忘事的"金鱼"，而是能像一个有经验的外科医生一样，始终清楚自己的手在哪、刚才做了什么、接下来应该怎么延续。

一、机器人为什么会"失忆"，这个问题为何如此棘手

要理解这项研究解决的问题，可以用一个更贴近生活的场景来体会。假设你正在厨房炒菜，但每隔三秒钟，你的大脑就会被"清空"一次。你不记得刚才放没放盐，不知道火开了多久，甚至忘记自己是在炒什么菜。每次"重启"之后，你只能靠眼前锅里的样子来重新判断该怎么办。这样炒出来的菜，几乎注定是一锅乱炖。

现有的主流机器人控制方法，包括大名鼎鼎的扩散策略（Diffusion Policy）和各类视觉语言动作模型，基本上就是这种工作模式。它们通常采用一种叫做"动作分块"的策略：每次感知一下环境，然后一口气预测接下来几步要做的动作，执行完毕，再重新感知，再预测，如此循环。这种方式虽然保证了一个"小块"内部动作的连贯性，但相邻两个"块"之间往往存在明显的割裂感——机器人的手臂会在接缝处抖动、停顿，甚至方向突变。更严重的是，每次重新感知时，模型完全不知道自己刚才经历了什么，就像那个每三秒失忆一次的厨师，永远在对着当下的锅从零判断。

问题的根源在于一个结构性矛盾：机器人需要两种截然不同的"意识"才能工作得好。一种是"情境意识"，也就是理解眼前是什么、任务是什么、物体在哪里——这需要依赖视觉和语言理解，而这类处理通常很慢，往往需要数百毫秒才能完成一次。另一种是"时序意识"，也就是知道手臂刚才在往哪里动、速度是多少、上一个动作的"惯性"是什么——这要求极高的实时性，每隔几十毫秒就要更新一次。现有模型把这两种意识强行绑在一起，慢节奏的视觉感知一旦"卡顿"，整个动作流就被迫中断，而每次重新启动又会彻底清空时序记忆。

研究团队认为，真正优秀的机器人控制，应该像人类的"大脑-小脑"分工一样：大脑（视觉语言模型）负责慢慢理解"是什么、在哪里"，小脑（动作专家）负责快速维护"正在怎么动、应该怎么延续"。这两者应该可以独立运行，互相补充，而不是一个等着另一个。

二、AR-VLA的核心思路：让动作也拥有"流动的记忆"

研究团队给出的解决方案有一个朴素却深刻的灵感来源：大型语言模型（比如ChatGPT那类AI）在生成文字时，每生成一个词都会"记住"之前说过的所有内容，然后基于整段对话的上下文来决定下一个词。这种"自回归"机制让语言模型能够写出前后连贯、逻辑一致的长篇文字，而不是每个句子都是从零开始瞎猜。

AR-VLA的想法是：动作也应该有这样的机制。一个机械臂伸出去拿东西，这个动作本身就是一种"语言"——手臂的每一个位置、每一个速度、每一个关节角度，都是这门"运动语言"里的一个"词"。如果机器人能像语言模型生成文字一样，基于自己过去所有的动作历史来预测下一个动作，那么它就永远不会"失忆"，因为历史已经被完整保存在了它的记忆系统里。

具体来说，AR-VLA设计了一个独立的"动作专家"模块。这个专家不依附于任何视觉或语言系统，它自己维护着一条完整的动作历史记录，就像一本翔实的"动作日记"。每次需要决定下一步怎么动，它都会翻看这本日记，结合最新的视觉语言信息，给出一个与过去动作逻辑一致的新指令。与此同时，视觉语言模型（负责"看图说话"的那部分）以较慢的频率独立更新，不打断动作流的连续性。两者通过一套精心设计的接口协作，互不干扰，各司其职。

这个设计有三个直接好处。动作专家因为一直记得自己在干什么，所以生成的动作轨迹天然平滑，不会在时间节点上突然抖动；动作专家可以在视觉模型还没更新的时候照常工作，不需要等待，控制频率不受感知速度拖累；动作专家可以在没有视觉信息的情况下，单独用大量运动数据进行预训练，先学会"怎么动"，再学"看着什么怎么动"。

三、混合键值缓存：给记忆建一个双层档案柜

要理解AR-VLA的技术实现，可以把整个系统想象成一个精心设计的档案管理系统。这个档案柜有两个抽屉，分别存放两类截然不同的信息。

第一个抽屉叫做"动作历史抽屉"，采用一种"先进先出"的滚动更新方式——就像一条传送带，新的动作记录从一端进来，最旧的从另一端被淘汰出去，始终保留最近一段时间的完整动作序列。这个抽屉存储的是机器人的关节角度、速度、位置等每一时刻的精确状态，记录粒度极细，而且窗口比以往的方法长得多（以往的模型通常只叠加1到4帧的历史，而这里保留多达20步甚至更长的记录）。正是这段"足够长的记忆"让动作专家能感知到手臂正在加速还是减速、轨迹是在向哪个方向弯曲，从而做出连续、合理的下一步预测。

第二个抽屉叫做"视觉语言抽屉"，采用"单槽刷新"的方式——这个抽屉只有一个位置，每当视觉语言模型处理完一帧新图像，就把旧的内容整块替换掉。这个抽屉里存的是机器人对当前任务情境的理解："眼前有一个橙色的胡萝卜"、"任务是把它放到盘子里"、"胡萝卜在桌面左侧"——这类语义信息不需要每毫秒更新，隔一段时间刷新一次就够了。

这两个抽屉的内容被合并在一起，共同作为动作专家做决策的依据。动作专家每次生成下一个动作时，会同时翻阅这两个抽屉：用动作历史抽屉确保运动的连续性，用视觉语言抽屉确保任务的方向性。当视觉语言抽屉里的内容因为感知延迟而暂时"过期"时，动作专家依然能凭借动作历史抽屉继续工作，不会因为感知卡顿而停摆。

四、动态时序重锚：解决"旧照片"对应"当前动作"的时间错乱问题

两个不同频率的系统协同工作，会产生一个棘手的时间对齐问题。想象这样一个场景：机器人已经执行了500步动作，但视觉模型最近一次更新是在第495步时拍的照片。现在动作专家需要用这张"5步前的旧照片"来指导当前的动作。问题在于，训练时模型只见过"步骤25时用步骤20的照片"这类情境，而从未见过"步骤500时用步骤495的照片"——尽管照片的"陈旧程度"（差了5步）完全一样，但绝对的步骤编号已经远远超出了训练时的范围。如果直接用步骤编号来告诉模型"这张照片是什么时候拍的"，模型就会因为遇到超出经验的大数字而茫然失措。

研究团队为此设计了一套叫做"动态时序重锚"（DTR）的机制，借助一种叫做旋转位置编码（RoPE）的数学工具来解决这个问题。这个机制的核心思想是：模型需要理解的不是"照片是在第几步拍的"，而是"照片比当前动作旧了多少步"。换句话说，重要的是相对距离，不是绝对位置。

具体实现上，研究团队将视觉语言信息的"时间戳"设定为它被拍摄时的步骤编号，而不是固定值。这样一来，当动作专家计算"当前动作"和"视觉信息"之间的注意力分数时，两个时间戳相减得到的就是相对陈旧程度（比如"差了5步"），而这个差值无论是在训练时的小数字场景还是部署时的大数字场景，都保持完全一致的数学意义。通过这种方式，模型在训练时学到的"如何处理陈旧5步的视觉信息"这条经验，可以无缝迁移到部署时的任意步骤，不会因为绝对数字变大而失效。这个机制解决了一个困扰异步多模态系统的根本性问题，让训练和实际部署之间的鸿沟得以弥合。

五、两阶段训练：先学会"怎么动"，再学会"看着什么怎么动"

AR-VLA的训练策略也与传统方法截然不同，采用了一种"先打地基，再盖楼"的两阶段方式。

第一阶段完全不使用视觉或语言数据，动作专家只接受纯粹的运动数据训练。大量机器人轨迹数据（注意，这批数据与后续使用的BridgeV2数据集完全不同，以避免数据污染）被送入模型，目标只有一个：学会预测下一个动作。通过这个阶段，动作专家积累了对机器人运动规律的深刻理解——关节有哪些物理限制、速度变化有哪些典型模式、常见的拾取放置动作有什么样的轨迹特征。这个阶段效率很高，在单张A6000显卡上大约只需要2小时就能完成。

第二阶段才引入视觉语言模型。此时，动作专家作为已经"会动"的基础，与视觉语言主干网络连接起来，学习在看到具体场景和听到具体指令的情况下如何调整自己的动作计划。这个阶段有一个特别的训练技巧叫做"随机历史遮蔽"：在训练时，随机将动作历史中的某些步骤"抹掉"，强迫模型在历史不完整的情况下也能依赖视觉语言信息做出合理判断。这个设计防止了一种危险倾向——如果模型发现历史记录永远完整可靠，它可能会越来越懒，完全依赖历史而忽视视觉输入，一旦真实部署中出现轨迹偏差，就会产生灾难性的累积错误。通过强制"历史残缺"训练，模型学会了在历史和视觉之间保持健康的平衡。

实验结果表明，遮蔽率定在0.6（即60%的历史步骤会被随机抹掉）时效果最好。一个极端情况很能说明问题：当遮蔽率设为0（历史永不遮蔽）时，验证集上的预测误差是全场最低的，看起来模型"学得最好"，但实际部署时任务成功率竟然是0%——正是因为模型完全依赖历史，一旦自己生成了稍有偏差的动作，历史就被污染，随后的所有预测都陷入恶性循环。

六、实验结果：在多个不同测试场景里与顶级方法一较高下

研究团队在多个层面对AR-VLA进行了系统性评估，覆盖了"通用机器人政策"和"专项任务机器人"两大类场景，以确保结论的普适性。

在通用机器人政策测试中，三个模型被置于相同的条件下进行比较：它们都使用同一个3B参数规模的视觉语言骨干网络（PaliGemma），总参数量都是3.3B，区别只在于动作专家的实现方式。Pi-0-FAST使用"快速词元"方式将动作转化为离散符号再解码；Pi-0.5使用流匹配方式迭代去噪生成动作块；AR-VLA则使用自回归预测方式生成连续动作序列。三个模型都在BridgeV2数据集上训练，然后在SimplerEnv模拟器里的四个WidowX机器人任务上进行零样本测试（即直接测试，不针对测试场景额外训练）。

AR-VLA以61.5%的平均成功率夺得第一，明显超过Pi-0-FAST的49.0%和Pi-0.5的51.0%，也超过了更大规模的CogACT（52.1%）。在最能体现精细操控能力的"把胡萝卜放到盘子里"任务上，差距尤为显著：AR-VLA达到54.2%，而Pi-0-FAST只有29.2%，Pi-0.5只有33.3%——几乎是后两者成功率的1.6到1.9倍。

在真实机器人上的测试同样令人信服。研究团队用WidowX机器人在实际厨房场景里测试了五个任务（把茄子放进锅、把粉色杯子放到盘子上、把玉米夹在两个杯子之间、把龙虾放进平底锅、把棋子放到棋盘上），AR-VLA以89%的平均成功率领先，在"粉色杯子放盘子"和"龙虾"两个任务上达到了100%成功。更值得注意的是研究团队观察到的一个行为差异：当机器人第一次抓取失败后，AR-VLA会"意识到"自己没拿到，优雅地把手臂抬起来，重新尝试；而其他方法在失败后往往出现混乱的无效动作，把物体越推越远，直到无法恢复。

在专项任务测试中，研究团队用同样参数规模的模型比较了AR动作专家、动作分块变换器（ACT）和扩散策略（DP）三种方法，覆盖PushT平面推块、ALOHA双臂搬方块、ALOHA双臂插孔三个任务。AR动作专家在ALOHA搬方块任务上以97.33%的脚本演示成功率、67.33%的真人演示成功率大幅领先（ACT分别是86%和50%，扩散策略仅有33.33%和10%）；在ALOHA插孔任务上也以54.67%超过ACT的32%。只有在PushT任务上，扩散策略以65.2%略高于AR的60.4%，但AR的轨迹质量（最大IoU 0.920）依然具有竞争力。

七、轨迹流畅度与运行效率：两个常被忽视的重要指标

任务成功率并不是衡量机器人动作质量的唯一维度。研究团队还系统测量了各方法在实际执行中的轨迹"抖动"程度，用"加加速度"（jerk，即加速度的变化率）来量化。简单理解：一个优秀的机器人手臂应该像专业厨师切菜一样流畅连贯，而不是像初学者那样走走停停、忽快忽慢。

在这个维度上，AR-VLA的表现同样最好。它的平均加加速度为7.89（单位：每秒三次方弧度×100），最大加加速度为39.83，均低于OpenVLA（均值10.13，峰值42.14）、Pi-0-FAST（均值8.15，峰值80.24）和流匹配方法（均值9.39，峰值45.33）。视觉上的差异更加直观：在相同任务的关节角度随时间变化图上，AR-VLA的曲线平滑流畅，而其他方法的曲线则明显可见周期性的折角——那正是每次"重启感知、重新生成动作块"时产生的接缝。

在运行效率方面，AR-VLA每生成一个动作只需28.86毫秒，远低于流匹配方法（需要267.28毫秒生成一整块动作，等效到单步为84.26毫秒）和Pi-0-FAST（186.20毫秒每步）。这意味着即便不使用并行执行，AR-VLA的动作控制频率也明显高于基线方法。如果采用研究团队设计的"感知线程和动作线程并行运行"模式，控制频率还能进一步提升，实现稳定的29毫秒每步的高频控制，完全不受视觉语言模型70毫秒每帧更新频率的影响。

八、长时程任务测试：当"失忆"真正变得致命

为了更直接地证明"有记忆"与"没记忆"的区别，研究团队专门设计了两个需要记住历史信息才能完成的任务，这类任务中的关键信息会在任务进行到一半时变得不可观测。

第一个任务叫PushT2（在模拟器里）：机器人需要把一个T形积木推到两个不同的目标位置，顺序任意。麻烦在于，当积木向第二个目标移动到一半时，"哪个目标已经达到了"这个信息完全从画面中消失——视觉上无法判断，只能靠记住自己刚才推到了哪里。动作分块方法成功率只有34%，扩散策略达到44%，而AR-VLA达到66.7%。失忆方法的典型失败模式是：机器人在两个目标之间来回振荡，因为它每次感知时都"不记得"刚才已经完成了一个目标，于是不断重复地去推那个已经完成的目标，永远无法完成任务。

第二个任务叫Stack3（在真实机器人上）：机器人需要先用一个杯子盖住一块电池，然后把第二个杯子叠放在第一个杯子上。难点在于，电池一旦被第一个杯子盖住，就完全从摄像头画面里消失了——机器人在第二步时看到的只是两个杯子，不知道哪个下面藏着电池，只能靠记住自己刚才做了什么来判断。使用流匹配动作专家（历史窗口只有4步）的版本成功率只有43.8%；使用AR动作专家但历史窗口较短（4步）时成功率也只有43.8%；而使用AR动作专家并将历史窗口扩展到40步时，成功率跃升至81.2%。这个结果非常直接地说明：历史窗口越长，记忆越完整，任务成功率越高。

九、消融实验：每个设计细节的贡献究竟有多大

研究团队对每一个关键设计决策都进行了严格的去除测试，以确认它们各自的贡献是真实的。

关于第一阶段预训练，对比实验显示，如果完全跳过这个阶段，即便给模型花费两倍的训练时间去直接学习，最终成功率也只有54.2%，不及有预训练的61.5%；如果只给正常一倍训练时间，成功率更只有37.5%。这说明"先学动作语法"确实是有价值的，而不仅仅是因为训练时间更长。

关于时序重锚机制，实验结果极为鲜明。如果用固定的旋转位置编码（数学上不正确）来处理视觉信息的时间对齐，成功率直接跌至3.1%；如果完全不使用任何位置编码，成功率也只有29.2%。相比之下，使用动态时序重锚的完整版本达到61.5%。这表明正确处理时间对齐不是一个可选的优化，而是系统能否正常工作的关键。

关于历史窗口长度，实验结果呈现出清晰的单调递增趋势：历史长度为1步时成功率36.5%，5步时50%，10步时59.4%，20步时达到最佳的61.5%，继续增加到40步时反而略降至59.4%。这个U型曲线说明存在一个最优的历史长度，太短记忆不足，太长则引入噪声。

说到底，AR-VLA这项研究做的事情，就是把一个长期被忽视的根本性问题推到了桌面上：我们给机器人设计的大脑，究竟应该是"每次都从零开始看一眼"的反应式系统，还是"始终记得自己在做什么"的连续流式系统？通过具体的模型设计、严谨的实验验证和有说服力的对比数据，这项研究为后者提供了一套可行的技术方案，并在多个测试场景中证明了它的有效性。

当然，这套方案并非没有局限。研究团队也坦诚地指出了几个需要继续攻克的挑战：自回归模型因为依赖自己的历史预测，一旦某步动作出现偏差，这个偏差会被"记入档案"并影响后续所有决策，产生累积错误；视觉语言模型的梯度如果直接传入动作专家，会破坏视觉模型原本积累的语义理解能力，因此目前只能采用"隔离"策略，两者分开训练，这意味着它们之间可能还没有实现真正深度的协同；此外，视觉感知部分依然是基于单帧图像的静态快照，如果把"流式记忆"的思路也延伸到视觉感知本身——让视觉模型也能像动作专家一样维护一个滚动更新的"所见历史"——或许能带来进一步的突破。

研究团队还提出了一个颇具前瞻性的设想：不仅动作应该是流式的，视觉语言模型本身也可以变成流式的。未来的视觉语言模型或许可以持续刷新视觉内容，同时保留语言推理的完整上下文，真正实现"边看边想边动"的无缝统一。

有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2603.10126在arXiv预印本平台查阅完整论文，研究团队还在项目主页提供了演示视频和代码。

Q&A

Q1：AR-VLA和普通机器人动作控制方法的根本区别是什么？

A：普通的动作控制方法（如扩散策略或动作分块）每次做动作前都"重置"记忆，只看当前画面来决策，不记得自己刚才做了什么。AR-VLA的动作专家则一直维护着一段完整的历史动作记录，每次决策都基于这段历史加上最新的视觉信息，就像有经验的人始终知道自己上一步做了什么，因此动作更连贯、对遮挡和延迟更鲁棒。

Q2：动态时序重锚（DTR）解决了什么问题？

A：当视觉信息的更新速度比动作控制慢时，机器人需要用一张"过时的照片"来指导当前动作。DTR确保模型理解的是照片"陈旧了多少步"（相对距离），而不是"在第几步拍的"（绝对位置）。这样无论任务执行到第25步还是第500步，只要陈旧程度一样，模型处理方式就完全一致，不会因为绝对步骤数字超出训练范围而出错。

Q3：AR-VLA的随机历史遮蔽训练技巧为什么这么重要？

A：如果训练时历史永远完整，模型会学会完全依赖历史而忽视视觉输入。一旦实际执行中出现哪怕很小的动作误差，这个误差会被写入历史，导致后续预测越来越偏，形成恶性循环。随机遮蔽强迫模型在历史残缺时也能用好视觉信息，使模型对历史误差更有容忍度，部署时更稳定可靠。

机器人控制自回归序列建模动作记忆机制

分享至