
这项由华中科技大学、中关村学院、哈尔滨工业大学、香港科技大学(广州)、北京航空航天大学、郑州大学、华东师范大学、中国科学技术大学及DeepCybo等多家机构联合开展的研究,以arXiv预印本形式发布于2026年5月14日,论文编号为arXiv:2605.14712。
你有没有遇到过这样的情况:家里的扫地机器人明明已经清扫过左边角落,却又转头再扫一遍,陷入无尽循环?又或者,一个帮你做饭的机器人助手,明明刚才把鸡蛋放进了锅里,却在下一个动作时突然"失忆",不知道自己接下来是要翻炒还是加盐?
这类问题,说起来好笑,却是目前机器人技术领域最头疼的难题之一。研究团队把这个问题起了个很形象的名字,叫做"短视界意图混淆"。这篇论文的核心工作,就是试图给机器人装上一段"短期记忆",让它在行动时能记住自己刚才做了什么,从而判断接下来该做什么。研究成果被命名为IntentVLA,同时研究团队还开发了一套专门用来测量这个问题严重程度的评测工具,叫做AliasBench。
一、机器人为什么会"忘事"?
先来理解一下机器人是怎么"看"世界的。目前最先进的机器人控制系统,大多依赖一种叫做"视觉-语言-动作模型"(Vision-Language-Action,简称VLA)的框架。顾名思义,这类系统会接收一张当前的摄像头画面,同时读取你给它的指令,然后直接输出一段动作序列,告诉机器人接下来几步要怎么动。
这个框架乍听起来很完美,但它有一个致命弱点:它只看当前这一帧画面。就像一个失忆的厨师,每次做菜前都只能看眼前的灶台,却完全不记得自己五分钟前已经加过盐了。
研究团队举了一个非常直观的例子:假设要完成的任务是"把面包放进平底锅煎,然后取出来放回盘子里"。在这个任务过程中,有两个时刻的画面看起来极其相似——机器人手里夹着面包,悬在工作台上方。第一次是刚拿起面包准备放锅里的时候,第二次是煎好后取出面包准备放回盘子的时候。对人类来说,只需要回想一下刚才做了什么,就能知道现在应该往哪个方向走。但对于只看当前画面的机器人来说,这两个瞬间几乎一模一样,它无法判断自己到底是要"放进锅"还是"放回盘"。
更糟糕的是,现代机器人系统通常不是连续执行动作的,而是每隔一小段时间就重新"想"一次下一步该怎么走,产生新的动作指令,再接着执行。这叫做"分段规划"。如果没有记忆,机器人在两次相邻的"重新规划"中,完全有可能产生截然相反的动作指令——一次认为要往左,下次又认为要往右。这种前后矛盾的行为,在实际执行中会表现为机器人来回颤抖、反复犹豫,甚至完全失控。
二、这个问题有多严重?研究团队造了一把"尺子"来量
光说问题存在是不够的,研究团队还需要证明这个问题真实、普遍、值得被严肃对待。为此,他们专门打造了AliasBench这套评测体系。
AliasBench建立在RoboTwin2这个机器人仿真平台之上,包含了12种精心设计的操作任务,并且为每种任务同时准备了训练数据和专门的评测环境。这12个任务的设计原则只有一个:它们都包含"当前画面相似、但下一步动作不同"的关键时刻。
研究团队把这12个任务归入四大类别,分别对应四种不同的"迷惑来源"。第一类叫做"来回混淆",描述的是某些任务里机器人需要把物体从A搬到B、再从B搬回A这样的往返过程,中途会出现多个视觉上极其相似的"手持物体"状态,但每次的目的地完全不同。第二类叫做"路径交叉混淆",比如机器人需要从不同起点出发去往对应的目的地,在半途中画面可能看起来一模一样,但走向完全相反。第三类叫做"双臂混淆",专门针对双臂机器人在把物体从一只手递给另一只手的过程中,两只手的中间状态几乎对称,难以区分是从左递到右还是从右递到左。第四类叫做"多目标混淆",任务里有多个候选目标,正确的那个只在某个短暂时刻被标示出来,之后这个标记就消失了,机器人必须记住自己刚才看到了什么。
为了让这套评测更有说服力,研究团队还做了一项量化验证实验。他们把每个任务中所有"迷惑时刻"的画面提取出来,转化为数字向量(可以理解为把每张图片的视觉特征压缩成一串数字),然后检查这些数字有多相似。结果非常清晰:在所有12个任务中,平均来说,有49.7%的"最相似邻居"来自意图完全不同的时刻。换句话说,将近一半的情况下,机器人看到某个画面,都会同时联想到两种完全不同的下一步动作。而且即使是那些看起来差异稍大一点的情况,它们之间的相似度差距也极其微小,最大差距不超过千分之三。这有力地证明了"短视界意图混淆"不只是一个概念性担忧,而是真实存在于操作任务数据中的普遍现象。
三、给机器人装上"短期记忆"——IntentVLA的设计
既然问题已经说清楚了,解决方案也就呼之欲出了:给机器人看当前画面的同时,也让它"回顾"一下刚才发生了什么。研究团队把这个设计叫做IntentVLA。
可以用一个简单的比喻来理解IntentVLA的工作方式。假设你是一个没有任何记忆的助理厨师,每次主厨问你"接下来做什么",你只能盯着眼前的灶台看。IntentVLA的作用,就相当于在你身边放了一卷十秒钟前的录像,让你在回答之前先快速回放一遍,然后再做决定。
具体来说,IntentVLA的设计包含三个相互配合的部件,每个部件承担不同职责,共同形成完整的判断能力。
第一个部件负责处理"当前状态"。系统使用了一个叫做Qwen3-VL的语言-视觉大模型,它接收当前这一帧画面和你给出的文字指令,把这些信息整合成一个"当前状态描述"。这一步和传统VLA系统是一样的,没有本质区别。
第二个部件负责处理"历史记录"。这是IntentVLA最关键的创新。系统使用了另一个独立的模型,叫做VGGT-1B,专门用来处理最近一段时间(大约最近16帧,大约对应几秒钟)的画面序列。不过研究团队做了一个聪明的简化:他们不让VGGT分析每帧画面的每一个细节,而只保留两种特殊的输出信息——一个叫做"摄像头标记"的向量(记录摄像头的朝向变化,类似于记录"最近几秒钟,你的视角怎么移动了")和四个叫做"寄存器标记"的向量(记录画面间的整体几何关系变化,类似于记录"场景的空间结构发生了什么变化")。这五个向量极其紧凑,却包含了判断"最近在做什么"所需要的核心信息。
第三个部件负责"融合信息"。系统用一种叫做"门控交叉注意力"的机制,把历史信息和当前状态信息合并在一起。可以把这个过程理解为:助理厨师先看了当前灶台的状态,然后快速扫了一眼录像回放,最后把两部分信息综合起来,形成一个"综合判断"。这个综合判断就叫做"短视界意图表示",它是当前任务状态加上最近行为历史共同决定的一个中间变量。最后,这个综合判断会被输入到一个基于"流匹配扩散模型"(可以理解为一种特别擅长生成连续动作序列的神经网络结构)的动作生成头,输出最终的动作指令。
研究团队特别强调:这套设计完全不需要人工给每个时刻标注"意图标签",不需要人类专家告诉系统"这个时刻属于意图A、那个时刻属于意图B"。整个系统完全通过模仿人类示教数据来自动学习,大大降低了实际应用的门槛。
四、效果怎么样?数字说话
研究团队在四个不同的测试平台上对IntentVLA进行了评估,结果在各个方面都显示出明确的改进。
在专门为测试意图混淆设计的AliasBench上,IntentVLA的表现尤为突出。对比的基准系统是Qwen3VL-GR00T,这是目前最先进的VLA系统之一,在多个公开基准测试上都有出色表现。在不使用任何历史信息的情况下,这个基准系统的平均成功率只有9.0%——这充分说明了纯帧条件方法在意图混淆场景下的严重局限。研究团队也尝试了一种更直接的历史补充方案:把过去的多帧画面直接拼接进模型的输入中。结果发现,输入最近8帧或16帧历史画面会直接导致内存溢出,根本无法运行。输入最近4帧画面勉强可以运行,但成功率也只有10.4%,提升极其有限。更聪明的做法是从最近16帧中均匀采样4帧输入,成功率提升到了28.1%,但仍然远低于IntentVLA的45.8%。
这意味着IntentVLA的成功率是基准系统的五倍以上,比最好的可行历史补充方案高出了17.7个百分点。在四种混淆类型中,"路径交叉混淆"任务的提升最为显著,从15.7%跃升至74.7%;"来回混淆"任务也从6.0%提升到了49.3%。这两类任务恰恰是最依赖"物体从哪里来"这一历史信息的场景,也进一步验证了IntentVLA的设计方向是正确的。
除了总体成功率,研究团队还开发了一个专门衡量"相邻动作指令一致性"的指标,叫做ICC-L2。这个指标的逻辑很直观:如果机器人在某个时刻规划了接下来十步的动作,然后几步之后重新规划,两次规划对同一个未来时刻的预测应该大体一致。如果每次重新规划都产生截然不同的预测,说明系统在反复"变心",没有维持稳定的意图。测量结果显示,IntentVLA将这一指标从0.219降低到了0.181,降幅达17.6%。而且在最难的那些时刻,也就是90百分位数的极端情况,降幅更是高达21.7%,说明IntentVLA不仅让平均情况更好,还特别有效地遏制了最严重的"变心"现象。
在另一个广泛使用的机器人基准测试SimplerEnv上,IntentVLA在四项WidowX机器人操作任务中取得了72.9%的平均成功率,超越了基准系统Qwen3-VL-GR00T的65.3%,也超越了目前已报告的最高成绩68.2%。其中"将绿色积木叠放在黄色积木上"这个任务的成功率从18.8%提升到了54.2%,提升最为显著——这类任务需要精确判断抓握和放置的过渡状态,恰恰得益于历史信息对空间几何关系的补充。不过也有一项任务"将勺子放在毛巾上"的成功率从83.0%下降到了70.8%,研究团队分析认为,这个任务本身的意图歧义性很低,历史信息的引入反而可能分散了模型对精细外观特征的注意力。这种"有得有失"的现象恰恰说明了研究的客观性。
在LIBERO这个多任务机器人学习基准上,IntentVLA在包含四个子任务套件的综合评测中取得了98.6%的平均成功率,比基准系统的96.5%有所提升。最值得关注的是"LIBERO-Long"子套件,这个套件包含需要完成多个连续子任务的复杂任务,对意图连贯性要求最高。IntentVLA在这里取得了97.4%的成功率,而基准系统只有92.0%,π0.5系统也只有92.4%。
在RoboCasa这个包含24种多样化操作任务的大型基准上,IntentVLA以57.0%的平均成功率位居所有对比方法之首,超越了第二名TwinBrainVLA的54.6%。
五、哪些部件真正起了作用?拆开来看的消融实验
为了搞清楚IntentVLA的性能提升到底来自哪里,研究团队把这套系统拆开,逐一去掉不同的组件,观察效果如何变化。
最基础的对照是纯帧条件的基准系统,平均成功率65.3%。如果只加入VGGT编码器但不给它任何历史信息、只让它处理当前这一帧,成功率反而略有下降,变成64.8%。这说明VGGT本身不是魔法棒,它的价值完全来自于对多帧历史信息的处理,而不是作为单帧特征提取器使用。接下来,给VGGT输入历史帧并通过门控交叉注意力融合进来,成功率提升到69.5%。最后再加上那个"历史摘要令牌",即把历史信息额外压缩成一个紧凑的单向量附加给动作模型,成功率进一步提升到72.9%。这个逐步递增的结果表明,IntentVLA的每一个设计组件都有实质贡献,而且两种形式的历史信息表示(细粒度的多帧令牌序列和压缩的单向量摘要)是互补的,缺一不可。
六、诚实面对局限:这套方法解决不了什么问题
研究团队在论文中坦诚地列举了IntentVLA目前的局限,这种客观态度值得肯定。
首先,IntentVLA的记忆窗口只有最近16帧,覆盖时间非常有限。对于那些需要记住很久以前发生了什么的任务,比如半小时前的操作决策,这套方法无能为力。其次,当前的所有评测都在仿真环境中进行,还没有在真实物理机器人上验证效果。真实世界的光线变化、噪声干扰、物体外观差异等因素,可能会给历史信息的利用带来额外挑战。第三,AliasBench上的平均成功率只有45.8%,远未解决问题,双臂协作和多目标任务依然非常困难。研究团队分析,这一方面是因为16帧的历史窗口不够长,另一方面是因为机器人在执行过程中会犯错,导致实际的历史画面和训练时见过的示教历史画面出现偏差,系统对这种"偏差历史"的处理能力还有待加强。
研究团队指出了未来的改进方向:把评测扩展到真实机器人平台,研究更具可解释性的意图探针,以及开发自适应历史选择机制,让系统能够自动判断当前画面是否已经足够清晰,还是需要更多历史信息辅助。
归根结底,这项研究告诉我们一件看似简单却常常被忽视的事情:对于机器人来说,"知道自己刚才做了什么"和"看清楚眼前是什么"同样重要。一个只盯着当下的系统,就像一个没有短期记忆的厨师,每次转身都可能忘记刚才已经完成了哪一步。IntentVLA通过一种轻量且高效的方式,给机器人补上了这段关键的"短期记忆",在多个基准测试上带来了实实在在的性能提升。当然,这还只是迈出了第一步——机器人要真正拥有稳定可靠的操作能力,还有很长的路要走。感兴趣的读者可以通过arXiv编号2605.14712查阅完整论文,获取更多技术细节和实验数据。
Q&A
Q1:AliasBench和普通机器人测试基准有什么区别?
A:普通基准测试主要衡量机器人能不能完成一个任务,而AliasBench专门测试机器人在"当前画面相似但下一步动作不同"的混淆时刻是否能做出正确判断。它包含12个精心设计的任务,覆盖来回、路径交叉、双臂协作和多目标四类混淆场景,并配有专门的量化指标来证明这种视觉混淆确实真实存在。
Q2:IntentVLA的历史记忆是怎么存储和使用的?
A:IntentVLA不是把过去的完整画面全部存下来,而是用VGGT模型对最近约16帧历史画面提取非常紧凑的特征——每帧只保留5个向量,分别记录摄像头朝向变化和场景几何结构变化。这些特征通过门控交叉注意力机制与当前画面信息融合,再额外压缩成一个单向量摘要,共同构成动作决策的条件输入,整个过程不需要人工标注意图标签。
Q3:ICC-L2指标是什么意思,为什么重要?
A:ICC-L2衡量的是机器人在相邻两次"重新规划"时,对同一个未来时刻预测的动作是否一致。如果机器人每次重新规划都产生大幅不同的动作预测,说明它在反复"变心",前后矛盾,实际执行时就会出现颤抖、犹豫等不稳定现象。IntentVLA将这一指标降低了约17.6%,说明它不仅提高了成功率,还从根本上减少了这种意图摇摆的行为。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。