微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中国科学院自动化研究所、南京大学与北航联手，让机器人学会"预判未来"的视觉导航系统

机器人操作视觉-语言-动作模型场景动态预判

中国科学院自动化研究所、南京大学与北航联手，让机器人学会"预判未来"的视觉导航系统

作者：科技行者

2026-06-18 12:37

分享至：

中国科学院自动化研究所等机构联合提出World Pilot框架，通过向视觉-语言-动作模型注入世界动作模型的场景演化潜变量和动作轨迹先验，显著提升机器人在陌生场景下的操作成功率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-18 12:37 • 科技行者

这项由中国科学院自动化研究所、南京大学与北京航空航天大学联合完成的研究，以预印本形式发布于2026年6月10日，论文编号为arXiv:2606.12403，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

你有没有注意到，当一个新手司机在陌生路段行驶时，他往往会等到事情发生了才做反应——前面有人突然开门，他踩刹车；路口灯变了，他才转向。而一个老司机，早在这些事情发生之前，就已经在脑子里"播放"了接下来几秒钟的画面，提前做好准备。这种"提前预判"的能力，正是当前机器人操作系统所缺乏的东西。研究团队把这个问题看得很清楚，并由此开发了一套名为"World Pilot"的新框架，试图给机器人的"大脑"装上一个能预见未来的"副驾驶"。

一、机器人的"近视眼"问题

现有的机器人控制系统，通常依赖一类叫做"视觉-语言-动作模型"（VLA模型）的技术。用最直白的话说，这类模型就像一个能看图、能读懂指令、然后做出动作的机器人大脑。它之所以好用，是因为它在海量的图片和文字配对数据上"读"过非常多的书——见过各种各样的物体、场景和语言描述，因此在执行熟悉任务时表现相当不错。

然而这里有一个根本性的局限。这些模型所接受的"教育"，全都来自静止的图片与文字，就像一个人只通过翻看照片来学习开车，却从来没有亲眼看过车辆在路上运动的视频。当他真正坐进驾驶座，面对的是一个连续变化、充满接触与互动的真实世界，他就会开始手忙脚乱。机器人也是一样——一旦遇到训练时没见过的场景，比如换了个摄像头角度、换了个物体颜色、换了个桌面布局，原本运行良好的系统就会开始出错，成功率大幅下滑。

这个问题的根源在于：VLA模型的内部从未真正"理解"动作是如何改变世界的。它只看到当前这一帧画面，却不知道下一帧会是什么样子。就像一个只会看快照的人，永远无法预判球在空中飞行的轨迹。

二、让机器人拥有"预见力"的新思路

研究团队意识到，解决这个问题需要的恰恰是另一类已经"看懂了视频"的模型。视频天然地包含了运动、变化、接触和因果关系——推倒一个杯子，你就能看到它倒下的过程；伸手抓住一个球，你就能看到手指如何与球面接触。在大量视频上训练出来的模型，自然而然地学到了"动作如何改变世界"这一核心知识。

这类在视频上预训练的模型，被称为"世界动作模型"（World-Action Model，简称WAM）。代表性的有NVIDIA开发的Cosmos Policy、mimic-video以及DreamZero等。这类模型能做两件事：一是预测场景在接下来几步中会如何演变，输出一个关于"未来画面"的压缩表示（即"场景演化潜变量"）；二是给出一条大致的动作轨迹，描述完成某个任务大概需要做哪些动作。

这两种能力，正好是VLA模型所欠缺的。于是，World Pilot的核心思路呼之欲出：把WAM的这两种"预判信息"注入到VLA模型的决策链中，让机器人在做每一个动作之前，都能参考"接下来世界会变成什么样"以及"大致应该怎么动"这两条线索。

就像给那位只会看快照的司机，配上一个既能预见路况、又能给出行驶建议的副驾驶。原来的司机仍然负责真正踩油门和转方向盘，但他的决策质量因为有了副驾驶的辅助而大幅提升。

三、World Pilot的两条"导航通道"

World Pilot的具体实现，依赖两个相互配合、分别作用于不同环节的注入机制，研究团队分别称之为"潜变量引导"（Latent Steering）和"动作引导"（Action Steering）。

先说潜变量引导。WAM模型在看到当前画面后，会预测未来场景的变化，并把这个预测压缩成一个紧凑的向量表示——也就是"场景演化潜变量"。这个潜变量携带了关于物体运动、接触结果和局部状态变化的丰富信息。

有人可能会想：既然WAM能预测未来，为什么不直接把它生成的未来图片喂给VLA模型看？研究团队对此给出了明确的答案：生成的图片里充满了与动作控制无关的像素细节，比如光影变化、纹理风格、背景内容，甚至图像生成时产生的各种视觉"噪点"。这些信息不仅没用，反而会干扰模型的判断，稀释真正有用的动态结构信息。相比之下，潜变量是直接在压缩空间里描述动态变化的，剔除了那些无关紧要的视觉装饰，保留了最核心的运动与变化信息。

在技术实现上，潜变量首先经过一个"动态编码器"（dynamics encoder）进行变换，同时被打上一个"未来场景标记"，明确告诉模型这是关于未来的信息而非当前观测。接着，VLA模型的每个内部状态都可以通过"交叉注意力"机制，选择性地关注这个未来信息中与自己空间位置最相关的部分，并把获取到的动态信息以残差叠加的方式加回到原有的内部状态上。这样，VLA模型的每一个感知单元都在原有语义理解的基础上，额外获得了关于"场景将如何变化"的预判信息。这个过程不改变原有内部状态的结构，只是在其上叠加了一层动态感知。

再说动作引导。WAM模型除了预测未来场景，还会给出一条粗略的动作轨迹——大致描述机器人在完成任务过程中应该做哪些动作。这条轨迹不够精确，只是一个方向性的参考，但它携带了关于整体运动意图的有价值信息。

研究团队的做法是，把这条粗略轨迹通过一个"动作编码器"压缩成一个单一的"先验令牌"，然后把这个令牌作为一个前缀插入到负责生成最终动作的模块中。这里有一个关键的设计考量：为什么只用一个令牌，而不是给每个时间步都对应一个令牌？因为用一个令牌代表整条轨迹，保留的是整体的运动趋势和意图，而不是把机器人死死地绑在WAM给出的每一步细节上。WAM的轨迹毕竟只是一个粗略估计，如果每步都照着执行，WAM估计中的任何误差都会被直接传递到最终动作，反而适得其反。用单一令牌作为引导，则让负责生成动作的模块保有足够的自由度，可以在WAM的整体运动意图的指引下，结合经过动态增强的感知信息，做出自己的精确判断。

这两条通道分别在不同的层面发挥作用：潜变量引导作用于感知层，让模型"看得更远"；动作引导作用于动作生成层，让模型"走得更准"。两者相互独立、互为补充，可以单独使用，也可以组合叠加。

四、训练方式：副驾驶不需要重新学开车

整个系统的训练方式体现了研究团队的一个重要设计哲学：WAM模型始终保持冻结状态，不接受任何梯度更新。换句话说，那位"预见未来的副驾驶"的知识来源于他此前在大量视频上积累的经验，训练过程中不去改变他的世界观，只训练VLA模型本身如何利用副驾驶提供的信息来做出更好的驾驶决策。

从实现角度来说，这意味着WAM的前向计算可以在训练阶段被预先计算好并缓存下来，不需要纳入每次训练迭代的计算循环中，从而大大减轻了训练负担。在实际推理阶段，WAM和VLA都基于实时观测同步运行，两者产生的信息通过训练好的融合模块无缝对接。

此外，研究团队还对WAM提供的两种先验信息施加了30%的随机丢弃操作（dropout）——也就是说，在训练时有一定概率把WAM的信息屏蔽掉，强迫VLA模型不能完全依赖副驾驶。这个处理方式让系统在WAM信息质量不佳或不可用时，仍然能够稳健运行，不会因为过分依赖先验而失去自主判断能力。

动作生成的目标函数采用了流匹配（flow matching）框架下的清洁动作参数化——简单理解，就是让模型在噪声中不断"去噪"，最终预测出最符合专家示范的动作块。WAM的先验只通过条件化路径进入模型，不需要额外的先验损失函数，结构非常干净。

五、实验结果：副驾驶真的有用

研究团队在两个模拟器基准测试和一套真实机器人任务上对World Pilot进行了全面评估。

在模拟器测试方面，主要基准是LIBERO-Plus，这是一个专门为了测试模型"超出训练分布"时的鲁棒性而设计的评测套件。它在LIBERO基础上构造了10030个经过扰动的任务，涵盖七种不同维度的变化：背景变化、摄像头角度变化、语言指令变化、光照变化、物体布局变化、机器人配置变化，以及随机噪声干扰。所有模型仅在原始LIBERO数据上训练，然后直接在这些扰动任务上进行零样本测试，不做任何针对性适配。

World Pilot在所有扰动任务上的综合成功率达到84.7%，是目前所有公开报告方法中最高的，比排名第二的基线方法高出2.6个百分点。这个综合指标被研究团队视为最重要的单一指标，因为在真实部署场景中，你永远不知道具体会遇到哪种扰动，综合成功率反映的正是模型对"未知扰动"的整体抵抗能力。

分维度来看，World Pilot在摄像头角度变化这一维度上的表现尤为突出，成功率达到82.8%，比排名第二的方法高出整整13.2个百分点，是所有维度中单项提升最大的。这一结果直接印证了研究团队的核心逻辑：WAM在训练时接触了大量不同视角的视频，使得其产生的场景演化潜变量具有良好的视角不变性，这种特性随着潜变量引导机制被引入VLA模型，使后者也获得了更强的视角适应能力。在光照、背景和噪声这三个外观相关的维度上，World Pilot同样领先所有基线，与VLM的图文预训练在外观层面的鲁棒性相互呼应，形成了双重保障。

在另一个模拟器基准RoboCasa上，World Pilot达到65.5%的成功率，与最强基线保持竞争力，说明相同的设计思路可以迁移到长时序厨房场景操作任务上。

真实机器人测试在四项操作任务上进行：堆叠积木、折叠毛巾、将水果放到盘子里，以及容器与盖子的对齐操作。每个任务都有一个与训练分布匹配的"标准版本"（ID）和两个引入各种变化的"挑战版本"（OOD）——包括改变物体颜色和堆叠高度、改变毛巾朝向和材质、改变水果种类和摆放布局、改变容器种类和盖子位置等。每个版本进行20次试验，记录成功次数。

World Pilot在所有12个任务-版本组合中均取得最高成功率，而且在OOD挑战版本中的优势最为明显。其他基线方法从标准版本到挑战版本的成功率下降幅度普遍在25到50个百分点之间，而World Pilot的下降幅度始终在20个百分点以内。以容器与盖子对齐这个要求最高的任务为例——这个任务不仅要求机器人把盖子放到容器上，还要求盖子完全对齐并压合，几何精度要求极高。在遇到新容器和新盖子位置的挑战版本中，World Pilot在20次试验中成功13至14次，而所有其他基线最多只成功6次。这组数字清晰地说明：WAM提供的轨迹意图先验和场景状态预判，在面对几何形状、位姿、外观均发生变化的情况下，依然能够为机器人提供有效的决策支撑。

六、拆解实验：每一个设计选择背后的逻辑

研究团队设计了一系列消融实验，逐一检验每个设计决策的必要性。

关于两条通道各自的贡献，单独使用潜变量引导时，综合成功率为83.7%，比ABot-M0基线（80.5%）提升3.2个百分点；单独使用动作引导时，成功率为83.1%，提升2.6个百分点；两者合并使用时，达到最高的84.7%，提升4.2个百分点。两条通道提供的是互补而非重叠的信息，组合使用能带来超过各自单独使用时的收益。

关于潜变量是否需要来自经过动作后训练的WAM，研究团队用Cosmos-Predict替换Cosmos Policy进行了测试。Cosmos-Predict是NVIDIA的视频生成基础模型，尚未经过动作侧的专项微调，只能预测未来场景，不能给出动作轨迹。在仅启用潜变量引导（禁用动作引导）的条件下，使用Cosmos-Predict的版本仍然在三个基准上均超过了基线：LIBERO-Plus提升2.1个百分点，RoboCasa提升8.7个百分点，RoboTwin2.0提升4.1个百分点。这个结果说明，视频预训练所赋予的动态世界知识，在没有任何动作侧适配的情况下就已经可以转移到机器人操作任务中。动作后训练（Cosmos Policy）进一步提升了信号质量，但并非不可或缺的前提条件。

关于用潜变量还是用解码后的图像作为输入，研究团队对比了三种不同"去噪步数"下的潜变量（1步、3步、5步）和完全解码成像素图像后的版本。三种潜变量版本的成功率集中在84.5%到84.7%之间，差异不到0.2个百分点，表明系统对去噪深度不敏感，利用的是潜变量中的结构性动态信息，而非像素级的视觉逼真度。而用解码图像替换潜变量时，成功率下降到83.5%，损失了1.2个百分点，印证了研究团队关于"像素解码会引入无关视觉干扰"的判断。

关于动作先验如何接入生成器，研究团队对比了四种方案：单一编码令牌（World Pilot的默认方案）、每步一个编码令牌、从WAM轨迹初始化流匹配过程，以及直接使用原始WAM轨迹作为先验。单一编码令牌方案以84.7%的成功率排名第一；每步令牌方案因为将生成过程与WAM的逐步输出强行绑定，传播了WAM估计中的噪声，成功率降至83.6%；流匹配初始化方案让WAM的动作质量直接影响最终输出，给模型校正先验的空间变窄，成功率为84.1%；直接使用原始未编码轨迹效果最差，成功率仅83.0%。这组对比实验完整地展示了"软引导"相对于"硬绑定"的优势所在。

七、诚实面对局限：哪些问题还没有解决

研究团队在结论部分坦率地指出了World Pilot的三个主要局限。

第一，系统的能力上限受限于WAM的覆盖范围。一旦测试场景落在WAM视频预训练数据之外——比如某种WAM从未见过的物体类型或操作环境——两条通道提供的先验质量都会下降，相应的性能增益也会收缩。这是一个难以通过简单的技巧性手段绕开的根本性限制。

第二，各维度的提升并不均衡。在LIBERO-Plus的语言指令变化、机器人配置变化和物体布局变化这三个维度上，World Pilot的表现不及最强基线。在真实机器人测试中，即使使用了World Pilot，从标准场景到挑战场景的成功率下降依然存在，只是幅度更小，OOD问题并未被根本性地消除。

第三，每个决策步骤都需要额外运行一次WAM的前向推理，这带来了计算开销，限制了系统在需要高频实时反应的任务中的适用性。

研究团队提出了三个未来方向：开发基于不确定性的先验门控机制，在WAM覆盖不足时自动降低对先验的依赖；探索WAM与VLA的联合微调，让两个模型的知识能更深度地互相适配；以及通过先验蒸馏或自适应查询机制减少每步的计算开销。

说到底，World Pilot做的事情，就是给一个只会看快照的机器人大脑，配上了一个既能预见场景变化、又能给出运动建议的智能副驾驶。这个副驾驶不替代主驾驶的判断，只是用自己积累自视频世界的动态经验，帮助主驾驶在看到当前画面的同时，也能对接下来发生的事情有所预判。实验结果表明，这套"主副驾驶协同"的设计，在面对训练时未曾见过的场景时，确实能让机器人稳住许多，尤其在摄像头角度骤变、物体几何形状陌生、盖子位置出人意料这些情况下，表现出的韧性远超其他同类方法。

当然，这套系统还不是终点。WAM的知识覆盖范围、WAM与VLA之间的知识适配深度、以及实时计算效率，都还有明显的提升空间。但作为一个方向性的验证，它提供了一个清晰的证明：给机器人的决策链注入对世界动态的预判，是一条值得深入探索的道路。有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.12403查阅原论文。

Q&A

Q1：World Pilot系统中"潜变量引导"和"动作引导"有什么区别？

A：潜变量引导负责在机器人的感知层面发挥作用，它把世界动作模型对未来场景变化的压缩预测注入到VLM的内部状态中，让机器人"看到"场景可能怎样演变。动作引导则作用于动作生成层面，把世界动作模型给出的粗略运动轨迹压缩成一个单一的先验令牌，为最终动作的生成提供方向性参考。两者分别处理"场景会怎样变"和"机器人大致应该怎么动"这两个不同问题，相互独立又相互补充。

Q2：World Pilot为什么不直接用世界模型生成的未来图片，而要用潜变量？

A：生成的未来图片里包含大量与机器人操作无关的视觉信息，比如光照变化、纹理风格和图像生成产生的视觉噪点，这些信息反而会干扰机器人的判断。而潜变量是直接在压缩空间里描述场景动态变化的，剔除了无关的视觉装饰，保留了对操作控制真正有用的运动和变化结构。实验也验证了这一点，用解码后的图像替换潜变量，综合成功率会下降约1.2个百分点。

Q3：World Pilot在真实机器人测试中表现如何？

A：World Pilot在四项真实机器人任务的所有12个测试设置中均取得最高成功率，且在遭遇未训练过场景时的成功率下降幅度（始终在20个百分点以内）远小于其他对比方法（普遍下降25至50个百分点）。在要求最高的容器与盖子对齐任务中，面对新物体和新盖子位置时，World Pilot在20次试验中成功13至14次，而所有其他方法最多只成功6次。

机器人操作视觉-语言-动作模型场景动态预判

分享至