微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

武汉大学等五所高校联合研究：机器人能不能像人一样"预见未来"？这个轻量级AI让机械臂又快又准！

机器人操控世界动作模型轻量化架构

武汉大学等五所高校联合研究：机器人能不能像人一样"预见未来"？这个轻量级AI让机械臂又快又准！

作者：科技行者

2026-06-16 13:47

分享至：

这项来自武汉大学等五所高校的联合研究提出Light-WAM，通过压缩视频监督空间与多层状态融合解码，将机器人世界动作模型的可训练参数压缩至4.4亿，推理延迟降至72毫秒。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-16 13:47 • 科技行者

这项由武汉大学、上海创新研究院、东南大学、复旦大学和华东师范大学联合开展的研究，以预印本形式于2026年6月发布在arXiv平台，论文编号为arXiv:2606.08242。感兴趣的读者可以通过这个编号检索完整论文。

当你第一次看到机械臂在实验室里灵活地抓取物品、完成一连串复杂动作时，可能会觉得这只是单纯的"按指令执行"。但实际上，让机器人真正理解任务、灵活应对变化，背后涉及一个极为前沿的问题：机器人能不能像人一样，在动手之前就在脑海里"预演"接下来会发生什么？

这项研究就聚焦于此。研究团队提出了一个名为Light-WAM的系统——"WAM"是"World Action Model"（世界动作模型）的缩写，而"Light"则意味着这套系统比同类技术轻巧得多。它的核心思路是：通过训练机器人"预测未来视频"，让它在脑子里形成对物理世界的理解，进而做出更准确的动作；而在实际操控时，又能以极低的计算代价快速响应。整个框架仅有4.4亿个可训练参数（这是衡量AI复杂程度的指标，数字越小意味着越轻便），推理延迟只需72毫秒，峰值显存占用仅4.1GB，相比同类方案效率大幅提升。

---

一、机器人的"脑子"是怎么工作的

假设你是一个新来的快递分拣员，第一天上班，你需要根据包裹的外观、标签和货架位置，决定把它放到哪里。你的脑子里不只是在接收眼前的画面，还在不断预测：如果我把这个包裹这样放，架子会不会倒？旁边的包裹会不会滑落？这种"边行动、边预想未来"的能力，正是让人类在复杂环境中游刃有余的关键。

机器人研究领域有一类技术叫做视觉语言动作模型（VLA），就像给机器人装上了一双"会看文字的眼睛"——它可以读懂语言指令，也可以识别眼前的视觉场景，然后输出具体的机械动作。然而，这类模型的局限在于，它们主要靠"当下这一帧"来做决策，缺乏对"接下来会发生什么"的理解。

为了弥补这个缺陷，研究人员提出了"世界动作模型"（WAM）的概念。其核心逻辑是：在训练机器人做动作的同时，额外要求它预测未来的视频画面。这就好比不仅要求快递员把包裹放对地方，还要求他提前画出"放完之后货架的样子"。这种额外的练习，会逼着模型去真正理解场景中物体的运动方式、物体之间的关系，以及任务的进展状态，而不是仅仅靠"记忆反射"来应付。

然而，现有的WAM系统存在一个令人头疼的问题：为了做好这种"未来预测"，它们往往需要庞大的生成式架构，训练成本极高，推理速度极慢，对硬件的要求也十分苛刻。这使得它们很难被部署在真实的闭环控制场景中——毕竟，机器人总不能等两三秒才迈出下一步。

---

二、核心发现：测试时的"预想"其实可以省掉

研究团队从一个关键洞察出发：既有研究已经表明，在实际运行时生成未来视频，对机器人的最终表现并没有决定性的帮助。真正重要的，是在训练阶段通过"预测未来"这个任务，让模型学会更丰富的世界表示。

用一个形象的比方来说：一个乒乓球运动员在练习时会大量分析对手的打法、预判球的落点；但在真正比赛的那一刻，他不会停下来分析，而是凭借训练积累的直觉直接反应。WAM的"未来预测"就像训练中的分析环节，而不是比赛时的实时思考。

正是基于这个认识，研究团队设计了Light-WAM：在训练时保留"预测未来视频"的目标，充分利用其对表示学习的好处；在实际推理时，完全抛弃未来视频生成这个步骤，让机器人直接根据当前观测输出动作。这一取舍使得系统在推理端变得极为轻便，同时又保留了WAM范式的核心优势。

---

三、"压缩版"的未来预想：潜空间中的轻量监督

研究团队面临的第一个工程挑战是：即便只在训练时保留视频预测，这个过程本身仍然消耗大量计算资源。生成高分辨率的未来视频帧，需要处理海量的视觉token（可以理解为图像被切成一小块一小块后的数字表示），计算代价极高。

研究团队的解决方案是：在一个"缩小版"的空间里做未来预测，而不是在原始分辨率上进行。具体来说，他们先通过一个编码器把视频画面压缩成紧凑的"潜变量"（latent，即高度浓缩的数学表示），然后对这个潜变量做2倍的空间下采样，让它变得更小。之后，视频预测分支就在这个更小的潜变量空间里完成训练监督。

这样做的效果是：token数量大幅减少，训练计算量随之下降，但模型依然能通过这种压缩版的未来预测，学到物体运动、场景变化的规律性知识。相当于学生做了很多简化版的练习题，虽然题目比真题简单，但核心能力依然得到了训练。

至于实际控制用的"当前帧"输入，则保留原始分辨率，不做下采样，确保机器人在执行动作时拥有足够清晰的视觉信息。这种"训练时用缩图、推理时用原图"的非对称设计，在节省训练开销的同时，并不牺牲操控精度。

---

四、聪明的"取读"方式：多层状态融合动作专家

Light-WAM的另一个重要创新，是它如何把视频理解模型的输出转换为机械臂的动作指令。这个模块叫做StateFusionActionExpert（状态融合动作专家）。

研究团队选用了Wan2.1-T2V-1.3B作为视频骨干网络——这是一个专门为视频生成任务预训练的大型Transformer模型，参数量约13亿。它的能力很强，能够理解视频中的时序变化和空间关系。为了让它适配机器人任务而不破坏原有能力，研究团队采用了LoRA（低秩适配，一种只训练少量额外参数的技术，类似于给一套成熟软件打上轻量化的功能补丁）对所有注意力层和前馈层进行微调，同时在模型的第8、16、24层各插入一个轻量级的"WAM适配器"（一个小型瓶颈MLP网络），为这些层额外增加机器人领域的适配能力。

这里有一个很有意思的设计细节：研究团队并不是只取最后一层的输出来预测动作，而是同时取第8、16、24层的输出。这就像一个厨师不仅品尝最终端上来的菜，还会在炒到一半时尝一下味道，在放调料之后再尝一次——不同阶段的中间状态携带着不同层次的视觉信息，浅层更关注低级纹理和边缘，深层更关注高级语义和任务进度。把这些不同深度的表示综合起来，能让动作预测模块获得更全面的视觉理解。

但直接把这三层的全部视觉token送给动作模块，又会产生大量冗余信息。为此，研究团队为每一层都设计了一组可学习的"查询向量"（每层16个），通过多头注意力机制，让这些查询向量去"有选择地"提取对应层中最重要的信息，然后对所有查询的输出取平均，得到一个固定大小的紧凑表示。这个过程就像一群记者采访了整个新闻发布会，然后各自挑出最重要的信息汇总成一篇简报。

随后，三层的简报分别经过投影，被拼接在一起，融合成一个6144维的统一状态向量，再经过一个残差MLP模块处理。最终，通过为每个动作步骤添加位置编码，模型一次性输出整个动作序列（即"动作块"，action chunk），无需迭代去噪，整个动作分支的推理只需2.1毫秒。

---

五、实验结果：又轻又快，还不差

研究团队在两个标准测试平台上评估了Light-WAM的表现。

第一个是LIBERO，这是机器人操控领域广泛使用的基准测试，分为四个子任务集：空间任务（Spatial）、对象任务（Object）、目标任务（Goal）和长程任务（Long）。Light-WAM在没有使用任何额外大规模机器人预训练数据的情况下，四个子集的成功率分别达到98.2%、99.6%、97.8%和93.0%，平均成功率97.2%。这个成绩在所有未使用大规模机身预训练的方法中排名第一，在全部比较方法中排名第三，仅次于拥有53亿参数的LingBot-VA（98.5%）和8B参数的Motus（97.7%）。值得一提的是，长程任务对所有方法都是最难的挑战，更大的模型确实在这里有优势，这也是Light-WAM的相对短板。

第二个测试平台是RoboTwin 2.0，这是一个更具挑战性的多任务评估环境——单个策略需要同时学习50种双臂协作操控任务，还要应对随机化的视觉条件和物理条件。Light-WAM在这里取得了76.4%的平均成功率（干净场景76.4%，随机化场景76.3%）。相比之下，Fast-WAM的成绩是91.9%，使用了体身预训练的LingBot-VA更高达92.2%，Motus有87.8%。Light-WAM的绝对成绩虽然不及这些大模型，但在没有体身预训练的前提下，它超越了π0（62.2%）和X-VLA（72.9%），并与未使用体身预训练的Motus（74.9%）相近。

效率方面的对比数据更加直观。与Fast-WAM相比，Light-WAM将可训练参数从60.2亿压缩至4.4亿，降幅高达13.7倍；训练吞吐量从每秒0.49步提升至2.08步，提升4.25倍；推理时峰值显存从12.7GB降至4.1GB；推理延迟从404.62毫秒降至72.03毫秒。如果与需要同步生成未来视频的LingBot-VA相比，推理延迟差距更是达到40倍以上——LingBot-VA单次推理需要超过3秒，而Light-WAM只需0.072秒。

---

六、消融实验：每个设计都有它的道理

研究团队在LIBERO-Spatial子集上做了一系列对比实验，专门验证各个设计选择的必要性。

关于视频监督的分辨率：如果不做下采样、保留原始分辨率做视频监督，成功率会从98.2%提升到99.0%，说明更高分辨率的监督确实能带来更好的表示质量。但正如表3中的训练效率数据所显示的，全分辨率视频监督会大幅推高训练成本。研究团队最终选择2倍下采样，作为性能与效率之间的平衡点。

关于适配器层数：把WAM适配器从3层增加到5层（设置在第4、8、16、20、24层），成功率几乎没有变化（从98.2%变为98.0%），说明在这个任务上稀疏三层已经足够，增加更多适配器只会白白增加参数和计算量。

关于查询数量：将每层的可学习查询数量从16个减少到8个，成功率下降明显，从98.2%降至95.4%。这说明查询数量需要足够多，才能从密集的视觉token中提取出足够丰富的操控相关信息。如果查询太少，信息瓶颈会过度压缩视觉细节，导致动作预测出错。

---

七、可视化分析：模型真的在"看"重要的地方

研究团队还对模型的内部行为做了可视化分析，分为两个部分。

第一部分是未来视频预测的效果。对于每个任务，他们比较了模型预测的未来帧与环境实际滚出来的未来帧（以t=+8、+16、+24、+32帧为时间节点）。预测画面比真实画面稍显模糊，这是下采样导致的自然结果，但主要的运动趋势和场景变化都被正确捕捉到了——比如机械臂的运动轨迹、物体被推动后的大致位置变化。这说明视频预测分支确实学到了有意义的时序动态知识。

第二部分是可学习查询向量的注意力可视化。研究团队将第8、16、24层的查询注意力权重投影回图像坐标，生成热力图。有意思的是，三层的注意力焦点明显不同：浅层（第8层）更关注被操控的物体本身，中层（第16层）的关注范围扩展到夹爪区域，深层（第24层）则更多关注目标摆放位置等任务目标区域。这种层次化的注意力分工，正好和研究团队多层融合的设计动机相吻合——不同深度的特征确实携带着互补的视觉信息。

---

八、真实机器人上的表现

除了仿真环境，研究团队还在真实的双臂机器人平台（IMETA Y1）上进行了测试，设计了三个实际操控任务：把纸球清入垃圾桶、叠碗后放入篮子、将水瓶递入篮子。每个任务收集50条演示数据进行训练，并与π0.5（一个强大的基线方法）在同等条件下做对比。

结果显示，在"清纸球"任务中Light-WAM成功率80%，π0.5为67%；在"叠碗放篮"任务中Light-WAM为87%，π0.5为93%；在"水瓶递接"任务中Light-WAM为60%，π0.5为53%。整体来看，两种方法各有胜负，Light-WAM在真实世界场景中具有可用的操控能力，并未因为结构轻量而出现系统性退步。

---

说到底，Light-WAM这项研究回答了一个很实际的问题：机器人到底需不需要在每次行动前都"脑补"一遍未来？答案是不一定。关键的学习发生在训练阶段，当模型在训练时反复预测"接下来会发生什么"，它就已经把对世界的理解内化成了自己的感知能力；到了实际操控时，它完全可以凭借这种内化的直觉快速行动，不需要每次都重新"脑补"一遍。

这个思路带来的收益是显著的：推理速度快了5倍以上，显存需求压缩到原来的三分之一，训练效率翻了四倍多，而任务成功率仅有有限下降。对于希望在真实硬件上部署机器人策略的工程师来说，这是一个非常值得关注的方向。

当然，研究团队也诚实地指出了局限：在更复杂的多任务场景下，更大参数量的模型和大规模机器人预训练数据依然有其不可替代的优势；Light-WAM目前也没有在专门测试鲁棒性和泛化性的基准（如LIBERO-Plus）上进行验证，未来还需要引入数据增强和鲁棒性训练来进一步提升表现。

对于想了解更多细节的读者，可以通过arXiv编号2606.08242找到完整论文，代码也已开源在GitHub上，搜索"L1ziang/Light-WAM"即可访问。

---

Q&A

Q1：Light-WAM与Fast-WAM相比，具体节省了多少计算资源？

A：Light-WAM相比Fast-WAM，可训练参数从60.2亿降至4.4亿，减少约13.7倍；训练吞吐量从每秒0.49步提升至2.08步，提高4.25倍；推理时峰值显存从12.7GB降至4.1GB；整体推理延迟从404毫秒缩短至72毫秒。这些改进使Light-WAM可以在消费级GPU上运行，推理延迟也满足闭环控制的实时需求。

Q2：StateFusionActionExpert为什么要从多个网络层取特征，只用最后一层不行吗？

A：不同深度的网络层携带不同层次的视觉信息，浅层更关注低级纹理和边缘，深层更关注语义和任务目标。实验中注意力可视化也证实了三层的关注区域各不相同：第8层聚焦被操控物体，第16层关注夹爪，第24层关注目标位置。只用最后一层会丢失这些互补的中间层信息，影响动作预测的准确性。

Q3：Light-WAM训练时用的"视频下采样"会不会让机器人看不清细节？

A：视频下采样只用于训练阶段的"未来视频预测"分支，目的是降低计算成本。在推理阶段，机器人用于决策的"当前观测帧"保留原始分辨率，不做下采样。消融实验也显示，使用原始分辨率监督仅能将LIBERO-Spatial成功率从98.2%提升到99.0%，而训练成本却大幅上升，2倍下采样是性能与效率的合理平衡点。

机器人操控世界动作模型轻量化架构

分享至