微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上交大联手腾讯机器人X实验室：机器人学会"脑补结局"，动作更准更快！

机器人控制图像编辑高效推理

上交大联手腾讯机器人X实验室：机器人学会"脑补结局"，动作更准更快！

作者：科技行者

2026-06-23 14:51

分享至：

上交大等机构提出ImageWAM，用图像编辑模型替代视频生成来指导机器人动作，计算量降至六分之一，速度提升四倍，多个基准上超越视频生成方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-23 14:51 • 科技行者

这项由上海交通大学、东方理工大学、腾讯机器人X实验室、清华大学及中关村学院联合完成的研究，以预印本形式发布于2026年6月17日，arXiv编号为2606.19531，有兴趣深入了解的读者可以通过该编号查询完整论文。

机器人为什么总学不会"好好干活"？这是机器人研究圈近年来反复被追问的一个问题。不是机器人不努力，而是让它们理解世界、做出正确动作的方式，从根本上就存在一个浪费资源的老毛病。研究团队在这个方向上提出了一套全新的思路，叫做ImageWAM，它的核心理念可以用一句话概括：机器人不需要在脑子里放一段完整的"预告片"，只需要"脑补出任务结束时的那张照片"就够了。

**一、机器人的"脑补烦恼"：为什么以前的方法太重了**

先从头说起。现代智能机器人要完成一项任务，比如把一双鞋子放进箱子里，它需要两件东西：一是"看懂"当前的场景，二是"想清楚"接下来要怎么动手。后一步，也就是"想清楚"的部分，研究圈里最流行的方法，是让机器人在脑子里"播放一段未来的视频"——先生成未来几帧画面，再根据这段想象出来的视频决定动作。

这个思路听起来很合理，就像一个熟练的搬运工在动手之前会在心里预演一遍操作过程。但问题在于，生成一整段视频的代价实在太大了。为了画出那段未来视频，机器人必须操心每一帧画面的背景颜色对不对、桌子的木纹有没有变、灯光的阴影角度是否一致……而这些细节，和它下一秒要不要伸手、伸多远、朝哪个方向，根本没有什么关系。这就好比你准备把一杯咖啡端给朋友，结果在动身之前，你先把整个咖啡馆从早到晚的每一帧画面都在大脑里过了一遍。不仅费时，还容易因为某帧画错了方向而迷路。

更麻烦的是，想象未来视频本身就是一件高难度的事。机器人对细小的物理接触、轻微的位移、微妙的配置变化往往把握不准，一旦想象的视频里出现了变形的物体或者混乱的空间关系，依赖这段视频做出的动作就可能完全跑偏。

研究团队由此提出了一个尖锐的问题：机器人真的需要想象那段完整的视频吗？

**二、换一种"脑补"方式：只看结局，不看过程**

答案是不需要。研究团队发现，对于大多数机器人操控任务而言，真正有用的信息是"当前场景应该变成什么样"，而不是"中间经过了多少帧画面"。

以"把鞋子放进箱子"为例，机器人需要知道的，核心只有两件事：鞋子现在在哪、任务完成之后鞋子应该在哪。把这两个状态之间的"差异"理解清楚，动作自然就有了方向。这种"理解差异"的能力，恰好和另一类AI模型高度吻合——图像编辑模型。

图像编辑模型是什么？简单说，就是那种能根据文字指令修改一张图片的AI。你给它一张客厅的照片，配上一句"把沙发换成红色的"，它就能生成一张红色沙发的客厅图。这类模型在训练过程中学会了一件非常核心的事：理解"指令"和"视觉变化"之间的关系。它知道"把沙发换成红色"意味着沙发的颜色要变、其他地方要保持不变。这种能力，恰恰是机器人操控任务所需要的。

研究团队于是做了一个大胆的替换：把之前机器人脑子里"播放未来视频"的模块，换成一个"生成任务完成时那张图"的图像编辑模块。机器人不再需要想象整段操作过程，只需要根据当前场景和任务指令，生成一张"任务完成后的样子"的图片，再从这张图片所携带的内部信息中提取动作指令。

**三、ImageWAM的内部构造：它到底是怎么工作的**

理解ImageWAM的工作方式，可以用"厨师备菜"这个场景来类比。一个经验丰富的厨师在开始烹饪之前，会先在脑子里形成一个"最终菜肴应该是什么样"的清晰意象。这个意象不需要包含每一步翻炒的动作细节，但它包含了所有重要信息：食材的位置、颜色、熟度。厨师正是从这个意象出发，决定下一步该怎么动手。

ImageWAM的运作方式与此类似。给定一张当前场景的图片和一条任务指令，比如"把条形码扫描到物体上"，ImageWAM会先让图像编辑模型在内部"构想"任务完成后的场景长什么样。关键之处在于，这个构想过程不需要真正把那张"完成后的图片"画出来并输出——就像厨师不需要真的先做一道样品菜一样。研究团队只是从图像编辑模型内部的"思考过程"里提取信息，这些信息以一种叫做"KV缓存"的形式存在于模型的每一层网络中。

所谓KV缓存，可以理解为模型在思考过程中积累的"工作记录"。每一层网络在处理图像和指令时，都会生成一组关于"什么地方需要改变"和"怎么改变"的内部注记。这些注记不是最终的图片，而是图片背后的"意图"和"关注点"。研究团队把这些注记直接送给一个专门负责生成动作的"动作专家"模块，让它据此计算出机器人下一步的具体动作序列。

动作专家模块使用了一种叫做"流匹配"的方法来生成动作。这个方法的直观理解是：从一团随机噪声出发，逐步将其"雕琢"成一组精确的动作指令，而雕琢的方向则由那些来自图像编辑模型的"工作记录"来指引。

在训练阶段，研究团队同时训练两件事：一是让图像编辑模块能够准确预测任务完成后的场景图，二是让动作专家模块能够根据图像编辑模块的内部记录生成正确的动作。两个目标共同优化，相互促进。特别值得一提的是，在训练时，研究团队会随机选取图像编辑过程中不同阶段的内部记录来训练动作专家，这样动作专家就能适应各种"思考进度"下的信息，而不是只依赖最终状态的信息。

到了真正使用的时候，整个流程被进一步简化：图像编辑模型只需要做一次前向计算，提取内部记录，不需要完成完整的去噪过程生成最终图片；动作专家再在这些记录的基础上进行动作生成。整个流程比生成完整视频要精简得多。

**四、用了哪些图像编辑模型，又冻住了哪些部分**

研究团队在ImageWAM框架下测试了三种不同的图像编辑模型作为"底层构想引擎"，分别是OmniGen2、Ovis-U1和FLUX.2（4B参数版本及9B参数版本）。这三种模型来自不同的技术路线，但都具备根据语言指令对图像进行有针对性修改的能力。

在训练设置上，研究团队采取了一种"冻住一部分、开放另一部分"的策略。负责理解语言和图像的基础语言模型部分被冻结，保持不变，这样可以保证模型对语言指令的理解能力不会因为机器人任务的训练而退化。真正参与学习的，是图像编辑的扩散生成部分和动作专家部分。前者学习如何准确预测任务结束时的视觉状态，后者学习如何把这些视觉预期转化为具体动作。

动作专家的结构设计也颇有讲究。以OmniGen2为基础的版本中，动作专家的网络架构与图像编辑模型保持一致，并通过复制和插值的方式用图像编辑模型的权重来初始化动作专家的权重。这个策略借鉴了此前一些工作的经验：在训练早期，动作相关的梯度信号可能比较嘈杂，用已经训练好的图像模型权重来初始化，可以给动作专家一个更稳定的起点。

对于基于FLUX.2的版本，由于FLUX.2本身采用了"双流加单流"的特殊网络结构，动作专家的初始化也相应调整：较浅层的动作专家网络用FLUX.2双流阶段的图像流权重初始化，较深层的则用单流阶段的权重初始化。

**五、在三个主要测试平台上，成绩如何**

研究团队在模拟器和真实机器人上分别进行了测试，覆盖了四个主要的评测场景。

第一个是LIBERO基准，这是机器人操控领域最常用的评测平台之一，包含空间任务、物体任务、目标任务和长时序任务四个子集，每个子集有10个不同任务、500条专家演示数据。ImageWAM在这四个子集上的平均成功率达到了98.4%，与当前表现最佳的基于视频生成的方法基本持平，同时明显超过了绝大多数基线方法。

第二个是LIBERO-Plus，这是LIBERO的强化版本，在原始任务的基础上增加了大量视觉和布局的变化，比如改变摄像机角度、机器人型号、灯光条件、背景、添加噪声或改变物体布局，专门用来测试方法的泛化能力。在这个更难的评测中，ImageWAM使用FLUX.2 4B版本达到了83.1%的平均成功率，在相机扰动（80.8%）、语言扰动（91.4%）、灯光扰动（98.1%）、背景扰动（85.5%）、噪声扰动（93.8%）和布局扰动（80.5%）六个维度上均处于所有不依赖额外预训练数据的方法中的前列，并且在相机、语言、灯光、背景、噪声和布局等多个维度上显著超过了依赖大规模预训练的传统VLA方法。

第三个是RoboTwin 2.0，这是一个针对双臂机器人的大规模模拟评测平台，覆盖50多个任务，需要两个机器手臂在多种物体布局和场景条件下协作完成任务。在干净场景中，ImageWAM达到了93.20%的平均成功率；在加入大量随机干扰的场景中，成功率为93.56%，不仅超过了所有不依赖额外预训练的方法，还超过了部分依赖大规模预训练数据的强基线。

第四个是真实机器人测试，研究团队使用Dobot XTrainer双臂机器人平台设计了四项具有代表性的任务：叠三个碗、折叠毛巾、打开抽屉并存放记号笔、把杯子挂上挂架。这四项任务分别对应长时序操控、柔性物体操控、视觉遮挡和精细操控四种挑战。ImageWAM在四项任务上的平均成功率为84.5%，在叠碗任务中达到94%，折叠毛巾任务达到84%，存放记号笔任务达到78%，挂杯子任务达到82%，整体表现优于其他所有对比方法。

**六、计算效率上，省了多少资源**

这是ImageWAM另一个令人关注的优势。研究团队在A6000显卡上对几种方法的推理延迟和计算量进行了对比。

采用视频生成并在推理时完整运行视频去噪的传统方法（FastWAM-IDM），推理延迟高达1081毫秒，计算量为63.65 TFLOPs。采用视频生成但推理时去掉未来视频token的简化版本（FastWAM，1步去噪），延迟降至302毫秒，计算量为13.21 TFLOPs。而ImageWAM只需263毫秒和9.72 TFLOPs，相当于把延迟压缩到了传统视频方案的约四分之一，计算量压缩到约六分之一。

研究团队还进一步探索了额外的优化手段，包括使用torch.compile编译、静态CUDA计算图等。在这些优化叠加之后，ImageWAM的推理延迟可以进一步压缩到69毫秒，达到传统视频方案的约4.4倍加速。这种级别的速度对于需要实时响应的机器人控制场景来说意义重大。

**七、注意力可视化：模型真的在"看"正确的地方吗**

研究团队还通过可视化技术检验了ImageWAM内部的注意力分布，也就是模型在处理图像时"把目光集中在哪里"。结果显示，ImageWAM的编辑缓存产生的注意力，确实高度集中在与任务相关的变化区域，比如被操控的物体、目标容器、接触位置，而背景等无关区域的注意力权重则明显较低。相比之下，FastWAM的注意力分布则更为分散，在任务无关区域也有较高权重。

这个结果从可视化角度验证了研究团队的核心假设：图像编辑模型的内部表示确实是"以变化为中心"的，它的注意力天然聚焦在任务相关的差异上，而不是整个场景的每一个像素。

**八、视频生成的"幻觉"问题：错误的想象会带跑机器人**

研究团队还特别展示了一个失败案例分析，直观说明了视频生成方案的内在风险。在某些任务中，视频生成模型产生的"未来帧"里出现了明显的视觉失真：被操控物体周围出现了扭曲的几何形状，空间布局也变得不连贯。机器人的动作模块依赖这些失真的"想象"来决策，结果动作出现了明显偏差，任务失败。ImageWAM则完全绕开了这个问题，因为它根本不需要在推理时解码出完整的未来图片，只需要使用图像编辑模型的内部"思考记录"，这些记录更抽象、更稳定，不容易出现图像层面的视觉失真。

**九、换一个编辑模型，效果会不会差很多**

研究团队专门测试了这个问题：如果把底层的图像编辑模型换掉，整个框架还能保持好的效果吗？

测试结果显示，三个不同的图像编辑模型在LIBERO-Plus上的表现分别为：OmniGen2版本平均71.8%，Ovis-U1版本平均71.2%，FLUX.2 4B版本平均83.1%。三者均超过了不依赖预训练的对比方法FastWAM（51.5%），也超过了多数依赖大规模预训练的传统VLA方法。这说明ImageWAM框架并不依赖某一个特定的图像编辑模型，任何具备良好图像编辑能力的模型都可以接入这个框架，并且更强的编辑模型能带来更好的效果。

在此基础上，研究团队进一步测试了更大参数量的FLUX.2 9B版本，发现平均成功率从83.1%提升到了85.2%。提升主要来自机器人扰动、语言扰动、背景扰动和布局扰动这四个维度，说明更大的编辑模型能提供更强的指令条件视觉上下文。不过，相机、灯光和噪声扰动三个维度并未单调提升，说明模型规模的收益因扰动类型而异，并非对所有挑战都有同等帮助。

**十、为什么不用那种"理解和生成一体化"的大模型**

研究团队也回应了一个自然而然会产生的疑问：既然有那种把语言理解和图像生成都整合在一起的多模态大模型，为什么不直接用它们，而要把理解部分冻结、只训练生成部分？

研究团队的解释是，理解和生成这两件事在模型结构上有着不同的需求。语言和视觉的理解倾向于高层语义抽象，而图像生成则需要精细的空间和结构细节，尤其在网络的深层更是如此。把两个目标放在一个完全共享参数的模型里同时优化，可能会造成相互干扰：提升生成质量可能损害理解能力，反之亦然。将理解部分冻结、只训练生成和动作部分，能够保留理解能力的稳定性，同时让生成和动作模块更专注地学习机器人任务所需要的表示。

对比实验也印证了这一点。在LIBERO基准上，ImageWAM（98.4%）超过了基于理解生成一体化模型的UniVLA（95.5%）；在RoboTwin干净场景中，ImageWAM（84.4%）超过了BagelVLA的关键帧预测版本（75.3%）；而且ImageWAM无需任何额外的具身预训练数据，而对比方法均使用了大量预训练数据。

归根结底，ImageWAM这项工作揭示了一个在机器人学习领域颇具启发性的事实：让机器人"把未来场景的完整电影演一遍"并非必须，只需要让它"在脑子里形成一张任务完成时的快照"就足够了——而且更快、更准、更省力。图像编辑模型那种天生擅长理解"什么地方要变、怎么变"的能力，在机器人操控任务中找到了一个意想不到但非常契合的用武之地。

随着图像编辑模型本身不断变强，这个框架的天花板也会随之不断提高，而不需要从头设计新的机器人专用架构。这对于想要让机器人走进日常生活的研究者和工程师来说，是一条非常值得继续深挖的路。有兴趣进一步了解技术细节的读者，可以通过arXiv编号2606.19531查阅完整论文。

Q&A

Q1：ImageWAM和之前的机器人视频生成方法有什么本质区别？

A：之前的视频生成方法让机器人在脑子里"播放未来几秒的完整视频"，再据此决定动作，计算量大且容易因视频失真而误导动作。ImageWAM则只让模型"想象任务完成时的那张图"，从图像编辑模型的内部思考记录中提取信息来指导动作，不需要生成完整视频，计算量降到原来的六分之一，速度提升约四倍。

Q2：ImageWAM在真实机器人上表现怎么样？

A：研究团队用Dobot XTrainer双臂机器人测试了四项任务：叠三个碗、折叠毛巾、打开抽屉并存放记号笔、挂杯子。ImageWAM平均成功率84.5%，高于π0的55.8%、π0.5的72.3%和FastWAM的79%，在折叠毛巾这类需要处理柔性物体变化的任务上提升尤为明显。

Q3：ImageWAM需要大量预训练数据吗？

A：不需要。研究中所有ImageWAM的测试均未使用额外的具身机器人预训练数据，只在目标任务的演示数据上训练。而对比的很多方法，包括π0、π0.5、LingBot-VA等，都依赖大规模预训练数据，但ImageWAM的表现依然与它们持平甚至更好。

机器人控制图像编辑高效推理

分享至