微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学与小米机器人联手打造的"四维大脑"：让机器人同时看懂空间、预判未来、精准行动

具身智能扩散模型4D世界模型

清华大学与小米机器人联手打造的"四维大脑"：让机器人同时看懂空间、预判未来、精准行动

作者：科技行者

2026-05-07 10:37

分享至：

清华大学与小米机器人等机构联合提出X-WAM，一个在单一框架内同时完成机器人动作预测、未来视频生成和三维空间重建的统一4D世界动作模型。通过轻量级深度分支和异步噪声采样技术，X-WAM在RoboCasa和RoboTwin 2.0基准上分别取得79.2%和90.7%的成功率，超越现有所有方法，并在真实机器人上实现了近实时部署。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-07 10:37 • 科技行者

这项由清华大学与小米机器人实验室联合主导，并与北京大学、中国科学院自动化研究所合作完成的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.26694。研究成果名为X-WAM（Unified 4D World Action Model），目标是为机器人装上一个能同时"看懂三维空间、预见未来画面、立刻发出动作指令"的统一智能大脑。

假设你请了一个家政机器人帮你把散落在桌上的耳机装回耳机盒里。这件事对人来说轻而易举，但对机器人而言，它不仅要判断耳机在哪儿、怎么抓、放到哪个槽位，还要在做每一步动作的同时预判下一秒会发生什么，并且要快到不让你等。现有的机器人大脑要么只会预测"画面"，要么只会发出"动作"，两件事同时又快又准地干——这正是以往方案的软肋所在。X-WAM试图从根源上解决这个问题。

研究团队在超过5800小时的机器人操作数据上训练了这个系统，最终在RoboCasa和RoboTwin 2.0两个权威仿真基准测试中分别取得79.2%和90.7%的平均任务成功率，超过了所有已知对比方法。与此同时，它还能生成高质量的三维空间重建结果，以及在真实机器人上实现接近实时的动作执行。

一、机器人的两种"残缺"大脑，以及为什么需要一个统一的

要理解X-WAM的价值，得先明白机器人领域长期存在的一个分裂局面。

一类系统叫做"策略模型"，专门负责告诉机器人"下一步手该往哪儿动"。典型代表是视觉-语言-动作模型（VLA），它们把摄像头看到的画面和人类语言指令结合起来，直接输出机器人关节的运动指令。这类模型执行速度快，但有个根本缺陷：它们对物理世界的几何结构几乎没有感知。它们看的是二维画面，不知道物体离自己多远、形状有多大、空间里如何排布。这就像一个仅靠照片学开车的司机，在真实道路上很容易出现判断偏差。

另一类系统叫做"世界模型"，专门负责预测"接下来的世界会变成什么样子"。这类模型能生成逼真的未来视频，模拟机器人操作物体后场景的变化，但它们通常不直接输出可执行的动作指令，更像一个擅长做白日梦的观察者而非一个能出手的行动者。

近年来出现了一批试图融合两者的"统一世界动作模型"（WAM），代表性工作包括UWM（Unified World Model）和Motus等。这些方案在一个框架里同时预测未来视频和机器人动作，效果有所改进。然而，它们依然只在二维像素空间里工作，对真实三维空间一无所知。物理世界是立体的，一个只看二维画面的模型很容易产生"空间幻觉"——比如以为两个物体紧挨着但实际上有20厘米的距离——这会直接导致抓取失败或碰撞事故。

X-WAM的目标正是要补上这块缺失的空间感知能力，同时还要兼顾速度：让机器人在真实世界里快速、准确、有空间意识地行动。

二、给机器人装上"立体眼睛"：用最小的代价加入深度感知

理解X-WAM的第一个核心设计，需要知道什么是"深度图"以及为什么它很重要。

普通摄像头拍出来的是彩色的RGB图像，记录的是颜色信息，但没有记录每个像素对应的物体距离摄像头有多远。深度图则额外记录了这个距离信息，就像给每个像素贴了一张写着"你离我X厘米"的标签。有了深度图加上彩色图，就构成了所谓的RGB-D（颜色加深度）数据，足以重建出物体在三维空间中的完整形态——也就是所谓的"4D"（三维空间加时间维度）。

然而，往一个已经训练好的视频生成模型里加入深度预测能力，说起来容易做起来麻烦。最直接的思路是：把深度图当作额外的视频帧或额外的通道，和彩色图像拼在一起一起处理。但问题是，这套系统的核心是一个叫做"扩散变换器"（Diffusion Transformer，简称DiT）的架构，它的计算量和输入序列的长度成平方关系增长。直接拼接深度数据意味着处理的序列长度翻倍，计算量随之飙升，实际部署几乎不可行。另一个思路是把深度信息融入颜色通道，但这会让输入数据的分布和原本预训练时的分布差距很大，模型需要重新学习大量内容，得不偿失。

X-WAM的解法颇为精妙：它没有扩展主序列，而是把预训练模型最后几个处理模块（称为"块"）复制一份，构建出一个专用的"深度分支"。主干模型处理彩色视频序列，复制出来的深度分支则负责从主干提取的特征中推断出深度信息。两个分支以"交错"方式运行：深度分支在每一层都能"偷看"主干分支的中间结果，借助交叉注意力机制从中汲取有用的特征；但主干分支完全不受深度分支的干扰，保持着预训练时积累的完整视觉知识。研究团队把这种单向连接方式称为"单边注意力"——深度分支读主干，主干不读深度。

这样设计的直接好处是：增加深度感知能力的同时，主序列长度没有增加，计算开销没有翻倍，而且预训练模型的核心知识也得以完整保留。深度分支负责回归每帧图像的"逆深度"（即距离的倒数，这是深度估计领域的常见做法），用均方误差作为训练损失。

一个值得提及的附带收获是：实验证明，加入深度监督不仅改善了三维重建质量，还提高了机器人任务的执行成功率。换句话说，让模型"更懂空间"不只是让它能重建出漂亮的点云，还让它在控制机器人手臂时判断更准确。深度分支在动作执行阶段可以直接关闭，不参与每一步的去噪推理，从而避免额外的推理延迟。

三、视频和动作各有各的节奏：异步去噪的调度艺术

X-WAM的第二个核心设计叫做"异步噪声采样"（Asynchronous Noise Sampling，简称ANS）。要理解它解决的问题，需要先了解这个系统的工作方式。

X-WAM的底层采用的是一种叫做"扩散模型"（Diffusion Model）的生成技术。可以把它理解成这样一个过程：先把目标内容（不管是视频帧还是动作序列）完全用随机噪声覆盖，然后一步步把噪声"洗掉"，每一步都让内容变得更清晰一点，最终得到干净的输出。这个"洗噪声"的过程需要多次迭代，每次迭代称为一个"去噪步"。

问题在于，生成一段高质量的视频画面，需要相当多的去噪步才能让细节足够清晰；而输出一组机器人动作指令（比如手臂往哪个方向移多少），其实用很少的去噪步就能得到足够准确的结果。这是因为动作是低维的数字序列，信息量远比高分辨率视频小得多，从噪声中恢复出来容易得多。这就像洗一件精致刺绣的衬衫需要精心手洗，而洗一双运动袜扔进洗衣机甩几下就够了——两件事的需求根本不同，却被迫用同一个程序处理，要么袜子被过度折腾，要么衬衫洗不干净。

早期一些工作已经注意到这个问题，提出在训练时让视频和动作"独立采样"各自的噪声时间步，在推理时只把视频去噪到一半、用半成品的视频噪声上下文来解码动作。这样做确实加快了动作输出，但有个隐患：如果训练时视频和动作的噪声级别完全独立随机组合，就可能出现"视频几乎干净但动作仍然很嘈杂"的训练样本。而这种情况在实际推理时根本不会发生（推理时总是动作先完成去噪、视频后完成），这意味着训练样本里有一部分是无效的，浪费了计算资源，还可能让模型学到错误的分布。

ANS的解法是：把视频和动作的噪声级别放入一个"联合分布"里采样，明确约束"视频的噪声程度必须大于或等于动作的噪声程度"。具体来说，训练时以一定概率（参数p，设为0.5）直接把动作设为完全干净（噪声为零），模拟推理阶段"动作已经解码完毕、视频仍在继续生成"的状态；其余情况则先随机采样一个动作噪声级别，再从"比动作噪声更高"的范围内采样视频的噪声级别，并用Beta分布偏向更高的视频噪声，反映视频通常需要更多去噪步的现实。

这样一来，训练分布就和推理时真实发生的情况高度吻合。推理阶段的流程是：从纯噪声出发，动作和视频同时开始去噪，但动作用更少的步数（比如10步）更快完成去噪并立刻发送给机器人执行；与此同时，视频继续用更多的步数（比如50步）完成剩余的精细化过程，在机器人执行动作的同时，视频预测也在后台完成，最终得到高质量的未来场景重建。这套安排让动作输出和视频生成不再相互等待、不再互相拖累。

四、整套系统的完整面貌：从输入到输出的全流程

X-WAM建立在一个名为Wan2.2-TI2V-5B的预训练视频生成模型之上，这是一个在大量视频数据上训练好的5B参数级别的扩散变换器，天然具有理解物体运动和场景变化的能力。在此基础上，研究团队通过微调把它改造成一个能同时处理机器人操作数据的多模态系统。

系统的输入包括：一条自然语言指令（比如"把耳机放进盒子"）、机器人当前的本体感知状态（手臂位姿和夹爪状态，用16维向量表示），以及来自多个摄像头的当前帧彩色图像。系统的输出包括：未来8帧的多视角彩色视频、对应的深度视频、8帧对应时刻的机器人状态预测，以及跨越这8帧时间跨度内的32步精细动作序列。

动作以比视频帧更高的频率输出（视频每秒3.75帧，动作是视频帧率的4倍），这反映了机器人控制需要比视觉画面更高时间分辨率的现实需求。系统针对多摄像头做了专门适配：给每个视角的图像标记上可学习的视角嵌入，区分第一视角、第三视角和腕部摄像头；动作和状态序列则和视频帧共享同样的时间位置编码，让模型能理解"这个动作对应视频的第几帧"。

为了从RGB-D多视角输出重建出完整的三维点云，系统还需要知道每个摄像头的空间位置。研究团队采用了一个务实的设计：固定摄像头（第一视角和第三视角）的位姿是已知常数；腕部摄像头随手臂移动，但它和手臂末端执行器之间有一个固定的手眼标定矩阵，只要模型能预测出手臂末端的位姿，就能通过这个固定矩阵推算出腕部摄像头的空间位置。这样就避免了直接预测相机外参的复杂性，利用机器人系统本身的结构约束得到了精确的空间信息。

五、训练规模与流程：5800小时的机器人经验积累

X-WAM的训练分两个阶段进行。

第一阶段是大规模预训练，使用了超过149万条操作轨迹、合计约5874小时的数据，覆盖AgibotWorld-Beta（真实机器人数据，约2221小时）、DROID（真实机器人户外数据，约280小时）、InternA1系列（多个仿真环境，合计约2976小时）、RoboCasa MimicGen（仿真，约282小时）和RoboTwin 2.0（仿真，约114小时）。由于大多数预训练数据集没有深度标注，研究团队用一个叫做"Video Depth Anything"的预训练深度估计模型从所有训练视频中自动提取深度图作为监督信号。所有视频统一降采样至每秒3.75帧，分辨率统一为320×256。训练使用256块英伟达H20 GPU，总批次大小2048，AdamW优化器，峰值学习率1×10??，训练4万步。

第二阶段是基准微调，针对RoboCasa和RoboTwin 2.0分别在32块H20 GPU上以更小的批次和更低的学习率（3×10??）进一步训练2万步，让模型适应特定任务的数据分布。微调时为了获得高质量的深度标注，研究团队在仿真器中回放官方演示数据，直接从仿真渲染中提取精确的深度图，确保训练时的深度标签不含估计误差。

推理阶段采用ANS的异步去噪方式：动作用10步完成去噪，视频用50步完成去噪，使用UniPC多步调度器，分类器自由引导尺度设为1.0（经验发现更大的引导尺度不会改善动作质量）。

六、实验结果：各项指标的具体表现

在RoboCasa基准上，X-WAM在24个厨房操作任务中取得79.2%的平均成功率。作为对比，同类型的VLA方法π0得到62.5%，GR00T-N1.5得到64.1%；WAM类方法中，UWM得到60.8%，DreamZero得到62.4%，Cosmos Policy得到67.1%。X-WAM比最强的对手Cosmos Policy高出12.1个百分点。具体到各任务，CloseDrawer达到100%，CloseSingleDoor和CoffeePressButton均达到96%，OpenSingleDoor达到96%；最低的是TurnOffStove（35%）和CoffeeSetupMug（45%），说明部分精细操作任务仍有提升空间。

在RoboTwin 2.0基准上，该系统在标准环境（Clean）下取得89.8%，在随机化环境（Randomized，物体位置、外观和干扰物均随机变化）下取得90.7%，略高于标准环境。相比之下，π0分别为65.9%和58.4%，π0.5分别为82.7%和76.8%，UWM分别为81.7%和78.6%，GigaWorld-Policy分别为87.0%和85.0%，Motus分别为88.7%和87.0%。值得关注的是，X-WAM在随机化环境中的表现反而略好于标准环境，体现出较强的泛化能力。在50个具体任务中，有多个任务达到100%（如adjust_bottle、click_bell、grab_roller、lift_pot、pick_dual_bottles、stack_blocks_two等），最低的是turn_switch（Clean 61%，Randomized 72%）和put_object_cabinet（Clean 66%，Randomized 76%）。

在4D重建质量评估上，研究团队在RoboCasa仿真中对比了四种方案。X-WAM在所有指标上均取得最优：RGB视频的PSNR为23.46（越高越好），SSIM为0.8942（越高越好），LPIPS为0.0513（越低越好）；深度质量的AbsRel为0.0349（越低越好），δ?准确率为0.9738（越高越好）；点云的Chamfer Distance（重建形状和真实形状之间的平均距离差异）为0.0049（越低越好）。相比之下，DreamZero与深度估计模型Depth Anything 3的两阶段组合，Chamfer Distance高达0.0680；几何感知的4D视频生成方法Robot4DGen，Chamfer Distance为0.0134但视觉质量（LPIPS 0.1026）明显不及X-WAM。

消融实验进一步验证了各设计选择的有效性。在深度架构对比中，将深度信息以序列拼接方式处理虽然RGB和深度指标最好，但动作推理延迟从1033毫秒猛增至1888毫秒，几乎翻倍；通道拼接方式延迟为1266毫秒，且策略成功率（64.2%）比交错分支（67.8%）更低；完全去掉深度监督的方案，策略成功率降至63.0%，说明空间感知对控制能力有实质贡献。在噪声调度策略对比中，同步去噪（25步，二者保持一致）延迟高达4665毫秒；解耦异步方案虽然延迟降至1033毫秒，但RGB质量（PSNR 22.60）和深度质量（AbsRel 0.0430）明显下滑，因为视频在动作解码完后需要以干净动作为条件继续去噪，而训练时从未见过这种组合；ANS方案则在1033毫秒延迟下同时取得最高的策略成功率（67.8%）和最好的深度质量（AbsRel 0.0349），与同步基线在RGB质量上相当。

七、真机部署：在真实机器人上装箱耳机

研究团队还在真实双臂机器人AC One平台上部署了X-WAM，选择了"耳机装盒"这一需要精确六自由度位姿估计、双臂协调和紧公差插入的长程任务进行验证。

平台配备一个主摄像头和两个腕部摄像头，分辨率均为320×256。研究团队为这个任务收集了约20小时的演示数据，在64块H20 GPU上微调4万步。推理时使用8步异步去噪，单次推理延迟约300毫秒。系统还配合"实时动作分块"（Real-Time Chunking，RTC）技术，把推理计算和动作执行重叠进行，机器人以15赫兹频率控制，每次执行15个动作（约1秒），RTC推理延迟为6个动作，实现了近乎无缝的实时部署。

任务被分为四个阶段：抓取空耳机盒并打开盖子（25%进度）、拿起一个耳机放入盒中（25%）、拿起另一个耳机放入盒中（25%）、合上盖子并把盒子放回桌上（25%）。评测分可扩展性和泛化性两组设定，每组6次试验。在可扩展性测试中，装1个耳机的平均进度达到100%，完成时间平均41.63秒；装2个耳机的平均进度93%，完成时间113.25秒；装3个耳机的平均进度68%，完成时间160.72秒。在泛化性测试中，面对训练时未见过的物体摆放位置，平均进度70.8%，完成时间46.68秒；面对未见过的桌布颜色，平均进度66.7%，完成时间62.01秒；面对未见过的干扰物，平均进度75.0%，完成时间51.53秒。这些结果表明X-WAM在真实环境中具有一定的鲁棒性，但在更长序列和分布外场景下仍有较大的提升余地。

八、研究的局限与未来方向

研究团队坦诚地指出了两点主要局限。第一，当前系统只处理固定长度的观测窗口，没有记忆历史信息的机制，也不支持自回归式的滚动推理。这意味着在需要理解长时间进展的任务中（比如判断"刚才已经装好了几个耳机"），系统只能依赖当前帧的画面，容易在长程任务中迷失方向。第二，X-WAM的推理延迟（约300毫秒/次）比专用的轻量策略模型更高，尽管通过RTC技术可以部分掩盖这一延迟，但机器人仍然需要执行若干步"过时"的动作预测，在要求极高响应速度的任务中可能造成误差积累。

针对这两点，研究团队认为，引入历史条件输入、KV缓存或自回归推理机制可以解决长时记忆问题；而模型蒸馏、一致性模型（consistency models）或更激进的异步调度策略则有望进一步压缩推理延迟，使X-WAM在保留4D建模优势的同时逐步接近专用策略模型的响应速度。

归根结底，X-WAM做了一件在机器人领域颇具挑战的事：在同一个模型里，同时让机器人看懂三维空间、预见未来发生的事情、快速输出精确的行动指令，而且三件事之间互相促进而非互相拖累。这套方案离全能的机器人大脑还有距离，但它明确地指出了一条"空间感知+动作效率+视觉生成"三者统一的可行路径。对于那些正在为家用机器人、工业机械臂或服务机器人开发感知控制系统的人来说，这篇论文提供了一套值得参考的设计思路和技术选择依据。如有兴趣深入了解全部技术细节，可通过arXiv编号2604.26694查阅完整论文，项目网站 sharinka0715.github.io/X-WAM 上还提供了演示视频和可视化结果。

Q&A

Q1：X-WAM和普通机器人控制模型相比，最核心的区别是什么？

A：普通机器人策略模型只负责输出动作指令，而X-WAM在同一个框架内同时预测未来多视角彩色视频、深度视频、机器人状态和动作序列。核心差异在于X-WAM引入了三维空间感知，能重建出物体在空间中的真实位置，而不只是在二维画面里猜测，这让它在需要精确空间判断的操作任务中表现更可靠。

Q2：异步噪声采样（ANS）具体是怎么加速动作输出的？

A：ANS让动作和视频以不同的去噪步数运行。动作只需10步就能从噪声中恢复出来，视频则需要50步。系统先用10步完成动作解码并立刻发给机器人执行，同时视频继续在后台完成剩余40步的精细化。相比所有模态都等待50步完成的方案，动作延迟从4665毫秒缩短到1033毫秒，快了约4.5倍。

Q3：X-WAM在真实机器人上的表现如何？

A：研究团队在AC One双臂机器人上测试了耳机装盒任务。装1个耳机的成功率达到100%，平均耗时约42秒；连续装3个耳机的平均完成进度为68%，说明任务越长挑战越大。在面对训练时没见过的桌布颜色或干扰物体时，平均完成进度在67%至75%之间，具有一定的泛化能力但仍有提升空间。

具身智能扩散模型4D世界模型

分享至