微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ORV：4D占用中心机器人视频生成——北京人工智能研究院打造精准可控的机器人世界

人工智能占用表示机器人视频生成

ORV：4D占用中心机器人视频生成——北京人工智能研究院打造精准可控的机器人世界

作者：科技行者

2025-06-06 17:31

分享至：

这项研究提出了ORV（占用中心机器人视频生成）框架，利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比，ORV能提供更精确的语义和几何指导，实现更高的时间一致性和控制精度。该框架还支持多视角视频生成（ORV-MV）和模拟到真实的转换（ORV-S2R），有效弥合了虚拟与现实之间的差距。实验结果表明，ORV在多个数据集上的表现始终优于现有方法，为机器人学习和模拟提供了强大工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-06 17:31 • 科技行者

在机器人领域，获取真实世界的模拟数据一直是个令人头疼的问题。由北京人工智能研究院、清华大学、上海交通大学等机构的研究团队共同完成的这项研究，发表于2025年6月的arXiv预印本平台（arXiv:2506.03079v1），为这一挑战提供了创新解决方案。研究团队包括杨秀禹、李博翰、徐少聪、王楠、叶崇杰、陈兆西、秦明涵、丁以康、金鑫、赵航和赵浩等多位学者，他们共同探索了如何利用4D语义占用（semantic occupancy）作为中间表示，来生成高质量、精确可控的机器人操作视频。

想象一下，如果你想训练一个机器人学习如何抓取物体，你需要大量的示范数据。传统方式是让人类操作机器人，记录下这些操作过程——这不仅耗时耗力，还有安全隐患。近年来，研究人员开始尝试用生成模型来创建模拟数据，就像是为机器人创建一个"虚拟训练场"。但现有方法往往依赖粗粒度的动作序列作为控制信号，导致控制精度有限，难以精确模拟复杂的物理交互场景。

这就好比你想教朋友做一道复杂的菜，但只能给他一个粗略的步骤描述："先切菜，再炒菜"，而没有详细说明每种食材的切法和火候控制。结果可想而知，成品很可能与你期望的相去甚远。研究团队提出的ORV（Occupancy-centric Robot Video generation）框架，就像是提供了一份精确到每一步的详细菜谱，通过4D语义占用表示为每个操作步骤提供了丰富的语义和几何信息。

这篇文章将带你深入了解ORV是如何工作的，它为什么能比现有方法产生更精确、更真实的机器人操作视频，以及它如何帮助解决机器人学习中的关键挑战。

一、为什么4D占用表示如此重要？

传统的机器人视频生成方法主要依赖动作序列或文本指令作为控制信号。这就像是告诉一个孩子"把积木堆成塔"，但没有告诉他每块积木应该放在哪个位置。孩子可能会完成任务，但结果很难精确预测。类似地，当我们仅使用高级动作指令控制视频生成时，生成的视频往往缺乏精确性，特别是在表现物体与机器人之间的物理交互时。

ORV团队提出的解决方案是使用4D语义占用作为中间表示。那么，什么是"占用"（occupancy）呢？简单来说，占用表示就是告诉我们三维空间中的每个位置是否被物体占据，以及被什么类型的物体占据。"4D"则是指这种表示随时间变化，形成一个时空连续的表示。

想象你站在一个房间里，闭上眼睛。如果你能精确知道房间中每个位置是否有物体，以及那是什么物体（桌子、椅子、人等），即使看不见，你也能准确地在房间中移动而不撞到任何东西。这就是占用表示的直观理解。在ORV中，这种表示不仅包含物体的位置信息，还包含语义信息（物体类别）和随时间的变化。

研究团队发现，相比于仅使用动作序列，使用4D语义占用作为指导能显著提高生成视频的质量和控制精度。因为占用表示提供了像素级别的精确对齐，让模型能够更好地理解物体的形状、位置和运动方式。这就像是从"把积木堆成塔"升级为"把红色积木放在蓝色积木上，然后把绿色积木放在红色积木的左侧"这样精确的指令。

二、ORV如何构建4D语义占用数据？

由于目前没有现成的高质量4D语义占用数据集，研究团队开发了一套高效的数据构建流程。这个流程主要包括四个部分：语义空间构建、占用构建、为占用添加语义信息，以及子弹时间渲染（bullet-time renderings）。

在语义空间构建阶段，研究团队首先使用视觉-语言模型（如Qwen-VL-Chat）对数据集中的所有场景进行全面标注。具体来说，他们对每个视频的关键帧（在实际操作中是第一帧）进行描述，提取出场景中的关键物体。想象你在看一张照片，然后详细描述："这张照片中有一个机械臂、一个红色苹果、一个蓝色盒子和一张木桌。"这就是他们做的事情，只不过是用AI自动完成的。

在处理了近15万个被标注的物体后，研究团队对这些物体的词嵌入（word embeddings）进行K-means聚类，得到了一个包含约50个标签的数据集级语义标签集。这就像是将成千上万种不同的食材归类为"蔬菜"、"肉类"、"调味料"等几十个大类，使得后续处理更加高效。

对于每个单独的视频，他们使用Grounding DINO来提取初始物体提示（如边界框、分割掩码），然后输入到SAM2进行实例跟踪，从第一帧开始追踪整个视频中的物体实例。这就像是在电影中给每个角色贴上标签，然后跟踪他们在整部电影中的活动。

在占用构建阶段，研究团队使用Monst3R从单视角输入中重建稀疏的4D点云。然而，这些点云往往过于稀疏，难以直接使用。为了解决这个问题，他们采用NKSR进行网格重建，得到更密集的点云，然后进行体素化，将连续的3D空间离散化为一个个小立方体，得到规范空间中的4D占用。

为了将语义信息与占用表示结合，研究团队将点投影到图像平面上，从像素中提取语义标签，然后对每个体素进行多数投票。这就像是给每个小立方体贴上标签，标明它属于"桌子"、"机械臂"还是"苹果"等类别。

最后，为了从4D语义占用中渲染任何2D图，研究团队将每个网格与单个非学习高斯原语关联起来，以节省内存和时间成本。这种方法产生了紧凑但信息丰富的2D表示，能够捕捉真实世界的动态。为了增强渲染质量，他们还基于深度采用了自适应缩放机制，使近处的物体更加清晰，远处的物体更加模糊，类似于我们人眼的视觉感知。

三、ORV如何生成高质量机器人视频？

有了4D语义占用数据，ORV如何利用它来生成高质量的机器人操作视频呢？研究团队选择了预训练的CogVideox-2b（一种文本到视频的生成模型）作为基础模型，并进行了两种关键的条件控制扩展：动作条件和视觉条件。

在动作条件方面，ORV直接采用3D轨迹序列（机械臂末端执行器的姿态）或动作以及抓取器状态作为高级控制信号。这些3D动作控制信号通过AdaLN（Adaptive Layer Normalization）直接调制视频潜在空间中的DiT（Diffusion Transformer）块。为了更好地对齐高维动作和视频，ORV采用了块级集成方案，将动作压缩为与CogVideoX的3D VAE处理的视频严格对齐的格式。

想象一下，这就像是指挥一个乐团。动作序列就像是指挥的手势，告诉乐团（模型）应该演奏什么样的音乐（生成什么样的视频）。通过精确的时间对齐，确保每个音符（视频帧）都与指挥的动作精确匹配。

然而，仅靠动作条件还不够。正如前面所说，将高维动作信号转换为一致且物理上合理的像素级变换是个巨大挑战。这主要是因为机器人操作视频中存在复杂多样的物体动态，包括视角闪烁、物体变形和关节运动等，这些往往无法仅通过动作命令完全捕捉。

这就是视觉条件发挥作用的地方。ORV使用从3D语义占用派生的2D视觉控制信号，这些信号与输入观察帧保持相同的空间分辨率，实现了像素级对齐。结合动作条件的帧级对齐，这显著提高了控制精度。具体来说，ORV使用额外的浅层MLP（多层感知机）学习视觉控制特征，然后与图像条件增强，之后另一个零初始化的投影器将视觉控制信号添加到输入噪声中。

虽然像ControlNet这样的方法可能提供更强、更精细的像素级控制，但它会导致模型大小的爆炸式增长。ORV的方法更加平衡，优先考虑3D动作的控制，同时引入来自硬渲染过程的软视觉控制信号作为有效的辅助控制。

四、ORV的多视角视频生成

完整、高保真的4D场景对机器人策略学习和其他相关任务具有重要价值。一些最近的工作已经展示了生成高质量4D场景的能力，但它们通常只捕捉场景的单一表面，导致视角变化时出现明显的伪影和空白区域。而ORV进一步展示了生成和构建多样化、全面的4D RGB场景的能力，具有真实的视觉保真度。

研究团队扩展了单视角视频生成模型，开发了ORV-MV。受近期多视角内容合成成功的启发，他们在每个DiT块中集成了额外的视图注意力模块，处理跨所有视图的相同补丁级别的输入潜在变量，以实现跨视图交互。原始的帧注意力层（处理视图独立的补丁级别潜在变量）在训练的这个阶段被冻结。

这就像是让模型学会从不同角度观察同一个场景。传统模型只能从一个固定视角看世界，就像戴着眼罩一样。而ORV-MV则可以同时从多个角度观察，并确保这些不同角度的视图是一致的，就像是多个摄像机同时拍摄同一个场景，所有摄像机都能捕捉到相同的动作，只是从不同的角度。

在训练过程中，模型使用数据集中的多视角视频作为监督信号。帧注意力层接收3D时间控制（如动作序列）作为输入，而多视角图像也融合了2D条件图。这样，模型可以根据多视角观察（机械臂或抓取器）推断视图姿态，然后联合预测与3D控制一致的多视角像素变化。

五、ORV-S2R：通过占用弥合模拟到真实的差距

研究的另一个扩展，ORV-S2R，进一步解决了模拟数据和真实世界观察之间的显著视觉真实性差距。虽然之前的工作尝试最小化这种差距，但研究团队提出了一个更直接的解决方案——将物理模拟器与表达能力强的神经模型相结合。

从模拟器中可重用的几何资产（如网格），可以轻松转换为3D占用表示，然后渲染为2D条件图。利用ORV模型，可以合成多样化的真实感机器人操作视频，同时保持物理合理性，无需为几何体进行繁琐且性能有限的纹理创作。

这种方法之所以有效，部分原因是占用表示有助于弥合模拟环境和真实世界之间的条件数据质量差距。与模拟器或真实世界传感器的深度信号相比，占用提供了更适应性强的表示——这种粗粒度但严格几何对齐的格式使得从传感器深度和模拟深度到占用数据的高效转换成为可能。这在解决两者之间的显著差距时特别有价值——例如，模拟器深度受不稳定物理引擎的影响，而传感器派生的深度包含不同程度的噪声。

六、实验结果和分析

研究团队在三个真实世界数据集上训练和验证了ORV：BridgeV2、Droid和RT-1。这些数据集各有特点，包括不同的机械臂、视角数量和数据量。研究人员从每个数据集中采样了约12万个训练样本，并随机选择约2.6千个样本进行评估。

在可控视频生成方面，ORV在各种数据集上始终优于现有基线方法。以BridgeV2数据集为例，ORV的PSNR（峰值信噪比）达到28.258，SSIM（结构相似性指数）达到0.899，FID（Fréchet Inception Distance）为3.418，FVD（Fréchet Video Distance）为16.525，这些指标都优于IRASim、HMA、AVID和CogVideoX等基线方法。

研究团队还进行了消融研究，验证了物理控制信号的有效性。结果表明，加入物理约束后，视频生成质量和运动准确性立即显著提高，PSNR从基础模型的约25增加到约28。此外，基于渲染的条件与来自重建的条件表现相当，这有效放松了实际应用中对物理约束的严格质量要求。

在多视角视频生成方面，ORV-MV能够生成具有高跨视图一致性的多视角视频。例如，在一个布料折叠任务中，输出在三个不同视角保持了卓越的跨视图一致性。这种高保真的多视角生成能力使得高效的下游应用成为可能，包括真实感场景重建和机器人模仿学习。

在模拟到真实的转换方面，ORV-S2R能够将模拟环境中的表格操作场景转换为真实世界数据，视觉质量更好，效率也高于原始物理模拟器。

七、ORV的局限性和未来方向

尽管ORV取得了令人鼓舞的结果，但它仍有一些限制。研究团队指出，虽然3D占用为场景中所有物体提供几何表示，但3D动作信号仅描述机械臂末端执行器的姿态。这对于具有更复杂关节的机械臂（如Droid数据集中使用的Google机器人）来说是不够的。未来的工作可以考虑整合所有关节的精确运动描述，以获得机械臂轨迹的更准确表示。

此外，当前的ORV-MV需要多视角的第一帧观察作为输入。虽然通过来自3D占用和初始帧中观察到的机械臂姿态的几何约束，ORV-MV能够生成视图一致的视频，但未来的计划是将多视角第一帧图像的生成也纳入这个框架中——即从单一视角的第一帧输入生成一致的多视角视频。这将显著提高ORV-MV的可用性和实用性。

总的来说，ORV框架通过利用4D语义占用作为中间表示，解决了机器人视频生成中的关键挑战，实现了高质量、精确可控的视频生成。它不仅提高了视频质量和控制精度，还支持多视角视频生成和模拟到真实的转换，为机器人学习和模拟提供了强大的工具。随着未来的改进和扩展，ORV有望进一步推动机器人领域的发展，使机器人训练和应用更加高效和实用。

人工智能占用表示机器人视频生成

分享至