微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中科院工业AI研究所打造的"世界模拟器"：让机器人终于能看懂三维空间

机器人视觉扩散变换器三维一致性生成

中科院工业AI研究所打造的"世界模拟器"：让机器人终于能看懂三维空间

作者：科技行者

2026-06-22 11:06

分享至：

PAIWorld是中科院工业AI研究所开发的多视角三维一致性世界模型，通过跨视角注意力和几何知识蒸馏解决机器人操控中的多摄像头画面不一致问题，在两大机器人操控评测榜单上分获第一和第二。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-22 11:06 • 科技行者

这项由中国科学院工业人工智能研究所主导开发的研究成果，以预印本形式发布于2026年6月，论文编号为arXiv:2606.18375。有兴趣深入了解的读者可通过该编号查询完整论文。

当你闭上一只眼睛，世界会瞬间失去层次感——你无法准确判断桌上的杯子究竟离你有多远，也无法确定它和旁边的花瓶之间的真实距离。这就是只有单个视角的世界。人类之所以能精准地用手抓取物体，正是因为我们有两只眼睛，大脑会自动把两幅略有差异的画面"合并"成一个三维的、充满深度感的场景。

现代机器人面临着类似却更复杂的挑战。它们通常配备了好几台摄像头——有的安装在头顶俯视全场，有的固定在手腕上近距离观察，有的则安装在机身侧面提供宏观视角。这些来自不同角度的画面，就像是从多个方向同时拍摄同一个舞台的演出。对于机器人来说，要真正理解"这个苹果在哪里、离手有多远、从侧面看它长什么样"，就必须把所有这些画面在脑海中拼合成一个统一的三维世界。

现有的人工智能"世界模型"（可以理解为让机器人在脑子里模拟未来场景的程序）虽然能生成颇为逼真的视频画面，但它们大多只能处理单个视角，或者即便勉强支持多个视角，也只是把来自不同摄像头的画面粗暴地拼接在一起，完全没有理解它们背后共同描述的那个三维空间。结果就是：同一个苹果在左侧摄像头里出现在桌子左边，在右侧摄像头里却偏向了右边，深度感也完全对不上。这种"跨视角漂移"会直接导致机器人在规划抓取动作时出错，就好像你右眼看到苹果在左边，左眼却看到它在右边，大脑当然会晕头转向。

正是针对这个棘手问题，中科院工业AI研究所的研究团队开发了PAIWorld，一个专门为机器人操控任务设计的"三维一致性世界基础模型"。这个系统经过250万段真实机器人操控视频的训练，能够同时生成来自多个摄像头的协调画面，保证同一个物体在所有视角下的位置、深度和纹理都能精确对应。在两个权威评测榜单上，PAIWorld分别拿下第一名和第二名，展现出目前最先进的多视角三维一致性生成能力。

---

一、机器人的"立体视觉"为什么这么难？

要理解PAIWorld解决的问题，不妨先想象一个导演正在拍摄一部电影，摄制组在片场摆了三台摄像机，分别从正面、左侧和右上方同时拍摄演员的表演。导演要求三台摄像机的画面必须完全一致——同一个演员不能在正面镜头里站在舞台中央，在侧面镜头里却莫名其妙地跑到了舞台边缘。这种跨摄像机的空间一致性，在真实片场里由物理规律自然保证，但在人工智能生成的虚拟画面里，却需要模型主动去维护。

早期的"世界模型"，比如Cosmos、CogVideoX等，只能扮演一台摄像机，生成单个视角下的连贯视频。它们做的事情很像一位熟练的画家，能够临摹出逼真的单幅场景，但如果你要求他同时画出三个不同角度的版图，并保证每张图里的物体位置严格符合几何关系，他就力不从心了。

后来出现了一些尝试支持多视角的方法，但它们的做法非常粗糙——把来自不同摄像头的画面直接"拼排"在一起，像把三份食谱的食材清单合并成一张长长的购物单，然后让模型自己从这张大清单里摸索出跨摄像头的对应关系。这种"平铺拼接"策略，随着摄像头数量增多和场景复杂度上升，会越来越不可靠。

研究团队通过深入分析，将问题根源归结为两个层面的缺失。第一个缺失发生在结构层面：模型内部没有一条专用的"通道"让不同摄像头的视角互相沟通。每个视角的生成过程都是独立进行的，就像三位厨师各自在封闭的厨房里做菜，彼此互不知情，最后端出来的三道菜自然很难搭配成一桌协调的宴席。第二个缺失发生在知识层面：即便硬要给这三位厨师开一个沟通频道，他们也不知道什么样的结果叫"三维空间里真正正确"——他们没有关于三维几何关系的内在知识来指导这场沟通。

研究团队进一步指出，这两个缺失必须同时弥补，缺一不可。只建立沟通通道，没有几何知识的指导，通道里流通的信息会退化成"偷懒走捷径"的信号，比如简单地把一个视角的纹理颜色复制到另一个视角，而不是真正理解三维几何关系。反过来，只灌输几何知识，没有跨视角的通信机制，每个视角虽然自己变得更"立体感知"，但各视角之间依然无法协调，就像三位厨师各自学会了如何更好地做自己的菜，但没有机会沟通，端出来的菜还是不成体系。

---

二、PAIWorld的设计蓝图：两根支柱，三个组件

PAIWorld的核心设计围绕着"两根支柱"展开，就像一座桥梁需要同时依靠两侧的桥墩才能稳固。第一根支柱叫做"跨视角通信通道"，负责让不同摄像头的视角能够互相交流；第二根支柱叫做"三维几何学习信号"，负责保证这种交流的内容是真正符合三维空间逻辑的。支撑这两根支柱的，是三个具体的技术组件。

整个系统建立在一种叫做"扩散变换器"（DiT，可以理解为一种特别擅长生成高质量图像和视频的人工智能架构）的基础模型之上，具体采用了NVIDIA Cosmos-Predict2.5作为底座。这个底座就像是一个已经学会如何画出逼真画面的绘图员，PAIWorld在他基础上增加了三项新能力，让他不仅会画单幅画，还能精准地同时画出同一场景的多个角度。

第一个组件叫做"几何感知跨视角注意力"（Geometry-Aware Cross-View Attention）。在人工智能的语境里，"注意力机制"可以理解为模型在生成某个位置的画面时，会去"看"其他相关位置的信息作为参考。标准的注意力机制让每个视角自顾自地参考自己视角内部的信息；而这个新组件专门在不同视角之间打开了一条参考通道，让视角A在生成某块画面时，可以直接去查看视角B和视角C的对应位置。这就相当于三位厨师终于能够通过对讲机实时沟通："我这边正在做红烧肉，你那边的酱汁调好了吗？"

第二个组件叫做"几何旋转位置编码"（Geo-RoPE）。光有通信通道还不够，还需要让通道里的每条信息都标注上清晰的"地理坐标"。这个组件的作用是把每台摄像头的位置和角度（也就是"相机的姿态"）以及每个像素点对应的真实世界射线方向，都编码进模型处理信息的方式里。具体来说，它对每个注意力头的查询向量和键向量分别施加两种旋转编码：一种编码像素级别的"光线方向"（通过相机内参矩阵将图像坐标反投影到三维空间），另一种编码视角级别的"相机姿态"（包括旋转的欧拉角、平移向量、相机在世界坐标系中的位置以及光轴方向）。这两种编码被分配给注意力头维度的两个等分子空间，互不干扰。这样一来，当视角A在查询视角B的某个位置时，模型能自动判断"这个像素点的光线方向和我正在生成的这个点的光线方向有没有交汇，它们是不是在描述同一个三维空间点"。交汇的两个点会自然地获得更高的关注权重，就好像地图上两条路的交叉口会被标注得比其他地方更显眼。

第三个组件叫做"潜在三维表征对齐"（Latent 3D-REPA）。这是第二根支柱——几何知识的来源。研究团队引入了一个叫做"Depth Anything 3"的冻结模型（所谓"冻结"意味着在训练PAIWorld时，这个模型的参数不会被改变，它只作为一个提供参考知识的"顾问"）。Depth Anything 3是一个专门理解三维深度和几何结构的基础模型，就像一位从业几十年的建筑师，对三维空间结构有极深的直觉。PAIWorld在训练时，会让自己的中间层特征去"对齐"这位建筑师对同样画面的理解。更妙的是，对齐的不是单个像素点的数值，而是像素点之间的"关系模式"——任意两个像素在三维几何上有多相似，PAIWorld学到的特征之间的相似度也应该符合同样的模式。这种"关系模式蒸馏"的方式，让PAIWorld能跨越两个模型之间的表征差异，真正学到几何意义上正确的世界理解。

为了让计算量可控，研究团队采用了"锚点采样"策略：每次随机抽取一小部分像素作为"参照锚点"，计算其他所有像素与这些锚点的相似度矩阵，而不是计算所有像素两两之间的相似度（后者的计算量会是前者的N倍）。蒸馏损失分为两部分，一部分关注单帧内跨视角的几何关系（确保同一时刻不同摄像头的画面在三维空间上吻合），另一部分关注跨时间帧的几何关系（确保物体在运动过程中的三维轨迹是连贯的）。

三个组件协同工作形成一个闭环：跨视角注意力打开通道，几何位置编码让通道里的信息自动向几何对应的位置倾斜，三维表征对齐则持续监督通道里流通的内容是否真正符合三维空间的几何逻辑。三者缺一，整个闭环就会断掉。

---

三、训练：让2.5万个"机器人厨师"同时学艺

PAIWorld的训练耗费了相当大的资源。研究团队精心整合了来自五个不同来源的约250万段机器人操控视频，这五个来源分别是AgiBot-World（占35%，来自一个大规模多视角机器人操控平台）、RoboMIND（占20%，专注于多具身形态机器人的数据集）、Galaxea（占15%）、RoboTwin（占15%，双臂机器人的基准数据集）和RoboCOIN（占15%，双臂机器人数据采集项目）。这些数据集涵盖了不同类型的机器人身体结构、各种各样的操控任务，以及各种不同的摄像头配置，为训练一个通用的多视角世界模型提供了丰富的多样性。

整个训练在200台NVIDIA H200 GPU上运行，持续训练30000步，大约耗时7天。训练目标是两个损失函数的加权组合：一个是基础的"流匹配损失"（让模型学会生成逼真的视频），另一个是三维表征对齐损失（让模型学会三维几何一致性），两者的权重比为2:1，以确保生成质量和几何准确性之间的平衡。

在模型架构初始化上，研究团队采用了一个聪明的技巧：新插入的跨视角注意力模块初始时的"开关"被设为零，意味着模型在训练的第一步和没有这个模块时完全一样，保留了原有预训练模型的所有能力。随着训练推进，这个开关会逐渐打开，让新模块慢慢参与进来，避免"一下子加入太多新功能导致之前学的东西全忘了"的问题。

动作条件注入的方式同样经过了精心设计。与其把机器人的动作指令以一串抽象数字的形式输入模型，研究团队采用了"空间动作图"的方式——把机器人末端执行器（抓手）的运动轨迹投影到每个摄像头的视角画面上，生成一幅可以直接叠加在图像上的轨迹图，再和噪声化的视频潜在向量沿通道维度拼接在一起。这就好比在航海图上直接画出预定航线，而不是只给出一串经纬度数字，让模型能更直观地理解"手应该从画面的哪里移动到哪里"。

---

四、实战检验：在两大排行榜上的表现

研究团队在三个不同的评测基准上全面检验了PAIWorld的实际表现，涵盖了"给定动作指令生成未来画面"和"给定文字描述生成多视角画面"两种不同的使用场景。

在WorldArena排行榜上，PAIWorld以70.67分的综合得分排名第一，比第二名的GenieEnvisioner-Sim2.0-2B高出2.41分。WorldArena的评分体系非常细致，拆分成了七个维度：整体质量、画面视觉质感、运动流畅性、内容一致性、物理合理性、三维准确性以及动作可控性。PAIWorld在"运动流畅性"这项指标上以79.66分大幅领先，比第二名高出将近一分，反映出系统在生成时间连贯、符合物理规律的动态画面上的优势。在"动作可控性"上也以74.40分位居前列，说明模型能够较为忠实地按照给定的动作指令生成对应的机器人运动画面。

在AgiBot-Challenge2026排行榜上，PAIWorld以0.8245的综合得分排名第二，但在"场景一致性"这一指标上以0.9041的最高分排名第一。场景一致性衡量的是生成视频在时间维度上的语义连贯性，这是多视角三维一致性最直接的体现之一。同时，nDTW（归一化动态时间规整）指标达到0.9531，说明模型生成的运动轨迹与真实动作序列的对应程度相当高。

在AgiBot-World文字条件生成评测上，PAIWorld和另外三个基线模型（Genie-Envisioner、Cosmos-Predict2.5和Wan2.1）进行了全面对比，评测指标包括结构相似度（SSIM）、感知相似度（LPIPS，数值越低越好）、帧分布距离（FID，越低越好）、视频分布距离（FVD，越低越好）、场景一致性、几何误差（用极线几何距离衡量，越低越好）以及MEt3R（通过点云跨视图重投影衡量三维一致性，越低越好）。PAIWorld在七项指标中的六项上拿到了最佳成绩：SSIM达到0.7683，比第二名Genie-Envisioner高出3.2%；LPIPS仅有0.1844，比第二名低了足足45%，说明生成画面更清晰、更忠实于真实场景；FID为45.04，比第三名Wan2.1提升了20%；最关键的MEt3R指标为14.20，比第二名Genie-Envisioner低10%，直接证明了跨视角三维几何一致性的显著改善。唯一一项略逊一筹的是语义一致性，0.9041略低于Genie-Envisioner的0.9231，但差距极小，可以理解为在几何精度上的大幅收益与在语义匹配上的微小代价之间做出了合理权衡。

---

五、拆解验证：缺少哪一块会怎样？

为了严格验证"两根支柱缺一不可"的核心论断，研究团队进行了消融实验——也就是逐步拆掉各个组件，观察性能变化。实验在AgiBot-World评测集上进行，从最基础的"只有平铺多视角拼接"出发，分别测试了"只加跨视角注意力"、"只加三维表征对齐"和"两者都加"四种配置。

结果清晰印证了团队的预判。基础配置的MEt3R为16.84分，加入跨视角注意力后降至15.91，改善了0.93分；单独加入三维表征对齐后降至16.12，改善了0.72分。两者都加的完整模型则降至14.20，改善了2.64分——这个数字明显大于0.93与0.72的简单求和（1.65），产生了"超加和效应"。换句话说，两个组件组合在一起产生的收益，远超它们各自独立贡献的简单叠加。

这种超加和效应的背后有着清晰的逻辑：通信通道的存在让几何知识有路可走，几何知识的存在让通信通道不会"走弯路"。两者互相激活，形成了正向循环。单独的通信通道在没有几何监督的情况下，确实会找到捷径——比如直接把某一视角的纹理颜色平移到另一视角，这样能降低训练损失但并不代表真正理解了三维空间。单独的几何知识在没有通信通道的情况下，每个视角虽然自己对三维结构更敏感，但由于无法跨视角协调，生成的画面还是会各自为政。只有两者同时在场，几何知识才能通过通信通道在所有视角间统一广播，实现真正意义上的三维一致性。

---

六、未来的地图：世界模型能做什么？

PAIWorld的用途远不止于生成漂亮的多视角视频。研究团队设计它作为一个通用的底座，支撑四种不同的下游应用场景。

第一种应用是"世界生成"，也就是前面一直在讨论的内容——给定一段初始观测画面和一个动作序列，生成未来可能发生的场景。这在机器人训练中非常有用：当真实数据稀缺时，可以用世界模型生成大量模拟数据来扩充训练集。

第二种应用是"世界动作模型"，将世界生成能力和动作生成能力结合在同一个模型里，实现"给我一段描述，我来预测未来画面，同时告诉你机器人应该执行什么动作"的一体化能力。

第三种应用是"模型驱动的机器人规划"，让机器人在执行真实操作前，先在脑海中用世界模型模拟几种不同的操作方案，挑选出结果最好的那个再付诸实施，类似于棋手在落子前先在脑子里演算几步棋。由于PAIWorld生成的多视角画面符合三维几何关系，机器人可以从这些模拟画面中提取可靠的三维信息来辅助规划。

第四种应用是"多视角策略后训练"，用PAIWorld生成的模拟轨迹来训练和改进机器人的操控策略模型，形成一个闭环：世界模型生成多样化的模拟经验，策略模型从这些经验中学习改进，改进后的策略去真实世界收集更高质量的数据，再回来改善世界模型，如此迭代。研究团队将这个闭环称为"数据封闭回路"，是迈向机器人自主演化学习的一个重要方向。

研究团队还在结语中展望了几个值得关注的未来方向：把物理交互建模（如接触力学、可变形物体、流体模拟）纳入世界模型，使其不仅几何一致，还在物理规律层面更加可信；将框架扩展到长时程规划场景，需要在更长的时间跨度上维持三维一致性；以及在工业制造领域的应用，比如生产线的动态调度和制造流程的实时监控，这些场景同样需要精确的物理仿真和多视角监控能力。

---

说到底，PAIWorld解决的是一个听起来简单、做起来极难的问题：让人工智能真正"看懂"三维空间，而不只是生成表面逼真的图像。通过同时在结构层面开放跨视角通信通道、在学习目标层面引入三维几何知识，研究团队找到了一个"1+1>2"的解法——两根支柱缺一不可，合在一起才能撑起真正三维一致的世界模拟。这项工作的意义不仅仅在于榜单排名，更在于它为机器人在多视角环境下进行可靠的感知和规划提供了一个更坚实的底层基础。至于这套思路能否在更复杂的开放世界场景、更长的时间跨度和更多样的机器人形态上持续奏效，还需要未来更多的探索来回答。感兴趣的读者可以通过arXiv编号2606.18375找到完整论文深入阅读。

---

Q&A

Q1：PAIWorld和普通的多视角视频生成模型有什么区别？

A：普通多视角视频生成模型通常只是把来自不同摄像头的画面拼接在一起处理，没有专门的机制让不同视角互相"对话"，也没有三维几何知识的指导，结果是同一个物体在不同视角下的位置、深度经常对不上。PAIWorld专门引入了跨视角注意力通道和几何位置编码来打通视角间的通信，同时用Depth Anything 3作为几何知识来源对模型进行监督，保证生成画面在三维几何上真正一致。

Q2：PAIWorld的Latent 3D-REPA组件具体是怎么让模型学到三维知识的？

A：Latent 3D-REPA不是直接让模型去猜测每个像素的深度数值，而是让模型学习"像素之间的几何关系模式"。具体做法是随机抽取一些像素作为锚点，计算所有像素与这些锚点的相似度矩阵，然后要求PAIWorld中间层的相似度矩阵与专业三维模型Depth Anything 3看同样画面时的相似度矩阵保持一致。这样模型就学到了"哪些位置在三维空间上属于同一个面、同一个物体"的内在规律。

Q3：PAIWorld需要在推理时知道摄像头的位置参数吗？

A：是的，PAIWorld在生成时需要提供各摄像头的内参（焦距、图像中心等）和外参（摄像头在空间中的旋转和平移）。这些参数被Geo-RoPE用来计算每个像素点对应的三维光线方向和相机姿态编码，是模型实现几何感知的关键输入。不过，在训练阶段，Depth Anything 3还能自动从输入图像中恢复这些参数，减少了对预先标定数据的依赖。

机器人视觉扩散变换器三维一致性生成

分享至