微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学团队打造"机器人练兵场"：用3D高保真渲染技术让AI更好地学会在人群中穿行

具身智能3D高斯泼溅跨域泛化

浙江大学团队打造"机器人练兵场"：用3D高保真渲染技术让AI更好地学会在人群中穿行

作者：科技行者

2026-04-22 17:16

分享至：

这项由浙江大学领导的研究推出了Habitat-GS导航模拟器，将场景渲染从传统网格升级为3D高斯泼溅技术，并引入可实时驱动的高保真虚拟人模型。系统通过CUDA-OpenGL零拷贝机制实现实时高保真渲染，利用预计算骨骼蒙皮和代理胶囊机制让虚拟人既能视觉逼真又能作为物理障碍。实验证明，混合训练策略（部分网格场景+大量3DGS场景）能训练出跨域泛化能力最强的导航AI，而高斯化身训练则显著降低机器人与人碰撞的概率。论文编号arXiv:2604.12626。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 17:16 • 科技行者

这项由浙江大学领导，联合北京大学、深圳大学、XGRIDS、UDeer AI等机构共同完成的研究，以预印本形式于2026年4月14日发布在arXiv平台，编号为arXiv:2604.12626。有兴趣深入了解的读者可以通过这个编号查阅完整论文。

假设你是一位家政服务机器人，今天的任务是穿过客厅把饮料送到沙发边的主人手边。客厅里有两个小孩在玩耍，还有一位老人从卧室缓慢走出来。你必须既不撞到任何人，又要走出一条合理的路线，还要在视觉上正确识别出这些是"人"而非柱子或桌子。这听起来是人类每天轻松完成的事，但对机器人而言，这背后需要大量的"练习"——而练习就发生在模拟器这个"虚拟训练场"里。

这项研究要解决的核心问题，正是如何让这个训练场变得更真实、更有效。研究团队推出了一套名为Habitat-GS的模拟器，它在原有的Habitat-Sim平台基础上进行了大幅升级，将场景渲染从传统的"模型贴图"方式换成了一种叫做3D高斯泼溅（3D Gaussian Splatting，简称3DGS）的新型渲染技术，同时引入了可以真实行走、可以挡路的虚拟人体模型。研究人员希望通过这些改进，让在虚拟环境中训练出来的机器人能够更顺利地在真实世界中工作。

一、为什么机器人的"练兵场"不够真实

要理解这项研究的出发点，得先聊聊机器人是怎么学会导航的。直接把机器人放进真实家庭中反复试错，代价太高，有时还有安全隐患——毕竟你不希望一个正在学习转弯的机器人撞上你家的花瓶或者摔跤的奶奶。于是研究者们建造了虚拟的"练兵场"，让机器人的AI在电脑里先跑上亿次，积累经验后再上岗。

问题是，这个练兵场长期以来用的是一种叫做"网格贴图"（mesh-based rasterization）的渲染方式。这种方式的原理，有点像用乐高积木拼出一栋房子然后贴上墙纸——从远处看轮廓还过得去，但走近了就能发现墙面缺乏真实的质感，光线照射也不对劲，镜子里的反光也不对，地板上的木纹也是假的。这种视觉上的"廉价感"，在技术上被称为"仿真与现实之间的视觉差距"（Sim-to-Real gap）。

麻烦之处在于，机器人的视觉感知系统在练兵场里学到的是一套"廉价视觉语言"，一旦放进真实世界，面对真实的纹理、光影、反光，它就会感到困惑，性能大打折扣。这就像你在一个全是简笔画的世界里练习认人，结果到了现实中面对真实的人脸，突然不知所措。

除了场景渲染质量差，还有另一个问题：训练场里的"虚拟人"太假了。现有的一些模拟器虽然有人形虚拟体，但它们基本上是用关节铰接的"机械人偶"来充当，走路动作僵硬，外形粗糙，衣服皱褶、头发质感这些细节完全没有。这让机器人在练习时缺乏对"真实人类"的视觉感知经验，到了现实中同样难以准确识别和预判人类的行为。

工业级别的模拟器（比如NVIDIA的Isaac Sim）虽然已经开始引入3DGS技术来提升视觉真实感，但它的渲染核心是闭源的，需要RTX系列显卡上的专用RT Core硬件，而这类显卡在大学实验室和数据中心里并不常见——大型数据中心常用的A100、H100显卡上并没有RT Core，这让很多研究团队无法使用。

正是在这样的背景下，浙江大学团队决定从头设计一套开源的、对标准显卡友好的高保真导航模拟器。

二、3D高斯泼溅：把现实"撒"进虚拟世界

在深入了解Habitat-GS之前，得先理解这套新渲染技术到底是怎么工作的。"3D高斯泼溅"这个名字听起来很奇怪，但原理其实并不复杂。

传统的3D建模方式是先建出一个由三角形网格构成的几何体，再往上面贴纹理图片，就像给泥塑模型涂颜料。而3DGS走的是完全不同的路子：它用数百万个微小的椭球形"高斯点"来表示一个场景，每个点都携带自己的颜色、透明度、大小和朝向信息。当摄像机从某个角度观察时，这些"点"会被"泼溅"（splatting）到屏幕上，形成一幅图像。

这种方式的好处在于，因为每个高斯点都是从真实照片中学习来的，它天然地保留了真实世界里那些细节：木地板的光泽、玻璃杯上的高光、布沙发的织物纹路。这些效果用传统方式很难模拟，但3DGS几乎是"自动"就有了。更关键的是，3DGS可以实时渲染，速度足够快，能支撑机器人AI的高速训练。

研究团队在Habitat-GS中实现3DGS渲染的核心技术挑战，在于把两套完全不同的渲染系统"连通"：传统的Habitat模拟器依赖OpenGL来显示画面，而3DGS的高性能渲染依赖CUDA（英伟达的并行计算框架）来完成。这两套系统就像是两个不同国家的电力插座，如果暴力转接，中间的数据来回传输会拖慢整个系统。

研究团队用了一种叫"零拷贝CUDA-OpenGL互操作"的机制来解决这个问题。简单说，就是让渲染好的画面数据从始至终待在显卡的内存里，不需要来回在CPU和GPU之间搬运，从而实现了近乎无损耗的高效传输。每帧画面中，CUDA先完成3DGS渲染，把颜色和深度信息写入显卡缓冲区，然后通过一个"直通车"把这些数据交给OpenGL的传感器管线，完成最终的画面合成。

在实际使用中，一个Habitat-GS场景可以同时包含3DGS资产和传统网格资产。为了保证两种类型的物体在画面里的遮挡关系正确（比如一堵墙挡住了后面的桌子），系统还专门设计了一套深度合成机制，把两种渲染管线产生的深度图合并起来，确保视觉上没有"穿模"等错误。

在场景资产的来源方面，研究团队设计了高度开放的导入接口，支持三类不同来源的3DGS场景：自己用相机拍摄真实场所后重建的场景、公开共享的3DGS数据集（比如InteriorGS室内场景数据集），以及通过生成式AI管线（比如World Labs的Marble工具）直接生成的场景。这种开放性大大降低了获取高质量训练场景的门槛。

三、会走路、会挡道的虚拟人：高斯分身的诞生

解决了场景渲染问题，还有另一个更复杂的挑战：如何让虚拟人既看起来真实，又能作为真实的障碍物挡住机器人的路。

这个挑战包含两个相互关联但技术上需要分开处理的问题。第一个问题是视觉渲染——让虚拟人看起来像真人；第二个问题是物理碰撞——让机器人不能穿过虚拟人的身体。

研究团队为每个虚拟人角色（在论文里称为"高斯分身"或"高斯化身"）提前准备了三样东西。第一样是"规范高斯属性"，也就是这个虚拟人在标准站立姿势下的全部3DGS数据，包括每个高斯点的位置、颜色、透明度、大小、朝向以及所谓的"蒙皮权重"。蒙皮权重描述的是：当人体某个关节（比如肘关节）弯曲时，附近的高斯点应该随之移动多少——这就像衣服面料随着手臂弯曲而自然褶皱的道理。

第二样东西是运动轨迹。研究团队使用了一个叫GAMMA的运动生成模型，给每个虚拟人生成在场景地图上的行走路径。GAMMA能生成符合自然规律的连贯身体动作，让虚拟人走路、转身、停顿都显得自然而不是机器般僵硬。生成轨迹后，会提前计算好每一帧动画里各个身体关节的变换矩阵，并保存下来。

第三样东西是"代理胶囊"。这是一组简单的胶囊形几何体，覆盖在人体骨架的各段骨骼上，用来代表这个虚拟人在空间中占据的物理体积。这些胶囊同样是提前计算好每帧的位置，运行时直接查表取用。

到了实际运行时，系统用一个高效的CUDA程序，把存储好的关节变换矩阵应用到高斯点上（这个过程叫"线性蒙皮"，Linear Blend Skinning），让高斯点跟随人体姿势变形，然后和场景高斯点一起渲染出画面。整个过程不需要运行任何神经网络，速度极快。

在导航层面，每一个模拟时间步，系统都会把当前所有虚拟人的代理胶囊位置注入到导航网格（NavMesh）中，作为临时障碍物。导航网格是机器人用来规划路线的地图，注入胶囊后，地图上对应位置就被标记为"不可通行"。当机器人试图往前走时，系统会检测它的位置和所有代理胶囊是否有重叠，如果有，就截断这次移动，防止机器人"穿进"虚拟人的身体里。

这套机制巧妙地实现了视觉与导航的分离：3DGS负责让虚拟人看起来真实，代理胶囊负责让虚拟人在物理上真实存在。两者协同工作，让机器人既能"看见"人，也能"碰到"人。

四、系统如何融入Habitat生态：无缝对接

Habitat-GS的另一个重要设计目标是完全兼容现有的Habitat生态系统，让研究者不需要从头学一套新工具。

在场景初始化阶段，模拟器会自动从场景描述文件里读取高斯化身的配置，并实例化所有角色。每一个模拟步骤触发时，化身的姿势更新会自动同步，同时影响视觉渲染和导航网格两个层面。传感器输出的RGB-D图像（彩色图加深度图）和传统网格渲染器产出的格式完全一致，这意味着现有的Habitat-Lab任务（比如标准的PointNav点目标导航任务）可以直接在3DGS场景里运行，无需任何修改。

针对需要感知人类的任务，研究团队额外提供了两个查询接口：一个可以查询机器人到最近虚拟人的距离，另一个可以查询某次移动是否会被虚拟人阻挡。这两个接口是设计奖惩系统的基础——训练时如果机器人靠近了虚拟人的身体，系统可以给它一个惩罚信号，让它学会主动保持安全距离。

五、实验验证：高保真训练场到底有没有用

研究团队从三个角度对Habitat-GS进行了验证。

第一个角度是用AI来评估场景质量。他们让谷歌的Gemini 3.0 Pro大模型充当"视觉评审"，对3DGS渲染和网格渲染各自产出的240张截图进行打分，打分维度包括渲染质量、真实感和场景多样性，每个维度满分10分。为了防止模型被渲染方式的线索影响，每次评审的10张图里混入了5张3DGS截图和5张网格截图，且顺序随机打乱。结果3DGS场景在三个维度上全面领先：渲染质量均分6.99对3.65，真实感5.66对3.98，场景多样性8.47对7.08。这说明3DGS场景确实提供了更高质量、更多样化的训练素材。

第二个角度是点目标导航实验，验证高质量场景是否真正有助于训练出更强的导航AI。研究团队设计了五种不同的训练配置，分别是全部用100个网格场景、全部用100个3DGS场景，以及按8:2、5:5、2:8三种比例混合两类场景，总训练步数固定在5000万步。最终每种配置的AI都在20个网格测试场景和20个3DGS测试场景上接受评估，而这两组测试场景来自完全不同的物理空间，确保评估的是跨域泛化能力。

实验结果揭示了三条清晰的规律。只用网格场景训练的AI收敛最快，但视觉泛化能力最弱，在GS测试场景上的成功率只有61.3%，远低于其他配置；只用GS场景训练的AI在GS测试上能达到70.7%的成功率，但由于场景更真实、更复杂，训练收敛得更慢，在5000万步内还没跑完，导致在网格测试上的表现反而不如纯网格训练；而混合训练的配置（尤其是20%网格+80%GS的组合）在GS测试上达到了79.6%的成功率，同时在网格测试上的表现与纯网格训练相当，展现出最强的综合泛化能力。

研究团队进一步把所有配置都训练到1亿步（充分收敛），再次对比结果。此时的分析更为清晰：纯网格训练的AI在网格测试上SPL（路径效率指标）最高，但在GS测试上全面落后，体现出"只会在训练场发挥"的局限性；纯GS训练的AI在GS测试上表现优秀，而且其在网格测试上的表现也只比纯网格训练稍差，说明GS场景学到的视觉鲁棒性能够向下兼容；最佳策略依然是混合训练，50%网格+50%GS和20%网格+80%GS两种配置在综合跨域表现上名列前茅。这证明两种场景类型是互补的，而非相互替代：网格场景提供了高效的几何导航基础训练，GS场景则注入了视觉多样性和鲁棒性。

第三个角度是化身感知导航实验，验证高斯化身是否能帮助训练出真正懂得在人群中导航的AI。研究团队先用5000万步在静态场景里预训练一个基础导航AI，然后用500万步（仅为预训练的10%）在含有3个行走高斯化身的场景里微调，对比有化身和无化身两种训练配置。微调后的AI在两种测试环境下接受评估：20个含网格人形化身的网格测试场景，以及20个含高斯化身的GS测试场景。

评估指标除了标准的成功率和路径效率外，还新增了碰撞率（CR，发生碰撞的步骤占比）和个人空间侵入度（PSI，AI进入每个化身1米个人空间圆的平均程度）。在GS测试场景上，经过化身训练的AI碰撞率从6.713%降至4.746%，PSI从0.092降至0.077，提升效果明显。更有趣的是，这种能力还能迁移到更低质量的网格测试环境：碰撞率从2.521%降至2.342%，PSI从0.075降至0.068。这说明AI从高保真高斯化身身上学到的感知能力（识别人体形状、预判行走方向、估计安全距离）是真实可靠的技能，而不是仅对高保真视觉有效的"偶然经验"。

研究团队还专门设计了一个人类追踪导航任务（TrackNav），让AI在没有固定终点的情况下，持续跟随一个移动的虚拟人，保持在1.2米到2.5米的跟随距离范围内，始终保持目标在视野前方，且从目标身后跟随而不是从侧面或正面。这个任务测试的是更复杂的长时程人类感知导航能力。对比实验显示，用网格场景和网格化身训练的AI虽然追踪率更高（平均28.09%对24.13%），但碰撞次数高达平均11.93次；而用GS场景和高斯化身训练的AI碰撞次数仅为平均5.68次，安全性超出一倍以上，且在GS测试场景上的追踪率反而更高。在真实部署场景中，一个频繁与人碰撞的追踪机器人是不可接受的，因此高斯化身训练出的AI具备更大的实际应用价值。

六、系统效率：快到足以支撑大规模训练

最后，研究团队对系统的渲染性能和显存占用进行了基准测试，确认高保真渲染不会大幅拖慢训练速度。测试在NVIDIA RTX 4090显卡上以256×256分辨率进行。

作为参照，传统网格渲染在典型场景下能跑出163.8帧每秒（FPS）的速度。3DGS方面，场景规模为30万个高斯点时能达到159.2 FPS，100万高斯点时为120.9 FPS，300万高斯点时为82.6 FPS，500万时降至51.5 FPS，700万时为44.5 FPS。对于强化学习训练而言，超过50 FPS就足以支撑高效的并行训练，因此500万高斯点以内的场景都处于可用范围。

在加入化身后，1到2个化身的场景仍可维持75到94 FPS，5个化身时为57.7 FPS，10个化身时下降至24.7 FPS。考虑到大多数导航训练场景中不需要10个以上的同时行动化身，系统的扩展性对典型应用而言是足够的。显存方面，随场景和化身数量线性增长，具有较好的可预测性，便于研究者提前规划资源。

整个系统以开源形式发布，完全兼容Habitat生态的任务、训练和评估接口，不依赖RT Core等特殊硬件，在配备标准CUDA显卡的机器上即可运行。

当然，Habitat-GS也有其明确的局限性。它的核心设计原则是"视觉与导航分离"：3DGS负责视觉，NavMesh负责导航。这种分离虽然解决了3DGS缺乏明确几何表面的问题，但也意味着物理交互只能达到导航级别的避障，无法支持力学层面的接触——比如机器人推开一把椅子或者抓取桌上的杯子。3DGS本质上是一堆各自独立的椭球体，没有刚体属性，也没有拓扑连接，因此Habitat-GS目前的能力边界是导航任务，操作类任务暂不在其覆盖范围之内。研究团队也坦诚地指出，将支持扩展到物理操作领域需要与物理引擎进行更深度的整合，这是一个明确的未来方向。

说到底，Habitat-GS做的事情可以用一句话概括：让机器人的"练兵场"更像真实世界。传统练兵场用的是廉价的简笔画场景和粗糙的机械人偶，训练出的机器人一旦踏入真实世界就容易"水土不服"；而Habitat-GS用高保真的3DGS场景和栩栩如生的高斯化身，让机器人在训练阶段就接触到接近真实水准的视觉环境和人类存在，习得更具泛化能力的感知与行为策略。实验数据也确认了这条路是通的。

对于普通人而言，这项研究意味着未来的家用服务机器人、医院导航机器人、商场引导机器人，在训练阶段就能接受更充分的"人群穿行"练习，上岗后面对真实人群时会更加从容——不会突然"楞住"，也不会莽撞地撞上人。这个研究离真正让机器人进入普通家庭又近了一步，尽管还有很长的路要走。

如果你对技术细节感兴趣，完整论文可以通过arXiv编号2604.12626查阅，所有代码和资产也以开源形式发布在浙江大学3DV研究组的主页上。

Q&A

Q1：Habitat-GS和普通机器人模拟器有什么区别？

A：普通机器人模拟器（如Habitat-Sim）使用传统网格贴图渲染场景，视觉效果较为粗糙，虚拟人物形态也很不真实。Habitat-GS用3D高斯泼溅技术渲染场景，视觉上更接近真实照片质量，同时引入了能真实走路、穿衣细节清晰的高斯化身人物，让机器人在更接近真实世界的环境里训练。

Q2：3D高斯泼溅技术是什么原理，为什么渲染效果更好？

A：3D高斯泼溅用数百万个微小椭球形"点"表示场景，每个点携带从真实照片学来的颜色和光照信息，能自然重现真实材质的光泽、反光、纹理等细节。传统网格方法需要手动制作模型再贴图，往往缺乏这些细节，视觉上显得偏"假"。

Q3：混合训练策略为什么比单纯用一种场景训练效果更好？

A：单纯用网格场景训练，机器人学得快但视觉泛化弱，换到真实感场景就表现差；单纯用3DGS场景训练，视觉泛化好但场景更复杂，收敛慢，相同计算预算下还没练到位。混合两者，网格场景先打好基础的几何导航能力，GS场景再强化视觉鲁棒性，两者互补，综合表现最优。

具身智能3D高斯泼溅跨域泛化

分享至