微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学与腾讯混元联手：给机器人装上"空间感"，让AI真正看懂三维世界

具身智能深度估计视觉语言动作模型

清华大学与腾讯混元联手：给机器人装上"空间感"，让AI真正看懂三维世界

作者：科技行者

2026-06-02 14:46

分享至：

清华大学与腾讯混元提出GEM框架，通过在视觉语言模型预训练中加入深度图生成任务，让AI同时掌握语义理解和几何感知能力，显著提升机器人空间推理和操作表现。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 14:46 • 科技行者

这项由清华大学与腾讯混元联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.28548，有兴趣深入了解的读者可以通过该编号查阅完整论文。

**一个根本性的困境：会说话却不会干活**

现代的人工智能视觉语言模型，就像一个博览群书、谈吐优雅的图书馆员。你问他"苹果放在桌子的哪个位置"，他能洋洋洒洒描述一番；但当你让他走过去把苹果拿起来放进篮子，他却可能磕磕绊绊、屡屡失手。这个令人沮丧的落差，正是当前机器人领域最核心的难题之一。

问题的根源在于，主流的AI训练方式就像让一个学生只做阅读理解和写作练习，却从来不让他动手操作实验。大量的视觉问答数据，让模型学会了用文字描述图像中的物体、颜色、关系，却没有真正理解物体在三维空间里的几何形状、相互距离和物理约束。结果就是，模型的"眼睛"只看到了语义层面的信息，却对物理世界的深度结构视而不见。

清华大学与腾讯混元的研究团队把这个问题推向了新的解法。他们提出了一个叫做GEM（Generative-supervised Embodied vision-language Model，生成监督的具身视觉语言模型）的框架，核心思路简洁而巧妙：在训练AI的同时，强迫它学会"把眼前的彩色照片变成深度图"。这个额外的任务，就像一位钢琴老师要求学生在练习曲子的同时，还要用左手做节奏练习——两件事同时做，反而让大脑形成了更扎实、更立体的肌肉记忆。

**一、为什么不能只靠"看图说话"来训练机器人**

回到那个图书馆员的比喻。他之所以拿不准苹果的位置，是因为他对空间的理解完全依赖语言——"苹果在篮子旁边"、"杯子在桌面上"，这些都是相对模糊的描述性信息。但机器人要执行操作任务，需要的是精确的空间坐标：苹果离我的机械臂有多远，它的表面在哪个角度，我的手指应该以什么姿态去夹取。

标准的视觉语言模型（VLM）训练方式，主要是把图片和文字对应起来，教模型"图片里有什么"，但这本质上是一个语义压缩的过程。模型会把图像中的像素信息提炼成高层次的语义特征，比如"这是一个红苹果"，而把精细的几何信息——形状轮廓、表面深度、空间距离——当作噪声丢弃掉。这对于回答问答题来说足够用，但对于操作机器人来说，丢失的恰恰是最关键的那部分信息。

另一条路子是在下游的机器人模型（通常称为VLA，视觉语言动作模型）里专门加入深度相机或三维点云信息，强行补回这些几何知识。但这种做法的代价很高：需要昂贵的三维传感器，数据采集成本很高，而且几何知识和语义知识是分开注入的，两者之间缺乏真正的融合。模型左手拿着语义地图，右手拿着几何地图，却没有一张统一的认知图。

正是在这个背景下，GEM提出了一个关键问题：能不能在最基础的预训练阶段，就把几何感知和语义理解融合在一起？

**二、深度图：让AI学会"用眼睛称重"**

在讲GEM的具体做法之前，先解释一下什么是"深度图"。普通的彩色照片，记录的是每个像素的颜色（红、绿、蓝三个通道）。而深度图，记录的是每个像素对应的真实距离——这个像素代表的物体表面，离相机有多远。把深度图用颜色可视化出来，近处的物体显示为暖色（红橙），远处的显示为冷色（蓝色），看起来就像一张"距离地图"。

深度图天然就携带了丰富的空间几何信息：物体的轮廓在哪里（颜色会有明显边界），哪个物体离相机更近（颜色更暖），物体表面是平面还是曲面（颜色是否均匀过渡）。人类的大脑其实天生就在做类似的事情——双眼略微不同的视角，让我们大脑形成立体视觉，感知物体的远近和形状。GEM的研究团队把这个原理转化成了一个训练任务：让AI学会从一张普通照片预测对应的深度图。

这个任务看似只是在学"画深度图"，但它对AI的视觉表征提出了很高的要求。要准确预测深度图，AI必须真正理解图像中的几何结构：桌子比盘子远多少，杯子的圆弧面在空间中怎么延伸，机械臂和目标物体之间的距离有多少厘米。这些信息原本被标准训练方式当作噪声丢掉了，但在学习预测深度图的过程中，必须保留并编码进模型的内部表示里。

研究团队用了一个形象的对比实验来验证这一点。他们把GEM的视觉特征和只用标准语义训练的模型（Qwen3-VL-SFT）的视觉特征，分别送进同一个深度生成器里。结果显示，标准训练的模型特征生成出来的深度图模糊、混乱，几乎看不出结构；而GEM的特征生成的深度图边界清晰、层次分明，能准确区分近处和远处的物体。这说明GEM的视觉特征确实在内部保留了更丰富的几何结构信息，而不只是语义标签。

**三、GEM的架构：一架双引擎的飞机**

GEM的整体结构，可以理解为给一台标准的AI视觉语言模型装上了一个"几何理解副引擎"。主引擎是一个自回归的视觉语言模型（VLM主干），负责处理图像和文字、回答各种问题。副引擎是一个基于扩散变换器（DiT，Diffusion Transformer）的深度生成头，专门负责从主引擎提取的视觉特征里生成深度图。

两个引擎之间，有一个轻量级的"连接器"——仅由两层神经网络（MLP）组成，负责把主引擎输出的视觉特征转换成副引擎能理解的格式，就像两台不同国家的机器之间的翻译适配器。

具体来说，当一张图像输入进来，主引擎的VLM会把图像编码成一组视觉特征向量。这组向量既要用来回答文字问题（通过标准的语言建模训练），又要通过连接器传给深度生成头，让生成头从中恢复出深度图。这个过程，就像让一个学生既要写一篇说明文描述这幅画，又要同时完成一张这幅画的素描速写——两个任务强迫学生以不同的维度去理解和记录同一幅图像。

深度图的生成，采用的是"流匹配"（flow matching）技术。这个技术的原理，可以用制作渐变色纸来理解：从一张随机的噪声图出发，通过一系列精细的步骤，逐渐把它"塑造"成一张精确的深度图。模型在训练过程中，学会在每一个中间步骤施加正确的"整形力量"，使随机噪声最终收敛成准确的深度信息。对应的损失函数，衡量的是模型预测的"整形方向"和真正正确方向之间的偏差。

这两条训练目标——语言建模损失和深度生成损失——被合并成一个总损失函数。深度生成损失的权重被设为0.1，也就是说，几何理解是语言理解的"辅助课程"，既不会喧宾夺主，又能持续施加压力，迫使视觉特征保留几何信息。

**四、循序渐进的训练：不能一口吃个胖子**

直接把主引擎和副引擎放在一起从头训练，在实践中往往会出问题。主引擎的视觉特征和副引擎期望的输入格式之间，存在一道"语言不通"的鸿沟，硬性连接在一起强行训练，会导致两侧互相干扰，模型难以稳定收敛。这就像两个来自不同星球的乐手，被强行拉到舞台上演奏同一首曲子，彼此听不懂对方的节拍，结果只是一片混乱。

研究团队设计了一套分三阶段的渐进式训练方案，循序渐进地让两个模块融合。

第一阶段称为"连接器初始化"。此时，主引擎和副引擎都处于冻结状态，只有中间的连接器在训练。连接器的任务是学会把主引擎输出的语义特征，初步映射到副引擎能识别的格式里。这一步只训练500步，相当短，目的是给连接器一个"会说两种语言"的基础能力。

第二阶段称为"生成头初始化"。主引擎继续冻结，连接器和深度生成头一起训练。副引擎在这一阶段，学会从主引擎传来的特征中生成有意义的深度图。这一步训练了4000步，目的是让生成头能够把高层次的语义特征转化为细粒度的几何结构特征，建立起初步的"语义到几何"的映射能力。

第三阶段称为"联合训练"。整个框架，包括主引擎、连接器和副引擎，全部解冻，一起参与端到端的优化。在前两个阶段的稳定初始化基础上，整体联合训练不会产生剧烈冲突，而是能够让主引擎的语义表征在深度生成任务的反馈下不断打磨，变得对几何结构更加敏感。这一阶段训练了完整的一轮数据（1 epoch），使用了清华和腾讯团队精心构建的大规模数据集。总损失由语言损失和0.1倍的深度生成损失相加得到。

**五、GEM-4M数据集：为AI配备三种不同的教材**

训练一个"既懂语言又懂空间"的AI，光有好的架构还不够，还需要对应的高质量数据。研究团队专门构建并开放了GEM-4M数据集，包含约400万条高质量的问答对，覆盖三大类任务。

第一大类是"具身定位数据"。这类数据的目标，是让模型学会在图像里找到特定物体的位置。数据来源包含多个开源数据集，并由研究团队在大型机器人操作数据集的基础上自动生成了约10万条额外的标注。具体做法是：取机器人操作视频的第一帧，用大语言模型识别出画面中所有前景物体，再用SAM3（一种最新的分割模型）为每个物体生成精确的分割掩码，最后从掩码中导出边界框和关键点标注。为了保证不同分辨率下的一致性，所有边界框和点坐标都被归一化到0到1000的范围内。整个定位数据集达到约100万条。

第二大类是"物理空间推理数据"。这类数据要让模型建立对三维物理世界的基础认知，比如距离估计、方向判断、物体大小和房间尺寸等。研究团队一方面整合了多个公开的空间推理数据集，另一方面从ScanNet、ScanNet++、ARKitScenes等三维场景数据集出发，自行构建了约10万条标注。构建过程是把三维场景的点云和标注信息解析成结构化数据，按照VSI-Bench的问答模板生成具体的问答对，覆盖了绝对距离、相对距离、物体尺寸、房间面积、相对方向等多个维度。加上从机器人任务数据集中整合的约100万条时空推理问答对，这一类数据共计超过100万条。

第三大类是"时空规划数据"。这类数据的目标，是让模型学会在给定当前场景的基础上，预测接下来应该做什么动作，以及具体的操作轨迹应该怎么走。研究团队从公开的机器人数据集中提取有子任务标注的视频片段，生成下一步预测、任务完成验证、初始动作预测等多种问答对，共约5万条。同时，针对轨迹预测，团队利用Qwen3语言模型从子任务描述中提取被操作物体，再用SAM3获取该物体的分割掩码，最后用CoTracker3进行轨迹追踪。追踪得到的原始轨迹经过三次样条插值平滑，并均匀采样六个关键点，作为可视化的轨迹标注，生成对应的轨迹预测问答对。

**六、从"大脑"到"手臂"：GEM-VLA的行动能力**

GEM本质上是一个视觉语言模型，擅长理解和推理，但它本身不会控制机器人。研究团队进一步把GEM扩展为一个完整的机器人控制模型——GEM-VLA（Vision-Language-Action Model）。

GEM-VLA的做法，是在GEM的基础上再接上一个"动作专家模块"，同样基于扩散变换器架构。这个动作专家不直接接收图像输入，而是从GEM主干的内部注意力块中提取关键值（Key-Value）特征，把这些多模态的语义几何特征作为条件，驱动扩散过程生成具体的连续动作序列。

形象地说，GEM就像一个思维清晰、空间感极强的操控者，而动作专家就是他的手。操控者把自己对当前场景的完整理解——包括物体的位置、几何形状、任务目标——以特征向量的形式传递给手，手据此生成精细的运动轨迹。这个过程同样基于流匹配，从带噪声的随机动作出发，逐步细化到精确的动作序列。

在VLA的训练阶段，GEM主干、深度生成头和动作专家三者同时参与联合优化，总损失由动作生成损失和0.1倍的深度生成损失组成。这意味着即使在执行机器人操作任务时，深度感知的能力也一直在持续发挥作用，保持模型的几何感知能力。

**七、实验结果：两个维度的全面领先**

研究团队在两个层面上验证了GEM的效果：一是纯理解能力（视觉语言推理），二是实际操作能力（机器人任务执行）。

在理解能力方面，研究团队测试了四个主流的空间推理基准。CV-Bench是一个综合性的视觉推理测试集；VSI-Bench专门考察三维场景的空间理解，包含绝对距离估计和相对距离估计两个子任务；MMSI-Bench关注多图像的空间智能；EmbSpatial-Bench则侧重于机器人具身场景下的空间理解。

GEM-8B（使用8亿参数规模的版本）在所有四个基准上均达到了当前开源模型的最高分。在最具挑战性的VSI-Bench上，8亿参数的GEM与它的基础模型Qwen3-VL-8B相比，整体分数从57.9提升到70.6，绝对距离估计从47.5提升到56.3，相对距离估计从58.2提升到72.3，提升幅度约10个百分点。在MMSI-Bench上，分数从27.7提升到35.3。相比同等规模下的专用空间专家模型，GEM也全面超越，包括CambrainS-7B（VSI整体分67.5对GEM的70.6）、SenseNova-SI-8B（MMSI分43.3对GEM的35.3，但在其他任务GEM有优势）。

值得特别提出的是，与只用相同数据做监督微调但不加深度生成监督的对照模型（Qwen3-VL-SFT）相比，GEM在距离相关问题上的提升尤为显著。这直接证明了几何感知能力的提升并非来自更多的数据，而是来自深度生成这一训练信号。

在空间定位方面，研究团队还测试了RefSpatial、Where2Place、RoboSpatial三个专注于物体放置和指代定位的基准。GEM-8B在这些任务上同样超越了所有开源专用模型，并且比谷歌的闭源大模型Gemini-3-Pro平均高出约10个百分点。

在机器人操作能力方面，研究团队使用了广泛认可的LIBERO仿真基准，包含四个任务套件：Spatial（空间类）、Object（物体类）、Goal（目标类）和Long（长时序类），每个套件含10个不同任务，每个任务评测50次。GEM-VLA在四个套件上的平均成功率达到96.1%，超过了所有基线模型，包括π0（94.2%）、DepthVLA（94.9%）、DreamVLA（92.6%）以及各类空间增强型VLA模型。其中Spatial任务成功率99.0%，Object任务98.8%，Goal任务97.1%，Long任务89.3%。

此外，研究团队还在SimplerEnv仿真环境的WidowX机器人平台上进行了额外测试，覆盖放胡萝卜到盘子、把茄子放进篮子、把勺子放到毛巾上、叠方块四个任务，平均成功率67.0%，同样超过所有基线模型。

**八、真实世界：机器人能折衣服和拉拉链**

理论上的仿真成绩固然亮眼，但最终检验还是要回到真实世界。研究团队在UR5机械臂平台上部署了GEM-VLA，挑战了三类在机器人领域公认很有难度的任务，并与π0-FAST和π0.5两个强基线进行了对比。

第一类任务是折叠衣物。这需要机器人准确感知软布料的形状和位置——布料会变形，没有固定轮廓，在深度信息上极具挑战性。折叠衣物分为三个子步骤：折左袖、折右袖、向上折叠衣摆。GEM-VLA的整体成功率为40%，明显高于π0.5的33%和π0-FAST的28%。左袖折叠子任务成功率65%对π0-FAST的45%，提升幅度显著。

第二类任务是拉开一个背包的拉链。这需要机器人精确定位小型的拉链头，判断其运动方向，并施加适当的力。GEM-VLA成功率35%，相比π0-FAST的8%有大幅提升。

第三类任务是长时序的"收拾桌面"任务：依次把叉子、刀、勺子、盘子、高脚杯摆放到指定位置，共五个子步骤。这类任务对长程规划和空间一致性要求极高，用"进度分数"（平均完成子任务比例）来衡量。GEM-VLA的进度分数为0.54，对比π0.5的0.39和π0-FAST的0.31，领先优势明显。

把三类任务的总体成功率综合来看，GEM-VLA达到43%，π0.5为28.7%，π0-FAST为22.3%，提升幅度超过50%。

研究团队还专门做了一个消融实验：在VLA微调阶段关闭深度生成头（冻结深度头，只训练VLM主干和动作专家），把这个版本称为"GEM-VLA w/o D-sup."。结果显示，去掉深度生成监督后，几乎所有任务的成功率都有所下降，例如整体成功率从43%降至40.7%。这说明深度生成监督不仅在预训练阶段有用，在机器人微调阶段继续保持也能提供额外的几何感知增益。

**九、深度图为什么比彩色图更好用？**

研究团队还做了一组关键的消融对比实验，专门回答这样一个疑问：既然目标是让AI学习图像的几何结构，为什么不让它重建原始彩色图像（RGB重建），而一定要用深度图？

实验结果给出了清晰的答案。在相同的数据（VSI-590K）和超参数下，使用RGB重建作为辅助训练任务的模型，在VSI-Bench的绝对距离估计上得分47.5，相对距离估计62.8，RoboSpatial总分44.6；而使用深度图生成的GEM，同样指标分别为47.8、65.2和48.9，整体均优于RGB重建版本，尤其是在相对距离估计和RoboSpatial上有明显差距。

原因是可以理解的：彩色图像包含大量和几何无关的信息，比如纹理、颜色、光照。让模型重建彩色图，相当于让它记住每一片纹理细节，但这些细节对于判断距离和形状几乎没有帮助。相比之下，深度图剥离了所有颜色信息，直接编码了空间距离关系，是更纯粹的几何"教材"。

**十、渐进式训练的必要性**

同样值得提出的，是研究团队关于分阶段训练策略的消融验证。他们对比了"直接端到端联合训练"和"三阶段渐进训练"这两种方案。结果显示，直接端到端训练的CVBench得分79.7、VSI整体分57.6、RoboSpatial分44.0，全面低于渐进式训练的81.1、63.0、48.9。

这个差异背后的逻辑，在于两个模块之间的特征空间存在天然的不匹配。主引擎的视觉特征是在大量语言对齐数据上学出来的，其格式和尺度并不适合直接喂给副引擎；副引擎也没有经过专门适配，无法从主引擎的原始输出中提取有意义的几何信息。直接联合训练，会让连接器在两侧都不稳定的情况下试图弥合差距，结果是梯度信号互相干扰，模型难以收敛到好的状态。渐进式训练通过分阶段固定各部分，让连接器和生成头依次建立起稳定的基础，最终联合优化才能顺利进行。

说到底，GEM这项研究的意义不只是提高了几个基准分数。它提供了一种全新的思路：在给AI视觉语言模型"上课"的过程中，除了标准的阅读理解练习，加入一道"画素描"的课程，会让模型对三维世界的理解从根本上发生质变。这个道理，和我们从小被告知要多动手实验、不能只背课本，异曲同工。

对于未来的机器人来说，这意味着它们不再只是一个能说会道的语言助手，而真正开始拥有在物理世界里稳健行动所需的空间直觉。当然，研究团队也坦诚地指出，GEM目前还没有在大规模机器人数据上做预训练，模型规模也还有扩展空间，这些都是下一步计划推进的方向。感兴趣的读者可以通过arXiv:2605.28548获取完整论文和代码资源。

---

Q&A

Q1：GEM模型为什么要把深度图生成加入到视觉语言模型的训练里？

A：因为标准的视觉语言模型训练只关注语义信息（图里有什么），会丢掉几何信息（物体有多远、形状怎样）。深度图直接记录了每个像素对应的空间距离，让模型在学习"说话"的同时，也被迫保留几何细节。这种联合训练让模型的视觉特征同时具备语义和几何两种维度的理解能力，对机器人操作任务至关重要。

Q2：GEM-VLA在真实世界机器人任务上成功率有多高？

A：在折叠衣物任务中GEM-VLA整体成功率40%，远超对比模型的28%左右；拉背包拉链任务成功率35%，对比最强基线π0-FAST的8%有大幅提升；综合三类任务的整体成功率为43%，对比π0.5的28.7%和π0-FAST的22.3%，提升显著。

Q3：GEM在仿真机器人基准LIBERO上表现怎么样？

A：GEM-VLA在LIBERO基准的四个任务套件（Spatial、Object、Goal、Long）上，平均成功率达到96.1%，超过了所有现有基线模型，包括π0的94.2%和DepthVLA的94.9%，创下了该基准的当前最高纪录。

具身智能深度估计视觉语言动作模型

分享至