微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙大联合腾讯让AI"看懂"三维世界：一个模型同时能"描述画面"又能"测量距离"

视觉语言模型度量深度估计统一基础模型

浙大联合腾讯让AI"看懂"三维世界：一个模型同时能"描述画面"又能"测量距离"

作者：科技行者

2026-05-22 15:34

分享至：

浙大联合腾讯提出DepthVLM，通过轻量级深度预测头与两阶段训练，让视觉语言模型在不损失问答能力的前提下实现精确的像素级度量深度估计。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-22 15:34 • 科技行者

这项由浙江大学、腾讯混元大模型团队、香港科技大学及深圳湾区研究院联合完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.15876，有兴趣深入了解的读者可通过该编号查询完整论文。

当你拿起手机拍下一张客厅照片，现在的AI助手能流畅地告诉你"照片左边有一张棕色的木质沙发，右边是一台黑色电视机"——这种对画面内容的描述，正是当前视觉语言大模型最拿手的本事。然而，如果你接着问它"这张沙发离我有多远"，绝大多数AI会给出一个不靠谱的答案，甚至比你随口猜测的结果还要糟糕。这不是因为AI不够聪明，而是因为它从未被训练过真正"感知"空间深度——它的眼睛只是在看颜色和形状，从没学会判断远近。

这个看似简单的问题，背后却牵涉着机器人、自动驾驶、增强现实等一系列前沿技术的核心痛点。这项联合研究正是为了打破这道隔阂，提出了一个叫做**DepthVLM**的框架，试图让一个视觉语言模型同时具备两种能力：既能像现在的AI一样流畅地回答关于图片内容的问题，也能像专业测量仪器一样，精确给出画面中每一个像素点距离相机的实际距离，单位是真实的米。

用一个更贴近生活的比方来说：以前的AI像是一个博学的导游，能滔滔不绝地介绍博物馆里每件展品的历史背景，但要是问他"那件文物放在展柜的第几层、离你有多远"，他只能大概估摸。这项研究要做的，就是在导游的基础上，额外给他配备一把精准的激光测距仪，而且这把测距仪几乎不占他背包的空间，也不影响他讲解的流畅度。

---

一、AI的"空间盲区"：为什么聪明的它连"远近"都搞不清

要理解这项研究解决了什么问题，不妨先弄清楚现有AI为何在空间感知上如此薄弱。

目前主流的视觉语言模型，在设计之初就被定位成一个"输入图片和文字、输出文字"的系统。图片被送进去后，经过一个图像编码器的处理，变成一堆抽象的数字符号，然后和文字一起交给语言模型，最终以文字的形式输出答案。整个系统的训练目标只有一个：让输出的文字尽可能正确。这就意味着，模型在学习过程中从来没有机会接触到"这个像素点对应的真实距离是多少米"这类信息，自然也就无从建立起对空间深度的感知。

研究团队做了一项很有说服力的测试：即便是最先进的GPT-5.5，在他们设计的标准测试中，平均正确率也只有大约40%。换句话说，这个已经能写诗、做数学题、分析合同的超级AI，在判断照片中某个点的距离时，表现只比随机瞎猜好一点点。而Qwen3-VL-32B这个参数规模达到320亿的大模型，平均正确率甚至只有21%，还不如一个"永远回答2米"的愚笨程序——后者通过蒙对室内近景，能拿到15.7%的正确率。

另一方面，确实存在一些专门做深度估计的"纯视觉模型"，比如DepthAnythingV3、UniDepthV2、Metric3Dv2等。这些模型被单独训练来测量距离，表现相当出色。但它们有一个致命缺陷：它们只会测距，不会说话，无法回答"这把椅子是什么颜色"或"图中有几个人"这类问题。就像一把非常精准的卷尺，你只能用它量距离，不能用它聊天。

在研究者看来，理想的状态应该是两者合一：一个系统既能测距，又能对话，还能结合距离信息来回答更复杂的空间问题，比如"画面里最近的障碍物是什么，它离我有多近"。

---

二、"加装测距仪"：DepthVLM究竟是怎么工作的

为了实现这个目标，研究团队选择了一条务实而优雅的路线：不推倒重建，而是在现有的视觉语言模型上"加装一个测距模块"。

现有的视觉语言模型架构可以拆解成三个部分。第一部分是图像编码器，它的工作是把一张照片分析成一系列有意义的特征，类似于人眼把看到的画面传递给大脑时的初步处理。这个编码器是一种叫做"视觉变换器（ViT）"的网络，它会对图像进行多层次的分析，浅层捕捉边缘、颜色、纹理等低级细节，深层则逐渐理解物体的语义含义。第二部分是投影器，它的功能是把图像特征转换成语言模型能理解的格式。第三部分就是语言模型本身，接收图像特征和用户文字输入，生成文字回答。

研究团队的核心创新，是在这个架构旁边悄悄接上了一个轻量级的"深度预测头"。这个模块的参数量只有3400万，还不到整个4B（40亿参数）语言模型的1%，就像给一辆大型货车加装了一个小巧的GPS天线，几乎不增加额外重量。

这个深度预测头的工作方式设计得相当巧妙。它不仅仅从图像编码器的最后一层提取信息，而是同时"窃听"图像编码器的多个中间层，以及语言模型处理完图像后的最终状态。具体来说，模型会从图像编码器的第5、第11、第17层（以4B模型为例）各取一份特征，再加上语言模型对图像理解后的最终特征，共四份不同深度的信息。

为什么要这样做呢？这就像是一个经验丰富的建筑师评估一栋建筑：他既要看表面的材质纹理（对应浅层图像特征），也要理解结构的功能布局（对应深层语义特征），还要结合建筑在整体环境中的语境（对应语言模型的理解结果）。把这几个维度的信息融合在一起，才能给出最准确的判断。

四份特征经过一种叫做"DPT风格"的融合机制处理——这个机制的名字来源于一篇经典的密集预测论文。简单来说，就是把这四份特征在不同的空间分辨率下叠加融合，浅层特征保持较高的空间精度（对应图像细节），深层特征虽然精度较低但语义更丰富，最终合并成一张覆盖输入图像每个像素的深度图，每个像素的数值就是该点到相机的实际米数距离。整个过程在一次前向传播（也就是模型处理一次输入的完整运算）中完成，不需要任何后处理步骤。

与此同时，原来的语言模型输出通道完全不受影响，它照常生成文字回答。所以这个系统的最终输出有两条并行的流水线：一张完整的深度图，加上一段文字回应。

---

三、"两步走"训练法：如何让新能力不破坏旧本领

仅仅在架构上加一个模块还不够，训练策略同样关键。研究团队发现，如果直接把新加的深度预测头和整个模型一起训练，随机初始化的深度头会产生混乱的梯度信号，像一个初学者在专家团队里乱出主意，反而会干扰语言模型原本积累的理解能力。

为此，他们设计了一个两阶段的训练流程。第一阶段，先把整个语言模型"冻结"起来，只允许新加的深度预测头自己单独学习。这就像是新员工入职时，先在一边独立完成自己的培训任务，不打扰正在工作的老员工。在这个阶段，模型使用大量有真实深度标注的图像，让深度头学会基本的测距能力。训练所用的损失函数叫做"尺度不变对数损失（SILog）"，这个名字听起来复杂，但道理很简单：它不要求模型在每一个绝对数值上都完全精确，而是更看重相对关系的正确性，同时又保留对真实尺度的约束，避免模型在不同数据集之间产生系统性的偏差。

第二阶段，解除对语言模型的"冻结"，允许整个系统端对端地联合调整。这时的训练数据是深度估计数据和通用视觉问答数据的混合，两者的学习目标同时起作用。深度估计的损失保证几何感知能力持续提升，视觉问答的损失保证语言理解能力不退化。值得注意的是，在第二阶段，图像编码器（ViT）依然保持冻结状态，只有语言模型和深度头共同训练。研究团队也测试过解冻图像编码器的效果，结果发现深度精度虽然有微小提升，但通用多模态能力会明显下降——得不偿失，所以最终选择了冻结图像编码器的方案。

这种精心设计的训练策略效果相当显著。以4B版本模型为例，在MMBench-EN（一个考察综合视觉问答能力的标准测试）上，训练后的模型得分从原始的83.4分只降到了82.9分，降幅不到1%；在OCRBench（考察文字识别能力的测试）上，得分反而从817提升到了832；在POPE（考察模型是否会产生幻觉的测试）上，也从89.8微升到89.9。换句话说，加装了测距能力之后，这个模型在原来的问答任务上几乎没有任何退步，某些方面甚至还有所进步。

相比之下，此前一个叫DepthLM的工作采用了截然不同的思路——它把深度估计变成了一个纯文字任务，要求模型用文字数字来回答每个像素的深度值。这种做法让模型养成了"无论问什么都先输出一个深度数字"的习惯，完全无法再用于正常的视觉问答，在标准测试中直接崩溃，无法兼容评测协议。

---

四、消除"相机歧义"：为什么不同相机拍的同一场景需要特殊处理

把来自不同数据集的深度数据混合在一起训练，还有一个容易被忽视但非常棘手的问题：不同相机有不同的焦距。

焦距这个概念，可以用望远镜的倍数来类比。用10倍望远镜看，100米外的树木看起来像是只有10米远；换回普通镜头，同样的树木就看起来像100米外。如果把用广角镜头（短焦距）拍摄的照片和用长焦镜头（长焦距）拍摄的照片混在一起训练，模型就会面对这样的矛盾：两张看起来"景物大小差不多"的照片，标注的实际距离却可能相差好几倍，导致模型完全不知道该相信哪个。

研究团队的解决方案是"焦距归一化"：在把图像送入模型之前，先根据每张图片的真实焦距，把它缩放到一个统一的虚拟焦距（实验中选定为1000mm，效果最好）。这就像把所有人的照片都在同样的距离、用同样的镜头重新拍一遍，然后再做比较。图像缩放的同时，对应的深度标注也做同比例的调整，保证物理意义上的一致性。

研究团队测试了三个不同的目标焦距：800、1000、1200。结果显示，焦距过小（800）会导致图像被压缩得太小，损失细节；焦距过大（1200）则在插值放大时引入模糊。1000是个甜蜜点，在所有测试数据集上都取得了最佳平均表现。与完全不做焦距归一化的对照组相比，做了归一化之后，在Waymo数据集上正确率从80.2%提升到87.9%，在IBims-1数据集上从63.0%提升到91.2%，提升幅度相当显著。

---

五、训练数据与评测标准：建立一把公平的"量尺"

除了方法本身，这项研究还做了另一件有价值的工作：建立了一个标准化的训练和评测基准，叫做**DepthVLM-Bench**。

在数据准备方面，研究团队整合了8个公开数据集，室内场景包括ScanNet++、Taskonomy、HM3D、Matterport3D，室外（主要是自动驾驶场景）包括Argoverse2、Waymo、DDAD、NuScenes。由于很多数据来自视频，相邻帧之间几乎完全一样，他们对每个数据集进行均匀采样来去除重复。绝大多数数据集各贡献约80万张图像，规模较小的DDAD和Matterport3D则按原始规模纳入，总量约440万张图像。相比之下，DepthAnythingV3等纯视觉模型往往需要超过20个数据集加上大量合成数据才能达到类似效果，DepthVLM仅用少了一个数量级的数据就取得了相当甚至更好的成绩。

在评测方面，研究团队从9个数据集中各采样约1000张图像作为测试集，这9个数据集与训练集完全不重叠，涵盖4个室内场景数据集（ScanNet++、sunRGBD、IBims-1、NYUv2）、4个室外数据集（Argoverse2、Waymo、DDAD、NuScenes），以及1个室内外兼有的ETH3D。评测指标采用δ?准确率，即预测深度与真实深度之比落在0.8到1.25之间的像素占比——简单说，就是误差在25%以内的像素比例。这个指标既不苛求绝对精确，又有实际意义，非常适合跨场景的综合比较。

为了公平比较那些本来没有被训练做深度估计的通用视觉语言模型，研究团队设计了一套标准化的提示方法：在图片上用红色箭头标出要查询的像素位置，然后问模型"这个箭头指向的点距相机的实际距离是多少米，只回答数字"。由于测试发现5像素的小箭头太不起眼，很多模型回答"图中没有箭头"，最终统一使用20像素的大箭头，确保评测考察的是深度理解能力而非标记检测能力。

---

六、实验结果：数字背后的实际意义

在与其他视觉语言模型的比较中，DepthVLM-4B（40亿参数版本）取得了平均δ?准确率0.868的成绩，DepthVLM-8B（80亿参数版本）进一步达到0.876。作为对比参考，最强的通用视觉语言模型GPT-5.5仅有0.407，Qwen3-VL-32B只有0.210，而此前专门做深度估计的视觉语言模型DepthLM-12B（参数规模是DepthVLM-4B的三倍）达到0.730，Youtu-VL-4B达到0.603。

与专业的纯视觉深度估计模型相比，DepthVLM同样表现出色。在5个公开测试集（Waymo、NuScenes、ETH3D、sunRGBD、IBims-1）的综合均值上，DepthVLM-4B达到0.884，DepthVLM-8B达到0.890，而最强的纯视觉竞争者DepthAnythingV3为0.877，UniDepthV2为0.823，Metric3Dv2为0.812。换句话说，这个"顺便会测距"的多功能模型，在深度估计这件专项任务上，已经超过了绝大多数"只会测距"的专业工具。

在推理速度上，差异更为悬殊。对于一张256×192像素的图片，DepthLM需要对每个像素单独查询一次，总共需要约13个小时；Youtu-VL通过预测稀疏的补丁网格然后插值放大，耗时2.48秒；而DepthVLM在一次完整的前向传播中直接输出像素级深度图，耗时仅0.42秒，是Youtu-VL的六分之一，比DepthLM快了几万倍。

研究团队还测试了模型在更高层次空间推理任务上的能力。他们设计了四类任务：判断图中某点的精确深度距离、计算图中两个物体之间的最短距离、排列多个物体的远近顺序、估计某个物体的三维尺寸（长宽高）。结果显示，DepthVLM在这些任务上的表现均明显优于GPT-5.5。以其中一个例子为例：一辆路面上的车辆与右侧黄色绕行标志之间的距离，真实值为4.3米，GPT-5.5回答11.2米，DepthVLM回答4.5米。这说明获得了真实空间感知能力的模型，在需要结合视觉和空间逻辑的推理问题上，能给出更接近现实的答案。

---

七、消融实验：每个设计选择为何重要

研究团队通过系统性的消融实验，逐一验证了每个设计决策的必要性。

关于深度预测头的结构选择，他们比较了四种方案。最简单的两层全连接网络（MLP）不使用多尺度特征，平均δ?只有0.5左右；加上多尺度特征后提升到0.72-0.81的范围；用原始DPT头（会对语言模型的图像特征做降采样）能达到0.85-0.89；而他们设计的轻量化DPT头（保留原分辨率、通过上采样构建由浅到深的特征金字塔）在所有测试集上都取得最佳成绩，证明针对视觉语言模型特征结构的专门设计是有价值的。

关于特征来源的选择，他们比较了"只用图像编码器的多层特征"、"只用语言模型的多层特征（单阶段训练）"、"只用语言模型的多层特征（双阶段训练）"和"图像编码器多层特征加语言模型最终特征（双阶段训练）"四种组合。最后这种组合在所有数据集上都表现最好，说明图像编码器的细粒度几何特征与语言模型对图文整体理解的上下文特征是互补的，缺少任何一方都会影响最终精度。

---

说到底，DepthVLM这项研究用一个相当简洁的思路，解决了一个长期以来被认为需要复杂系统才能处理的问题：让一个视觉语言模型真正"看懂"空间。它的核心贡献并不是发明了什么前所未有的算法，而是找到了一条代价极低、效果出众的路径——用不到1%的额外参数，通过两阶段的精心训练，把深度感知这个全新能力嫁接到现有语言模型身上，而且几乎没有破坏原有的问答能力。

对于普通用户来说，这项研究描绘的技术方向意味着：未来的AI助手或许真的能在你问"沙发有多远"时给出精确的回答，也能在"帮我看看这条路上最近的障碍物在哪"的问题上给出有实际参考价值的空间描述。对于自动驾驶、机器人导航、增强现实等领域来说，一个能同时理解语义和几何的统一模型，将会比目前需要多个模块协作的系统更加简洁和鲁棒。

当然，研究团队也坦诚地指出，这项工作目前仅聚焦于单张图片的密集深度估计，还没有扩展到三维目标检测、位姿估计等更广泛的感知任务，这些方向是未来工作的自然延伸。完整的代码和模型权重将会公开发布，感兴趣的技术读者可以通过arXiv论文编号2605.15876查询原始论文和相关资源。

---

Q&A

Q1：DepthVLM和普通的深度估计模型有什么区别？

A：普通深度估计模型（比如DepthAnything系列）只能输出一张深度图，不能回答自然语言问题。DepthVLM在此基础上保留了完整的视觉问答能力，能同时输出深度图和文字回应，相当于把"测距仪"和"智能助手"合并成了一个系统，而且深度估计精度并不比专业工具差。

Q2：DepthVLM训练需要多少数据和算力？

A：训练集包含来自8个公开数据集的约440万张图像，在80张NVIDIA H20 GPU上，8B版本训练约4天，4B版本约2天。相比同类纯视觉模型动辄需要20多个数据集加大量合成数据，这个规模已经相当精简。

Q3：DepthVLM加入深度预测能力后原来的问答能力会变差吗？

A：几乎不会。在多个标准视觉问答测试上，DepthVLM与原始基础模型的差距不超过0.5个百分点，在文字识别（OCRBench）和幻觉评估（POPE）上甚至有小幅提升。相比之下，此前的DepthLM因为训练方式过于侧重深度任务，导致模型完全无法完成正常的视觉问答，在标准测试中直接失效。

视觉语言模型度量深度估计统一基础模型

分享至