微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 深度无限融合:浙江大学和香港大学联合打造的「Prior Depth Anything」,让你的相机看得更深更远

深度无限融合:浙江大学和香港大学联合打造的「Prior Depth Anything」,让你的相机看得更深更远

2025-05-16 17:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-16 17:04 Hugging Face

浙江大学和香港大学的研究团队最近联合发布了一项突破性研究——"Prior Depth Anything"(深度无限融合)。这项研究由浙江大学的王泽寒、陈思宇、王佳蕾、张子昂、赵周和香港大学的杨理贺、赵恒爽共同完成,并于2025年5月发表在arXiv预印本平台(arXiv:2505.10565v1),研究者还提供了项目网站 https://prior-depth-anything.github.io/ 供读者进一步了解。

想象一下,当你用手机拍照时,相机能不仅看到物体的色彩和形状,还能精确测量它们的距离和深度。这就是深度测量技术的魅力所在。在计算机视觉和机器人技术中,获取高质量的深度信息至关重要,它能帮助自动驾驶汽车避开障碍物,让AR/VR设备更好地理解空间,甚至帮助机器人精确地抓取物体。

但是,目前获取深度信息的方法面临两难困境,就像一个有趣的"鱼和熊掌不可兼得"的故事:

一方面,我们有各种深度测量设备(如激光雷达或专业深度相机),它们能提供精确的测量结果,但测量数据往往不完整,就像拿到了一张残缺不全的地图,有些区域非常精确,但大部分区域是空白的。

另一方面,人工智能深度预测模型(如Depth Anything)可以从普通照片预测完整的深度图,就像一位艺术家能够凭想象力画出完整的风景,但缺乏绝对精确的测量数据,好比画得再美也无法告诉你确切的距离。

"Prior Depth Anything"的核心创新就是巧妙地将这两种互补的信息源融合在一起,就像将科学家的精确测量与艺术家的全景想象相结合。这样,我们就能得到既完整又精确的深度地图,就像拥有了一张既全面又精确的地形图,让计算机和机器人能更好地"看懂"世界。

这项研究的难点在于,现实生活中的深度测量数据可能以多种形式出现,比如激光雷达的稀疏点云、低分辨率的深度图、带有大面积缺失的深度图,甚至这些情况混合在一起。以往的方法通常只针对其中一种情况设计,缺乏通用性。而"Prior Depth Anything"能处理任何类型的深度先验,就像一把能开各种锁的万能钥匙,使其在实际应用中更加灵活实用。

让我们一起深入了解这项研究的细节,看看研究团队是如何解决这个棘手问题的。

一、研究背景:为什么我们需要更好的深度估计技术?

想象你正在玩一个虚拟现实游戏,你在虚拟世界中移动,但系统无法精确知道周围物体的距离,结果导致你"穿墙而过"或无法抓取物品。或者想象一辆自动驾驶汽车,如果它无法准确判断前方行人的距离,后果可能是灾难性的。这些都是深度估计技术不完善带来的问题。

在我们的物理世界中,深度信息无处不在,它告诉我们物体相对于我们的远近。人类通过双眼和大脑的协作能轻松感知深度,但对计算机来说,从单一图像中获取深度信息却是一项挑战。目前,获取深度信息主要有两种方式:

第一种是通过专门的设备进行深度测量。比如结构光相机(如iPhone的Face ID系统)、ToF(飞行时间)相机或激光雷达,它们发射光线并测量返回时间来计算距离。还有SfM(Structure from Motion,从运动恢复结构)技术,它通过分析多张照片中物体的位置变化来估计深度。这些方法提供的是精确的测量结果,但往往是不完整的,就像医生手里有精确的血压计,但只能测量身体的某个部位。

另一种是通过人工智能模型从单张RGB图像预测深度,这类被称为单目深度估计(Monocular Depth Estimation,简称MDE)的方法近年来取得了长足进步。特别是像"Depth Anything"这样的模型,它们能为任何图像生成完整的深度图,包含丰富的几何结构和细节。但这种预测方法提供的是相对深度,而非绝对的测量值,就像艺术家画出的透视图——虽然能给人深度感,但无法告诉你确切的距离。

研究者们注意到,这两种方法是互补的:一方提供精确但不完整的测量值,另一方提供完整但相对的深度预测。如果能将它们结合起来,就能获得"鱼和熊掌兼得"的效果——既精确又完整的深度图。

这正是"Prior Depth Anything"试图解决的问题。它将各种形式的深度测量数据(称为"先验")与深度预测模型结合,生成高质量的完整深度地图。研究者将深度先验归纳为四种主要类型:

1. 稀疏点(深度补全):例如来自激光雷达或SfM的深度点云,这些点非常精确但极为稀疏,需要进行深度补全。

2. 低分辨率(深度超分辨率):例如低功耗ToF相机捕获的低分辨率深度图,需要进行超分辨率处理。

3. 缺失区域(深度修复):例如立体匹配失败或3D高斯编辑留下的空洞区域,需要进行深度修复。

4. 混合先验:现实中,上述情况经常混合出现,如结构光相机可能同时产生低分辨率和不完整的深度图。

相比现有方法(如只专注于深度补全的Marigold-DC、只针对深度超分辨率的PromptDA或只关注深度修复的DepthLab),"Prior Depth Anything"设计了一个通用框架,能处理任何类型的深度先验,大大提高了其实用性。

二、技术原理:从粗到细的深度融合魔法

"Prior Depth Anything"采用了一种由粗到细的渐进式融合策略,就像一位熟练的艺术修复师先勾勒出画作的大致轮廓,再逐步添加细节,最终恢复出完整精美的作品。这个过程分为两个主要阶段:粗略度量对齐和精细结构优化。

粗略度量对齐:搭建深度地图的骨架

想象你手里有一张残缺的地图(深度先验)和一张完整但比例不准确的地图(深度预测)。粗略度量对齐就是通过对比两张地图的重叠部分,找出正确的比例关系,然后用这个比例关系来填补残缺地图的空白区域。

具体来说,研究团队首先使用一个冻结的MDE模型(如Depth Anything V2)从输入图像生成相对深度预测。然后,他们采用像素级度量对齐方法,将深度预测与深度先验融合。

对于每个缺失的像素点,他们找出k个最近的有效点(k-近邻法),计算出最佳的缩放和偏移参数,使得这些有效点的预测深度值与实际测量值之间的误差最小化。然后,使用计算得到的参数将预测深度值映射到度量空间,填补缺失区域。

但这种简单的方法存在两个问题:一是相邻像素可能选择不同的支持点,导致深度值突变;二是支持点的权重相同,忽略了几何相关性。为解决这些问题,研究者引入了距离感知加权机制,根据支持点到查询点的距离进行加权,让更近的点具有更大的影响力。

通过这种显式结合深度预测中的几何结构和深度先验中的度量信息,研究团队生成了填充完整的粗略深度图。这一步不仅缩小了不同先验类型之间的域差距,提高了在不同场景下的泛化能力,还保留了深度预测中的精细几何结构,显著提升了先验信息有限时的性能。

精细结构优化:雕琢深度细节

尽管粗略对齐后的深度图已经相当准确,但由于深度先验中的固有噪声,仍可能存在误差。想象一个建筑师根据粗略的草图建造房屋,他需要进一步精细调整以确保每一个细节都符合要求。

为了解决这个问题,研究团队设计了一个条件化的MDE模型来优化粗略深度图。这个模型将原始RGB图像、填充的深度先验和深度预测作为输入,通过学习从RGB图像中捕获的精确几何结构来纠正深度先验中的噪声和错误。

具体来说,他们在MDE模型中添加了两个条件卷积层,分别用于处理度量条件(填充的深度先验)和几何条件(深度预测)。为了提高场景和模型的泛化能力,他们将度量条件和几何条件都归一化到[0,1]范围内。这种归一化消除了不同场景(如室内vs室外)之间的深度尺度差异,并使模型能够适应来自不同冻结MDE模型的预测。

在训练过程中,研究团队使用了合成数据集Hypersim和vKITTI,因为这些数据集提供了精确的地面真值深度图。他们随机采样稀疏点、创建方形缺失区域或应用下采样来构建不同的合成先验。为了模拟真实世界的测量噪声,他们还添加了离群点和边界噪声来扰动采样的先验。

通过这种粗到细的融合策略,"Prior Depth Anything"能有效融合深度测量的精确度量信息和深度预测的完整几何结构,生成既精确又详细的度量深度图。

三、实验验证:多种深度场景的全能选手

为了验证"Prior Depth Anything"的性能,研究团队在7个未见过的真实世界数据集上进行了广泛测试,包括室内场景(NYUv2和ScanNet)、室内/室外场景(ETH3D和DIODE)、室外场景(KITTI)以及提供捕获的低分辨率深度图的ARKitScenes和RGB-D-D。他们构建了9种不同的先验模式:稀疏点(SfM、LiDAR、极端稀疏)、低分辨率(捕获、×8、×16)和缺失区域(范围、形状、对象),并将这些模式混合以模拟更复杂的场景。

在混合深度先验的实验中,"Prior Depth Anything"展现出了卓越的性能。与之前的方法相比,它不仅在绝对性能上表现更好,更重要的是,当添加额外的先验模式时,性能下降很小。例如,与只使用稀疏点的设置相比,添加缺失区域或低分辨率后,性能仅略有下降(NYUv2上从1.96%增加到2.01%和3.08%)。相比之下,Omni-DC(从2.63%增加到2.86%和3.81%)和Marigold-DC(从2.13%增加到2.26%和3.82%)显示出更大的性能下降。这凸显了该方法对不同先验输入的鲁棒性。

在深度补全任务中,尽管Omni-DC和Marigold-DC是专为深度补全设计的,并依赖于复杂的、耗时的结构,但"Prior Depth Anything"凭借更简单、更高效的设计实现了更好的整体性能。

在深度超分辨率任务中,对于通过下采样创建的低分辨率地图,该方法达到了与最先进方法相当的性能。而在更具代表性和实用性的ARKitScenes和RGB-D-D基准测试上,该方法取得了领先的性能。

在深度修复任务中,特别是在实用且具有挑战性的"范围"设置中,该方法取得了优异的结果,这对于改善具有有限有效工作范围的深度传感器具有重要意义。此外,它在填充方形和对象掩码方面优于所有替代方案,展示了其在3D内容生成和编辑中的潜力。

定性分析显示,相比于之前的方法,"Prior Depth Anything"生成的深度图具有更丰富的细节、更清晰的边界和更准确的度量。研究者还观察到,该方法的错误主要出现在真实数据"地面真值"的模糊边缘处。实际上,该方法能够有效纠正标签中的噪声,同时与先验中的度量信息保持一致,这些"超越地面真值"的案例突显了该方法解决深度测量技术固有噪声的潜力。

四、进一步探索:灵活的测试时改进与实际应用

"Prior Depth Anything"的一个重要特性是其测试时改进能力。研究表明,使用更大、更强大的冻结MDE模型会持续带来更高的准确性,而较小的模型则保持竞争力并提高整个pipeline的效率。这一发现凸显了该模型的灵活性和适应不同场景的能力。

在推理效率分析中,与之前的方法相比,"Prior Depth Anything"的不同变体在参数数量和推理延迟方面表现出一定优势。粗略度量对齐阶段,依赖于k-NN和最小二乘法,占据了大部分推理延迟。但与复杂的Omni-DC和基于扩散的DepthLab和Marigold-DC相比,它仍然展示出显著的效率优势。

为了展示该模型的实际应用潜力,研究团队将基于先验的单目深度估计模型应用于优化VGGT(一种最先进的3D重建基础模型)的深度预测。他们取置信度最高的30%像素作为深度先验,应用不同的基于先验的模型获得更精细的深度预测。结果表明,只有"Prior Depth Anything"能一致地改善VGGT的预测,主要归功于其适应各种先验的能力。这些令人惊讶的结果突显了"PriorDA"广泛的应用潜力。

五、局限与未来方向:迈向更强大的深度感知

尽管"Prior Depth Anything"取得了显著成就,但研究团队也指出了一些限制和未来工作方向。目前,他们最大的条件MDE模型是基于Depth Anything v2 ViT-B初始化的。考虑到Depth Anything v2的更大版本展示出更强的能力,基于更大骨干网络训练条件MDE模型是未来工作的重要方向。

此外,遵循Depth Anything的做法,所有训练图像都被调整到518×518的尺寸。相比之下,PromptDA是原生在1440×1920分辨率上训练的。因此,在更高分辨率上训练以更好地处理容易获取的高分辨率RGB图像是另一个关键研究方向。

总的来说,"Prior Depth Anything"为基于先验的单目深度估计开辟了新的道路,展示了粗到细渐进式融合策略的有效性。通过巧妙结合测量深度的精确度量信息和预测深度的完整几何结构,该方法能生成准确、密集且详细的度量深度图,为计算机视觉和机器人应用提供了强大工具。未来,随着更大模型的采用和更高分辨率的训练,我们可以期待这一技术进一步改进,为各种实际应用场景提供更精确的深度信息。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-