微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南开大学团队推出DepthAnything-AC:让AI在恶劣天气中也能精准"看懂"距离

南开大学团队推出DepthAnything-AC:让AI在恶劣天气中也能精准"看懂"距离

2025-07-04 10:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-04 10:32 科技行者

这项由南开大学计算机科学学院视觉计算与图像处理实验室(VCIP)的孙博远、金默弟、尹博文和侯启斌教授团队开展的研究,发表于2025年7月的arXiv预印本平台,感兴趣的读者可以通过论文编号arXiv:2507.01634v1访问完整论文,项目主页为https://ghost233lism.github.io/depthanything-AC-page,代码已在GitHub开源:https://github.com/HVision-NKU/DepthAnythingAC。

我们每天都在使用眼睛判断物体的远近距离,这种能力看似简单,实际上是一个复杂的视觉处理过程。当驾驶汽车时,我们需要准确判断前方车辆的距离;当机器人在家中移动时,它也需要"看懂"周围物体的空间关系。近年来,人工智能在这方面取得了令人瞩目的进展,诞生了许多能够从单张照片就准确判断距离的AI模型,比如著名的DepthAnything系列和DepthPro等。

然而,这些看似强大的AI系统都有一个共同的软肋:一旦遇到恶劣天气或复杂光照条件,它们的表现就会大打折扣。就像人类在雾霾天气中难以看清远方一样,现有的距离估算AI在面对雨雪、大雾、强光或黑暗环境时,往往会产生严重的误判。这个问题在自动驾驶、机器人导航等对安全性要求极高的应用场景中尤为致命。

南开大学的研究团队深刻认识到了这个问题的严重性。他们发现,现有的AI模型之所以在复杂环境中表现不佳,主要是因为训练数据几乎都来自正常的光照和天气条件。当AI遇到从未见过的复杂场景时,就像一个只在晴天学过开车的新手司机突然遇到暴雨,自然会手足无措。

更严重的是,获取恶劣天气条件下的高质量训练数据极其困难。研究人员不可能等待各种极端天气条件的出现来收集数据,而现有模型在处理这些"脏乱差"的图像时表现糟糕,无法提供可靠的训练标签。这就形成了一个恶性循环:没有好数据就训练不出好模型,没有好模型就无法处理复杂场景。

面对这个挑战,南开大学团队提出了一个巧妙的解决方案,他们开发了名为DepthAnything-AC(Depth Anything at Any Condition)的新型AI模型。这个模型的核心思想是"在正常条件下学习,在恶劣条件下验证"。

研究团队的第一个创新是设计了一套"扰动一致性训练框架"。这个框架的工作原理很像训练一个优秀的歌手:首先让歌手在标准录音棚环境中学会一首歌,然后在各种嘈杂环境中反复练习,直到无论在什么条件下都能唱出同样动听的旋律。具体来说,他们会对同一张正常图片进行多种"人工破坏",比如调暗亮度模拟夜晚、添加模糊效果模拟雨雾、增加对比度变化等,然后要求AI对原图和"破坏版"给出一致的距离判断结果。

这种训练方法的妙处在于,它不需要收集真实的恶劣天气数据,而是通过计算机模拟的方式创造各种复杂条件。研究团队精心设计了四大类扰动方式:光照变化(模拟从白天到黑夜的各种光线条件)、天气变化(模拟雾霾、雨雪等天气现象)、模糊效果(模拟运动模糊和焦点模糊)以及对比度调整(模拟不同的拍摄设备和环境)。

第二个重要创新是"空间距离约束"机制。研究团队发现,现有的AI模型往往只关注每个像素点的深度值,而忽略了不同区域之间的空间关系。这就像一个人虽然能告诉你每个物体的距离,但却搞不清楚它们的相对位置关系。为了解决这个问题,研究团队引入了一个新的约束机制,要求AI不仅要准确判断每个点的距离,还要理解不同区域之间的几何关系。

这个机制的工作原理类似于教授地理学:不仅要记住每个城市的位置,更要理解城市之间的相对距离和方位关系。通过这种方式,AI能够更好地理解图像的整体空间结构,即使在某些区域因为恶劣条件而模糊不清时,也能通过周围区域的信息推断出合理的距离值。

在训练过程中,研究团队采用了一种"师生结合"的策略。他们保持原始的DepthAnything V2模型作为"老师",专门处理正常条件下的图像,同时训练一个新的"学生"模型来处理各种复杂条件。学生模型需要在处理正常图像时向老师学习,在处理扰动图像时保持与原图的一致性,在理解空间关系时遵循几何约束。这种多重监督机制确保了模型既能保持在正常条件下的优秀表现,又能在复杂条件下保持稳定。

一、训练数据的精心选择与高效利用

南开大学团队在数据使用方面展现了惊人的效率。与前代DepthAnything系列模型动辄使用6300万张图片的"大胃王"式训练不同,DepthAnything-AC仅使用了54万张无标签图片就达到了优异的效果,数据使用量还不到前代模型的1%。这种高效性堪比用一小杯水就能煮出一锅好粥的神奇技巧。

研究团队从九个不同的数据集中精心挑选了这54万张图片,涵盖了室内外各种场景。这些数据集包括ADE20k(主要用于场景理解)、MegaDepth(大规模户外场景)、DIML(室内外混合场景)、VKITTI2(虚拟驾驶场景)、HRWSI(高分辨率场景)、SA-1B(大规模分割数据集)、COCO(通用目标检测数据集)、Pascal VOC 2012(经典视觉数据集)以及AODRaw(复杂光照条件数据集)。

值得注意的是,除了AODRaw数据集包含一些复杂自然条件的图像外,其他数据集的图片基本都是在正常光照和天气条件下拍摄的。这进一步证明了他们的训练策略的有效性:通过人工模拟各种复杂条件,而不是依赖真实的恶劣天气数据。

训练过程采用了标准的深度学习配置:使用ViT-S作为主干网络,DPT作为解码器,AdamW优化器,初始学习率为5×10^-6,权重衰减为0.01,输入图像尺寸为518×518像素,批次大小为16。整个训练过程在4块NVIDIA RTX 3090 GPU上进行了20个周期。

二、四大类扰动策略的精密设计

DepthAnything-AC的核心创新之一是精心设计的扰动策略,这些策略能够模拟现实世界中各种可能遇到的复杂视觉条件。

光照扰动是最基础也是最重要的一类。研究团队通过非线性方式降低图像亮度,让较亮的区域降低得更多,较暗的区域保持相对稳定,从而模拟真实的低光环境。同时,他们还添加了泊松噪声来模拟低光条件下光子计数不足的问题,以及高斯噪声来模拟相机传感器在低光条件下的读取噪声。这种多层次的光照模拟确保了AI能够适应从黄昏到深夜的各种光照条件。

模糊效果的模拟同样细致入微。运动模糊通过随机选择一个方向角度(在-45°到45°之间),然后根据模糊严重程度设置核半径和高斯参数,构建方向性的模糊核来实现。这模拟了相机或物体运动时产生的拖影效果。变焦模糊则通过生成具有递增缩放因子的多个图层,然后进行等权重平均来合成,模拟了相机变焦过程中的模糊现象。

天气条件的模拟更是展现了研究团队的创意。雾霾效果使用Diamond-Square算法生成二维自相似噪声场,通过严重程度参数控制雾的密度和纹理,较高的严重程度对应更高的噪声幅度和更少的细节保留。雪花效果则通过生成具有特定参数的高斯随机场作为雪的分布,然后调整雪花大小和密度,最后添加方向性运动模糊(角度在-135°到-45°之间)来模拟飘落的雪花。

对比度调整使用中心缩放变换,系数范围为0.05到0.4,模拟不同相机设备和环境条件下的成像差异。

在实际训练中,光照扰动会应用到所有图像上,而模糊、天气和对比度扰动则以一定概率随机应用。经过大量实验,研究团队发现当模糊增强的概率设置为0.1,天气增强的概率设置为0.2时,模型能够达到最佳性能。

三、空间距离约束的几何智慧

DepthAnything-AC的另一个重要创新是引入了空间距离约束机制,这个机制的设计体现了对图像空间几何关系的深刻理解。

传统的深度估计模型主要关注每个像素点的深度值预测,这种方法虽然直观,但忽略了图像中不同区域之间的空间几何关系。就像一个人能够记住地图上每个地点的海拔高度,但却不理解这些地点之间的相对位置关系一样,这种局部优化的方法在面对复杂条件时容易出现不一致的预测结果。

研究团队提出的空间距离关系(SDR)包含两个核心组成部分:位置关系和深度关系。对于一张分为H×W个小块的图像,位置关系通过计算每对小块之间的欧几里得距离来表示,形成一个H×W乘以H×W的位置关系矩阵。这个矩阵经过最小-最大归一化处理,确保数值范围的一致性。

深度关系则通过计算预测深度值之间的绝对差值来定义。当AI模型对图像进行深度预测后,每个小块都会得到一个深度值,深度关系就是这些深度值之间的差异。

最终的空间距离关系是位置关系和深度关系的几何组合,具体计算为二者的平方和再开平方根。这种计算方式的物理意义非常直观:它表示的是三维空间中任意两个小块之间的真实几何距离。

空间距离关系的每一行都反映了特定小块与图像中所有其他小块的几何邻近程度,天然地编码了丰富的语义信息。研究团队通过可视化分析发现,构建的空间关系与图像中物体的语义结构高度相关,具有清晰的边界定义。这使得模型能够以无需训练的方式利用语义先验信息。

基于这种空间距离关系,研究团队设计了相应的损失函数,鼓励模型在处理扰动图像时保持与原始图像相同的空间距离关系。这种约束机制不仅增强了物体边界定位的准确性,还减少了纹理丢失导致的预测歧义性。

四、损失函数的精妙设计

DepthAnything-AC的训练过程使用了三个相互配合的损失函数,每个都承担着特定的作用,就像交响乐团中不同乐器的和谐配合。

一致性损失是整个框架的核心,它确保模型对正常图像和扰动图像产生一致的预测结果。这个损失函数采用了仿射不变的设计,借鉴了DepthAnything的经验。具体计算方式是先对预测结果和目标结果进行尺度和偏移的标准化,然后计算标准化后结果之间的平均绝对误差。这种设计确保了模型关注的是相对深度关系而非绝对深度值,符合单目深度估计的本质特征。

知识蒸馏损失发挥着"保守派"的作用,防止模型在追求鲁棒性的过程中丢失在正常场景下的优秀表现。通过保持原始DepthAnything V2模型的冻结状态作为教师,新训练的学生模型需要在处理正常图像时尽可能模仿教师的行为。这种设计巧妙地解决了一个经典的机器学习难题:如何在提升特定能力的同时避免对原有能力的损害。

空间距离约束损失则承担着"几何学家"的角色,确保模型理解和保持图像的空间几何结构。这个损失函数计算扰动图像的空间距离关系与原始图像空间距离关系之间的均方误差,鼓励模型在处理复杂条件时保持对空间结构的正确理解。

三个损失函数的权重设置经过了细致的实验调优,最终确定为均等权重(各占1/3)。研究团队发现这种均衡的权重分配能够让三个目标函数和谐配合,既保证了鲁棒性的提升,又维持了原有的性能水平,还增强了几何理解能力。

五、全面而严格的实验验证

南开大学团队对DepthAnything-AC进行了极为全面的实验评估,涵盖了多个不同类型的测试场景,确保模型的可靠性和实用性。

在增强版多条件DA-2K基准测试中,DepthAnything-AC展现出了显著的优势。DA-2K原本是DepthAnything V2提出的高分辨率深度估计数据集,通过判断两个给定点哪个离相机更近来评估模型能力。研究团队在此基础上添加了四种扰动(暗光、雾、雪、模糊),创建了增强版基准。实验结果显示,DepthAnything-AC在所有条件下都达到了最佳性能,准确率分别为:正常条件95.3%、暗光条件92.3%、雾天条件92.9%、雪天条件89.2%、模糊条件88.0%。

真实复杂环境的测试更能说明模型的实际应用价值。研究团队选择了五个具有挑战性的真实世界数据集:NuScenes-night(500张夜间自动驾驶图像)、RobotCar-night(186张夜间机器人导航图像)、DrivingStereo的雨天、雾天、云天子集(每个500张图像)。在这些真实场景中,DepthAnything-AC在多数指标上都优于其他方法。特别是在RobotCar-night数据集上,相比DepthAnything V2,δ1指标提升了0.037,这在深度估计领域是一个相当显著的改进。

合成复杂环境基准KITTI-C的测试结果进一步验证了模型的鲁棒性。KITTI-C通过在经典KITTI数据集上添加合成扰动来模拟各种挑战性场景。在四个子集(暗光、雪天、运动模糊、高斯噪声)的测试中,DepthAnything-AC都表现出了一致的改进,证明了其设计策略的有效性。

最重要的是,研究团队还验证了模型在通用场景下的性能保持能力。在KITTI、NYU-D、Sintel、ETH3D、DIODE等五个标准深度估计基准上的测试显示,DepthAnything-AC的性能与原始DepthAnything V2基本相当,证明了在提升鲁棒性的同时没有损害原有的通用能力。

六、深入的消融实验分析

研究团队进行了详尽的消融实验来验证每个设计组件的有效性,这些实验就像解剖一台精密机器,逐个检验每个零件的作用。

组件有效性分析显示,每个设计元素都对最终性能有正面贡献。在没有扰动的情况下,仅使用一致性正则化和知识蒸馏就能在DA-2K暗光基准上达到91.1%的准确率。添加扰动后,性能提升到91.4%。进一步加入空间距离约束后,最终达到92.3%的最佳性能。

不同训练策略的对比实验揭示了一致性正则化相比传统知识蒸馏的优势。研究团队发现,纯知识蒸馏方法在某些复杂场景下的表现不如基于一致性的方法,这表明学生模型的非扰动分支具有足够的泛化能力,能够提供比冻结教师模型更高质量的监督信号。

不同仿射不变损失函数的比较实验表明,DepthAnything-AC使用的损失函数设计是最适合当前任务的。与MiDaS和原始DepthAnything的损失函数相比,新设计的损失函数在复杂条件下表现更佳。

编码器冻结策略的重要性通过对比实验得到了验证。当编码器参数参与训练时,模型在多个基准上的性能都出现了下降,这说明保持预训练特征表示的稳定性对于维持模型的泛化能力至关重要。

扰动类型和概率的精细调节实验显示,每种扰动类型都对整体性能有积极贡献,而且不同扰动概率的组合会显著影响最终效果。经过系统性实验,研究团队确定了最优的扰动配置方案。

七、视觉效果与特征分析的深入洞察

通过详细的视觉分析,研究团队揭示了DepthAnything-AC相比现有方法的显著优势,这些分析就像医生通过X光片诊断病情一样直观有力。

在特征表示的可视化分析中,研究团队发现扰动会显著降低原始模型的特征质量,这可能解释了现有基础深度估计模型在复杂场景下感知语义边界和精细细节能力不足的原因。而DepthAnything-AC通过一致性框架和空间距离约束,能够有效地从扰动输入中恢复出高质量的特征表示。

深度预测结果的对比显示,DepthAnything-AC在物体边界的清晰度、细节的保留程度以及整体一致性方面都明显优于其他方法。特别是在处理复杂光照条件(如强逆光、夜间场景)和恶劣天气条件(如雾霾、雨雪)时,DepthAnything-AC能够产生更加稳定和准确的深度估计结果。

空间距离关系的可视化分析进一步证实了这种设计的有效性。通过观察不同查询位置对应的空间距离图,可以清楚地看到构建的空间关系与图像中物体的语义结构高度相关,呈现出清晰的边界定义。这种内在的语义感知能力是DepthAnything-AC能够在复杂条件下保持优秀性能的关键因素。

说到底,南开大学团队的这项研究解决了一个看似简单却极其重要的问题:如何让AI在任何条件下都能准确判断距离。通过巧妙的扰动一致性训练和空间距离约束设计,他们成功地让AI模型具备了在恶劣天气和复杂光照条件下稳定工作的能力,同时保持了在正常条件下的优秀表现。

这项研究的意义远不止于技术层面的突破。在自动驾驶汽车需要在雨雪天气中安全行驶的今天,在机器人需要在各种光照条件下完成任务的未来,DepthAnything-AC提供的技术能力将直接关系到人们的生活安全和便利。更重要的是,这种"以不变应万变"的设计思路为解决其他AI鲁棒性问题提供了有价值的启发。

研究团队的工作还展现了一种令人鼓舞的趋势:通过更聪明的方法而非更多的数据来解决复杂问题。在数据收集成本日益高昂的今天,这种高效的训练策略具有重要的实践价值。当我们回过头来审视这项研究时,会发现它不仅仅是一个技术改进,更是对AI系统在真实世界中可靠性问题的深刻思考和有效回应。

Q&A

Q1:DepthAnything-AC是什么?它与普通的距离判断AI有什么不同? A:DepthAnything-AC是南开大学开发的新型距离估算AI模型,它的特别之处在于能在恶劣天气(如雨雪、雾霾)和复杂光照条件(如夜晚、强光)下准确判断物体距离。而普通的距离判断AI只能在正常天气和光照条件下工作良好,一旦环境变复杂就容易出错。

Q2:这个技术会不会很快应用到自动驾驶汽车中? A:很有可能。目前自动驾驶汽车在恶劣天气中的表现一直是个难题,DepthAnything-AC正好解决了这个痛点。不过从研究成果到实际应用还需要更多的测试和优化,预计在未来几年内可能会看到相关技术的商业化应用。

Q3:普通人能使用这个技术吗?有什么实际用处? A:目前这还是一个研究项目,普通人无法直接使用。但未来这种技术可能会集成到手机摄像头、家用机器人、无人机等设备中,帮助它们在各种条件下更准确地判断距离,提升拍照效果、导航精度和安全性能。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-