微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 穿透迷雾:北京理工大学团队如何用"图像贴片令牌化"技术实现大型图像高效去雾

穿透迷雾:北京理工大学团队如何用"图像贴片令牌化"技术实现大型图像高效去雾

2025-04-22 10:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-22 10:43 科技行者

2025年4月,北京理工大学的陈久辰、闫新宇、徐启智和李凯琪团队发布了一项突破性研究,针对大型高分辨率图像的去雾处理提出了全新解决方案。这项研究已于2025年4月13日发表在arXiv预印本平台(arXiv:2504.09621v1),论文源代码和数据集可在GitHub(https://github.com/CastleChen339/DehazeXL)获取。

想象一下,当你在雾天拍摄照片时,雾气会像一层薄纱遮挡住景物细节,使图像变得模糊不清。随着相机技术的发展,我们能拍摄的图像越来越大、越来越清晰,但大型图像的去雾处理却面临着严峻挑战。北京理工大学的研究团队针对这一问题开发了名为DehazeXL的创新方法,它能在保持图像完整性的同时有效去除雾气,为我们呈现清晰锐利的图像。

雾中看花:为何大型图像的去雾处理如此困难?

在深入了解DehazeXL之前,我们先来理解传统去雾方法的局限性。想象你试图清洁一扇巨大的玻璃窗。你有两种选择:要么站远一点,用一个大喷雾器喷洒全窗(对应图像下采样),要么将窗户分割成小块,一块一块地擦拭(对应图像切片)。

传统的图像去雾方法正是采用了这两种策略。下采样方法先将图像缩小,处理后再放大,这样做虽然能保留全局信息,但会丢失重要的高频细节,就像远距离喷洒窗户可以看到整体效果,却无法清除顽固污渍。而切片方法将图像分割成小块单独处理,虽然保留了细节,但割裂了图像之间的全局关系,就像分块擦窗户可能导致各块之间的清洁度不一致,形成明显的分界线。

随着相机技术的进步,图像分辨率越来越高,这两种方法的局限性愈发明显。高分辨率图像包含大量细节,下采样会丢失这些宝贵信息;而切片处理则容易在拼接处产生明显的"块状伪影",破坏图像连贯性。

更糟糕的是,现有的深度学习去雾模型大多是在相对较小的图像(通常为256×256到512×512像素)上开发和测试的。当它们面对高分辨率图像时,GPU内存限制使其无法直接处理,不得不采用上述两种次优方案。

拨云见日:DehazeXL的创新之处

北京理工大学的研究团队提出的DehazeXL方法巧妙地解决了这一难题。如果我们继续窗户清洁的比喻,DehazeXL相当于一种全新的清洁方式:先将窗户分块,记录每块的特征,然后召开一个"块特征会议",让所有块相互交流信息,了解整个窗户的情况,最后根据这种全局认知,每块都能更好地进行局部清洁。

具体来说,DehazeXL的工作流程包括三个关键步骤:

首先,将大型输入图像分割成均匀大小的贴片,每个贴片通过共享编码器转换为特征向量(称为"令牌")。这就像将大窗户分成小块,并记录每块的特征(如脏污程度、玻璃类型等)。

接着,这些特征向量进入全局注意力模块,实现更广泛的上下文信息整合。在这个阶段,各个贴片的特征可以"看到"彼此,了解整个图像的全局信息,比如雾气分布、清晰区域的颜色一致性和亮度水平等。这相当于小块之间相互交流信息,了解整个窗户的情况。

最后,经过全局强化的特征通过解码器处理,逐步上采样恢复到原始贴片大小,并最终合并生成输出图像。这相当于每个小块根据全局认知进行更有效的清洁,最后组合成一整块完美清洁的窗户。

DehazeXL的三大技术创新

DehazeXL的优势主要体现在三个关键特性上:

第一是解耦输入维度。通过将图像分割成固定大小的贴片,DehazeXL有效地将编码器-解码器的输入维度与图像大小解耦。这就像窗户无论多大,我们都是用相同大小的布块来擦拭,这样就不必担心窗户过大导致布不够用的问题。这种方法使得模型能够高效批处理图像贴片,同时节省GPU内存,避免内存溢出的风险。此外,保持一致的贴片大小为编码器和解码器提供了标准化输入,提高了训练稳定性和收敛性。

第二是增强局部特征表示。通过定制的全局注意力模块,DehazeXL用全局上下文信息丰富每个局部特征向量,包括雾气分布、清晰区域的颜色一致性和亮度水平等。这些信息对于准确的场景重建至关重要。想象一下,如果你知道整个窗户的污渍分布模式,你就能更精确地清洁每个小区域。没有全局信息,局部特征向量可能缺乏空间连贯性,导致输出中出现伪影或不一致。

第三是高效全局注意力机制。借鉴大型语言模型中的长上下文注意力机制,研究团队将局部敏感哈希和低秩分解融入全局注意力模块。这种设计减少了处理长上下文时的内存使用和计算需求,从而提高了模型捕获超高分辨率图像中广泛上下文依赖关系的能力。简单来说,这就像使用一种特殊的组织方法,让所有小块高效交流信息,而不需要每块与其他所有块进行单独对话,大大节省了"会议"时间和资源。

实验证明:DehazeXL的卓越性能

研究团队进行了广泛实验,证明DehazeXL的优越性。最引人注目的是,使用FP16格式进行推理时,DehazeXL能够处理高达10,240×10,240像素的图像,只需21GB内存,比其他方法节省约65%-80%的内存使用量。

在性能方面,DehazeXL在8KDehaze、4KID和O-HAZE三个数据集上均取得了最高的PSNR和SSIM评分,表明其卓越的去雾效果。虽然4KDehazing在直接推理时速度更快,但在处理大型图像时性能明显下降,且容易产生重影和色偏。相比之下,DehazeXL在去雾性能和处理时间之间取得了极佳平衡,展示了其在实际应用中的有效性。

研究团队还进行了消融研究,评估不同主干网络类型和瓶颈深度对DehazeXL性能的影响。结果表明,更大的主干网络和更深的瓶颈确实能提高性能,但也会导致推理时间显著增加。考虑性能和推理时间之间的平衡,团队选择Swin-T和深度为2的瓶颈作为默认配置。

透视迷雾:去雾归因图的创新

除了提出DehazeXL模型外,研究团队还开发了名为去雾归因图(Dehazing Attribution Map,DAM)的视觉归因方法,专门评估全局上下文利用效率对去雾性能的影响。

DAM受积分梯度和局部归因图方法启发,增强了模型的可解释性。它通过计算沿连续轨迹从基线输入图像到目标图像的路径积分梯度来获得。在去雾任务中,清晰图像作为基线输入,线性插值函数作为路径函数。

通过归因分析,研究团队发现模型在重建过程中倾向于关注无雾区域和高对比度纹理。这表明模型优先使用明确的视觉线索来提高去雾输出的质量。相比使用切片推理策略的方法,DehazeXL更有效地利用无雾区域的光谱和颜色信息,凸显了上下文信息在高效图像去雾中的重要性。

8KDehaze:填补超高分辨率数据集空白

在研究过程中,团队意外发现超高分辨率去雾数据集的严重匮乏。现有数据集如4KID的最大分辨率仅为3840×2160像素。为填补这一空白,他们构建了一个名为8KDehaze的去雾数据集,使用航空图像,所有图像分辨率均为8192×8192像素,为训练和评估超高分辨率数据上的去雾算法提供了独特资源。

8KDehaze包含10,000对清晰和有雾的遥感图像,覆盖了多种雾气分布和地形,包括城市、农田、山脉、沙漠、海岸线和河流等。这个多样化的数据集极大地促进了DehazeXL的开发和测试,也为未来的去雾研究提供了宝贵资源。

总结:拓展高分辨率图像去雾的新视野

北京理工大学研究团队的DehazeXL方法标志着图像去雾技术的重大进步,特别是在处理超高分辨率图像方面。通过创新的贴片令牌化方法,DehazeXL实现了全局上下文和局部细节的无缝整合,有效解决了传统方法在处理大型图像时面临的内存和质量问题。

该研究不仅提供了一种高效的去雾方法,还通过去雾归因图提供了深入理解去雾过程的工具,以及通过8KDehaze数据集填补了超高分辨率去雾数据的空白。这些贡献共同推动了图像去雾领域的发展,为未来研究奠定了坚实基础。

对于普通用户而言,这项研究意味着未来我们可能在智能手机、监控系统和自动驾驶汽车等设备上看到更高效的去雾技术,即使在雾天也能获得清晰的视觉体验。DehazeXL的高效内存使用也使得在资源有限的设备上处理高分辨率图像成为可能,拓展了图像处理技术的应用场景。

如果你对图像处理或计算机视觉感兴趣,这项研究提供了一个绝佳案例,展示了如何通过创新算法设计解决实际问题。完整论文和代码已在GitHub上开源,有兴趣深入了解的读者可通过https://github.com/CastleChen339/DehazeXL访问。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-