微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

低光图像增强多模态融合跨注意力机制

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

作者：科技行者

2026-05-20 17:16

分享至：

亚历山大大学提出M2Retinexformer，通过融合深度、亮度和语义三种辅助模态，让AI在增强暗光图像时兼顾几何结构与视觉自然度。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-20 17:16 • 科技行者

这项由埃及亚历山大大学研究团队完成的研究，以预印本论文形式于2026年5月11日发布在arXiv平台，编号为arXiv:2605.12556v1。研究方向属于计算机视觉中的低光图像增强领域，感兴趣的读者可通过该编号检索完整论文。

每个人大概都有过这样的经历：在昏暗的餐厅里用手机拍了一张朋友的照片，结果回家一看，画面漆黑一片，人脸模糊不清，颜色也完全失真，完全看不出当时的氛围。你试着用手机自带的"增亮"功能处理，画面是亮了，但随之而来的是一片噪点和奇怪的色块，朋友的脸看起来像是蜡像。这个让无数摄影爱好者和专业人士头疼的问题，正是这支研究团队正在攻克的核心难题。

低光图像增强，简单说就是让在黑暗中拍摄的照片"重见天日"。但这件事远比听起来复杂。当光线不足时，相机传感器会放大所有细节，包括本不该出现的噪点和色彩偏差。更麻烦的是，暗处的阴影、远处的物体、被遮挡的区域，在照片上看起来都是一片黑，但背后的原因却完全不同——有些是因为光线没打到，有些是因为物体本身颜色深，有些则是因为距离太远。普通的增亮算法根本分不清这些情况，于是就乱来一通，结果反而越搞越糟。

亚历山大大学的研究团队提出了一个全新的解决方案，叫做M2Retinexformer（多模态视网膜变换器）。这个名字听起来很拗口，但背后的思路却出人意料地接近人类的视觉本能。

---

一、人眼是怎么"看"暗处的

要理解这个研究，先得明白一件事：人类的眼睛在黑暗中之所以还能辨认物体，并不只是因为瞳孔放大了。更重要的是，大脑会综合利用多种信息——物体的形状、深度、距离感、上下文关系——来猜测和还原"那里可能是什么"。即便光线极暗，一个有经验的人站在昏暗的房间里，也能大致判断出哪里是墙、哪里是桌子、哪里是人，因为大脑在用整体场景知识来弥补视觉信息的不足。

现有的大多数AI增光算法，更像是一个只看颜色亮度的机器人，它不知道"那片黑暗是因为阴影还是因为距离"，也不知道"那个区域原本应该是什么颜色"。它只会机械地把暗像素变亮，结果就是前面提到的那种一团糟。

这支团队的洞察是：既然人眼靠多种信息协同工作，AI也应该如此。他们给这个系统装上了三种额外的"感知能力"：深度感知、亮度感知和语义感知。这三种能力就像是给AI配备了三种不同的"眼镜"，让它能从不同角度理解同一张暗图。

---

二、三副"眼镜"各有神通

第一副眼镜叫做"深度感知"，它回答的问题是：照片里每个位置离镜头有多远？研究团队发现了一个关键规律——无论照片是在明亮环境还是黑暗环境下拍摄的，同一个场景的深度信息几乎保持不变。就像你在白天和夜晚摸同一张桌子，桌面的高度和轮廓感没有任何变化。深度图提供的正是这种与光线无关的几何骨架。有了它，AI就能区分"这片黑是因为物体在很远的地方"和"这片黑是因为灯光被遮住了"——这是两种完全不同的情况，需要完全不同的处理方式。为了提取这种深度信息，团队使用了一个已经训练好的深度估计模型（Depth Anything V2），把它冻结住只当工具用，不参与训练，这样既省了计算资源，又能稳定提取高质量的几何特征。

第二副眼镜叫做"亮度感知"，它关注的是整张照片的明暗分布规律。研究团队用一个经典的亮度计算公式，把彩色图像转换成反映人眼感知亮度的灰度信息（具体是按照0.299倍红色加0.587倍绿色加0.114倍蓝色的比例，这模拟的是人眼对不同颜色亮度的敏感程度），然后在这个基础上叠加边缘检测、局部对比度分析和多尺度金字塔处理，生成一个丰富的"亮度地图"。这张地图贯穿整个处理过程，随时告诉AI"哪里特别暗，哪里相对亮一些，边缘在哪里"，让增光过程更有针对性。

第三副眼镜叫做"语义感知"，它回答的是"这张照片里有什么"。团队借助了另一个预训练模型（DINOv3），这个模型能识别出图像中的物体类型和场景结构，提供所谓"高层语义特征"——通俗说就是"这个区域看起来像人脸，那个区域是背景植物，右下角是一把椅子"。为什么这有用？因为不同物体在恢复过程中对颜色和纹理的要求完全不同。人脸的肤色复原需要极度精确，稍有偏差就会显得不自然；而背景植物则可以相对宽松。语义信息让AI能够区分对待不同区域，在该精细的地方精细，在无关紧要的地方不过度投入。

---

三、三副眼镜如何协同工作

有了三种信息来源，下一个问题是：怎么把它们融合在一起？这就涉及到这个研究的核心技术发明——多模态交叉注意力块（MMCAB，Multi-Modal Cross-Attention Block）。

用一个类比来理解这个机制。假设你是一位室内设计师，正在为一张昏暗的房间照片规划改色方案。你手边有三份参考资料：一份是房间的建筑平面图（对应深度信息），告诉你每个区域的空间位置和遮挡关系；一份是照明分析报告（对应亮度信息），标注了哪里亮哪里暗；还有一份是物品清单（对应语义信息），列明了桌椅床柜的具体位置。你在做每一个局部决策时，都会主动去查阅最相关的那份资料，而不是机械地把三份资料全部摊开混在一起。

交叉注意力机制做的正是这件事。系统把当前正在处理的RGB图像特征当作"提问方"，而把深度、亮度、语义这三种辅助信息当作"回答方"。对于图像中的每一个位置，系统会主动向辅助信息"提问"：这里有什么几何结构？这里的亮度分布是什么样的？这里有什么物体？辅助信息根据问题给出有针对性的回答，RGB特征据此做出更精准的判断。这种"主动查询"的方式，远比单纯把几种信息拼在一起更聪明。

与此同时，系统还保留了原有的"自注意力"机制——也就是RGB图像自己内部的特征相互参考。这是继承自前代模型Retinexformer的能力，专门用来处理光照引导下的图像细节恢复。研究团队没有用辅助信息替换这种自注意力，而是让两者并行存在，通过一个"自适应门控"机制来动态决定在每个位置上应该更信任哪一方。

这个门控机制可以理解为一个随时调整的音量旋钮。当辅助信息质量高、与当前区域高度相关时，旋钮会自动转向辅助信息这边；当辅助信息不够可靠或与当前情况关系不大时，旋钮就退回到RGB自身的判断。这种灵活性是这个设计的一大亮点——它承认辅助信息并非总是有用的，而不是盲目地全盘采纳。

---

四、整体流水线：从黑暗到光明的三步走

M2Retinexformer的完整处理流程，可以用一个修复老照片的流水线来类比。

第一个车间负责"分析光照"，也就是论文中所说的照明估计器。这个模块继承自Retinexformer，它拿到一张黑暗的照片后，先估算出这张照片"理论上应该有多亮"，生成一张"照亮版"图像和相应的照明特征图。这就像先给老照片做一个初步的密度分析，判断哪里的银盐颗粒过于致密（对应过暗区域）。

第二个车间负责"提取辅助信息"，也就是模态提取器。深度模型、亮度计算和语义模型分别工作，在三个不同的分辨率尺度上提取特征，然后统一格式，准备送入后续流程。之所以要在多个尺度上提取，是因为不同的处理层次需要不同精度的辅助信息：处理大块区域的光照时需要全局视野，处理细节纹理时则需要局部精度。

第三个车间也是最核心的车间，叫做"多模态腐化恢复器"，负责在照明估计的基础上压制噪点、修复色彩、还原细节。这个车间采用U形编解码架构——也就是先把图像逐步压缩到抽象表示，再逐步还原回高分辨率图像，整个过程中每一层都有对应的辅助模态特征注入，通过前面介绍的MMCAB模块进行融合。

整个流程可以级联运行一到三次，每次都在前一次结果的基础上进一步精细化。辅助信息只需要提取一次，就可以在所有阶段复用，避免了重复计算的浪费。

---

五、损失函数：不只追求数字，还要追求"看起来对"

在训练AI模型时，需要告诉它"什么是好结果"。最直接的方式是计算输出图像和标准答案之间的像素级差异，差异越小越好——这叫L1损失。Retinexformer原本只用这一种指标。

但研究团队发现，仅仅追求像素精度有一个盲点：像素精度高不等于看起来自然。有时候，两张图像的像素差异很小，但其中一张看起来颜色偏了、纹理糊了、边缘丢了，而另一张则清晰自然。区别在于高层次的视觉感知，这是简单像素差异捕捉不到的。

于是团队额外加入了"感知损失"——用一个已经学会辨认图像内容的VGG-19网络，分别提取输出图像和标准答案的特征表示，然后计算这两种特征表示之间的差异。这个差异反映的是"视觉内容和语义结构的相似程度"，而不仅仅是像素位置的精确匹配。感知损失和像素损失各占一定权重（感知损失权重设为0.5），共同指导模型往"既精确又自然"的方向优化。

---

六、实验结果：数字背后的真实提升

研究团队在七个主流低光图像数据集上进行了测试，分别是LOL-v1、LOL-v2真实版、LOL-v2合成版、SID、SMID、SDSD室内版和SDSD室外版。这些数据集涵盖了室内、室外、静态、动态等多种拍摄场景，是该领域公认的标准测试平台。

评测指标使用PSNR（峰值信噪比，数值越高代表与原图越接近，单位是分贝）和SSIM（结构相似度，数值越高代表结构保真度越好）。

与基线模型Retinexformer相比，M2Retinexformer在大多数数据集上都取得了明显进步。在LOL-v1上，PSNR从23.61提升到24.89；在LOL-v2真实版上，从21.85跃升到23.85，提升幅度接近2个PSNR单位，这在图像处理领域是相当可观的进步；在LOL-v2合成版上，从25.52提升到27.12；在SDSD室内版上，从28.74提升到30.48，突破了30的门槛。SID数据集上也从24.44小幅提升到24.84。

横向与同期其他方法相比，M2Retinexformer在多数数据集上达到最好或次好的水平。相比SNR-Net在LOL-v1上的24.61，M2Retinexformer的24.89略胜一筹；在LOL-v2真实版上，M2Retinexformer的23.85明显高于SNR-Net的21.48和RetinexMamba的22.45。

不过，在SMID和SDSD室外这两个数据集上，M2Retinexformer的提升相对有限，甚至在SDSD室外版上略低于Retinexformer。研究团队对此给出了解释：这两个数据集来自视频序列，拍摄方式是短曝光和长曝光交替采集，图像的退化模式与普通低光照片有所不同，辅助模态（尤其是深度估计）在这类场景下的稳定性会有所下降，导致辅助信息的可靠性降低，进而影响最终效果。这也印证了研究团队在设计中的一个判断：辅助信息并非万能，当它不可靠时，系统需要有能力降低对它的依赖。

从视觉效果上看，研究团队展示的对比图清楚地说明了问题。处理同一批LOL-v2真实版图像时，Retinexformer处理后的结果存在明显的色彩偏移和残余噪点，而M2Retinexformer处理后的图像颜色更自然，噪点更少，细节更清晰，整体视觉质量更接近在正常光线下拍摄的原始参考图。

---

七、拆解验证：每个部件到底有多重要

为了搞清楚每一种辅助模态和每一个设计选择到底贡献了多少，团队在LOL-v2真实版数据集上做了一系列"拆解实验"，逐一加入或移除各个组件，观察性能变化。

基线Retinexformer的PSNR是21.85。仅加入感知损失后，PSNR提升到22.81，进步了0.96。在此基础上加入语义特征（DINOv3），提升到22.90，额外增加了0.09。如果仅加入感知损失加上深度特征，PSNR直接跃升到23.85，比基线高出整整2个单位——深度信息的贡献是三种辅助模态中最大的。仅加入感知损失加上亮度特征的组合，PSNR达到23.29，贡献居中。

有意思的是，当把所有三种辅助模态同时加入时，结果并不是最好的，PSNR反而降到了23.35，低于单独使用深度特征的23.85。这个结果颇耐人寻味——把所有好东西堆在一起，结果反而不如精挑细选。研究团队的解读是：不同模态之间可能存在信息冗余甚至相互干扰，尽管自适应门控机制尽力平衡各方输入，但它无法完全消除多余信息带来的负面影响。换言之，在多模态融合中，"选什么"和"怎么选"同样重要，更多不等于更好。

这个发现对整个领域具有一定的警示意义：在追求多模态增强的道路上，盲目堆叠信息来源不是正确方向，精心设计的模态选择和融合策略才是关键。

---

八、模型规模与实际开销

一个自然的疑问是：引入了这么多额外模块，模型会不会变得异常庞大、难以实际使用？

研究团队对此给出了相当详细的说明。M2Retinexformer的可训练参数量只有200万（2M），这个数字相当小。之所以能保持这么小，是因为深度估计模型和语义特征提取模型都是以"冻结"状态使用的——它们在训练过程中参数不更新，只是作为固定的特征提取工具。因此，虽然这两个预训练模型本身体积不小，但它们不参与优化过程，不增加训练复杂度。

包含这些冻结模型在内，M2Retinexformer的总参数量为4800万（48M）。研究团队特别指出，这大约是同类多模态方法ModalFormer所使用的特征提取器（4M-21，1.98亿参数）的四分之一，体量上具有明显优势。

所有实验都在单张NVIDIA RTX 5090显卡上完成，这意味着该研究在一块高端消费级显卡上就能跑起来，而不需要多卡集群。研究团队还公开了完整的代码、训练脚本、评测脚本和预训练权重，以确保其他研究者能够复现实验结果。

---

归根结底，这项研究做的事情，是把人类视觉系统"用多种感知协同工作"的本能，以一种工程化的方式移植到了AI模型里。深度感知告诉它场景的几何骨架，亮度感知告诉它光线的分布规律，语义感知告诉它场景里有什么——三者结合，比只会看颜色的普通AI聪明了不止一点半点。

这对普通用户意味着什么？手机摄影爱好者在昏暗餐厅、夜间街头、室内弱光场景下拍摄的照片，有望通过这类技术得到更自然的修复，而不是被简单粗暴地"提亮然后一片噪点"。安防摄像、夜间自动驾驶、医疗影像等对画质要求严格的专业场景，也可能受益于更精准的低光图像处理能力。

当然，研究也坦承了自身的局限：辅助信息的质量决定了增强效果的上限，在某些特殊拍摄模式下（比如视频短曝光采集），辅助模态的稳定性会打折扣，效果因此受限。此外，"哪几种辅助模态组合最优"这个问题，目前还没有一个通用的答案，需要根据具体场景调整。

这个研究还留下了一个开放的设计空间：框架是模块化的，新的辅助信息来源可以方便地接入，不需要改动核心网络。这意味着未来如果有人想加入热成像、雷达深度、IMU运动信息等更多感知通道，框架本身已经做好了准备。感兴趣的读者可以通过arXiv编号arXiv:2605.12556检索完整论文和开源代码，深入了解技术细节。

---

Q&A

Q1：M2Retinexformer用的深度信息是实拍的深度图还是AI估算出来的？

A：M2Retinexformer使用的是AI估算出来的深度信息，具体是通过一个叫做Depth Anything V2的预训练深度估计模型，直接从普通RGB照片推算出每个像素的深度值。这个模型以"冻结"状态运行，只负责提取特征，不参与训练。研究团队发现无论照片是在亮处还是暗处拍摄的，同一场景估算出的深度图都高度一致，正是这种稳定性让深度信息成为低光增强中最有价值的辅助线索。

Q2：为什么把三种辅助模态全加进去反而比只加深度效果差？

A：从实验结果来看，仅加入感知损失和深度特征时PSNR达到23.85，而把深度、亮度、语义三者全部加入时PSNR反而降至23.35。研究团队的解释是，不同模态之间存在信息冗余，甚至可能相互干扰，即便有自适应门控机制在动态调节各方权重，也无法完全消除多余信息对主RGB分支产生的负面影响。这说明多模态融合中，模态的选择和搭配策略非常关键，堆叠更多信息来源并不保证更好的结果。

Q3：M2Retinexformer在手机上能跑吗？

A：目前该研究的实验是在NVIDIA RTX 5090这块高端桌面显卡上完成的，尚未针对移动端或低功耗设备进行优化。模型包含多个冻结的预训练大模型，整体参数量约4800万，在手机上直接运行存在一定难度。不过研究团队已开源代码和预训练权重，未来若有团队在此基础上进行轻量化压缩或蒸馏，落地到移动设备在技术上并非不可能。

低光图像增强多模态融合跨注意力机制

分享至