
这项由埃及亚历山大大学研究团队完成的研究,以预印本论文形式于2026年5月11日发布在arXiv平台,编号为arXiv:2605.12556v1。研究方向属于计算机视觉中的低光图像增强领域,感兴趣的读者可通过该编号检索完整论文。
每个人大概都有过这样的经历:在昏暗的餐厅里用手机拍了一张朋友的照片,结果回家一看,画面漆黑一片,人脸模糊不清,颜色也完全失真,完全看不出当时的氛围。你试着用手机自带的"增亮"功能处理,画面是亮了,但随之而来的是一片噪点和奇怪的色块,朋友的脸看起来像是蜡像。这个让无数摄影爱好者和专业人士头疼的问题,正是这支研究团队正在攻克的核心难题。
低光图像增强,简单说就是让在黑暗中拍摄的照片"重见天日"。但这件事远比听起来复杂。当光线不足时,相机传感器会放大所有细节,包括本不该出现的噪点和色彩偏差。更麻烦的是,暗处的阴影、远处的物体、被遮挡的区域,在照片上看起来都是一片黑,但背后的原因却完全不同——有些是因为光线没打到,有些是因为物体本身颜色深,有些则是因为距离太远。普通的增亮算法根本分不清这些情况,于是就乱来一通,结果反而越搞越糟。
亚历山大大学的研究团队提出了一个全新的解决方案,叫做M2Retinexformer(多模态视网膜变换器)。这个名字听起来很拗口,但背后的思路却出人意料地接近人类的视觉本能。
---
一、人眼是怎么"看"暗处的
要理解这个研究,先得明白一件事:人类的眼睛在黑暗中之所以还能辨认物体,并不只是因为瞳孔放大了。更重要的是,大脑会综合利用多种信息——物体的形状、深度、距离感、上下文关系——来猜测和还原"那里可能是什么"。即便光线极暗,一个有经验的人站在昏暗的房间里,也能大致判断出哪里是墙、哪里是桌子、哪里是人,因为大脑在用整体场景知识来弥补视觉信息的不足。
现有的大多数AI增光算法,更像是一个只看颜色亮度的机器人,它不知道"那片黑暗是因为阴影还是因为距离",也不知道"那个区域原本应该是什么颜色"。它只会机械地把暗像素变亮,结果就是前面提到的那种一团糟。
这支团队的洞察是:既然人眼靠多种信息协同工作,AI也应该如此。他们给这个系统装上了三种额外的"感知能力":深度感知、亮度感知和语义感知。这三种能力就像是给AI配备了三种不同的"眼镜",让它能从不同角度理解同一张暗图。
---
二、三副"眼镜"各有神通
第一副眼镜叫做"深度感知",它回答的问题是:照片里每个位置离镜头有多远?研究团队发现了一个关键规律——无论照片是在明亮环境还是黑暗环境下拍摄的,同一个场景的深度信息几乎保持不变。就像你在白天和夜晚摸同一张桌子,桌面的高度和轮廓感没有任何变化。深度图提供的正是这种与光线无关的几何骨架。有了它,AI就能区分"这片黑是因为物体在很远的地方"和"这片黑是因为灯光被遮住了"——这是两种完全不同的情况,需要完全不同的处理方式。为了提取这种深度信息,团队使用了一个已经训练好的深度估计模型(Depth Anything V2),把它冻结住只当工具用,不参与训练,这样既省了计算资源,又能稳定提取高质量的几何特征。
第二副眼镜叫做"亮度感知",它关注的是整张照片的明暗分布规律。研究团队用一个经典的亮度计算公式,把彩色图像转换成反映人眼感知亮度的灰度信息(具体是按照0.299倍红色加0.587倍绿色加0.114倍蓝色的比例,这模拟的是人眼对不同颜色亮度的敏感程度),然后在这个基础上叠加边缘检测、局部对比度分析和多尺度金字塔处理,生成一个丰富的"亮度地图"。这张地图贯穿整个处理过程,随时告诉AI"哪里特别暗,哪里相对亮一些,边缘在哪里",让增光过程更有针对性。
第三副眼镜叫做"语义感知",它回答的是"这张照片里有什么"。团队借助了另一个预训练模型(DINOv3),这个模型能识别出图像中的物体类型和场景结构,提供所谓"高层语义特征"——通俗说就是"这个区域看起来像人脸,那个区域是背景植物,右下角是一把椅子"。为什么这有用?因为不同物体在恢复过程中对颜色和纹理的要求完全不同。人脸的肤色复原需要极度精确,稍有偏差就会显得不自然;而背景植物则可以相对宽松。语义信息让AI能够区分对待不同区域,在该精细的地方精细,在无关紧要的地方不过度投入。
---
三、三副眼镜如何协同工作
有了三种信息来源,下一个问题是:怎么把它们融合在一起?这就涉及到这个研究的核心技术发明——多模态交叉注意力块(MMCAB,Multi-Modal Cross-Attention Block)。
用一个类比来理解这个机制。假设你是一位室内设计师,正在为一张昏暗的房间照片规划改色方案。你手边有三份参考资料:一份是房间的建筑平面图(对应深度信息),告诉你每个区域的空间位置和遮挡关系;一份是照明分析报告(对应亮度信息),标注了哪里亮哪里暗;还有一份是物品清单(对应语义信息),列明了桌椅床柜的具体位置。你在做每一个局部决策时,都会主动去查阅最相关的那份资料,而不是机械地把三份资料全部摊开混在一起。
交叉注意力机制做的正是这件事。系统把当前正在处理的RGB图像特征当作"提问方",而把深度、亮度、语义这三种辅助信息当作"回答方"。对于图像中的每一个位置,系统会主动向辅助信息"提问":这里有什么几何结构?这里的亮度分布是什么样的?这里有什么物体?辅助信息根据问题给出有针对性的回答,RGB特征据此做出更精准的判断。这种"主动查询"的方式,远比单纯把几种信息拼在一起更聪明。
与此同时,系统还保留了原有的"自注意力"机制——也就是RGB图像自己内部的特征相互参考。这是继承自前代模型Retinexformer的能力,专门用来处理光照引导下的图像细节恢复。研究团队没有用辅助信息替换这种自注意力,而是让两者并行存在,通过一个"自适应门控"机制来动态决定在每个位置上应该更信任哪一方。
这个门控机制可以理解为一个随时调整的音量旋钮。当辅助信息质量高、与当前区域高度相关时,旋钮会自动转向辅助信息这边;当辅助信息不够可靠或与当前情况关系不大时,旋钮就退回到RGB自身的判断。这种灵活性是这个设计的一大亮点——它承认辅助信息并非总是有用的,而不是盲目地全盘采纳。
---
四、整体流水线:从黑暗到光明的三步走
M2Retinexformer的完整处理流程,可以用一个修复老照片的流水线来类比。
第一个车间负责"分析光照",也就是论文中所说的照明估计器。这个模块继承自Retinexformer,它拿到一张黑暗的照片后,先估算出这张照片"理论上应该有多亮",生成一张"照亮版"图像和相应的照明特征图。这就像先给老照片做一个初步的密度分析,判断哪里的银盐颗粒过于致密(对应过暗区域)。
第二个车间负责"提取辅助信息",也就是模态提取器。深度模型、亮度计算和语义模型分别工作,在三个不同的分辨率尺度上提取特征,然后统一格式,准备送入后续流程。之所以要在多个尺度上提取,是因为不同的处理层次需要不同精度的辅助信息:处理大块区域的光照时需要全局视野,处理细节纹理时则需要局部精度。
第三个车间也是最核心的车间,叫做"多模态腐化恢复器",负责在照明估计的基础上压制噪点、修复色彩、还原细节。这个车间采用U形编解码架构——也就是先把图像逐步压缩到抽象表示,再逐步还原回高分辨率图像,整个过程中每一层都有对应的辅助模态特征注入,通过前面介绍的MMCAB模块进行融合。
整个流程可以级联运行一到三次,每次都在前一次结果的基础上进一步精细化。辅助信息只需要提取一次,就可以在所有阶段复用,避免了重复计算的浪费。
---
五、损失函数:不只追求数字,还要追求"看起来对"
在训练AI模型时,需要告诉它"什么是好结果"。最直接的方式是计算输出图像和标准答案之间的像素级差异,差异越小越好——这叫L1损失。Retinexformer原本只用这一种指标。
但研究团队发现,仅仅追求像素精度有一个盲点:像素精度高不等于看起来自然。有时候,两张图像的像素差异很小,但其中一张看起来颜色偏了、纹理糊了、边缘丢了,而另一张则清晰自然。区别在于高层次的视觉感知,这是简单像素差异捕捉不到的。
于是团队额外加入了"感知损失"——用一个已经学会辨认图像内容的VGG-19网络,分别提取输出图像和标准答案的特征表示,然后计算这两种特征表示之间的差异。这个差异反映的是"视觉内容和语义结构的相似程度",而不仅仅是像素位置的精确匹配。感知损失和像素损失各占一定权重(感知损失权重设为0.5),共同指导模型往"既精确又自然"的方向优化。
---
六、实验结果:数字背后的真实提升
研究团队在七个主流低光图像数据集上进行了测试,分别是LOL-v1、LOL-v2真实版、LOL-v2合成版、SID、SMID、SDSD室内版和SDSD室外版。这些数据集涵盖了室内、室外、静态、动态等多种拍摄场景,是该领域公认的标准测试平台。
评测指标使用PSNR(峰值信噪比,数值越高代表与原图越接近,单位是分贝)和SSIM(结构相似度,数值越高代表结构保真度越好)。
与基线模型Retinexformer相比,M2Retinexformer在大多数数据集上都取得了明显进步。在LOL-v1上,PSNR从23.61提升到24.89;在LOL-v2真实版上,从21.85跃升到23.85,提升幅度接近2个PSNR单位,这在图像处理领域是相当可观的进步;在LOL-v2合成版上,从25.52提升到27.12;在SDSD室内版上,从28.74提升到30.48,突破了30的门槛。SID数据集上也从24.44小幅提升到24.84。
横向与同期其他方法相比,M2Retinexformer在多数数据集上达到最好或次好的水平。相比SNR-Net在LOL-v1上的24.61,M2Retinexformer的24.89略胜一筹;在LOL-v2真实版上,M2Retinexformer的23.85明显高于SNR-Net的21.48和RetinexMamba的22.45。
不过,在SMID和SDSD室外这两个数据集上,M2Retinexformer的提升相对有限,甚至在SDSD室外版上略低于Retinexformer。研究团队对此给出了解释:这两个数据集来自视频序列,拍摄方式是短曝光和长曝光交替采集,图像的退化模式与普通低光照片有所不同,辅助模态(尤其是深度估计)在这类场景下的稳定性会有所下降,导致辅助信息的可靠性降低,进而影响最终效果。这也印证了研究团队在设计中的一个判断:辅助信息并非万能,当它不可靠时,系统需要有能力降低对它的依赖。
从视觉效果上看,研究团队展示的对比图清楚地说明了问题。处理同一批LOL-v2真实版图像时,Retinexformer处理后的结果存在明显的色彩偏移和残余噪点,而M2Retinexformer处理后的图像颜色更自然,噪点更少,细节更清晰,整体视觉质量更接近在正常光线下拍摄的原始参考图。
---
七、拆解验证:每个部件到底有多重要
为了搞清楚每一种辅助模态和每一个设计选择到底贡献了多少,团队在LOL-v2真实版数据集上做了一系列"拆解实验",逐一加入或移除各个组件,观察性能变化。
基线Retinexformer的PSNR是21.85。仅加入感知损失后,PSNR提升到22.81,进步了0.96。在此基础上加入语义特征(DINOv3),提升到22.90,额外增加了0.09。如果仅加入感知损失加上深度特征,PSNR直接跃升到23.85,比基线高出整整2个单位——深度信息的贡献是三种辅助模态中最大的。仅加入感知损失加上亮度特征的组合,PSNR达到23.29,贡献居中。
有意思的是,当把所有三种辅助模态同时加入时,结果并不是最好的,PSNR反而降到了23.35,低于单独使用深度特征的23.85。这个结果颇耐人寻味——把所有好东西堆在一起,结果反而不如精挑细选。研究团队的解读是:不同模态之间可能存在信息冗余甚至相互干扰,尽管自适应门控机制尽力平衡各方输入,但它无法完全消除多余信息带来的负面影响。换言之,在多模态融合中,"选什么"和"怎么选"同样重要,更多不等于更好。
这个发现对整个领域具有一定的警示意义:在追求多模态增强的道路上,盲目堆叠信息来源不是正确方向,精心设计的模态选择和融合策略才是关键。
---
八、模型规模与实际开销
一个自然的疑问是:引入了这么多额外模块,模型会不会变得异常庞大、难以实际使用?
研究团队对此给出了相当详细的说明。M2Retinexformer的可训练参数量只有200万(2M),这个数字相当小。之所以能保持这么小,是因为深度估计模型和语义特征提取模型都是以"冻结"状态使用的——它们在训练过程中参数不更新,只是作为固定的特征提取工具。因此,虽然这两个预训练模型本身体积不小,但它们不参与优化过程,不增加训练复杂度。
包含这些冻结模型在内,M2Retinexformer的总参数量为4800万(48M)。研究团队特别指出,这大约是同类多模态方法ModalFormer所使用的特征提取器(4M-21,1.98亿参数)的四分之一,体量上具有明显优势。
所有实验都在单张NVIDIA RTX 5090显卡上完成,这意味着该研究在一块高端消费级显卡上就能跑起来,而不需要多卡集群。研究团队还公开了完整的代码、训练脚本、评测脚本和预训练权重,以确保其他研究者能够复现实验结果。
---
归根结底,这项研究做的事情,是把人类视觉系统"用多种感知协同工作"的本能,以一种工程化的方式移植到了AI模型里。深度感知告诉它场景的几何骨架,亮度感知告诉它光线的分布规律,语义感知告诉它场景里有什么——三者结合,比只会看颜色的普通AI聪明了不止一点半点。
这对普通用户意味着什么?手机摄影爱好者在昏暗餐厅、夜间街头、室内弱光场景下拍摄的照片,有望通过这类技术得到更自然的修复,而不是被简单粗暴地"提亮然后一片噪点"。安防摄像、夜间自动驾驶、医疗影像等对画质要求严格的专业场景,也可能受益于更精准的低光图像处理能力。
当然,研究也坦承了自身的局限:辅助信息的质量决定了增强效果的上限,在某些特殊拍摄模式下(比如视频短曝光采集),辅助模态的稳定性会打折扣,效果因此受限。此外,"哪几种辅助模态组合最优"这个问题,目前还没有一个通用的答案,需要根据具体场景调整。
这个研究还留下了一个开放的设计空间:框架是模块化的,新的辅助信息来源可以方便地接入,不需要改动核心网络。这意味着未来如果有人想加入热成像、雷达深度、IMU运动信息等更多感知通道,框架本身已经做好了准备。感兴趣的读者可以通过arXiv编号arXiv:2605.12556检索完整论文和开源代码,深入了解技术细节。
---
Q&A
Q1:M2Retinexformer用的深度信息是实拍的深度图还是AI估算出来的?
A:M2Retinexformer使用的是AI估算出来的深度信息,具体是通过一个叫做Depth Anything V2的预训练深度估计模型,直接从普通RGB照片推算出每个像素的深度值。这个模型以"冻结"状态运行,只负责提取特征,不参与训练。研究团队发现无论照片是在亮处还是暗处拍摄的,同一场景估算出的深度图都高度一致,正是这种稳定性让深度信息成为低光增强中最有价值的辅助线索。
Q2:为什么把三种辅助模态全加进去反而比只加深度效果差?
A:从实验结果来看,仅加入感知损失和深度特征时PSNR达到23.85,而把深度、亮度、语义三者全部加入时PSNR反而降至23.35。研究团队的解释是,不同模态之间存在信息冗余,甚至可能相互干扰,即便有自适应门控机制在动态调节各方权重,也无法完全消除多余信息对主RGB分支产生的负面影响。这说明多模态融合中,模态的选择和搭配策略非常关键,堆叠更多信息来源并不保证更好的结果。
Q3:M2Retinexformer在手机上能跑吗?
A:目前该研究的实验是在NVIDIA RTX 5090这块高端桌面显卡上完成的,尚未针对移动端或低功耗设备进行优化。模型包含多个冻结的预训练大模型,整体参数量约4800万,在手机上直接运行存在一定难度。不过研究团队已开源代码和预训练权重,未来若有团队在此基础上进行轻量化压缩或蒸馏,落地到移动设备在技术上并非不可能。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。
快手联合多所顶校提出RewardHarness,只需100个样本即可自动演化评判图片编辑质量的AI系统,平均准确率超越GPT-5,用作强化学习奖励信号效果优于专用奖励模型。