
这项由中国科学院深圳先进技术研究院与浙江大学联合完成的研究,于2026年5月25日以预印本形式公开发布(arXiv编号:2605.25569),并已被接收至2026年第40届神经信息处理系统大会(NeurIPS 2026)。有兴趣深入了解的读者可通过上述编号查询完整论文。
你有没有遇到过这样的情况:晚上拍了一张照片,光线太暗,细节全看不清楚。你打开手机修图软件,把亮度调到最大,结果画面变得死白一片,反而失真。你想要的,只是"稍微亮一点",而不是"亮到爆"——但现有的AI修图工具要么不管用,要么一下子改得面目全非,完全没有中间选项。这个让人抓狂的问题,正是这支研究团队想要解决的核心矛盾。
他们开发的系统叫做 ControlLight,一个专门针对低光照图像增强的可控框架。它的核心能力用一句话描述就是:你可以像调音量旋钮一样,把图像的亮度从0慢慢拨到1,每一格都是真实自然的视觉效果,而不是突然跳变。
这听起来像是一个很简单的需求,但要在技术上实现它,研究团队面临了三个彼此交织的难题,而破解这三个难题的过程,就构成了这篇论文的完整故事。
一、为什么现有工具都只有"一个档位"
以调音量旋钮为核心比喻来理解这项研究,会非常清晰。现有的大多数低光照图像增强工具,就像是一台只有"关"和"最大音量"两个档位的音响——要么不动,要么全开,中间没有过渡。
这个问题的根源在于训练数据的设计方式。现有的深度学习低光照增强方法,比如Retinexformer、CIDNet、LLFormer等,通常是用成对的数据来训练的:一张暗的照片配一张标准亮度的照片,模型学会把暗的变成亮的,仅此而已。这种训练方式天然就只有一个目标亮度,不存在"调到一半"的概念。就像一个厨师只学过把食材从生的烤到全熟,从来没有练过几分熟的控制,你让他做个五分熟的牛排,他根本不知道从哪里下手。
与此同时,近年来出现了一类超大规模的图像编辑模型,比如FLUX.2-klein,这类模型用海量的图文数据训练,拥有极强的"视觉理解"能力,能够根据文字指令对图片做各种修改,包括改变亮度。然而这类模型也有自己的问题:它们本质上是"生成式"的,也就是说它们不仅仅是在恢复原本存在的东西,而是在"创作"——这就带来了幻觉风险,比如给照片里凭空添加不存在的纹理,或者把墙角的线条稍微挪一个位置。对于修图来说,这种"自由发挥"是致命缺陷。更重要的是,这些大模型通常也只接受一个文字指令,没法精细控制"增强到几分"。
正因如此,ControlLight 需要从头搭建一套新的机制,同时解决"缺乏中间档位数据"和"大模型容易乱改结构"这两个核心矛盾。
二、先造一把"刻度尺":Light100K数据集的构建
研究团队面对的第一个挑战是:如果你想训练一个能连续控制亮度的模型,你首先需要大量带有"中间状态"的训练数据——也就是说,同一张照片在不同亮度级别下的多个版本。但现实世界里根本没有这样的数据,你没法让摄影师在同一个夜晚用完全一样的场景拍出5种不同亮度的照片。
团队的解法是半自动生成。他们首先从Pexels和Pinterest等开放图片网站,用"低光照"相关关键词搜集了大量真实的暗光照片,并用AI工具过滤掉那些不够"真实暗"的图片,最终保留了约27529张高质量的低光照原图,所有图片分辨率都高于1024×1024像素。
然后,他们用一个叫做FLUX.2-klein-9B的大型图像编辑模型,给每张暗图生成一张对应的"正常亮度版本"。这个步骤就像是请一个经验丰富的摄影师,给每张夜拍照手动调出一个理想效果作为参考。问题是这个"摄影师"(AI模型)虽然很厉害,但它有时候会稍微改变照片里的结构细节——比如一扇门的边缘位置微微偏移了几个像素。为了排除这些"改坏了"的样本,研究团队用边缘检测算法比较原图和增强图的结构差异,将偏差过大的样本剔除,最终留下了约17809对高质量的暗/亮图片对。
但光有"暗"和"亮"两个端点还不够,就像音量旋钮只有0和10没有中间刻度一样。研究团队需要为每对图片生成中间的"2分亮"、"4分亮"、"6分亮"、"8分亮"四个中间状态,构成完整的连续序列。
这里出现了一个技术关键点:如何生成这些中间状态?最简单的方法是直接把暗图和亮图做平均混合,就像把两种颜色的颜料搅在一起。但这种做法存在严重问题:直接混合像素值会把照片里的阴影、纹理、色彩对比度全都弄乱,产生出一种介于"暗"和"亮"之间但两者都不像的奇怪状态——就像把一个睡着的人的照片和一个清醒的人的照片叠在一起,你不会得到一个"半睡半醒"的人,而是一个鬼影。
研究团队引入了一种叫做"Retinex启发式插值"的方法来解决这个问题。Retinex是20世纪70年代由美国科学家埃德温·兰德提出的一个关于人类视觉的理论,其核心思想是:我们眼中看到的任何一张图像,都可以分解为两个部分——场景本身的固有内容(比如一块红色的布就是红色的,这叫做"反射率")和照亮这个场景的光照条件(比如是白天的自然光还是夜晚的灯光,这叫做"照明")。
理解了这个分解,连续亮度控制的问题就清晰多了:你想要的"调亮",本质上只是改变照明部分,而不是改变场景本身。所以正确的中间状态生成方式,应该是只插值"照明",保持"反射率"基本不变。
具体来说,研究团队把图像从常见的RGB颜色空间转换到线性光强度空间,然后提取出每张图片的亮度图,用一种叫"双边滤波器"的工具(可以理解为一个只保留大块光影、过滤掉细节纹理的模糊处理)估算出照明分量。在得到暗图的照明分量和亮图的照明分量之后,他们在"对数域"做插值——这意味着照明的过渡是乘法式的,而不是加法式的,更符合人类感知光线的方式。与此同时,场景内容(反射率)的混合被刻意压缩,只做很少量的混合,避免引入生成模型可能带来的伪影。
最终,每对图片都被扩充成一组包含6个亮度层次(0、0.2、0.4、0.6、0.8、1.0)的完整序列,整个数据集命名为Light100K。这把连续的"亮度刻度尺",是ControlLight后续一切能力的基础。
三、处理一个几乎看不见却危害极大的问题
有了连续的训练数据,理论上就可以开始训练模型了。然而研究团队在这个过程中发现了一个隐藏的麻烦,这个麻烦用肉眼几乎看不出来,却会在训练过程中悄悄放大成严重的视觉问题。
即使是经过严格筛选的"高质量"图片对,其中的暗图和亮图在边缘位置上仍然可能存在微小的偏移。由于暗图和亮图的主要差异是亮度,这种边缘偏移会被亮度差异所掩盖,人眼很难察觉。但如果直接用这些数据训练模型,模型就会在反复学习的过程中把这些微小偏移当作"正确答案"记住,甚至在输出图像的边缘区域放大这种偏移,导致增强后的图片边缘出现细微但可感知的"结构漂移"——就像复印机复印了很多次之后,文字会越来越模糊一样。
为了让这个隐形问题变得可见,研究团队设计了一种专门的"结构边缘差异图"计算方法:先把图像转换到对数亮度域,消除亮度差异的干扰;再减去大尺度的光照变化,只保留高频的细节结构;最后计算两张图在结构细节层面的梯度差异。这个过程就像是给两张图拍了一张"只看骨架不看皮肤"的X光,让隐藏在亮度差异背后的结构错位无所遁形。
有了这张可视化的边缘差异图,研究团队设计了一种叫做"错位感知加权流匹配损失"的训练机制。听起来很学术,实际上原理很简单:在训练模型的时候,对于那些在目标图像中出现了"可疑边缘"(即与原图边缘位置相差超过3个像素的边缘)的区域,降低这些区域对训练的影响权重,告诉模型"这里的目标不可靠,你不用严格照着学"。对应地,在那些可靠的区域,正常强度地训练。
这个机制用一个权重图来实现,权重图中可靠区域的权重为1,不可靠的边缘区域的权重被压低(最低只有0.2,不是0,是因为还需要保留一点弱监督信号,不能完全忽略这些区域)。这些权重图是提前计算好并保存下来的,不需要在训练过程中实时计算,大大提升了训练效率。
实验结果显示,引入这个机制后,模型输出图像的结构一致性指标(LI-LPIPS)从0.2237降低到0.2148,而感知质量各项指标也全面提升,比如NIQE从5.6242降到4.5367,MUSIQ从55.2252升到62.5262,CLIPIQA从0.5232升到0.6112。换句话说,这个"几乎看不见的问题"的修复,带来了相当可观的实际质量提升。
四、把"旋钮"集成进大模型:ControlLight的工作方式
数据有了,训练机制也完善了,现在关键是:怎么让模型知道用户想要的是"0.3分亮"还是"0.7分亮"?
研究团队选择的基础模型是FLUX.2-klein-9B,这是一个拥有90亿参数的大型图像生成和编辑模型,本身已经具备极强的图像理解和生成能力。为了不破坏这个大模型原有的能力,同时又能高效地添加新的"亮度控制"功能,团队采用了一种叫做LoRA(低秩适应)的微调技术。
LoRA可以类比为给一台功能齐全的专业相机加装一个转接环:相机本身完全不需要改动,只需要加一个轻量的附件,就能支持全新的使用场景。具体来说,LoRA在原有的模型权重矩阵旁边,加入一对小的可训练矩阵A和B,在推理时把它们的乘积加到原始权重上。ControlLight的关键创新在于,把用户设定的增强强度s直接作为这个附加量的缩放系数:最终权重 = 原始权重 + s × A × B。
这意味着,当s=0时,附加项为零,模型完全等同于原始未修改的大模型;当s=1时,附加项最大,模型全力执行增强任务;当s=0.5时,附加项是最大值的一半,模型以"半力"执行增强。s可以是0到1之间的任何值,模型的响应是连续平滑的。
这种设计与此前一个叫ConceptSlider的方法有形式上的相似之处,但本质上有一个关键区别:ConceptSlider只在训练时学习一个方向,s的连续控制是在推理时靠线性插值"猜"出来的,没有中间状态的真实监督。ControlLight则是在训练时就为每一个具体的s值(0.2、0.4、0.6、0.8、1.0)配置了对应的真实目标图像,模型是真实地学过"到底0.4分亮应该长什么样",而不是在测试时靠推理猜测。这种有明确中间监督的训练方式,是ControlLight在轨迹平滑性上大幅领先对比方法的根本原因。
在具体的训练设置上,整个系统在4块NVIDIA A6000 GPU上运行,输入图像分辨率固定为1024×1024像素,批量大小为16,学习率为0.0001,共训练3000步。LoRA模块包含约3.17亿个可训练参数,相对于基础模型90亿参数的体量,是一个相当轻量的附加。
五、和"同行"比拼:实验结果全解析
研究团队把ControlLight放到了多个标准测试集上,与一系列现有方法进行了全面比较。
在有标准答案(参考图)的测试集上,具体是LOL-v1(15张测试图)和LWSR(50张测试图,分华为和尼康两个子集),ControlLight在大多数感知质量指标上达到最优。这里稍微解释一下这些指标的含义:NIQE越低代表图像越自然,CLIP-IQA越高代表图像与"正常照片"的视觉概念越接近,MANIQA越高代表图像质量越好,MUSIQ越高代表多尺度视觉质量越高。ControlLight在LWSR上的CLIP-IQA达到0.589,在所有对比方法中最高;MANIQA达到0.494,同样最高;MUSIQ达到68.39,也是最高。
值得一提的是,在LOL-v1测试集的视觉对比图中,ControlLight的输出颜色有时与"标准答案"存在差异(比如猫的颜色色调有所不同),但这并不是缺陷,而是因为模型恢复出了"视觉上更自然"的结果,而原数据集的所谓"标准答案"本身可能存在色彩偏差。这恰恰说明,过度依赖PSNR和SSIM这类衡量像素级相似度的指标评价低光照增强模型,是不够合理的。
在没有标准答案的真实世界测试集上(DICM、LIME、RealIR-Bench),ControlLight的优势更加明显。以RealIR-Bench为例,ControlLight的CLIP-IQA达到0.550,MANIQA达到0.491,MUSIQ达到67.96,均大幅超越所有对比方法。传统方法在这些真实场景数据上表现明显下滑,说明它们的泛化能力存在明显局限——这些方法在训练集场景上做得不错,但遇到真实世界的复杂退化场景时就力不从心了。ControlLight因为建立在拥有强大先验知识的大型模型之上,在真实场景的泛化能力上有天然优势。
在连续控制能力的专项评测上,研究团队还与一批专门做连续图像编辑的方法进行了比较,包括ConceptSlider、AttributeControl、KSlider、SliderEdit以及CLE Diffusion。评测使用了两个指标:δsmooth衡量增强轨迹的平滑性(越低越好,代表每一步变化之间没有跳跃),CLIP-Dir衡量增强方向的一致性(越高越好,代表整个增强过程是朝着"更亮更清晰"这个方向一致前进的)。ControlLight在CLIP-Dir上以0.9138(RealIR-Bench)、0.9012(DICM)、0.9159(LIME)的分数遥遥领先所有对比方法,远超第二名的0.4488(KSlider在DICM上的成绩)。这意味着ControlLight的增强过程不仅平滑,而且方向正确——每加一点强度,效果就真实地朝着"更好的亮度"方向推进,不会出现方向混乱或来回震荡的情况。
这把研究结果呈现得非常完整了。归根结底,ControlLight做到了一件看似简单实则需要精心工程设计才能实现的事情:让低光照图像增强这个任务,从"只有一个目标"变成了"可以连续精准调节",而且调节过程平滑自然、结构保持良好、泛化能力强。
说到底,这项研究的核心价值在于打破了一个长期存在于低光照图像处理领域的隐性约束:研究者们过去默认每张暗图只需要一个增强目标,从来没有系统地考虑过"用户可能只想要一点点亮,不想要全亮"这种需求。ControlLight通过构建专门的连续监督数据集、设计物理上合理的插值方法、引入对结构偏移具有鲁棒性的加权训练机制,以及将增强强度直接编码进模型权重的缩放因子中,把这个看似简单的需求变成了可靠的技术现实。
对于普通用户而言,这意味着未来的修图工具在处理夜拍照片时,不再只有"增强"和"不增强"两个选项,而是能像调节音量一样精细控制每一级亮度,并且每一级的效果都是视觉上自然、结构上准确、不引入幻觉伪影的。这对于新闻摄影、安防监控、夜间医疗影像等对真实性要求极高的场景,具有特别重要的实用价值。
一个值得思考的问题是:当增强强度可以无限细分时,"什么程度的亮度才是最佳"这个问题本身就交还给了用户,而不是由模型单方面决定。这种"主动权归还"的设计思路,可能比单纯追求最高峰值性能更符合真实世界中多样化的使用需求。感兴趣的读者可以通过arXiv编号2605.25569查阅完整论文,进一步了解技术细节。
Q&A
Q1:ControlLight和普通低光照增强工具有什么本质区别?
A:普通低光照增强工具通常只能将图片调整到一个固定的目标亮度,没有中间档位。ControlLight通过构建连续监督数据集Light100K,并将增强强度s直接编码进模型参数,让用户能像调音量旋钮一样把亮度从0连续调节到1,每一档都是视觉自然、结构准确的真实效果,而非线性插值猜测出来的中间状态。
Q2:Light100K数据集里的中间亮度图像是怎么生成的?
A:研究团队采用了基于Retinex理论的插值方法,将图像分解为"照明"和"场景内容"两个部分,只在对数域对照明分量做乘法式插值,场景内容只做少量混合。这比直接对RGB像素做平均混合更符合人类视觉感知光线的方式,能更好地保留阴影、纹理和对比度,产生更自然的中间亮度状态。
Q3:错位感知加权流匹配损失解决的是什么问题?
A:即使经过严格筛选,暗图和增强图之间仍可能存在几个像素级别的边缘位置偏移。直接用这些数据训练模型,模型会把偏移当作正确答案记住并放大,导致输出图像边缘出现结构漂移。这个加权损失通过降低"可疑边缘区域"对训练的影响权重,让模型在这些不可靠区域只接受弱监督,从而保留输入图像的原始结构。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。