微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 视觉品质-R1:通过排序强化学习打造具有推理能力的图像质量评估模型

视觉品质-R1:通过排序强化学习打造具有推理能力的图像质量评估模型

2025-05-26 17:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 17:48 科技行者

一个来自香港城市大学、OPPO研究院和香港理工大学联合研究团队最近在图像质量评估领域取得了重要突破。2025年5月,由吴天鹤、邹健、梁杰、张磊和马可得领导的研究小组发布了一篇题为《VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank》的论文。这项研究提出了一种名为"VisualQuality-R1"的创新模型,通过强化学习方法提升了图像质量评估的准确性和可解释性。有兴趣深入了解的读者可以访问研究团队在GitHub上的项目页面:https://github.com/TianheWu/VisualQuality-R1。

图像质量评估:我们为什么需要它?

想象一下你刚拍了一张重要照片,但不确定它的质量如何——是否太模糊?曝光是否恰当?细节是否清晰?人类很容易判断这些,但让计算机自动评估图像质量却是一个挑战性的问题。这正是图像质量评估(IQA)技术要解决的难题。

图像质量评估主要分为两类:全参考(FR)和无参考(NR)。全参考方法需要一张完美的参考图像作比较,就像有一个标准答案可以对照。而无参考方法则更具挑战性,因为它必须单独评估一张图像的质量,没有任何参考——就像没有标准答案的考试。在现实生活中,我们通常没有理想参考图像,这就使得无参考图像质量评估(NR-IQA)变得尤为重要。

多年来,NR-IQA技术从基于知识的方法发展到数据驱动的方法,从回归模型转向基于排序的模型。然而,让这些模型适应各种不同的图像失真情况仍然是一个难题。特别是当面对训练数据中未曾见过的新型失真时,模型往往表现不佳。

视觉语言模型:革新图像质量评估的新力量

近年来,视觉语言模型(VLMs)的出现为解决这一挑战提供了新思路。这些模型同时理解图像和文本,能够整合多模态信息,不仅能捕捉低级的图像失真(如噪点和模糊),还能理解高级的感知属性(如美学和内容语义)。

然而,现有的基于VLM的NR-IQA方法主要依赖有监督微调(SFT),这种方法存在几个明显缺陷。首先,构建高质量的图像质量描述需要大量人工,使得标注过程费时费力且成本高昂。其次,通过SFT训练的模型容易过度拟合训练数据中的偏见和特性,还可能在训练过程中"灾难性遗忘"预训练获得的知识。第三,SFT方法往往生成过于僵化和模板化的输出,实用性较低。

强化学习:推理能力的催化剂

强化学习(RL)作为一种另类的训练方法,近期在提升大型语言模型(LLMs)的推理能力方面展现出巨大潜力。特别是DeepSeek-R1模型证明了RL在促进LLM泛化能力方面的有效性,它通过鼓励模型自动探索合理的推理路径并使用基于规则的奖励来防止"奖励骗取"(即模型找到捷径获取高奖励而不是真正解决问题)。

然而,将RL技术直接应用于NR-IQA并不简单。最近的Q-Insight模型尝试了这种方法,但受限于其依赖数据集特定的奖励设计和额外的失真类型分类。这些限制源于其将视觉质量视为绝对感知量,从而将NR-IQA简化为回归任务。

VisualQuality-R1:创新融合排序与推理的图像质量评估方法

本文提出的VisualQuality-R1模型突破性地将强化学习与排序学习相结合,充分考虑了视觉质量本质上的相对性。具体来说,研究团队采用组相对策略优化(GRPO)为每张图像生成多个质量评分,然后使用Thurstone模型计算两张图像之间的比较概率。

与以往方法不同的是,VisualQuality-R1使用连续的保真度度量作为奖励函数,而非离散的二元标签,这为质量排序提供了更精确的指导。大量实验证明,VisualQuality-R1在各种失真场景下都能有效评估视觉质量,优于传统的判别式深度学习模型和基于推理的质量回归方法。

更重要的是,VisualQuality-R1能够生成丰富且符合人类直觉的质量描述,这些描述可以为下游图像处理算法提供有针对性的反馈,支持数字摄影流程中的精细质量控制。此外,VisualQuality-R1在多数据集训练场景中保持有效,无需进行感知尺度重新校准,这是传统回归模型所不具备的优势。

VisualQuality-R1是如何工作的?

想象一下你是一位专业摄影师,需要从一堆照片中挑选出最佳作品。你会怎么做?很可能是将照片两两比较,逐步筛选出高质量的图像。VisualQuality-R1正是借鉴了这种相对比较的思路。

具体来说,给定一个文本提示和一张图像,VisualQuality-R1(基于预训练的视觉语言模型)会生成一步步的推理过程,最终输出一个1到5之间的质量评分。这个过程被包装在特殊的标签中,以增强可解释性。

对于一批训练图像,VisualQuality-R1通过GRPO为每张图像生成K个质量预测。这些预测自然地编码了预测不确定性,这对于进行可靠的相对质量排序至关重要。在Thurstone模型中,图像质量被假设为服从高斯分布。利用这一点,研究者计算了图像对之间的非对称比较概率,方法是用第一张图像的第k个质量得分减去第二张图像的平均质量得分,并通过它们的累加样本方差进行标准化。

与之前固定方差参数为1的基于排序的NR-IQA模型不同,VisualQuality-R1显式地利用GRPO派生的样本方差,这使得模型能够动态适应不同图像的预测不确定性。同时,使用样本均值进行质量比较稳定了非对称概率估计和后续的奖励计算,通过适当惩罚离群预测来实现这一点。

真实的偏好是从人类平均意见分数(MOS)派生的:当第一张图像的MOS高于第二张时,偏好值为1;当两者相等时为0.5;否则为0。

VisualQuality-R1的一个关键创新是为每个质量估计定义了奖励函数,使用保真度度量作为离散二元奖励的连续类比,并在所有图像对上取平均。这种连续奖励反馈在强化学习过程中提供了精确指导,通过捕捉质量排序中的细微差别来提升模型在各种失真场景下的泛化能力。

实验验证:VisualQuality-R1的卓越表现

研究团队通过全面的实验验证了VisualQuality-R1的有效性。在单数据集训练场景中,他们首先在合成的KADID-10K数据集上训练模型,然后在八个不同的数据集上进行零样本测试,这些数据集包含来自数字成像和(后)处理阶段的各种失真。

结果显示,所有基于VLM的模型都优于传统和判别式深度学习模型,即使是未经过IQA特定训练的基础Qwen2.5-VL-7B也达到了0.708的SRCC。这凸显了当前VLM在捕捉可泛化质量线索方面的强大能力。更重要的是,基于推理的模型如Q-Insight和VisualQuality-R1超过了基于SFT的模型如Q-Align和DeQA-Score。提出的VisualQuality-R1在平均性能上表现最佳,验证了强化学习排序与人类质量感知的更好对齐。

在多数据集训练方面,VisualQuality-R1表现出显著优势。研究团队将VisualQuality-R1同时在KADID-10K和SPAQ数据集上训练,结果显示一致的性能提升,平均SRCC/PLCC从0.777/0.814上升到0.791/0.831。相比之下,Q-Insight未能从多数据集训练中受益,因为它无法处理感知尺度变化:KADID-10K使用1到5的评分,而SPAQ跨度为0到100。

研究团队还进行了多项消融研究,探究了GRPO中生成响应数量K的影响、二元奖励与连续保真度奖励的比较,以及不同Thurstone模型变体的效果。结果表明,使用连续保真度奖励的VisualQuality-R1在同一强化学习框架内比采用二元奖励的模型泛化性能更好。此外,通过计算质量均值而非概率平均的方法产生了更高的性能,表明更可靠的比较概率估计和奖励分配。

深入分析:VisualQuality-R1如何演化推理能力?

研究者通过两项深入分析进一步验证了VisualQuality-R1的优越性。首先,他们跟踪了预测得分变异性在训练迭代过程中的变化,发现标准差在所有数据集上稳步下降,表明VisualQuality-R1在评估图像质量时变得越来越稳定和自信。

其次,他们追踪了VisualQuality-R1在训练过程中视觉推理能力的成熟度。以一张由SwinIR超分辨率处理的测试图像为例,Q-Insight注意到图像"模糊"和"过度曝光",但给出极低的分数(2.00),表明对超分辨率伪影的敏感性有限。基础模型Qwen2.5-VL-7B则走向另一个极端:它称赞"清晰的细节"和"鲜艳的颜色",宣称没有模糊或噪点,给出了过高的分数(4.80)。这个模型显然过度信任表面锐度线索,错过了隐藏的处理痕迹。

相比之下,提出的VisualQuality-R1随着训练迭代逐步细化其视觉推理。在第50步,它开始怀疑人工风格化并质疑图像的真实性,但仍然重视明显的清晰度。到第200步,描述变得更加平衡,它承认细节和清晰度的水平,给出略高但仍然谨慎的评分。在最后一步,解释变得决定性地微妙。VisualQuality-R1将剩余的柔软感归因于可能的过滤或物体的固有结构,将外观标记为"超现实",并将分数降低到3.00,反映了对非自然后处理的明智惩罚。总之,强化学习引导VisualQuality-R1从天真、表面的评论发展到复杂、符合人类的推理,正确识别微妙的超分辨率伪影并相应地校准质量分数。

总结与未来展望

VisualQuality-R1代表了NR-IQA领域的重大进步,它通过强化学习排序(RL2R)优化了一个具有推理能力的无参考图像质量评估模型。该方法基于视觉质量的内在相对性,将Thurstone模型无缝集成到组相对策略优化(GRPO)中,以捕捉预测不确定性。通过引入连续保真度奖励,VisualQuality-R1提供了更精确的政策梯度信号。

大量实验验证表明,VisualQuality-R1在各种失真场景下始终优于强大的判别式深度学习方法和一种基于推理的基线。值得注意的是,它缩小了合成和真实失真之间的性能差距,展示了对数据集归纳偏见和噪声的鲁棒性。除了定量改进外,VisualQuality-R1还生成了上下文丰富、符合人类直觉的质量描述,这不仅增强了透明度和可解释性,还促进了用户信任和在下游任务中的后续诊断,如内容过滤、局部增强优先级排序和质量感知图像检索。

尽管VisualQuality-R1展示了令人印象深刻的泛化能力,但仍存在一些限制和值得进一步研究的方向。作为测试时扩展的一个特例,VisualQuality-R1速度慢、资源消耗大且内存需求高;它可能还会将早期错误累积成自信但错误的预测。因此,未来研究可以探索样本自适应推理、理由压缩或蒸馏以及自一致性采样,使VisualQuality-R1更快、更经济、更稳健。

此外,当前的VisualQuality-R1依赖单一固定文本提示,未来可以考虑加入应用感知的提示适应,例如通过学习提示调整或动态模板选择,以根据特定图像处理任务定制VisualQuality-R1的推理和评分,从而提高其灵活性和准确性。另外,将VisualQuality-R1扩展到基于参考的设置也是一个有趣的方向,允许(可能已损坏的)参考图像作为内容保真度的灵活锚点。

最后,研究团队预见到将提出的RL2R学习算法适用于其他感知评估任务的可能性,包括图像美学评估、人类年龄估计和感知相似性排序。总体而言,这些前景可能会促进更智能、更透明和更适应性强的感知系统的发展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-