
这项由德国伊尔梅瑙工业大学视听技术研究组与亚琛工业大学通信工程研究所联合开展的研究,已被第18届多媒体体验质量国际会议(QoMEX 2026)接收,预计通过IEEE Xplore正式发表。感兴趣的读者可以通过arXiv预印本编号 arXiv:2505.25940 查阅完整论文。
手机里那段模糊的老视频,用AI一键变高清——这种体验相信很多人都梦寐以求。近年来,视频超分辨率技术(可以简单理解为"让模糊视频变清晰的技术")正在快速发展,其中以扩散模型为代表的新一代AI方法更是让效果突飞猛进。然而,一个让研究者们头疼的问题却悄然浮现:我们怎么知道AI"修复"出来的画面,真的更好看?现有的那些自动打分工具,面对这类AI生成的画质,究竟靠不靠谱?
这支研究团队拿出了一套严谨的实验方案,找来32名真实参与者,让他们用眼睛投票,再把人类评分结果与数十种自动质量评估工具的打分一一比较。最终的答案颇为耐人寻味:几乎所有现有的自动评分工具,面对这批AI超分辨率视频,都或多或少地"看走眼"了。
一、为什么我们需要专门研究这个问题
在讲研究本身之前,有必要先理解一件事:视频质量好不好,到底应该怎么衡量?
最直觉的办法当然是让人看。但如果每一个新的AI算法发布,都要组织一大批人坐在屏幕前打分,这既费时又费钱。于是,研究者们开发了各种自动化的"视频质量评分工具",希望用计算机来模拟人类的视觉判断。这些工具就像是替代人工的"质量检验员"。
问题在于,这些检验员大多是在传统视频压缩、传输失真等场景下训练出来的,它们擅长判断"马赛克多不多""图像模糊不模糊"。但AI超分辨率视频带来了一种全新的"失真"——不是失去细节,而是AI凭空"发明"细节。一堵普通的砖墙,经过某些AI处理后可能变得纹理异常锐利,甚至出现从未存在过的纹路。这种"脑补"出来的细节,到底算好还是算坏?传统检验员完全没见过这种情况。
这支研究团队正是瞄准了这个空白地带。他们特别关注的是以扩散模型为核心的新一代超分辨率方法——这类方法类似于那些能"画出"逼真图像的AI绘图工具(如Stable Diffusion),只不过任务变成了"脑补"视频中缺失的细节。
二、搭建实验舞台:视频、压缩与六种"修复方案"
为了让实验尽可能贴近现实,研究团队从一个已有的公开数据库(AVT-VQDB-UHD-1)中挑选了六段原始视频,每段时长8到10秒,分辨率达到4K(即3840×2160像素,也叫UHD-1),帧率为每秒60帧。这六段视频在内容上差异显著,既有兔子卡通片(BigBuckBunny)、火花特效(Sparks15)这类高动态场景,也有相对静谧的蔬菜特写(Vegetables)和室内场景(Giftmord)。
这些4K原始视频随后被缩小成360p和720p的低分辨率版本,相当于把一张高清大图缩印成邮票大小。接下来,研究团队还额外给这些低分辨率视频做了两种不同的压缩处理,模拟实际网络传输中常见的画质损耗。第一种是AV1编码,这是目前互联网上广泛使用的主流视频压缩格式,就像是常见的快递包装;第二种是DCVC-RT,这是一种基于神经网络的新型视频压缩方式,代表了更前沿的压缩技术路线。两种压缩都选取了能产生明显画质劣化的参数,让视频看起来有可见的编码瑕疵。这样一来,加上未压缩的版本,每段原始视频就衍生出了六种不同的"受损版本",总共36段待处理素材。
随后,这36段低分辨率视频被送进六种不同的"修复工具",统一放大回4K分辨率。第一种是Lanczos,这是一种纯数学计算的传统放大算法,没有任何AI成分,相当于用数学公式把小图"拉伸"到大图,作为基准参照。
第二种是Rhea,来自TopazLabs公司的商业产品(V7.1.0版本),这是一款经过大量真实视频训练的专业工具,能根据视频内容自动调节锐化、降噪和修复压缩痕迹的力度。它的表现最为稳定,但"脑补"细节的能力相对保守。
第三种是SCST,全称为"自监督ControlNet结合时空连续Mamba",这个名字很拗口,但核心思路可以理解为:借用一个原本用来画图的AI模型(Stable Diffusion v2.1),加上一套专门处理视频时间连贯性的机制,来完成视频超分辨率任务。在处理每段视频前,研究团队还专门用另一个AI工具为视频生成了文字描述,帮助这个模型更好地理解画面内容。SCST的处理速度极慢,平均每帧需要96秒,而且由于每次处理的视频片段较短,前后片段的衔接经常出现明显的画面跳变,时间连贯性较差。更明显的问题是,它倾向于把画面处理得过分锐利,在暗部区域还偶尔会出现孤立的亮白色像素点,看起来像噪点。
第四种是DOVE,由陈等研究者提出,基于一个文字生成视频的AI模型(CogVideoX)。它的训练方式是先让AI学会区分低分辨率和高分辨率图像在"潜在空间"(可以理解为AI内部对图像的抽象理解)的差距,再在实际像素层面进行细化。DOVE每帧只需18秒,处理结果画面平滑,时间连贯性很好,视觉上自然流畅。
第五种是SeedVR2,由王等研究者开发,拥有70亿参数(相当于一个体量巨大的AI大脑),但通过特殊的训练技巧压缩成了"一步生成"的模式,每帧仅需11秒,是研究中公开模型里速度最快的。它的输出结果比DOVE略微更细腻,对细小纹理的还原更好,同时保持了良好的时间稳定性。
第六种是Starlight Mini,同样来自TopazLabs,是他们第一个商业化的扩散模型工具。由于这个工具的放大倍数有限制,360p的视频需要先用Lanczos放大到540p,再交给Starlight Mini放大到2160p,相当于两步处理。测试时所用版本存在一个技术缺陷:处理后的视频有时会出现轻微的空间错位,也就是画面某个区域会有细微的位置偏移。这个问题肉眼不容易察觉,但会对那些依赖精确像素对比的评分工具造成干扰。
三、让真人来评判:32位参与者的观看实验
研究团队在受控环境中组织了一场正式的主观评价实验。32名参与者(均为23至36岁的高校学生和工作人员)坐在一台43英寸的华硕UHD显示器前,观看距离固定为屏幕高度的1.5倍,确保每个人看到的画面大小和视角一致。在正式测试开始前,所有参与者还完成了视力检测,以排除视力问题对结果的影响。
每位参与者需要观看全部222段处理后的视频(即36段受损源视频乘以六种处理方式,再加上原始4K视频),每段观看后用1到5分进行打分:1分代表最差,5分代表最好。这种评分方式叫做绝对类别评分(ACR),是国际电信联盟ITU推荐的标准方法。整个测试时长在45到60分钟之间,中间安排了短暂休息。为了过滤掉那些随意打分或注意力不集中的参与者,研究团队对每位参与者的评分与最终均值的相关性进行了检验,最终保留了28位通过筛选的参与者数据用于后续分析。
实验收集的评分分布大体呈正态分布(类似钟形曲线),但整体偏向较低分段,说明大多数处理后的视频质量确实比原始4K参考视频有所下降,符合预期。
四、人类眼睛看到了什么:各方法的真实排名
当所有参与者的评分汇总后,画面变得清晰了许多。SeedVR2、DOVE和Starlight Mini三者的总体评分最高,且彼此之间的差异没有统计意义,可以说是并列领先。Rhea紧随其后,而SCST的表现则明显垫底。
值得关注的是,SCST在低质量源视频上的评分反而好于高质量源视频,这看起来有些反常。研究团队推测,这是因为SCST会产生大量的噪点和高频纹理,这些效果在原本画质就比较差的视频上,反而能在一定程度上掩盖原有的压缩瑕疵,产生"以毒攻毒"的视觉错觉。
所有处理方法在未压缩源视频上的表现都明显优于压缩过的视频,这一点符合直觉——底子越好,修复效果越好。特别引人注目的是,SeedVR2从未压缩的360p放大时,甚至能达到与原始4K视频相当的感知质量,这相当于把一张邮票大小的清晰图片放大成一幅挂墙海报,观感却依然出色。
从源视频类型来看,AV1压缩的视频在经过超分辨率处理后,评分提升幅度明显大于DCVC-RT压缩的视频。研究团队认为,这可能是因为这些AI超分辨率模型在训练时主要接触的是传统压缩格式(如AV1、H.264、H.265),对传统压缩瑕疵的修复更为熟悉,而对神经网络压缩(DCVC-RT)引入的特殊失真模式则适应性较弱。
不同内容类型的视频也呈现出明显差异。水面波纹(Water)、火花飞溅(Sparks15)、动漫人物跑动(Daydreamer)等高时间复杂度场景——也就是画面内容变化快、运动幅度大的视频——在超分辨率处理后的提升幅度相对有限,不超过0.5分。而蔬菜特写(Vegetables)、室内场景(Giftmord)、卡通兔子(BigBuckBunny)等时间复杂度较低的视频,在AV1压缩源上的评分提升可以超过1分,改善相当显著。这说明,画面变化越平缓,AI"脑补"细节越容易被观察者认可。
五、自动评分工具的大考:谁通过了,谁落榜了
有了28位真实观察者的评分作为"标准答案",研究团队开始对各种自动化质量评估工具进行"摸底考试"。考试的评判标准是相关系数(PLCC和SRCC),可以简单理解为自动工具的打分与人类评分"步调一致"的程度,数值从0到1,越接近1表示两者越吻合。研究团队同时关注了两种维度:一是对同一段源视频的不同处理结果进行排名(称为"序列内"比较),这类似于裁判评判同一批运动员的表现;二是跨越所有视频的整体评分能力。
在全参考模型(Full-Reference,即有原始高质量视频作为参照,直接与处理结果逐像素比较)中,表现最突出的是以神经网络为基础的CNN类模型:LPIPS(有AlexNet和VGG两个版本)、DISTS和CVQA-FR。其中LPIPS的SRCC达到了0.88,DISTS和CVQA-FR也分别达到0.85和0.847。这类模型之所以表现更好,是因为它们不是死板地逐像素比较差异,而是通过学习过大量图片的神经网络来感知图像特征,对超分辨率引入的轻微纹理变化更为宽容。
相比之下,那些传统的全参考模型——例如PSNR(信噪比,衡量像素级别的精确差异)、SSIM(结构相似性)及其变体MS-SSIM——的SRCC普遍在0.5到0.76之间,与人类判断的吻合程度明显较低。Butteraugli和VMAF(全分辨率像素空间操作的模型)受到了Starlight Mini空间错位问题的严重拖累,每当有Starlight Mini参与的视频进入评分,这些模型的表现就会急剧变差。VMAF还有另一个明显的弱点:它对SCST的过锐化结果评分偏高,以为那些异常锐利的纹理代表高质量,而实际上人类观察者并不买账。好消息是,VMAF的一个改进变体——VMAF NEG(增益抑制版本)——在一定程度上缓解了这个过度评分的问题。
在无参考模型(No-Reference,不需要原始视频,只看处理结果本身)方面,整体表现更为惨淡。这类模型的逻辑类似于不知道原版长什么样,只凭自己的经验判断"这个画面好不好看"。表现最好的FasterVQA的SRCC也只有0.683,CVQA-NR系列相近,其余模型普遍在0.6以下。
更令人担忧的是,几乎所有无参考模型都对SCST的结果打出了过高分数。NIQE、MUSIQ和CLIP-IQA+尤其严重,它们将SCST那种异常锐利、充满高频纹理的画面判定为"细节丰富、质量出色",与真实观察者的感受完全相反。这暴露出这些模型的训练数据与超分辨率场景之间存在根本性的认知偏差——它们从未见过这种类型的"失真",自然无从正确评判。
无参考模型还有另一个系统性问题:它们对视频内容复杂度高度敏感。当测试集中去掉时间复杂度最高的Sparks15序列时,很多无参考模型的相关系数大幅下降;而去掉复杂度最低的Vegetables序列时,相关系数反而上升。这说明这些模型依赖内容本身的复杂程度来"判断"质量,在高复杂度场景中表现尚可,但在细节变化较为细微的场景中,就完全无法分辨人眼能察觉到的那些细小差异了。
基于CLIP嵌入的模型(如CLIP-IQA+和MaxVQA)以及基于大语言模型的Q-Align在这次测试中表现尤为糟糕,Q-Align的SRCC甚至只有0.121,几乎等同于随机打分。这表明,为通用图像或视频质量设计的语言-视觉模型,在超分辨率这个高度专业化的场景下严重失效。
六、偏差的方向:全参考高估,无参考低估
研究团队还发现了一个颇为规律的系统性偏差模式。全参考模型——包括那些表现最好的CNN类模型——整体上倾向于低估超分辨率处理的效果,也就是说,它们打出的分数比人类真实感受更低。这是因为全参考模型的本质是"找不同",而超分辨率处理不可避免地引入了与原始画面不完全一致的新细节,这些差异会被算作扣分项,即便人类观察者觉得这些新细节让画面更好看。
无参考模型则走向了另一个极端:它们系统性地高估了超分辨率处理的质量,尤其是对SCST等倾向于过度锐化的模型。这类模型在只看处理结果、不与原始画面比较的情况下,容易被"看上去很锐利、纹理很丰富"的画面迷惑,给出虚高的评分。
这两种偏差方向不同,但同样有害:全参考模型会让研究者误以为某些好方法的提升幅度不够,而无参考模型则会让过度处理的方法看起来表现突出。两种工具都无法可靠地替代真人评判来验证超分辨率算法的质量。
七、结论:现有工具不够用,但方向已经明确
归根结底,这项研究告诉我们的核心信息可以用一句话概括:当前没有任何自动质量评估工具,能够可靠地替代人类主观测试来评判扩散模型超分辨率视频的质量。
这个结论并不是在否定现有工具的价值,而是清醒地指出了它们的局限性边界。CNN类的全参考模型(LPIPS、DISTS、CVQA-FR)目前是最接近人类判断的选择,在同一源视频的不同处理方案之间进行比较时,SRCC能达到0.85至0.88的水平,可以作为粗筛工具使用,但仍无法作为最终仲裁依据。无参考模型在整体上的可靠性更低,特别是面对过锐化和空间错位这两种超分辨率特有的失真类型时,几乎全面失效。
从这项研究暴露出的问题来看,未来的改进方向相当清晰。全参考模型需要降低对轻微空间错位的敏感度,毕竟这种错位人眼往往无法察觉,不应该大幅影响评分。无参考模型则迫切需要学会识别"过度锐化"这种特殊的失真类型,避免把异常的纹理强化误判为画质提升。此外,这次实验只用了六段源视频和两种压缩方式,研究团队也明确指出,未来需要用更多样的内容、更广泛的编码质量级别和更多种超分辨率方法来验证这些发现是否普遍成立。
有一件事确实值得普通用户知晓:当你看到某个AI工具声称"客观评测第一",那个"客观评测"背后到底用的是什么工具、与人类感知的差距有多远,这本身就是个需要打问号的事情。真正靠谱的质量验证,终究还是离不开真人用眼睛来看。
---
Q&A
Q1:视频超分辨率质量评估中,哪类自动评分工具表现最接近人类判断?
A:在这项研究中,以CNN(卷积神经网络)为基础的全参考模型表现最好,代表性工具包括LPIPS、DISTS和CVQA-FR,它们在同一源视频的不同处理方案比较中,与人类评分的相关系数能达到0.85至0.88。这类模型不逐像素死板比较,而是通过学习大量图片形成的特征感知来判断差异,对超分辨率引入的新纹理更宽容,因此比传统的PSNR、SSIM等方法更贴近人类感受。不过即便如此,它们仍无法完全替代真人主观测试。
Q2:SCST超分辨率模型为什么在主观评测中排名垫底?
A:SCST在测试中表现最差,主要有两个原因。第一,它的处理时间批次较小,前后片段衔接时容易出现明显的画面跳变,时间连贯性较差。第二,也是更核心的问题,SCST倾向于生成过度锐利的画面效果,会在原本普通的纹理上"强行"添加高频细节,暗部还会出现孤立白色像素点,这种处理结果在人类观察者眼中反而显得不自然。有趣的是,大多数自动评分工具(尤其是无参考模型)却错误地给SCST打了高分,把这种过锐化当作高质量的标志,这正是自动工具的重要局限所在。
Q3:扩散模型超分辨率和传统超分辨率方法在主观评测中的差距有多大?
A:差距因场景而异,但总体来说,三种表现最好的方法(SeedVR2、DOVE、Starlight Mini)都明显优于传统的Lanczos数学放大方法,尤其是在AV1压缩的源视频上,评分提升可以超过1分(5分制)。在未压缩源视频上,SeedVR2从720p放大甚至能达到与原始4K视频相当的感知质量。不过在高时间复杂度场景(如水面波纹、火花飞溅)中,各方法的提升幅度就比较有限,不超过0.5分。说明扩散模型超分辨率的优势主要体现在内容变化平缓的场景,对快速运动画面的改善空间相对有限。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。