微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

眼睛会"偷懒"？山东大学等多家机构联手破解视频注意力预测难题

视频显著性预测深度学习大规模数据集

眼睛会"偷懒"？山东大学等多家机构联手破解视频注意力预测难题

作者：科技行者

2026-04-28 09:34

分享至：

这篇论文介绍了NTIRE 2026视频显著性预测挑战赛的方案与结果。挑战赛由山东大学、哈工大深圳、莫斯科国立大学、维尔茨堡大学等机构联合主办，构建了包含2000段视频、逾5000名众包标注者参与的新型数据集。共7支队伍通过最终代码审查，顶尖方案均以数十亿参数级大型预训练视频模型为骨干，结合多尺度特征融合与多专家集成取得最优性能。论文于2026年4月以arXiv预印本发布，编号2604.14816。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-28 09:34 • 科技行者

这项由山东大学软件学院、哈尔滨工业大学（深圳）计算机科学与技术学院、莫斯科国立大学、维尔茨堡大学计算机视觉实验室、ByteDance、江南大学、四川大学、上海大学、伊利诺伊大学厄巴纳-香槟分校等多家机构联合完成的研究，于2026年4月16日以arXiv预印本形式发布（编号：arXiv:2604.14816v1），并将作为NTIRE 2026工作坊论文收录于IEEE/CVF计算机视觉与模式识别大会（CVPR 2026）。

人的眼睛从来不是无差别地扫描画面的。当你坐在电影院里，或者刷短视频的时候，你的目光会自动被某些区域吸引——动作激烈的地方、人脸、突然出现的亮光、或者屏幕正中央的主角。这种"视觉偷懒"的现象，在科学上叫做视觉显著性。研究者们一直希望让计算机也能预测：对于一段视频，人类的眼睛究竟会盯着哪里看？

这个问题乍听起来像是脑科学的课题，但它的实用价值远比想象的更广泛。视频压缩软件可以利用这一规律，把有限的数据集中在人眼关注的区域，让视频更清晰；智能广告系统可以判断观众在哪一帧注意力最集中，把最重要的信息放在那里；自动剪辑工具可以根据注意力热图决定画面怎么裁剪；甚至连视频画质评分系统，也需要先搞清楚人眼在看哪里，才能判断这一块模糊是否真的影响观感。

正因为需求如此迫切，由上述多家机构共同组织的NTIRE 2026视频显著性预测挑战赛应运而生。这场竞赛的目标只有一个：给定一段视频，让算法准确预测出每一帧画面中人类眼球最可能停留的区域，并以热力图的形式呈现出来。

一、为什么这件事比听起来难得多

预测一张照片里人会看哪里，已经算是一道难题。预测一段视频里人会看哪里，则更像是在追踪一只蝴蝶的飞行轨迹——它随时会转向，它的下一步既受当前画面影响，也受此前画面影响，甚至连背景音乐都会改变它的走向。

早期的研究者尝试用颜色对比、边缘纹理这类"低级视觉线索"来模拟人眼注意力，就像用颜色亮度来猜哪块糖更好吃。这类方法简单直接，但准确率有限，因为人的注意力并不只受颜色驱动，它更多地受到语义内容的影响——屏幕里有人在说话，你自然会看那张脸，而不是旁边那片更亮的天空。

深度神经网络的出现，让研究者得以直接从海量的人眼追踪数据中学习注意力规律，准确率大幅提升。更新的方向则是把大型视觉语言模型（可以理解为同时"看懂"图像和"读懂"文字的超级模型）也引入进来，让机器不只是识别像素，而是真正理解画面内容再做判断。

然而，要训练这样的模型，就需要大量标注好的"人眼注意力数据"——也就是让真实的人观看视频，同时记录他们的眼球轨迹，再把所有人的注意力热图汇总成一张"人类平均关注图"。问题在于，眼动追踪设备昂贵且笨重，大规模数据收集在实操层面几乎是奢侈品。迄今为止，领域内最大的两个公开视频数据集——Hollywood2拥有1707段视频、17名观看者，DHF1K拥有1000段视频、17名观看者——这些数字放在当今深度学习的标准下，简直像是用一锅小米粥来喂一头大象。

这便是本次挑战赛真正的起点：如何在不依赖昂贵眼动仪的情况下，收集到足够多、足够真实的人类视觉注意力数据？

二、用"鼠标"替代"眼球"：一场5000人参与的众包实验

研究团队采用了一种颇具创意的替代方案：不让观看者佩戴眼动仪，而是让他们用鼠标指着自己认为最显著的区域移动。研究表明，在适当的过滤和后处理之后，鼠标轨迹可以相当准确地模拟眼球轨迹。这就像是用手指指向你感兴趣的地方来代替实际的眼神——虽然不完全相同，但足够接近。

依托这一思路，组织方从两个公开YouTube视频库中筛选内容，保留了所有分辨率不低于1080P（即全高清）的视频，将帧率统一转换为每秒30帧，并按照EBU R128标准对音频进行响度归一化处理。横向与纵向视频按3:1的比例混合采样，最终构建出一个包含2000段视频、超过100万帧画面的全新数据集。

整个众包过程吸引了超过5000名评测者参与，每段视频都有70名以上的观看者提供数据，平均每位参与者需要完成20道主题问题和3道验证问题，耗时约15分钟。数据收集完成后，团队对原始鼠标轨迹进行了比以往更严格的参与者筛选、前处理和后处理，使最终数据质量更接近真实眼动仪的采集水准。这一数据集按照7:3的比例划分：1200段视频连同对应的注意力热图作为训练集发放给参赛队伍，另外800段视频作为测试集留存。

测试集进一步分为300段公开测试视频和500段私有测试视频。在比赛进行阶段，参赛者可以随时提交预测结果并查看在公开测试集上的得分；在两个中间阶段，每支队伍表现最好的方案会被用于250段私有测试视频的评估；在最终阶段，所有方案统一在完整的500段私有测试集上进行最终评定。

三、用四把尺子量"注意力"：评价指标的设计逻辑

竞赛采用了四个在显著性预测领域广泛使用的指标来衡量各方案的优劣，每个指标从不同角度反映预测热图与真实人眼注意力热图之间的吻合程度。

第一个指标是皮尔逊相关系数（CC），衡量的是预测热图和真实热图在像素级别上的线性相关程度，可以简单理解为"两张热图的形状有多像"。第二个是相似度指标（SIM），考察预测热图与真实热图作为概率分布的重叠程度，相当于问"你猜测的注意力分布和真实分布有多大的交集"。第三个是AUC-Judd，来自信号检测理论，衡量的是算法能否在真正有人注视的地方给出更高的分数，就像测试一个侦探能不能把真正的嫌疑人排在名单前面。第四个是归一化扫视路径显著性（NSS），更直接地考察预测热图在实际注视点上的得分高低——越高说明模型越"准"。

最终排名由四个指标的名次平均值决定，若有并列则依次按CC、SIM、AUC-Judd、NSS的优先顺序解决平局。组织方还提供了一个"中心先验基线"作为对照——这个基线方法极为简单：把所有训练视频的注意力热图平均后，拟合出一个以画面中心为峰值的高斯分布，然后对所有测试帧都输出这同一张图。这个基线之所以并不荒谬，是因为人类观看视频时确实有"中央偏好"——无论内容如何，目光往往首先落在画面中央区域。

四、七支队伍各显神通：从"超大模型"到"扩散生成"

本次挑战赛共吸引了超过20支队伍参与提交，其中7支队伍通过了最终的代码审查阶段。下面按照最终排名依次介绍每支队伍的核心方案，以及他们各自的技术"绝招"。

排名第一的iLearn队（来自山东大学和哈尔滨工业大学深圳校区）采用了一种"双专家会诊"的架构。他们首先选用了InternVideo2这一拥有60亿参数的超大型视频理解模型作为共享骨干网络——这个模型本来是为视频内容理解训练的，拥有极强的时空特征提取能力。在此基础上，他们设计了两个结构不同、"个性互补"的解码器来各自生成显著性热图，最后将两张预测图融合为一张最终结果。

第一个解码器专注于时间维度的调制：它从最深层的特征中提取出一套"时间注意力权重"，用乘法的方式调节浅层特征，好比用一个总指挥的判断来统一协调各部门的工作，同时引入了一个可学习的"中心先验"，利用人眼偏好画面中央这一规律来辅助预测。第二个解码器则更像是一个民主的多层表决机制：它把四个不同深度的特征投影到统一维度后逐层拼接融合，并在每个中间层都额外设置了独立的预测头，强迫每一层都学会有意义的显著性表示。两个解码器的结果不是简单求平均，而是先通过逆sigmoid函数转化为"对数几率"（logit）空间再平均，最后再转回概率空间——这种融合方式对两张热图的校准更加精确。训练分为两阶段：第一阶段冻结骨干网络只训练解码器，第二阶段引入LoRA（一种低秩微调技术，可以用极少的额外参数在新任务上精调大模型）联合优化。iLearn队在私有测试集上取得了CC 0.8280、SIM 0.6927、AUC-Judd 0.8921、NSS 3.3229的成绩，以平均排名1.75位居第一。该队使用的模型参数量约为68.8亿个。

排名第二的CVSP队（来自雅典国立理工大学、雅典娜研究中心机器人研究所及语言语音处理研究所、HERON希腊机器人卓越中心）的方案名为PredJSal，出发点颇具哲学意味。他们的核心假设来自神经科学中的"预测编码"理论——人脑并不是被动接收视觉信息，而是时刻在根据已有的世界模型预测即将发生的事情，注意力会优先投向与预测不符的地方。基于这一理论，一个被训练为"预测视频中被遮挡区域"的模型，其内部表示应当与视觉显著性高度相关。

V-JEPA2正是这样一个模型：它通过自监督学习，在海量视频上学会预测被随机遮住的画面区域，过程中自然积累了对物体永久性、形状一致性等直觉物理规律的理解。CVSP队将V-JEPA2的Giant版本（ViT-g/16架构）作为骨干网络，提取三个深度层次的中间特征以获得从粗到细的多尺度表示。在解码之前，他们加入了一个轻量级的时间自注意力模块，让每个空间位置的特征在时间轴上独立地整合跨帧信息，而不混入空间位置之间的交叉干扰。解码器采用3D卷积逐步上采样，同时从编码器中间层引入多尺度跳跃连接，恢复编码过程中损失的空间细节。为了减少随机初始化带来的不稳定性，他们在4个不同随机种子下各训练一次模型，推理时将4次预测平均。CVSP队在私有测试集上取得CC 0.8272、NSS 3.4156的成绩，最终以平均排名1.75与iLearn队并列，但因CC指标略低而屈居第二。该队模型参数量约为42.3亿个。

排名第三的ARK MMLAB队（来自ByteDance和TikTok）采用了与iLearn队相似的InternVideo2骨干，但选用的是参数量相对较小的10亿参数版本（InternVideo2-1B）。他们的创新在于特征对齐模块的设计：针对不同深度特征分辨率差异悬殊的问题，他们专门构建了一个特征上采样模块，通过双线性插值结合2D卷积、GroupNorm（分组归一化）和GELU激活函数，把四个不同分辨率的特征统一处理到可以相互配合的尺度。此外，他们还引入了时间注意力机制，利用最深层特征通过3D卷积和时间池化计算出"帧级重要性权重"，再把这些权重乘以各层特征，从而动态强调视频片段中最显著的帧。最终的层级解码器从最深层开始，逐层拼接更浅层的特征并不断上采样，输出224×224分辨率的显著性热图。ARK MMLAB队在NSS指标上表现最为突出，在私有测试集上达到3.4562，高于所有其他参赛队伍。该队模型参数量约为22.2亿个，最终排名第三。

排名第四的Vertex队（来自江南大学人工智能与计算机科学学院）选择在已有的高性能方法TMFI（基于Transformer的多尺度特征集成网络）上做结构性改进。TMFI原本使用Video Swin Transformer提取四个尺度的时空特征，再经语义引导编码器和层级解码器生成预测热图。Vertex队的核心改动是：在原有的"自顶向下"特征融合路径之外，新增了一条"自底向上"的特征聚合路径。原有路径用上采样将高层语义信息传递给低层，新增路径则用最大池化将低层细节信息传递给高层。这两条路径的设计哲学正好互补：自顶向下带来语义理解，自底向上保留精细纹理。双向融合使特征尺度从原本的4个扩展到8个，对应生成8张多尺度显著性图，最后通过可学习权重加权融合。此外，他们还将本队改进的TMFI与DiffSal、SalFoM以及原始TMFI的预测结果进行加权组合，并在最终结果上施加高斯空间平滑和时间平滑，进一步改善空间连贯性并减少相邻帧之间的抖动。Vertex队参数量约5.34亿，最终排名第四。

排名第五的AAM队（来自四川大学计算机科学学院和合成视觉基础科学国家重点实验室）提出了一个多模态融合框架，名为"万物注意模型"（Attend to Anything Model）。这一方案的出发点是：人类的视觉注意力不只受视觉内容驱动，还会受到声音、语义语境等多种模态的调制。AAM用冻结的DINOv3（一种自监督视觉骨干网络）搭配LoRA进行视觉特征提取，同时用CLIP文本编码器处理文字提示、用Wav2CLIP处理音频，并将音频特征映射到视觉语义空间。音频与视觉的融合通过一个"相关性门控交叉注意力"机制完成，只有在音频与视觉内容语义对齐时，音频线索才会实际影响最终结果，避免无关音频带来干扰。对于视频输入，AAM用Fokker-Planck动力学模块（一种来自物理学的随机过程建模方法，原本用于描述粒子在势场中的扩散运动）来建模注意力在时间轴上的演化过程，捕捉注意力从一帧转移到下一帧的动态规律。视觉与文本特征还被映射到双曲空间中，通过层级蕴含学习来建立"一般-特定"的语义层级关系，最后通过几何感知的双曲解码器投影回欧几里得空间，生成最终的注意力热图。AAM队参数量约4.25亿，最终排名第五。

同样排名第五的SHU-MIIPLab队（来自上海大学通信与信息工程学院和西湖大学人工智能系）提出了SSF-DiffNet，一个基于扩散模型的显著性预测方案。扩散模型的核心思想是：先向目标图像逐步添加噪声直到变成纯噪声，然后训练一个神经网络学会逐步去噪、还原图像。这一机制近年来在图像生成领域大放异彩，SHU-MIIPLab队将其引入显著性预测，让模型从噪声中逐步"雕刻"出显著性热图。模型的输入包括RGB帧和由Flow-Anything生成的光流图（光流图描述画面中每个像素从一帧到下一帧的运动方向和幅度）。他们用SAM2的Hiera编码器搭配适配器分别提取RGB和光流特征，再通过Semantic Injection Mamba Block（SI-MB，一种基于状态空间模型的序列建模块）让RGB的语义信息"渗透"进光流特征，帮助模型识别哪些运动区域在语义上更加显著。随后用Spatiotemporal Alignment Mamba Block（SA-MB）将外观特征与运动特征在时空维度上对齐融合，生成高质量的条件信号，引导去噪网络迭代生成准确的显著性图。SHU-MIIPLab队参数量约8.6亿，最终排名第五。

排名第六的NTR队（来自伊利诺伊大学厄巴纳-香槟分校）提出了一个轻量级的双流方案。视频流使用R(2+1)D-18处理8帧视频片段：这是一种将3D卷积分解为2D空间卷积加1D时间卷积的网络，在Kinetics-400动作识别数据集上预训练，擅长捕捉运动模式。图像流只处理中心帧，使用ConvNeXt-Tiny在ImageNet上预训练，专注于提取高分辨率的静态外观特征。两个流分别输出四个尺度的特征图，解码器通过1×1投影和拼接操作在每个尺度上融合两路信息，从粗到细逐步恢复分辨率。在解码器输出端，他们融入了一个预计算的高斯中心先验，通过可学习的标量权重控制其影响强度。损失函数同时优化KL散度、相关系数、NSS和二元交叉熵四种目标。训练分两阶段进行，使用AdamW优化器和余弦退火学习率调度，骨干网络的学习率为解码头的1/10以避免破坏预训练特征。推理时使用水平翻转测试增强：每段视频片段分别以原始方向和翻转方向处理，两次预测平均后作为最终结果，有效减少左右方向的预测偏差。NTR队是所有参赛方案中参数量最小的，仅约6400万个参数，最终排名第六。

五、比赛结果说明了什么

从最终排名来看，前三名均依赖数十亿参数级别的大型预训练视频理解模型作为特征提取骨干，参数量分别高达68.8亿、42.3亿和22.2亿。这一趋势明确传递出一个信号：在视频显著性预测任务上，大规模视频预训练所积累的时空表示能力，是目前最有效的性能驱动力。与此同时，多专家集成、多尺度双向融合、多模态音视频输入等结构性创新也各自带来了不同维度的性能提升。

值得关注的是，排名最靠后的NTR队仅用约6400万参数，就在四个指标上均大幅超越了中心先验基线，说明合理的结构设计和高质量的预训练权重，即便在资源受限的情况下也能实现相当有竞争力的性能。

中心先验基线本身的存在也颇具启发性：它什么都不预测，只是永远输出一张以画面中央为高亮的高斯热图，却在CC指标上仍然达到0.41。这说明人类看视频时确实有强烈的中心偏好，这一先验信息本身就携带了相当的预测价值。所有参赛方案相当于在这个强基线之上进一步做精细化预测。

六、这项研究对我们意味着什么

说到底，这场竞赛做了一件相当务实的事：它不仅推动了视频注意力预测算法的进步，还为整个研究社区贡献了一个前所未有规模的高质量数据集——2000段视频、超过百万帧、来自5000多名真实观看者的众包标注数据，且全部以开放许可证公开。

这对普通用户的实际生活影响可能比想象的更快到来。视频压缩技术若能准确预测观众在每一帧的关注区域，就可以把更多比特率分配给真正被盯着看的地方，让同样大小的视频文件看起来更清晰，或者让同样清晰的视频占用更少流量——这对手机流量有限的用户来说是看得见摸得着的好处。在内容创作领域，自动剪辑和字幕定位工具可以利用这类模型决定何时何地放置重要信息，让观众不会错过关键内容。在无障碍设计领域，了解不同画面内容下人眼的注意力分布，有助于为视觉障碍用户设计更合理的辅助提示系统。

当然，这一领域仍有许多开放问题值得深思。众包鼠标追踪与真实眼动仪数据之间究竟还存在多大差距？音频信息对视觉注意力的影响是否已被充分建模？不同文化背景的观看者是否有系统性的注意力分布差异？随着视频生成AI的快速普及，模型是否能同样准确地预测人们观看AI生成视频时的注意力模式？

如果你对这些问题感兴趣，这篇论文的完整版本可以通过arXiv编号2604.14816查询，所有数据集和代码也已在论文中提供的GitHub仓库公开。

---

Q&A

Q1：视频显著性预测是什么，有什么用？

A：视频显著性预测是让计算机自动判断人类在观看视频时眼睛最可能盯着哪里，并生成一张"注意力热力图"。这项技术被广泛用于视频压缩（把数据集中在人眼关注区域）、视频质量评估、自动画面裁剪、字幕定位等场景，能帮助视频类产品在不降低主观画质的前提下减少流量消耗。

Q2：NTIRE 2026挑战赛用的数据集有什么特别之处？

A：这个数据集包含2000段多样化YouTube视频和超过100万帧画面，全部使用开放CC-BY许可证。与传统眼动仪数据集相比，它通过众包鼠标追踪的方式收集了超过5000名真实观看者的注意力数据，每段视频有70人以上参与标注，规模远超此前领域内最大数据集（最多17名观看者），且数据已全部公开发布。

Q3：比赛第一名iLearn队的方案为什么能拿到最好成绩？

A：iLearn队使用了拥有60亿参数的超大型视频理解模型InternVideo2作为特征提取基础，这个模型本身就具备极强的视频时空理解能力。他们还设计了两个"个性互补"的解码器：一个依赖空间中心先验和时间门控，擅长处理主体居中的稳定场景；另一个通过多尺度数据驱动融合，更灵活地应对复杂多变的内容。两者预测结果在对数几率空间中融合，最终输出比单一方案更稳健的显著性热图。

视频显著性预测深度学习大规模数据集

分享至