微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

沙特阿卜杜拉国王科技大学研究团队提出新方案：让AI视频理解系统学会"看重点"而非"看全部"

视频理解视觉语言模型自适应计算

沙特阿卜杜拉国王科技大学研究团队提出新方案：让AI视频理解系统学会"看重点"而非"看全部"

作者：科技行者

2026-05-18 10:46

分享至：

GridProbe是一种无需训练的视频AI推理框架，通过行列网格探针和重要性地图，自适应选取关键帧，以约三分之一计算量达到接近原方案的问答准确率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-18 10:46 • 科技行者

这项由沙特阿卜杜拉国王科技大学（KAUST）与英国埃奇山大学联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.10762。研究提出了名为GridProbe的全新推理框架，旨在解决AI系统处理长视频时计算成本极高的问题。

先从一个日常场景切入。假设你是一名侦探，需要通过监控录像查明某起案件的真相。监控录像长达几个小时，但案发关键时刻可能只有短短几分钟。一个笨拙的侦探会把所有录像从头到尾看一遍，耗时耗力；而一个聪明的侦探会先快速浏览所有片段的缩略图，找到最可疑的时间段，然后集中精力仔细分析那几段关键录像。GridProbe做的，正是把AI变成第二种侦探。

当前主流的AI视频理解系统扮演的是第一种侦探的角色。它们面对一段几分钟乃至几小时的视频，往往把数百甚至数千帧画面一股脑地塞进模型里同时处理。这种"一锅端"的方式带来了严峻的计算压力，因为AI处理信息的方式类似于让每一帧画面都和其他所有帧互相"交谈"，帧数越多，这种交谈的组合数量就呈几何级数爆炸式增长——专业上称为"注意力机制的平方复杂度"。以流行的Qwen3-VL-2B模型为例，当它同时处理2048帧视频时，每帧只能分配约240个视觉信息单元（token）；而当它只处理64帧时，每帧可以分配约2960个单元。帧数多了，每帧的"观察精细度"反而大打折扣，这是一个两难困境。

既然如此，研究者们早就想到了一个折中方案：先从视频里挑出最重要的几帧，然后只对这几帧进行精细分析。问题是，怎么挑？

一、现有"挑帧"方案的根本缺陷

现有的主流挑帧方法，用侦探的比喻来说，就是拿着案件描述，和每一帧监控截图分别做"相貌比对"——看哪张截图和案件描述"长得最像"，就选哪张。技术上，这类方法通常借助CLIP或SigLIP这样的视觉-语言编码器，分别把视频帧和问题文字转化为向量（可以理解为一串数字坐标），然后计算二者之间的"距离"，距离越近说明越相关。

这种方法有一个根本性的弱点：它的"相貌识别能力"是由编码器的训练方式决定的，而编码器通常是通过大量图文配对数据以"对比学习"方式训练的。对比学习擅长识别"这张图里有一只猫"这类直觉性的视觉语义，但对于需要逻辑推理的问题就力不从心了。

举三种典型的失败场景。第一种是否定性问题，比如"视频中哪个场景里没有出现红色物体？"——编码器会不由自主地被"红色物体"牵引，反而选出大量包含红色物体的帧，完全搞反了方向。第二种是跨帧计数问题，比如"整段视频中那个人换了几次衣服？"——这需要综合多帧信息进行推理，而不是单帧匹配。第三种是整体总结性问题，比如"这段动画的深层含义是什么？"——这类问题需要对全局内容有整体理解，任何单帧都无法单独提供答案。

KAUST的研究团队在分析MDP3（一个当时最强的训练无关挑帧方法）时，发现它在LongVideoBench测试集的3600秒视频问答中，表现比什么都不做直接放进去还要低4.9个百分点——选帧不仅没帮上忙，反而帮了倒忙。这个发现促使研究者们思考一个更根本的问题：为什么不让AI用自己的推理能力来判断哪些帧重要，而要额外找一个"翻译官"来做这件事？

二、侦探的核心秘技：用回答信心来寻找关键帧

GridProbe的核心思路可以用一个简单实验来理解。给侦探展示一组监控截图，然后问他："根据你看到的这些，凶手是A、B、C、D中的哪一个？"如果侦探自信地回答"95%是B"，说明这组截图包含了足够的关键信息；如果侦探犹豫地说"四个人的可能性差不多"，说明这组截图提供不了什么有价值的线索。

GridProbe把这个直觉变成了一个数学量，研究者称之为"探针置信度"。具体来说，就是把一组视频帧和问题输入AI，让AI给出每个答案选项的概率，然后取概率最高的那个值。这个值越高，说明这组帧对于回答这个问题越有信息量，不管AI最终答对还是答错。

关键在于：这个置信度信号来自AI自己的推理过程，而不是来自外部的"相貌比对"。因此，不管问题是否定性的、跨帧计数的还是整体总结性的，AI都能凭借自己的理解能力作出判断，不会被编码器的局限性所束缚。

三、K×K格子：一种聪明的"地毯式搜查"策略

如果要给每一帧都单独计算置信度，然后选出最重要的帧，那和"一锅端"相比省不了多少计算量。GridProbe采用了一种极为巧妙的"格子侦查"策略来解决这个问题。

研究者把从视频中均匀抽取的K?帧，排列成一个K×K的概念性方格。默认设置中K=12，意味着144帧排成一个12×12的格子。

接下来，侦探不是一格一格检查每个格子，而是按"行"和按"列"进行两轮侦查。按行侦查时，每次取一整行（12帧），把这12帧输入AI，记录AI的回答置信度。按列侦查时，每次取一整列（12帧），同样记录置信度。12行加12列，共进行24次侦查，每次只看12帧，总成本远低于直接看144帧。

每一行侦查覆盖的是视频时间轴上一段连续的局部片段，提供"局部时序覆盖"；每一列侦查则是每隔12帧取一帧，相当于对全段视频做均匀采样，提供"跨越全局的周期性覆盖"。这两种覆盖方式互补：行侦查能捕捉某个特定时间段发生的事件细节，列侦查能捕捉贯穿全片的规律或线索。

最后，用每一行的置信度乘以每一列的置信度，得到格子里每个位置（也就是每一帧）的"重要性分数"。直觉上，一帧只有当它所在的行和所在的列都给出了高置信度，才会获得高分——这意味着它从局部和全局两个维度都被AI认为是重要的。这个12×12的重要性矩阵，研究者称之为"重要性地图"，记作M。

这种方法最核心的优势在于复杂度的突破。传统的逐帧评分需要K?次完整前向传播（对于K=12就是144次），而GridProbe只需要2K=24次，每次处理K=12帧。从计算复杂度看，标准推理是O(N?)，GridProbe的探针阶段是O(N^1.5)，实现了"亚平方级"的计算量。此外，探针阶段还在224×224的低分辨率下运行，进一步压缩了每次侦查的成本。

四、重要性地图的"形状"暗藏玄机

拿到重要性地图之后，侦探要做的是从144个候选帧里最终挑出若干帧，用高分辨率仔细分析。挑多少帧合适？这是一个以往方法都给出固定答案的问题——比如永远选8帧或16帧，不管问题是什么类型。

KAUST的研究团队发现，重要性地图本身的"形状"其实已经告诉了侦探应该选多少帧。

以三种典型问题类型为例。当问题是"视频里番茄多少钱一斤？"这类精确定位型问题时，AI对极少数几帧（比如显示价格标签的那一帧）会给出极高置信度，其余帧几乎没有贡献。重要性地图会呈现出"大部分格子很暗、少数几个格子很亮"的稀疏峰形，在统计学上表现为正偏态（分布的尾巴在右边，大多数值集中在左侧低值区域）。这时候，只需要选少数几帧就够了。

当问题是"这段视频在哪里拍摄的？"这类场景冗余型问题时，视频里每个场景都透露着同样的环境信息，大量帧都有较高的重要性分数。重要性地图呈现出"大部分格子都比较亮"的密集形态，统计学上表现为负偏态（分布尾巴在左边，大多数值集中在右侧高值区域）。由于内容冗余，选少数代表性帧就能覆盖全部信息。

当问题是"这部动画的深层含义是什么？"这类整体理解型问题时，每个时间段都贡献了一部分答案，重要性分数在各帧之间均匀分布，地图近乎一致的灰色。统计学上，这种分布接近均匀分布，偏态接近零。这时才是真正需要大量帧的情况。

正偏态和负偏态的地图，尽管形状截然相反，却都对应着"只需少量帧"的结论，这就是研究者所说的"冗余原则"——两种极端的分布形状，在帧数需求上是相通的。真正消耗大量帧数的，是那种证据稀疏地散布在整段视频各处的整体型问题，对应近乎均匀的地图分布。

基于这个发现，研究者设计了一个闭合形式的公式，利用地图分布的偏态（衡量分布的不对称程度）和超额峰度（衡量分布的尖锐程度）两个统计量，计算出每个问题应该选取的帧数Meff。公式的设计确保了：分布越极端（无论正偏还是负偏），选取的帧数越少；分布越接近均匀，选取的帧数越接近全部144帧。用一个公式参数γ?=0.25来调节选帧的激进程度，这是全局固定的唯一超参数。

五、完整侦查流程：两阶段推理

至此，GridProbe的完整工作流程已经清晰。侦查分为两个阶段。

第一阶段是"地毯式侦查"：对一段视频均匀抽取144帧，按12×12格子排列；以低分辨率（224×224像素）分别进行12次行侦查和12次列侦查，共24次前向传播；记录每次的回答置信度；用行置信度与列置信度的乘积构建重要性地图；计算地图的偏态和峰度，代入公式得到该问题的最优帧数Meff。

第二阶段是"精准侦查"：从144帧中取出重要性分数最高的Meff帧；将这些帧按原始时间顺序（而非重要性排序）排列——研究证明按时间顺序输入可以让模型更好地利用训练时学到的位置信息；以全分辨率（无上限）进行最终一次前向传播，输出最终答案。

一个值得特别强调的细节是：这个系统完全不需要任何额外训练。整个过程只使用一个冻结的、完全不修改的视觉语言模型，既充当侦查阶段的"置信度评估员"，又充当最终回答阶段的"分析师"。整个流程在推理时就能自动完成，无需针对任何特定视频或问题类型调整模型参数。

六、跨模型组合：小侦探配大分析师的奇效

GridProbe还有一个巧妙的额外玩法——将"侦查"和"分析"解耦，交给两个不同大小的模型分别完成。

研究团队发现，用一个较小的2B参数模型做第一阶段的侦查（生成重要性地图），然后把筛选出的Meff帧交给更大的4B或8B模型做最终分析，这种"小侦探配大分析师"的组合，在综合性能和计算效率上都超过了单独用2B模型处理全部144帧的方案。

原因在于两个相互叠加的优势。一方面，重要性地图把要分析的帧从144帧压缩到了Meff帧，大幅降低了最终分析阶段的计算量——在多帧场景下，序列长度对计算的影响远超模型参数量的影响。另一方面，更大的模型在相同数量的帧上能提取到更丰富、更准确的信息，回答质量更高。

有一个反直觉的发现需要特别指出：如果反过来用大模型做侦查、小模型做分析，效果反而更差。原因在于，大模型的侦查倾向于选出"对大模型自己有用"的帧，这些帧未必是小模型所需要的。因此，这种协作是单向的：小侦探给大分析师筛选材料是有效的，反过来则不然。

七、实验结果：数字背后的故事

研究团队在两个权威基准数据集上进行了全面测试，分别是Video-MME-v2（包含800段视频、3200个问题的多选题测试集，每个问题有8个选项）和LongVideoBench（带字幕的长视频理解测试集）。

在Video-MME-v2测试中，单独使用2B模型的GridProbe（自适应帧数版本）与直接用2B模型处理全部144帧相比，平均准确率下降了1.63个百分点，但计算量减少到了原来的约29.9%（即节省了约3.36倍的计算量）。换句话说，用不到三分之一的计算量，保住了超过九成的准确率。

在LongVideoBench测试中，GridProbe更进一步，不仅将计算量压缩到原来的35%，准确率还提高了0.9个百分点——在节省计算的同时还变得更准确了，这在技术上被称为"帕累托支配"，意味着在两个指标上同时胜出。

跨模型组合的效果更加显著。用2B模型做侦查、8B模型做分析的组合方案，与原始2B全帧方案相比，在Video-MME-v2上准确率提升3.56个百分点，同时计算量仅为原方案的83%；在LongVideoBench上准确率提升3.30个百分点，计算量为原方案的85%。用2B侦查、4B分析的组合在LongVideoBench上的提升幅度达到了4.0个百分点，在3600秒的超长视频问题上更是提升了4.5个百分点，同时计算量仅为原方案的52%。

与MDP3（当时最强的无训练挑帧方法）的对比同样令人印象深刻。在固定每次输入8帧的条件下，GridProbe在LongVideoBench 3600秒视频测试中整体准确率比MDP3高出3.6个百分点。更值得关注的是，MDP3的得分比什么都不选直接全部输入还低4.9个百分点，而GridProbe高出2.4个百分点——两者差距高达7.3个百分点。这印证了编码器空间挑帧方法在长视频理解场景下的根本性局限。

研究团队还专门设计了一个对比实验，用"均匀随机选取相同数量帧"的方案作为对照组。结果显示，GridProbe的重要性排序相比随机选取，在Video-MME-v2上再提升0.5个百分点，在LongVideoBench上再提升1.2个百分点。这说明重要性地图确实捕捉到了有效的帧级信息，但大部分收益来自自适应帧数的设计，而非单纯的排序质量。

自适应帧数机制的价值可以从另一组数据看出：固定选8帧的GridProbe与自动确定帧数的GridProbe相比，在计算量基本相同的条件下，后者在Video-MME-v2的非线性评分上高出0.90分，在LongVideoBench 3600秒测试上高出4.1个百分点。这组数字清晰地展示了自适应帧数选择的独立价值。

八、自适应计算如何追踪问题难度

研究团队发现了一个格外耐人寻味的规律：GridProbe选取的帧数Meff，竟然与问题的内在难度高度相关——而这种相关性是在完全不知道正确答案的情况下产生的。

将所有问题按重要性地图的偏态值排序，可以观察到一个倒U形规律：地图偏态接近零（均匀分布）的问题，Meff最大，接近144帧；地图偏态偏离零越远（无论正偏还是负偏），Meff越小，有时只有5帧。同时，2B基准模型（不做任何挑帧）在这些问题上的正确率也呈现相同的倒U形：偏态接近零的问题，正确率约为21%（最难）；偏态偏离极端的问题，正确率约为28%到32%（较简单）。

两条曲线几乎镜像对称——GridProbe分配了更多计算量的问题，正好是AI模型觉得最难的问题。更重要的是，GridProbe在不知道正确答案的前提下，仅凭重要性地图的统计形状，就自动做到了"难题多给计算，简单题少给计算"。

这种计算量的动态变化幅度是极为可观的。GridProbe在不同问题上的计算量变异系数（标准差与均值之比）达到0.78，而固定输入方案只有0.018，相差44倍。在平均计算量只有基准方案30%的前提下，实现了如此高的per-question计算量变异性，这是研究者所说的"测试时自适应计算"的核心标志。

九、细节打磨：三个消融实验的发现

研究团队还进行了三个针对具体设计选择的消融实验，每个实验都揭示了一个重要的设计洞察。

帧的输入顺序实验表明，将选出的Meff帧按时间顺序（从早到晚）输入给AI，比按重要性分数从高到低输入效果好1.25个百分点。同样的帧，换个顺序准确率就不一样了。原因在于，视觉语言模型在训练时接触的都是按时间顺序排列的视频帧，时间顺序构成了模型理解"先后关系"的基础语境，打乱顺序会破坏模型依赖的位置编码规律。

图像拼贴变体实验展示了一种极端压缩方案：把选出的Meff帧拼贴成一张大图（类似于把多张照片剪贴成拼贴画），以单张图片的计算量处理。这种方案把计算量进一步压缩到标准GridProbe的29%，但准确率额外损失了1.16个百分点。这个变体作为"极度节省计算"场景下的备选方案具有一定价值，但会丢失帧间的时序位置信息。

选帧器大小实验揭示了一个反直觉的现象：把侦查阶段的模型从2B换成4B或8B，准确率反而下降，计算量却上升，这与"更大的模型意味着更好的性能"的直觉相悖。原因在于，更大的选帧器倾向于选出对它自己而言最重要的帧，而这些帧不一定是小型分析模型所需要的。跨模型协作只在"小探针配大分析师"方向上有效。

十、研究的局限与未来

GridProbe并非毫无局限。研究者在论文中坦诚指出了几个值得关注的问题。

首先，LongVideoBench测试中包含约700到1000个字幕词元（subtitle tokens），这些字幕内容在每一次探针前向传播中都要重复处理，会稀释计算节省的效果。当视频字幕等文本提示词很长时，探针阶段的成本占比会上升，总体节省比例会有所降低。

其次，跨模型流水线同时加载选帧模型和QA模型，虽然节省了计算量，却增加了显存占用，这在部署资源有限的场景下需要额外考量。

第三，当前的置信度信号是在多选题的有限答案空间上定义的。对于开放式问答（比如"请描述这段视频的内容"），答案空间是无限的，无法直接套用"取最大概率答案"的计算方式，需要设计新的信号形式才能扩展到开放式任务。

第四，公式中的缩放参数γ?目前是全局固定的，未来有潜力根据视频长度或帧密度自动调整，进一步优化不同场景下的帧数分配策略。

研究者还提到，重要性地图本身具有内在的可解释性价值：它直观地展示了AI在回答每个特定问题时"最关注视频的哪些部分"，这为行为分析、视觉定位和帧选择知识蒸馏等下游任务打开了新的可能性。

说到底，GridProbe做的事情其实很符合直觉：别让AI把一段视频从头到尾慢慢看完，而是先让它快速扫一眼，找到最值得仔细看的地方，再集中精力深度分析。这个思路并不新鲜，但研究者找到了一种优雅且有效的技术路径将其实现：用AI自身的回答信心作为"值不值得仔细看"的判断依据，用行列格子分解的方式将侦查成本从平方降到1.5次方，用分布形状统计量将"该看多少帧"的问题变成一个不依赖答案的自动决策。

这对普通用户意味着什么呢？短期内，这项研究的直接受益者是需要部署视频AI系统的开发者和企业——用更少的计算资源处理同等质量的视频问答任务，意味着降低服务器成本，或在同等成本下处理更多视频请求。从更长远的视角看，如果这类自适应计算思路得到广泛采用，未来手机或平板上的视频AI助手或许也能在有限的算力下处理更长的视频内容，而不必依赖云端的超大规模计算设施。

对这项研究感兴趣的读者，可以通过arXiv编号2605.10762查询完整论文，项目代码已在GitHub上以"GridProbe"为名公开发布。

Q&A

Q1：GridProbe和传统的视频帧筛选方法有什么本质区别？

A：传统挑帧方法（如基于CLIP的方法）用视觉编码器把视频帧和问题分别转成向量，再计算相似度打分，本质上是在"形状匹配"。GridProbe则直接把候选帧输入AI，观察AI对答案的信心高低来判断帧的重要性，相当于让AI用自己的推理能力来评判，而不是借助外部"翻译官"。这使得否定性问题、跨帧计数等需要逻辑推理的问题也能被正确处理。

Q2：GridProbe的帧数自动调整是怎么做到不看答案就能判断问题难度的？

A：GridProbe通过分析重要性地图的统计形状（偏态和峰度）来推断问题类型。如果地图呈现稀疏的高亮分布或高度集中的热点，说明问题答案定位明确，只需少量帧；如果地图趋近均匀分布，说明证据分散在整段视频中，需要更多帧才能回答。这种"看分布形状推断难度"的机制完全不依赖正确答案，纯粹基于AI在探针阶段的置信度反应。

Q3：GridProbe跨模型组合方案为什么是"小模型选帧、大模型回答"而不能反过来？

A：大模型在选帧时会优先选出对自己理解能力有用的帧，这些帧可能包含需要更强推理能力才能识别的细节，而小模型可能无法利用这些细节，因此大选帧器反而给小模型选了"看不懂的材料"。反过来，小模型选出的帧通常是视觉信息明显、直观易懂的关键帧，大模型能在这些帧上发挥出更强的理解能力，组合效果才是正向的。

视频理解视觉语言模型自适应计算

分享至