微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学、西湖大学与阿里云联手破解"视频AI看片慢"难题:一种让AI视频理解快2.65倍的全新压缩思路

浙江大学、西湖大学与阿里云联手破解"视频AI看片慢"难题:一种让AI视频理解快2.65倍的全新压缩思路

2026-06-04 09:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-04 09:04 科技行者

这项由浙江大学、西湖大学与阿里云计算联合完成的研究于2026年5月发表,论文编号为arXiv:2605.30010,感兴趣的读者可通过该编号检索完整原文。研究提出了一种名为EarlyTom的视频理解加速框架,在不需要重新训练模型的前提下,将视频AI的响应速度提升了最高2.65倍,同时保持了与原始模型几乎相同的理解准确率。

你有没有遇到过这样的场景:打开一个视频问答应用,问它"这段视频里发生了什么",然后等了漫长的几秒钟,它才开口回答?这种等待感,对于普通用户来说只是轻微的不耐烦,但对于真正需要处理海量视频的工业场景——比如短视频平台的内容审核、监控录像的智能分析、或者大规模视频检索系统——这几秒钟的延迟乘以数百万次请求,就变成了巨大的算力成本和服务瓶颈。这正是这项研究试图解决的核心问题。

研究团队发现,现有的视频AI系统在"看视频"这件事上其实存在一个严重的效率浪费。他们的解决方案被命名为EarlyTom,名字里的"Early"意味着"更早动手",而"Tom"则暗示着一种轻巧敏捷的处理风格。这套方法从两个维度入手:一是在AI的"眼睛"处理画面的最早期就开始删减冗余信息,二是用一种更聪明的方式来挑选真正有价值的画面内容。结果令人印象深刻——在英伟达A100这块顶级AI芯片上测试,处理时间从原来的889毫秒直接压缩到336毫秒,算力消耗也降低了61%,而AI的视频理解能力几乎没有下降。

---

一、AI是怎么"看"视频的,它的时间都花在哪里了

要理解这项研究的价值,得先搞清楚视频AI系统是如何工作的。可以把整个过程类比成一位翻译官处理一部外文电影的工作流程。

第一步,翻译官需要先把每一帧画面"读进脑子里",提取出关键的视觉信息——这就是所谓的"视觉编码"阶段,由一个专门的视觉处理器(通常称为视觉编码器)来完成,在这里用的是一种叫SigLIP的视觉模型。第二步,这些从画面中提取出来的信息会被转化成语言模型能够理解的格式,再交给大语言模型(也就是那个真正"理解"内容、生成答案的AI大脑)。第三步,大语言模型把视频信息和用户的问题一起"消化",然后开口生成答案。

在这个流程里,"第一个字出现在屏幕上需要多久"被称为"首字延迟"(TTFT),它是衡量用户等待体验的核心指标。研究团队把这段时间像切蛋糕一样分成四块,仔细测量了每块的比例。

测量结果出乎很多人的意料。在最基础的系统中,视觉编码阶段消耗了36.3%的总等待时间,也就是889毫秒里的323毫秒。更出人意料的是,当研究团队观察那些已经做过优化的主流竞争方案时,发现这个比例反而更高了——一个叫HoliTom的方案中,视觉编码占据了55.8%;另一个叫VisionZip的方案更是高达68.4%。换句话说,那些已有的优化方案把大语言模型那边的时间压缩得很好,但恰恰因此让视觉编码这个"被忽视的瓶颈"更加突出。

这就好比一个工厂流水线,大家都在优化后端的包装和出货环节,却没人注意到前端的原材料处理车间其实一直在拖后腿。EarlyTom的核心洞察就是:既然问题出在前端,那就从前端下手。

---

二、视频里藏着大量"废话":AI需要学会忽略重复内容

在动手优化之前,研究团队首先深入分析了视频信息的本质特征,发现了两个重要现象,这两个发现直接指导了后续的技术设计方向。

第一个现象与"视频的时间冗余"有关。一段10秒的视频可能包含240帧画面,但相邻帧之间往往极其相似。以一个人坐在椅子上讲话的视频为例,前50帧画面几乎一模一样,只有嘴巴在微微动。把这250帧全部送去处理,其实是在重复处理大量几乎相同的信息,就像把同一道题做了50遍。

第二个现象更有意思,涉及到AI视觉系统中一种叫"注意力沉洞"的奇特行为。研究团队把视觉编码器在处理视频时的"注意力分布"可视化出来,发现了一个规律性的现象:不管视频内容如何变化,某些固定的画面位置(特定的像素区域)总是会持续吸引大量的注意力,在可视化图中表现为贯穿整个视频时间轴的竖条纹。

这些"注意力沉洞"位置上的信息并不是因为语义重要才被关注,而是因为这些位置的数学特征(向量范数特别大)导致它们自动"抢走"了注意力,就像教室里有几个学生特别爱举手,老师的目光总是被他们吸引,不管他们说的是不是最有价值的内容。

这个发现的实际意义在于:如果一个系统简单粗暴地用"被关注最多的就是最重要的"原则来筛选视觉信息,那么它会不成比例地保留这些"注意力沉洞"位置的信息,而真正携带有效语义的动态内容可能反而被丢弃。这正是现有很多优化方案存在的隐患。

---

三、EarlyTom的第一招:在AI的"眼睛"里就开始合并重复画面

基于上述分析,EarlyTom提出了第一个核心机制——在视觉编码器内部就开始执行帧合并,而不是等视觉编码完成之后再处理。

打个比方,这就好比一个速记员在听讲座时,不是先把讲师说的每一句话都原样记录下来,最后再整理删减,而是在听的过程中就实时判断"这两段话说的是一个意思,我只记一次"。这样速记员的笔记本更精简,整个记录过程也更快。

具体来说,这套帧合并机制分三个步骤运作。

第一步是"流式分段"。系统实时计算相邻两帧画面之间的相似度,用一种叫指数移动平均(EMA)的平滑技术来消除偶发的相似度波动干扰。当相似度突然大幅下降时,说明视频内容发生了明显变化(比如从室内切换到室外),系统就在这里划一条分割线,把视频切成若干"内容相对稳定"的片段。这个过程是动态自适应的,不需要预先知道视频的具体内容,完全根据画面内容自动判断。

第二步是"中间帧合并"。对于每个片段内部的中间帧(首尾两帧保持不变),系统会判断哪两帧最值得合并。判断标准有两个:一是这两帧必须足够相似(相似度超过预设阈值),二是这两帧之间的相似度要高于下一对帧之间的相似度。为什么要加第二个条件?因为这能确保每次合并的都是"当前最值得合并的一对",避免出现连锁合并导致信息损失过大的情况,就像剪枝时要优先剪掉最密集的重叠枝条,而不是随便剪。

第三步是"加权融合"。合并两帧时,不是简单地取平均,而是根据每帧与下一帧的相似度来分配权重。相似度更高的帧(意味着它在该片段中更"具代表性")会获得更高的权重。这个设计的逻辑在于,更稳定、更具代表性的画面内容应该在合并后的结果中占据主导地位,减少因两帧内容不均等带来的信息模糊。

这套机制的关键优势在于它的执行时机。它在视觉编码器处理视频的过程中就开始工作,而不是等编码器处理完全部帧之后再介入。这意味着后续的编码层面对的是更少的帧数,计算量随之下降,处理时间也就自然缩短。实验结果显示,这个阶段单独运作时,平均能保留约73.9%的帧,同时准确率维持在基准的98.8%,几乎无损。

在哪一层开始执行合并也经过了仔细验证。从第6层开始合并效果最佳,既能获得良好的加速效果(TTFT降至387毫秒,吞吐量提升至32.3),又不会因为过早合并导致特征表达不足而损害准确率;从第4层就开始的话速度更快但准确率略有下滑,从第8层开始则速度优势减弱。

---

四、EarlyTom的第二招:用更聪明的方式挑选空间信息,绕开"注意力陷阱"

完成帧合并之后,视频的帧数已经减少,但每一帧内部还有大量的空间位置信息(即每个画面里各个区域的特征)需要进一步压缩,因为最终送给大语言模型的信息量还要进一步控制。这里就是"注意力沉洞"问题最容易造成危害的地方。

EarlyTom的第二个核心机制叫"解耦空间筛选",核心思路是把视频帧分成两类,对不同类型的帧采用不同的筛选策略,从而在保证信息质量的同时避免被"注意力陷阱"带偏。

分类的依据沿用了第一阶段的分段结果:每个片段的首帧和尾帧被归类为"动态帧",因为这两帧分别代表一段内容的开始和结束,画面变化相对较大,携带的是内容转变时最有价值的信息;片段中间的那些帧则被归类为"静态帧",它们处于一段内容相对稳定的区间内,变化较小。

对于动态帧,系统采用全局Top-K筛选:把每帧里所有空间位置的重要性分数计算出来,挑出分数最高的那部分保留。这里的重要性来自视觉编码器的注意力分布,即使有"注意力沉洞"的干扰,对于动态帧来说,它的整体运动特征和变化信息依然足够丰富,全局排序还是有意义的。此外,这里的保留比例会根据第一阶段已经压缩的帧数自动重新计算,确保最终的总保留量刚好达到预设目标。

对于静态帧,系统则采用局部窗口筛选,专门设计来对抗"注意力沉洞"的干扰。做法是把每帧画面切割成若干个大小相等的局部窗口,在每个窗口内只选取注意力分数最高的那一个位置。这样一来,即使某几个固定位置有"注意力沉洞",它们也只能在自己所在的窗口内争夺一个名额,不会占据整张画面的名额。其他窗口的名额会被那些区域内真正有意义的内容抢到。整体效果是,保留下来的空间信息在画面上的分布更加均匀,更接近原始画面的信息分布,而不是被几个固定的"热点"垄断。

实验对比了三种筛选方式的效果:随机选取、全局Top-K、以及EarlyTom的局部窗口方式。随机选取速度最快(不需要计算相似度和排序),但准确率最低;全局Top-K准确率较好,但速度反而比随机慢(因为需要对所有位置排序,计算量较大);EarlyTom的局部窗口方式在速度和准确率之间取得了最佳平衡,在相同压缩率下准确率最高,速度也快于全局Top-K。

---

五、一个隐藏的加速技巧:让CPU和GPU同时干活

EarlyTom还藏着一个系统层面的优化技巧,这个技巧虽然听起来技术感很强,但道理其实很朴素。

在大多数AI推理系统中,GPU(图形处理器,专门用来做矩阵运算的芯片)承担了几乎所有的计算工作,而CPU(传统处理器)大部分时间处于闲置状态,只负责协调和调度。EarlyTom注意到了这个资源浪费,提出把静态帧的局部窗口筛选任务转移到CPU上执行,而GPU专注于处理计算量更大、更复杂的动态帧筛选。

两部分工作并行进行,就像一家餐厅里厨师负责炒菜(GPU做动态帧),服务员同时负责摆盘准备工作(CPU做静态帧),而不是等厨师炒完菜再让服务员开始摆盘。这种CPU-GPU协同的设计进一步减少了等待时间,而且几乎不增加额外的硬件成本。

---

六、实验数据说话:EarlyTom到底快了多少、准了多少

研究团队在四个主流视频理解基准测试上进行了全面评估,分别是MVBench、EgoSchema、LongVideoBench和VideoMME,这四个测试涵盖了短视频、长视频、日常场景和专业场景等不同类型,能较为全面地反映模型的视频理解能力。对照的是六种主流竞争方案:FastV、PyramidDrop、DyCoke、VisionZip、PruneVid、FastVID和HoliTom。

在7B参数规模的LLaVA-OneVision模型上,当保留10%的原始信息量时(也就是最激进的压缩设置),EarlyTom的首字延迟为336毫秒,而竞争对手中最快的VisionZip需要458毫秒,HoliTom需要556毫秒,基准系统需要889毫秒。EarlyTom比基准系统快了2.65倍,比第二名快了近40%。算力消耗(FLOPs)方面,EarlyTom仅需32.2万亿次浮点运算,而HoliTom需要44.6万亿次,相差约28%。

准确率方面,EarlyTom在10%保留率下的平均得分为56.2分,相比完整模型的58.4分只下降了约3.8%。而VisionZip在同样的压缩率下得分为53.5分,下降了约8.4%。这意味着EarlyTom在更激进的压缩条件下,信息保留的质量反而比竞争方案更好。

在25%保留率的宽松压缩条件下,EarlyTom的得分达到58.2分,与完整模型的58.4分几乎持平(相差不足0.4%),同时TTFT降至426毫秒,比完整模型快2.09倍。这一结果表明,EarlyTom可以在几乎不损失准确率的情况下实现显著加速。

研究团队还在0.5B参数的小模型上进行了验证,发现EarlyTom同样有效,在10%保留率下实现了1.48倍加速,且准确率保持在97.3%的水平。值得注意的是,在小模型上测试时,HoliTom方案因为其额外的处理开销甚至比基准系统还慢(0.90倍),而EarlyTom始终保持了对基准的正向加速,展现了其设计的稳健性。

研究还在LLaVA-Video-7B模型上做了额外验证,在15%保留率下实现了6.8倍的TTFT加速(从6429毫秒降至947毫秒),同时准确率维持在93.7%。这证明EarlyTom不是为某一款特定模型量身定制的技巧,而是一种具有较广泛适用性的通用方法。在Qwen2.5-VL-7B模型上的测试也显示,EarlyTom将算力消耗压缩到了原始系统的12.2%,TTFT从6842毫秒降至3667毫秒,同时准确率达到62.2%,显著优于简单平均池化(57.6%)和均匀降采样(59.3%)这两种基础方案。

---

七、两个组件缺一不可:消融实验揭示各部分的贡献

为了验证两个核心组件各自的贡献,研究团队做了一组"拆开来看"的对比实验(学术上称为消融实验)。

单独使用第一阶段的帧合并(不做空间筛选),系统平均保留了73.9%的信息,准确率达到58.4分;单独使用第二阶段的空间筛选(不做帧合并),保留20%信息时准确率同样是58.4分。当两个阶段组合使用时,在同样保留20%信息量的条件下,准确率提升到了58.8分,反而超过了任何单独使用一个组件的结果。这种"1+1>2"的效果来自两个组件在功能上的互补性:帧合并减少了时间维度的冗余,空间筛选减少了空间维度的冗余,两者针对不同类型的冗余,组合起来能更完整地保留视频的有效信息。

---

说到底,EarlyTom这项研究做的事情可以用一句很生活化的话来概括:它教会了AI在"看视频"这件事上懂得"聪明地偷懒"——不是每一帧都认真看,也不是每个画面位置都仔细研究,而是先识别哪些是重复的、哪些是"噪音",只把精力花在真正重要的地方。这个思路本身并不复杂,但研究团队在具体实现上解决了两个真实存在的障碍:一是要足够早地介入(在视觉编码器内部就开始处理,而不是等后期再补救),二是要足够聪明地避开"注意力陷阱"(用局部窗口策略而不是全局排序来筛选静态帧)。

对于普通用户来说,这项研究的意义在于,未来当你使用视频问答、视频搜索或视频内容理解相关应用时,你等待AI回答的时间可能会缩短一倍甚至更多,而体验到的回答质量几乎不会有任何感知上的下降。对于企业和平台来说,同样的硬件可以处理更多的用户请求,运营成本大幅降低。这篇研究的论文编号是arXiv:2605.30010,有兴趣深入了解技术细节的读者可以通过这个编号找到完整原文。

---

Q&A

Q1:EarlyTom是一种需要重新训练AI模型的技术吗?

A:EarlyTom完全不需要重新训练模型,它是一种"免训练"的推理加速方法,可以直接插入到已有的视频AI系统中使用。这意味着它可以低成本地应用到各种现有模型上,不需要额外的训练数据或大量的计算资源投入。

Q2:为什么以前的优化方案没有注意到视觉编码器是瓶颈?

A:大多数以前的方案专注于优化大语言模型那部分的计算,因为大语言模型通常参数量更大、更受关注。只有当语言模型那部分被充分优化之后,视觉编码器的耗时比例才会变得特别突出。EarlyTom团队通过详细的时间分析发现了这个被忽视的瓶颈,比如HoliTom和VisionZip在应用后,视觉编码器分别占据了总延迟的55.8%和68.4%。

Q3:局部窗口筛选和普通的Top-K筛选有什么实际区别?

A:普通Top-K筛选会在整帧画面里选出分数最高的若干位置,但由于"注意力沉洞"效应,少数固定位置会持续获得极高分数,导致选出来的位置集中在这几个固定区域,丢失了画面其他区域的有效信息。局部窗口筛选把画面切成多个小区域,每个区域只选一个最佳位置,强制保证了选出来的位置在整个画面上的均匀分布,信息更完整,对后续语义理解更有帮助。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-