微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙江大学、西湖大学与阿里云联手破解"视频AI看片慢"难题：一种让AI视频理解快2.65倍的全新压缩思路

视频大语言模型视觉token压缩推理加速优化

浙江大学、西湖大学与阿里云联手破解"视频AI看片慢"难题：一种让AI视频理解快2.65倍的全新压缩思路

作者：科技行者

2026-06-04 09:04

分享至：

EarlyTom是一种免训练视频AI加速框架，通过在视觉编码器内部压缩冗余帧并用解耦策略筛选空间信息，将视频问答响应速度提升最高2.65倍，算力降低61%。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 09:04 • 科技行者

这项由浙江大学、西湖大学与阿里云计算联合完成的研究于2026年5月发表，论文编号为arXiv:2605.30010，感兴趣的读者可通过该编号检索完整原文。研究提出了一种名为EarlyTom的视频理解加速框架，在不需要重新训练模型的前提下，将视频AI的响应速度提升了最高2.65倍，同时保持了与原始模型几乎相同的理解准确率。

你有没有遇到过这样的场景：打开一个视频问答应用，问它"这段视频里发生了什么"，然后等了漫长的几秒钟，它才开口回答？这种等待感，对于普通用户来说只是轻微的不耐烦，但对于真正需要处理海量视频的工业场景——比如短视频平台的内容审核、监控录像的智能分析、或者大规模视频检索系统——这几秒钟的延迟乘以数百万次请求，就变成了巨大的算力成本和服务瓶颈。这正是这项研究试图解决的核心问题。

研究团队发现，现有的视频AI系统在"看视频"这件事上其实存在一个严重的效率浪费。他们的解决方案被命名为EarlyTom，名字里的"Early"意味着"更早动手"，而"Tom"则暗示着一种轻巧敏捷的处理风格。这套方法从两个维度入手：一是在AI的"眼睛"处理画面的最早期就开始删减冗余信息，二是用一种更聪明的方式来挑选真正有价值的画面内容。结果令人印象深刻——在英伟达A100这块顶级AI芯片上测试，处理时间从原来的889毫秒直接压缩到336毫秒，算力消耗也降低了61%，而AI的视频理解能力几乎没有下降。

---

一、AI是怎么"看"视频的，它的时间都花在哪里了

要理解这项研究的价值，得先搞清楚视频AI系统是如何工作的。可以把整个过程类比成一位翻译官处理一部外文电影的工作流程。

第一步，翻译官需要先把每一帧画面"读进脑子里"，提取出关键的视觉信息——这就是所谓的"视觉编码"阶段，由一个专门的视觉处理器（通常称为视觉编码器）来完成，在这里用的是一种叫SigLIP的视觉模型。第二步，这些从画面中提取出来的信息会被转化成语言模型能够理解的格式，再交给大语言模型（也就是那个真正"理解"内容、生成答案的AI大脑）。第三步，大语言模型把视频信息和用户的问题一起"消化"，然后开口生成答案。

在这个流程里，"第一个字出现在屏幕上需要多久"被称为"首字延迟"（TTFT），它是衡量用户等待体验的核心指标。研究团队把这段时间像切蛋糕一样分成四块，仔细测量了每块的比例。

测量结果出乎很多人的意料。在最基础的系统中，视觉编码阶段消耗了36.3%的总等待时间，也就是889毫秒里的323毫秒。更出人意料的是，当研究团队观察那些已经做过优化的主流竞争方案时，发现这个比例反而更高了——一个叫HoliTom的方案中，视觉编码占据了55.8%；另一个叫VisionZip的方案更是高达68.4%。换句话说，那些已有的优化方案把大语言模型那边的时间压缩得很好，但恰恰因此让视觉编码这个"被忽视的瓶颈"更加突出。

这就好比一个工厂流水线，大家都在优化后端的包装和出货环节，却没人注意到前端的原材料处理车间其实一直在拖后腿。EarlyTom的核心洞察就是：既然问题出在前端，那就从前端下手。

---

二、视频里藏着大量"废话"：AI需要学会忽略重复内容

在动手优化之前，研究团队首先深入分析了视频信息的本质特征，发现了两个重要现象，这两个发现直接指导了后续的技术设计方向。

第一个现象与"视频的时间冗余"有关。一段10秒的视频可能包含240帧画面，但相邻帧之间往往极其相似。以一个人坐在椅子上讲话的视频为例，前50帧画面几乎一模一样，只有嘴巴在微微动。把这250帧全部送去处理，其实是在重复处理大量几乎相同的信息，就像把同一道题做了50遍。

第二个现象更有意思，涉及到AI视觉系统中一种叫"注意力沉洞"的奇特行为。研究团队把视觉编码器在处理视频时的"注意力分布"可视化出来，发现了一个规律性的现象：不管视频内容如何变化，某些固定的画面位置（特定的像素区域）总是会持续吸引大量的注意力，在可视化图中表现为贯穿整个视频时间轴的竖条纹。

这些"注意力沉洞"位置上的信息并不是因为语义重要才被关注，而是因为这些位置的数学特征（向量范数特别大）导致它们自动"抢走"了注意力，就像教室里有几个学生特别爱举手，老师的目光总是被他们吸引，不管他们说的是不是最有价值的内容。

这个发现的实际意义在于：如果一个系统简单粗暴地用"被关注最多的就是最重要的"原则来筛选视觉信息，那么它会不成比例地保留这些"注意力沉洞"位置的信息，而真正携带有效语义的动态内容可能反而被丢弃。这正是现有很多优化方案存在的隐患。

---

三、EarlyTom的第一招：在AI的"眼睛"里就开始合并重复画面

基于上述分析，EarlyTom提出了第一个核心机制——在视觉编码器内部就开始执行帧合并，而不是等视觉编码完成之后再处理。

打个比方，这就好比一个速记员在听讲座时，不是先把讲师说的每一句话都原样记录下来，最后再整理删减，而是在听的过程中就实时判断"这两段话说的是一个意思，我只记一次"。这样速记员的笔记本更精简，整个记录过程也更快。

具体来说，这套帧合并机制分三个步骤运作。

第一步是"流式分段"。系统实时计算相邻两帧画面之间的相似度，用一种叫指数移动平均（EMA）的平滑技术来消除偶发的相似度波动干扰。当相似度突然大幅下降时，说明视频内容发生了明显变化（比如从室内切换到室外），系统就在这里划一条分割线，把视频切成若干"内容相对稳定"的片段。这个过程是动态自适应的，不需要预先知道视频的具体内容，完全根据画面内容自动判断。

第二步是"中间帧合并"。对于每个片段内部的中间帧（首尾两帧保持不变），系统会判断哪两帧最值得合并。判断标准有两个：一是这两帧必须足够相似（相似度超过预设阈值），二是这两帧之间的相似度要高于下一对帧之间的相似度。为什么要加第二个条件？因为这能确保每次合并的都是"当前最值得合并的一对"，避免出现连锁合并导致信息损失过大的情况，就像剪枝时要优先剪掉最密集的重叠枝条，而不是随便剪。

第三步是"加权融合"。合并两帧时，不是简单地取平均，而是根据每帧与下一帧的相似度来分配权重。相似度更高的帧（意味着它在该片段中更"具代表性"）会获得更高的权重。这个设计的逻辑在于，更稳定、更具代表性的画面内容应该在合并后的结果中占据主导地位，减少因两帧内容不均等带来的信息模糊。

这套机制的关键优势在于它的执行时机。它在视觉编码器处理视频的过程中就开始工作，而不是等编码器处理完全部帧之后再介入。这意味着后续的编码层面对的是更少的帧数，计算量随之下降，处理时间也就自然缩短。实验结果显示，这个阶段单独运作时，平均能保留约73.9%的帧，同时准确率维持在基准的98.8%，几乎无损。

在哪一层开始执行合并也经过了仔细验证。从第6层开始合并效果最佳，既能获得良好的加速效果（TTFT降至387毫秒，吞吐量提升至32.3），又不会因为过早合并导致特征表达不足而损害准确率；从第4层就开始的话速度更快但准确率略有下滑，从第8层开始则速度优势减弱。

---

四、EarlyTom的第二招：用更聪明的方式挑选空间信息，绕开"注意力陷阱"

完成帧合并之后，视频的帧数已经减少，但每一帧内部还有大量的空间位置信息（即每个画面里各个区域的特征）需要进一步压缩，因为最终送给大语言模型的信息量还要进一步控制。这里就是"注意力沉洞"问题最容易造成危害的地方。

EarlyTom的第二个核心机制叫"解耦空间筛选"，核心思路是把视频帧分成两类，对不同类型的帧采用不同的筛选策略，从而在保证信息质量的同时避免被"注意力陷阱"带偏。

分类的依据沿用了第一阶段的分段结果：每个片段的首帧和尾帧被归类为"动态帧"，因为这两帧分别代表一段内容的开始和结束，画面变化相对较大，携带的是内容转变时最有价值的信息；片段中间的那些帧则被归类为"静态帧"，它们处于一段内容相对稳定的区间内，变化较小。

对于动态帧，系统采用全局Top-K筛选：把每帧里所有空间位置的重要性分数计算出来，挑出分数最高的那部分保留。这里的重要性来自视觉编码器的注意力分布，即使有"注意力沉洞"的干扰，对于动态帧来说，它的整体运动特征和变化信息依然足够丰富，全局排序还是有意义的。此外，这里的保留比例会根据第一阶段已经压缩的帧数自动重新计算，确保最终的总保留量刚好达到预设目标。

对于静态帧，系统则采用局部窗口筛选，专门设计来对抗"注意力沉洞"的干扰。做法是把每帧画面切割成若干个大小相等的局部窗口，在每个窗口内只选取注意力分数最高的那一个位置。这样一来，即使某几个固定位置有"注意力沉洞"，它们也只能在自己所在的窗口内争夺一个名额，不会占据整张画面的名额。其他窗口的名额会被那些区域内真正有意义的内容抢到。整体效果是，保留下来的空间信息在画面上的分布更加均匀，更接近原始画面的信息分布，而不是被几个固定的"热点"垄断。

实验对比了三种筛选方式的效果：随机选取、全局Top-K、以及EarlyTom的局部窗口方式。随机选取速度最快（不需要计算相似度和排序），但准确率最低；全局Top-K准确率较好，但速度反而比随机慢（因为需要对所有位置排序，计算量较大）；EarlyTom的局部窗口方式在速度和准确率之间取得了最佳平衡，在相同压缩率下准确率最高，速度也快于全局Top-K。

---

五、一个隐藏的加速技巧：让CPU和GPU同时干活

EarlyTom还藏着一个系统层面的优化技巧，这个技巧虽然听起来技术感很强，但道理其实很朴素。

在大多数AI推理系统中，GPU（图形处理器，专门用来做矩阵运算的芯片）承担了几乎所有的计算工作，而CPU（传统处理器）大部分时间处于闲置状态，只负责协调和调度。EarlyTom注意到了这个资源浪费，提出把静态帧的局部窗口筛选任务转移到CPU上执行，而GPU专注于处理计算量更大、更复杂的动态帧筛选。

两部分工作并行进行，就像一家餐厅里厨师负责炒菜（GPU做动态帧），服务员同时负责摆盘准备工作（CPU做静态帧），而不是等厨师炒完菜再让服务员开始摆盘。这种CPU-GPU协同的设计进一步减少了等待时间，而且几乎不增加额外的硬件成本。

---

六、实验数据说话：EarlyTom到底快了多少、准了多少

研究团队在四个主流视频理解基准测试上进行了全面评估，分别是MVBench、EgoSchema、LongVideoBench和VideoMME，这四个测试涵盖了短视频、长视频、日常场景和专业场景等不同类型，能较为全面地反映模型的视频理解能力。对照的是六种主流竞争方案：FastV、PyramidDrop、DyCoke、VisionZip、PruneVid、FastVID和HoliTom。

在7B参数规模的LLaVA-OneVision模型上，当保留10%的原始信息量时（也就是最激进的压缩设置），EarlyTom的首字延迟为336毫秒，而竞争对手中最快的VisionZip需要458毫秒，HoliTom需要556毫秒，基准系统需要889毫秒。EarlyTom比基准系统快了2.65倍，比第二名快了近40%。算力消耗（FLOPs）方面，EarlyTom仅需32.2万亿次浮点运算，而HoliTom需要44.6万亿次，相差约28%。

准确率方面，EarlyTom在10%保留率下的平均得分为56.2分，相比完整模型的58.4分只下降了约3.8%。而VisionZip在同样的压缩率下得分为53.5分，下降了约8.4%。这意味着EarlyTom在更激进的压缩条件下，信息保留的质量反而比竞争方案更好。

在25%保留率的宽松压缩条件下，EarlyTom的得分达到58.2分，与完整模型的58.4分几乎持平（相差不足0.4%），同时TTFT降至426毫秒，比完整模型快2.09倍。这一结果表明，EarlyTom可以在几乎不损失准确率的情况下实现显著加速。

研究团队还在0.5B参数的小模型上进行了验证，发现EarlyTom同样有效，在10%保留率下实现了1.48倍加速，且准确率保持在97.3%的水平。值得注意的是，在小模型上测试时，HoliTom方案因为其额外的处理开销甚至比基准系统还慢（0.90倍），而EarlyTom始终保持了对基准的正向加速，展现了其设计的稳健性。

研究还在LLaVA-Video-7B模型上做了额外验证，在15%保留率下实现了6.8倍的TTFT加速（从6429毫秒降至947毫秒），同时准确率维持在93.7%。这证明EarlyTom不是为某一款特定模型量身定制的技巧，而是一种具有较广泛适用性的通用方法。在Qwen2.5-VL-7B模型上的测试也显示，EarlyTom将算力消耗压缩到了原始系统的12.2%，TTFT从6842毫秒降至3667毫秒，同时准确率达到62.2%，显著优于简单平均池化（57.6%）和均匀降采样（59.3%）这两种基础方案。

---

七、两个组件缺一不可：消融实验揭示各部分的贡献

为了验证两个核心组件各自的贡献，研究团队做了一组"拆开来看"的对比实验（学术上称为消融实验）。

单独使用第一阶段的帧合并（不做空间筛选），系统平均保留了73.9%的信息，准确率达到58.4分；单独使用第二阶段的空间筛选（不做帧合并），保留20%信息时准确率同样是58.4分。当两个阶段组合使用时，在同样保留20%信息量的条件下，准确率提升到了58.8分，反而超过了任何单独使用一个组件的结果。这种"1+1>2"的效果来自两个组件在功能上的互补性：帧合并减少了时间维度的冗余，空间筛选减少了空间维度的冗余，两者针对不同类型的冗余，组合起来能更完整地保留视频的有效信息。

---

说到底，EarlyTom这项研究做的事情可以用一句很生活化的话来概括：它教会了AI在"看视频"这件事上懂得"聪明地偷懒"——不是每一帧都认真看，也不是每个画面位置都仔细研究，而是先识别哪些是重复的、哪些是"噪音"，只把精力花在真正重要的地方。这个思路本身并不复杂，但研究团队在具体实现上解决了两个真实存在的障碍：一是要足够早地介入（在视觉编码器内部就开始处理，而不是等后期再补救），二是要足够聪明地避开"注意力陷阱"（用局部窗口策略而不是全局排序来筛选静态帧）。

对于普通用户来说，这项研究的意义在于，未来当你使用视频问答、视频搜索或视频内容理解相关应用时，你等待AI回答的时间可能会缩短一倍甚至更多，而体验到的回答质量几乎不会有任何感知上的下降。对于企业和平台来说，同样的硬件可以处理更多的用户请求，运营成本大幅降低。这篇研究的论文编号是arXiv:2605.30010，有兴趣深入了解技术细节的读者可以通过这个编号找到完整原文。

---

Q&A

Q1：EarlyTom是一种需要重新训练AI模型的技术吗？

A：EarlyTom完全不需要重新训练模型，它是一种"免训练"的推理加速方法，可以直接插入到已有的视频AI系统中使用。这意味着它可以低成本地应用到各种现有模型上，不需要额外的训练数据或大量的计算资源投入。

Q2：为什么以前的优化方案没有注意到视觉编码器是瓶颈？

A：大多数以前的方案专注于优化大语言模型那部分的计算，因为大语言模型通常参数量更大、更受关注。只有当语言模型那部分被充分优化之后，视觉编码器的耗时比例才会变得特别突出。EarlyTom团队通过详细的时间分析发现了这个被忽视的瓶颈，比如HoliTom和VisionZip在应用后，视觉编码器分别占据了总延迟的55.8%和68.4%。

Q3：局部窗口筛选和普通的Top-K筛选有什么实际区别？

A：普通Top-K筛选会在整帧画面里选出分数最高的若干位置，但由于"注意力沉洞"效应，少数固定位置会持续获得极高分数，导致选出来的位置集中在这几个固定区域，丢失了画面其他区域的有效信息。局部窗口筛选把画面切成多个小区域，每个区域只选一个最佳位置，强制保证了选出来的位置在整个画面上的均匀分布，信息更完整，对后续语义理解更有帮助。

视频大语言模型视觉token压缩推理加速优化

分享至