微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

HoliTom：西湖大学团队提出全息式令牌合并技术，让视频大语言模型推理速度提升14倍

人工智能视频大语言模型令牌合并技术

HoliTom：西湖大学团队提出全息式令牌合并技术，让视频大语言模型推理速度提升14倍

作者：科技行者

2025-05-31 08:22

分享至：

这项来自西湖大学的研究提出HoliTom，一种创新的令牌合并技术，能将视频大语言模型的计算成本降低到原始的6.9%，同时保持99.1%的性能。该方法通过全局冗余感知的时间合并、智能空间合并和内部LLM合并三重策略，全面减少视频处理中的冗余信息，使模型响应速度提升2.28倍，解码吞吐量增加1.32倍，为高效视频内容理解系统开辟了新可能。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 08:22 • 科技行者

在5月27日最新发布于arXiv的一篇研究论文中，来自浙江大学和西湖大学的研究团队提出了一种名为"HoliTom"的创新技术，旨在解决视频大语言模型（Video LLMs）面临的计算效率问题。该研究由浙江大学的邵可乐、西湖大学的陶柯达、Salesforce AI Research的覃灿、哥伦比亚大学的游浩轩、莱斯大学的隋杨以及西湖大学的王欢共同完成。有兴趣深入了解的读者可以通过项目官方GitHub页面（https://github.com/cokeshao/HoliTom）获取更多信息。

想象一下，你有一台非常聪明的电脑，它能看视频并用文字回答关于视频内容的问题。这就是视频大语言模型（Video LLMs）。虽然这些模型非常强大，但它们有一个很大的缺点：速度太慢了！这就像一个非常聪明但动作迟缓的朋友，每次你问他视频里发生了什么，他都需要花很长时间思考才能回答。

为什么会这么慢呢？这是因为视频中包含了大量的信息。想象一下，每一帧画面都被切成数百个小方块（我们称之为"令牌"或"tokens"），模型需要分析每一个小方块，而一个视频可能有几十甚至上百帧画面。这就像是要阅读一本有成千上万页的书才能回答一个简单问题一样费时费力。

西湖大学的研究团队提出的HoliTom方法就像是一个聪明的阅读助手，它不是把整本书从头到尾读一遍，而是能够识别出哪些内容是重复的、哪些是不重要的，然后帮你把书变薄，只保留最关键的信息。这种方法让电脑能够更快地理解视频内容，同时不会丢失重要信息。

具体来说，HoliTom采用了一种"全息式令牌合并"方法，它综合考虑了视频的时间和空间两个维度上的冗余信息。在时间维度上，它能够识别出哪些画面内容是重复的（比如背景几乎不变的画面）；在空间维度上，它能够判断哪些区域是不重要的（比如画面边缘的无关元素）。通过这种方式，HoliTom可以将输入到大语言模型的令牌数量减少90%以上，大大加快了处理速度。

更令人印象深刻的是，即使去掉了这么多信息，HoliTom仍然能保持99.1%的原始性能，这意味着它几乎不会影响模型回答问题的准确性。在实验中，研究人员发现使用HoliTom技术后，模型生成第一个回答词的时间（即首词时间）缩短了2.28倍，整体回答生成的速度也提高了1.32倍。

这项技术的出现对于视频内容理解和分析领域具有重要意义。它可以让视频问答系统在普通电脑上也能快速运行，为未来的智能视频助手、自动视频分析等应用铺平道路。接下来，我们将深入了解HoliTom的工作原理和它的革命性影响。

一、为什么视频大语言模型需要提速？

想象一下，当你在看一段精彩的足球比赛视频，想问AI"谁进了那个精彩的球？"，你期望立即得到答案。但是，现实情况却是，你可能需要等待好几秒甚至更长时间才能得到回应。这种延迟体验显然不够理想。为什么会这样呢？

视频大语言模型虽然在理解视频内容方面表现出色，但它们面临着严重的计算效率问题。这就像是一个聪明的分析师被要求阅读一堆篇幅冗长的报告 - 即使他很聪明，阅读和理解这么多内容也需要时间。在技术层面上，这个问题主要来自于处理大量视频令牌（tokens）的计算开销，特别是考虑到大语言模型中注意力机制的二次方复杂度。

对于包含许多帧的视频，输入令牌数量可以轻松达到数万个，这使得推理过程变得计算密集且耗时。虽然之前的研究已经探索了模型压缩和令牌裁剪等方法，但在视频任务中找到效率与性能之间的理想平衡仍然是一个开放性挑战。

现有的令牌裁剪方法主要分为两类：一类是在LLM内部进行裁剪（内部LLM裁剪），另一类是在LLM之前进行裁剪（外部LLM裁剪）。内部LLM裁剪方法（如FastV）在LLM的浅层就会产生计算和内存成本，限制了整体的FLOP（浮点运算次数）减少。而外部LLM裁剪方法主要处理单个帧内的空间冗余或有限时间窗口内的时间冗余，这无法充分理解视频的全局动态特性，导致次优的时空压缩效果。

更重要的是，尽管这些方法各有优势，但没有先前的工作系统性地探索结合内部LLM和外部LLM裁剪策略的潜力，或分析它们之间的互补效应。当前的方法虽然提供了一些好处，但仍有很大的改进空间。

研究团队提出的HoliTom方法正是针对这些问题设计的一种全新解决方案，它通过结合外部和内部策略，全面处理视频令牌的冗余问题，为视频大语言模型提供了一种更高效的推理方式。

二、HoliTom方法的工作原理：三重压缩策略

HoliTom方法的核心理念是通过一种全息式的方法来减少视频大语言模型中的令牌冗余。这就像一个精明的电影剪辑师，能够将长片中的重复和不必要的片段剪掉，同时保留故事的完整性和连贯性。HoliTom采用了三种互补的压缩策略，形成了一个全面的令牌合并框架。

### 全局感知的时间合并

想象你正在看一段人走路的视频。在连续的几帧中，背景几乎不变，只有人在移动。传统方法可能会把每一帧都当作完全不同的信息处理，而HoliTom则能识别出哪些部分是保持不变的。

HoliTom首先通过一种叫做"全局冗余感知时间分割"的方法对视频进行分析。这就像把一部电影根据场景变化分成几个章节，而不是简单地按固定时间间隔划分。对于每个时间段，HoliTom会计算帧与帧之间的相似度，如果某些特征在连续帧中高度相似（相似度超过预设阈值τ），就会被视为时间冗余特征。

为了最大化压缩效果，HoliTom使用动态规划算法找到最优的视频分割方案，使得可剪枝的特征总数最大化。这样，HoliTom就能识别出视频中的冗余模式，并将这些冗余信息合并到它们首次出现的帧中，大大减少了需要处理的令牌数量。

这种方法的独特之处在于它的全局视角——它不是简单地比较相邻帧，而是寻找整个视频中的最佳分割点，确保捕获到视频的关键动态变化。

### 智能空间合并

在处理完时间维度上的冗余后，HoliTom还会对空间维度进行压缩。这类似于一位摄影师知道照片中哪些区域是主体，哪些是可以裁剪的边缘部分。

具体来说，时间合并后的令牌被分为两类：非冗余时间令牌和冗余时间令牌。对于非冗余时间令牌，HoliTom使用基于注意力权重的选择方法。它计算视觉塔（vision tower）中每个令牌接收的平均注意力权重，然后选择那些获得更高注意力的令牌作为最具信息量的代表。

对于冗余时间令牌，由于它们已经被确定为时间上重复的信息，HoliTom采用了一种基于密度峰值聚类的方法（DPC-KNN）。这种方法能够找到最具代表性的特征中心，并将相似的特征分配到这些中心，然后计算每个簇的平均特征作为代表。

这种双重策略确保了空间合并能够适应不同类型令牌的特点，最大限度地保留关键信息，同时减少冗余。

### 内部LLM合并

除了在LLM之前进行时空压缩，HoliTom还引入了一种内部LLM令牌合并方法。这就像是在阅读一本书的过程中，逐渐理解哪些内容是次要的，可以快速浏览而不影响理解主线剧情。

在LLM的第K层，HoliTom使用最后一个令牌的注意力权重对所有视觉令牌进行排序。具有最低注意力分数的R%视觉令牌被确定为合并候选者。然而，与直接丢弃这些令牌不同，HoliTom找到每个候选者最相似的保留令牌，并将它们合并。

这种方法保留了那些本会被移除的令牌中的相关特征，减轻了信息丢失，同时实现了所需的令牌减少目标。更重要的是，这种内部LLM合并方法专门设计为与外部LLM裁剪方法兼容，实现协同优化。

总体而言，HoliTom的三重压缩策略形成了一个全面的令牌合并框架，能够在保持模型性能的同时显著提高推理效率。这种方法不只是简单地删除令牌，而是通过智能合并保留关键信息，确保模型在理解视频内容时不会丢失重要线索。

三、实验设置与基准对比

为了验证HoliTom方法的有效性，研究团队进行了一系列全面的实验。他们选择了四个广泛使用的视频理解基准：MVBench、EgoSchema、LongVideoBench和VideoMME。这些基准包含不同长度和复杂场景的视频，提供了一个全面的测试平台，用于评估HoliTom方法的有效性和通用性。

实验中，研究团队将HoliTom与六种强大的无需训练的基线方法进行了比较：

1. FastV：这种方法在预填充过程中使用预测令牌和视觉令牌之间的注意力分数来识别关键令牌。 2. PDrop：在分区LLM阶段内对视觉令牌进行裁剪，由图像和指令令牌引导。 3. Visionzip：通过空间令牌合并在LLM之前裁剪令牌。 4. DyCoke：在LLM之前采用时间合并，在解码过程中进行动态KV缓存裁剪。 5. PruneVid：通过空间-时间令牌聚类最小化视频冗余。 6. FastVID：一项同期工作，对视频进行分区并应用基于密度的令牌裁剪。

研究团队实现了HoliTom方法并在LLaVA-OneVision-7B/72B和LLaVA-Video-7B模型上进行了评估。评估使用NVIDIA A100 GPU，而推理则在NVIDIA RTX A6000上进行。推理成本通过预填充FLOP（浮点运算次数）来衡量，基线方法配置为具有可比的FLOP。为了确保公平比较，所有基线和提出的方法都使用相同的硬件条件下的开源代码进行实验。

四、令人印象深刻的性能与效率提升

HoliTom方法在实验中展现出了令人印象深刻的性能。在LLaVA-OneVision-7B模型上，HoliTom将计算成本降低到原始FLOP的仅6.9%，同时保持了99.1%的原始模型性能。这就像是一个学生能够在不影响理解的情况下，将一本1000页的教科书压缩到只有69页！

具体来看各个基准测试的结果：在MVBench上，HoliTom实现了57.3分（原始模型58.3分）；在EgoSchema上，达到了61.2分（原始模型60.4分）；在LongVideoBench上，得到了56.3分（原始模型56.4分）；在VideoMME上，获得了56.8分（原始模型58.6分）。平均来看，HoliTom保持了99.1%的原始性能，这是一个非常出色的成绩。

对比其他方法，内部LLM裁剪方法（如FastV和PDrop）在较低的令牌保留率（25%）下难以平衡性能和效率。DyCoke由于其设计限制，最低保留率被限制在25%。空间裁剪方法如VisionZip在10%保留率时表现出显著的性能下降（高达8.4%），这主要是因为它们仅依赖于空间压缩，在激进裁剪下保留关键时间信息的效果不佳。

值得注意的是，即使没有内部LLM合并技术，HoliTom方法也在所有评估的保留率下始终实现了最先进的性能和效率。这突显了其外部LLM裁剪方法的优越鲁棒性和适应性。

此外，HoliTom方法在不同的模型骨架上也表现出一致的有效性。在强大的LLaVA-OneVision-72B模型上，即使对于激进压缩也很敏感，HoliTom方法将计算成本降低到11.3%，同时保持96%的原始性能。在LLaVA-Video-7B上，尽管由于其更高的初始池化率（169对比LLaVA-OneVision的196个令牌/帧）带来了更大的压缩挑战，HoliTom仍然将FLOP降低到原始值的仅9.5%，同时保持95.8%的性能，优于现有方法。

在效率方面，HoliTom显著减少了首词生成时间（TTFT），降低了2.28倍，同时将解码吞吐量提高了1.32倍。这意味着用户在等待模型开始回答的时间减少了一半以上，整体回答生成的速度也提高了约三分之一。

五、深入分析：HoliTom的独特优势

为了更好地理解HoliTom的工作原理和优势，研究团队进行了一系列消融研究和深入分析。

首先，他们对合并模块进行了消融研究。结果表明，时间合并模块（τ = 0.8）设计用于消除时间冗余，在保持性能的同时实现了效率提升。在四个基准测试中，该方法实现了100.7%的基线性能，同时将FLOP降低到75.7%。值得注意的是，报告的平均裁剪率是在四个数据集上计算的，不同数据集的裁剪率各不相同。例如，MVBench（16秒）由于其最短持续时间，展现出最高的时间冗余，允许约43%的裁剪，而EgoSchema包含最少的冗余，仅允许约9.3%的裁剪。

当时间裁剪与空间裁剪结合时，HoliTom的时间裁剪方法显著减轻了通常与激进空间裁剪相关的性能下降。此外，加入内部合并模块允许研究团队进一步推动效率边界，最终以仅10.5%的原始FLOP保持99.7%的性能。

在时间分割方法的消融研究中，研究团队比较了不同的时间分割方法。固定间隔分割以4为间隔生成8个分段。DySeg选择具有8个最大帧间差异的分段起点，并包括相似度低于0.90的帧。而HoliTom提出的全局冗余感知分割最大限度地利用了空间冗余，实现了更好的性能。

对于阈值τ的选择，研究发现，对于15%的保留率，τ = 0.8周围的性能达到峰值。这个值被统一采用，没有性能下降。对于10%的裁剪目标，设置τ = 0.65以减轻激进空间裁剪带来的性能下降。

另一个有趣的发现是，当使用HoliTom技术处理更多帧时，性能会稳健地提高。这是因为均匀采样的帧可能会错过准确回答所需的关键信息。因此，一个有效的令牌裁剪方法对于处理更多帧并捕获足够上下文至关重要。在16帧时，虽然HoliTom略低于原始模型，但仍然优于所有其他压缩技术。使用64帧时，HoliTom比原始模型更高效，并实现了更好的性能。此外，当处理128帧时，HoliTom的令牌压缩方法避免了限制原始模型的最大上下文长度问题。这种能力对于需要广泛时间上下文的任务或回答具有长文本的复杂问题特别有益，从而提高了性能。

值得注意的是，在多个实验中，采用令牌压缩技术的模型在各种基准测试上的表现超过了原始模型。这一令人惊讶的结果强调了一个基本原则：在输入阶段实现卓越性能的关键在于关键信息而非详尽信息。过多、无关或冗余的数据充当噪音，模糊了对有效处理至关重要的基本信号。这种信息过载阻碍了模型准确识别和处理关键细节的能力，从而降低了理解和响应生成能力。通过提供保留相关信息同时去除冗余信息的精炼输入，HoliTom方法促进了更深入的理解，产生了更准确、更相关的输出。

六、实际应用与未来展望

HoliTom方法的成功为视频大语言模型的实际应用开辟了新的可能性。通过显著降低计算需求并加速推理，HoliTom使这些先进模型能够在更广泛的硬件上运行，包括资源受限的设备。

想象一下，在智能手机上运行的实时视频助手，能够即时回答关于正在观看的视频内容的问题。或者，一个能够快速分析长时间监控录像并提取关键信息的安防系统。这些应用在没有高效推理技术的情况下很难实现，但HoliTom使它们变得更加接近现实。

然而，研究团队也指出了当前方法的一些局限性。首先，该方法主要针对固定长度的视频剪辑设计，不直接支持在线、任意长度的流式视频输入。这对实时处理和维持长期上下文理解带来挑战。其次，与令牌裁剪领域的其他方法类似，HoliTom并未优化视觉塔的延迟。未来的工作可能会探索量化和加速视觉塔的方法，以进一步提高整体性能。

尽管如此，HoliTom的突破性进展为未来研究指明了方向。它证明了结合外部和内部令牌合并策略的潜力，为开发更高效的视频理解系统提供了宝贵见解。未来的研究可能会探索更先进的时空冗余检测方法，以及更适合流式视频处理的技术。

此外，HoliTom的方法可能会启发其他多模态领域的效率优化技术，如音频-视频理解或跨语言视频分析。随着多模态大语言模型的日益普及，高效推理技术将变得越来越重要，HoliTom为这一领域的发展做出了重要贡献。

总结来说，HoliTom代表了视频大语言模型效率优化的一个重要里程碑。它通过智能识别和合并冗余令牌，实现了计算成本的显著降低，同时保持了出色的性能。这一突破为构建更快、更高效的视频理解系统铺平了道路，使先进的视频AI技术能够更广泛地应用于实际场景中。

人工智能视频大语言模型令牌合并技术

分享至