微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

视频加速革命：圣地亚哥大学团队打造可训练稀疏注意力机制，让视频生成更快更强

人工智能视频生成稀疏注意力

视频加速革命：圣地亚哥大学团队打造可训练稀疏注意力机制，让视频生成更快更强

作者：科技行者

2025-05-23 07:47

分享至：

圣地亚哥大学团队提出的VSA（视频稀疏注意力）机制，通过巧妙的两阶段设计解决了视频生成模型的计算瓶颈。它首先将视频分割成小立方体，在粗粒度层面快速识别重要区域，再只在这些区域内进行精细计算。实验表明，VSA能在不损失生成质量的情况下将训练计算量减少2.53倍，将推理时间从31秒缩短至18秒。这一可训练的稀疏注意力机制为大规模视频生成模型的进一步发展铺平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-23 07:47 • 科技行者

在人工智能快速发展的今天，高质量视频生成技术已经成为研究热点，但长时间高分辨率视频的生成依然面临巨大挑战。2025年5月，来自加州大学圣地亚哥分校的Peiyuan Zhang、Haofeng Huang、Yongqi Chen、Will Lin与MBZUAI的Zhengzhong Liu、加州大学伯克利分校的Ion Stoica、MBZUAI的Eric P. Xing以及加州大学圣地亚哥分校的Hao Zhang共同发表了一篇题为《Faster Video Diffusion with Trainable Sparse Attention》的研究论文，提出了一种名为VSA（Video Sparse Attention）的创新稀疏注意力机制，为视频扩散模型（Video Diffusion Transformers，简称DiT）的训练和推理带来了显著的速度提升。这篇论文已经在arXiv预印本平台上发布（arXiv:2505.13389v1），为视频生成领域带来了令人振奋的进展。

想象一下，即使是一段短短5秒的720p视频，当展开成序列时也会包含超过10万个标记（tokens）。这就像是要同时跟踪一本厚厚的百科全书中的每一个词，并理解它们之间的所有关系！这使得视频DiT模型在处理全分辨率、长序列数据时面临巨大的计算挑战。

但研究人员发现了一个有趣的现象：在这些模型中，注意力矩阵（想象成一个巨大的"重要性表格"，记录了每个视频元素与其他元素之间的关联程度）大部分值接近于零。换句话说，在生成视频时，只有少数"关键元素"真正重要，而大多数元素的影响微乎其微。

这就像是在人山人海的音乐会上，虽然周围有成千上万的人，但你真正会关注的可能只有舞台上的表演者和你周围的几个朋友。基于这一洞察，研究团队设计了VSA，一种可训练的稀疏注意力机制，它能够自动识别这些"关键元素"，并仅在这些元素上进行计算，从而大幅提高处理效率。

与之前的方法不同，VSA不是在模型训练完成后才应用稀疏注意力（这种做法会导致训练和测试不一致），而是从一开始就将稀疏注意力融入训练过程。这就像是一开始就教会运动员使用更高效的动作，而不是让他们用低效方式训练完成后再纠正。

VSA的核心设计非常巧妙：它将视频分割成小立方体，先在粗粒度层面快速识别重要区域，再在这些区域内进行细粒度的精确计算。整个过程端到端可训练，无需后期调整，并且与GPU硬件高度兼容，确保理论上的计算节省能真正转化为实际的速度提升。

研究团队进行了大量实验，从6千万到14亿参数不等的模型训练，结果表明VSA能在不损失生成质量的情况下，将注意力计算量减少8倍，总训练计算量减少2.53倍。当将VSA应用于现有的开源模型Wan-2.1时，注意力计算速度提升了6倍，整体生成时间从31秒减少到18秒，同时保持相当的生成质量。

这项研究的意义在于，它不仅提供了一种实用的稀疏注意力训练方法，更为视频扩散模型的进一步扩展和应用铺平了道路。随着VSA等技术的发展，我们距离高质量、高效率的视频生成又迈进了一大步。

一、为什么视频生成如此困难？理解问题的本质

想象你正在制作一部动画电影。每一帧都需要与前后帧保持连贯，人物、背景和动作都需要流畅自然。现在，假设这部电影有24帧/秒，时长5分钟，那就是7200多帧画面需要协调一致。这就是视频生成面临的基本挑战。

在技术层面，最先进的视频生成模型采用了名为"视频扩散变换器"（Video Diffusion Transformers，简称DiT）的架构。这些模型使用"注意力机制"来处理视频中的依赖关系，就像一个超级协调员，确保视频中的每个元素（像素或区域）都能"关注"到其他相关元素，从而维持连贯性和一致性。

然而，这种注意力机制的计算复杂度是平方级的。具体来说，如果视频有L个标记（tokens，可以理解为视频的基本单位），那么注意力计算的复杂度就是O(L?)。对于一个短短5秒的720p视频，展开后会有超过10万个标记，这意味着需要计算100亿级别的关联！这就是为什么即使是最先进的视频生成模型，如Wan2.1、Hunyuan Video等，在生成高分辨率长视频时仍然非常缓慢。

有趣的是，研究人员观察到一个重要现象：在这些注意力计算中，大部分计算结果接近于零，只有少数"关键标记"之间的关联真正重要。这就像是在人群中，你主要关注说话的人和你直接互动的人，而不是每个路过的行人。

这一观察为优化提供了方向：如果能够准确识别这些关键标记，并且只计算它们之间的注意力，就可以大大减少计算量而不明显影响生成质量。这正是VSA（Video Sparse Attention）要解决的问题。

二、VSA如何巧妙解决"鸡与蛋"困境？

设计可训练的稀疏注意力机制面临一个根本性的"鸡与蛋"困境：要准确找出关键标记，传统方法需要先计算完整的注意力矩阵，但这样做就失去了使用稀疏注意力的意义；而如果使用简单的启发式方法（比如固定的窗口注意力），又可能会遗漏重要信息。更重要的是，任何实用的注意力实现都必须符合现代GPU内核（如Flash Attention）所期望的块稀疏布局，否则理论上的计算节省无法转化为实际的速度提升。

VSA通过一个巧妙的两阶段设计解决了这一困境：

首先是粗粒度阶段（coarse stage）。VSA将视频潜在表示划分为多个4×4×4的立方体。每个立方体包含64个标记，通过平均池化操作将其压缩为一个单一表示。这样，一个拥有10万标记的视频就被压缩成约1500个立方体级表示。然后，VSA在这些压缩表示上执行全连接注意力，这一计算非常轻量级，但足以捕捉全局上下文并准确预测哪些立方体包含关键标记。

接着是细粒度阶段（fine stage）。根据粗粒度阶段的预测结果，VSA选择Top-K个最重要的立方体（默认K=32），并只在这些立方体内的标记上执行标记级别的注意力计算。这确保了计算资源集中在最有影响的区域，同时严格遵循硬件友好的块计算布局。

最后，VSA通过一个可微分的门控机制结合两个阶段的输出，得到最终的注意力结果。整个过程端到端可训练，不依赖于后期剖析，且能保持Flash Attention 3的约85%计算效率。

VSA的一个关键设计参数是立方体大小。小立方体让粗粒度阶段能更精确地定位关键标记，但会导致工作分散到更多小块，降低GPU吞吐量。大立方体则提升计算强度，但可能在一个立方体内包含过多非关键标记，从而模糊了稀疏性。研究团队通过大量实验发现，64大小的立方体（对应4×4×4标记）提供了表达能力和效率之间的最佳平衡。

三、VSA的设计空间探索：寻找最佳配置

在确定VSA最终设计之前，研究团队进行了详尽的设计空间探索，通过系统性实验解答了几个关键问题：数据依赖的可训练稀疏性是否优于固定模式？全局信息和局部信息各自的重要性如何？最佳的立方体大小应该是多少？

首先，研究团队比较了VSA与现有稀疏注意力方法。实验表明，在计算最优的训练预算（4.5×10^20 FLOPS）下，现有稀疏方法如压缩KV（Compress KV）、时空注意力（Spatial Temporal）等初期表现优于全注意力（Full Attention），但随着训练的延长（4×10^21 FLOPS），全注意力最终超越了这些固定模式方法。而VSA在两种训练预算下都保持领先，证明了数据依赖的可训练稀疏性的优势。

其次，研究团队分析了不同注意力组件的贡献。他们对比了使用固定局部模式（"L"，使用3×3×3窗口）与数据依赖模式的效果，同时考察了粗粒度阶段（"C"）对最终注意力输出的影响。结果显示，数据依赖模式始终优于固定模式，而包含粗粒度阶段输出的模型表现更佳，证明了全局信息的必要性和自适应稀疏性的优势。

研究团队还测试了三种加入局部上下文的方法：添加单独的局部阶段（3×3×3窗口注意力）、明确排除局部阶段选择的立方体、强制细粒度阶段包含局部立方体。所有三种变体表现相近，表明显式局部建模提供的益处有限。这一发现与直觉相反，因为视觉模型通常从局部先验中获益。

关于立方体大小，实验结果证实了理论预期：较小的立方体确实通过更精细的注意力粒度降低模型损失，但以牺牲GPU吞吐量为代价。当立方体大小从256（4×8×8）减小到16（2×4×2）时，模型损失稳步下降，但TFLOPS（每秒万亿次浮点运算）从478降至181，意味着实际运行速度大幅下降。研究团队最终选择了64（4×4×4）作为默认配置，在表达能力和效率之间取得良好平衡。

在预测关键标记方面，平均池化（Average Pooling）优于最大池化（Max Pooling）和卷积方法（Conv），后者甚至导致训练不稳定。这一结果令人惊讶，因为直觉上，最大池化或更复杂的卷积应该能更好地捕捉关键特征。

这些发现表明，VSA的最佳配置是结合全局粗粒度阶段和自由选择的细粒度阶段，使用64大小的立方体和87.5%的注意力稀疏性，不需要特意注入局部性先验。所有这些设计选择在保持高效内核执行的同时实现了与全注意力相当的性能。

四、VSA的扩展性研究与实际应用

为了验证VSA的实际效果和扩展性，研究团队进行了一系列从6千万到14亿参数的模型训练实验，并将VSA应用于现有的开源模型。

首先，研究团队预训练了一个4.1亿参数的视频DiT模型，处理16×32×32形状的潜在表示（共16,384个标记）。结果表明，尽管VSA具有87.5%的稀疏性（在256个立方体中只选择Top-32），它仍然达到了与全注意力几乎相同的损失值，同时将注意力计算量减少了8倍，整体训练计算量减少了2.53倍。进一步的扩展实验（从6千万到14亿参数，最高达4×10^21 FLOPS的训练计算量）证实，VSA在各种规模下都能保持这一优势，产生优于全注意力的Pareto前沿。

一个重要的设计问题是确定最佳稀疏水平（通过Top-K参数控制）。研究团队发现，在固定训练预算（4.5×10^20 FLOPS）下，K=32对8192、16384和24675的序列长度都表现良好，但在61440序列长度下表现不如K=16。这一发现与常规直觉相反，常规直觉认为更长的序列需要更高的K值。进一步研究显示，随着训练计算量增加到1×10^21 FLOPS，K=32最终超过了K=16，表明最佳K值取决于序列长度和训练预算的组合。

在实际应用方面，研究团队将VSA应用于预训练的Wan-1.3B模型（原始训练使用全注意力）。为确保平稳过渡，他们开发了一种退火策略：初始化粗粒度门控权重为零，移除细粒度门控（等效于设置为1），并从低稀疏度开始（相当于全注意力），然后逐渐增加稀疏度。微调后的模型在VBench基准测试中取得了与原始模型相当的分数，证明VSA能保持生成质量。与SVG（一种训练后稀疏化方法）相比，即使在更高稀疏度下，VSA也获得了更多用户偏好。

在核心性能方面，VSA的细粒度块稀疏核心在长序列上接近理论极限，比FlashAttention-3快近7倍，即使考虑粗粒度阶段计算，仍保持6倍以上的加速。相比之下，使用相同块稀疏掩码（64×64块大小）的FlexAttention仅实现了2倍加速。将VSA应用于Wan-1.3B和Hunyuan带来了2-3倍的推理加速。

通过检查微调后的1.3B模型生成的块稀疏注意力图，研究人员确认了VSA的注意力模式高度动态，证实了数据依赖的稀疏性的必要性。不同注意力头展现出明显不同的行为，有些类似于滑动窗口注意力（专注于查询附近的标记），有些类似于时空注意力（专注于同一帧内或同一时间-宽度平面上的标记），而其他一些则显示出全局特性或局部与全局的混合。

关键标记预测的准确率分析显示，VSA能够始终保持高准确率，在大多数层和时间步上达到至少60%，最高达90%。相比之下，随机选择386个立方体中的32个仅能捕捉8%的注意力分数。这证明了VSA强大的关键标记识别能力。此外，即使细粒度阶段遗漏了部分注意力权重，粗粒度阶段的直接输出也能潜在地弥补这一缺失。

五、VSA为视频生成带来的变革与未来展望

VSA的出现标志着视频扩散模型迈向更高效率的重要一步。与以往方法不同，VSA不仅仅是对预训练模型的后期加速，而是从根本上改变了视频DiT的训练和推理方式。

传统上，视频生成面临着一个两难困境：要么牺牲分辨率和长度以保持计算可行性，要么投入大量算力用于训练全注意力模型。VSA提供了一条中间道路，通过智能地识别和专注于关键标记，实现了计算效率和生成质量的双赢。

相比语言模型领域，视频DiT对可训练稀疏注意力的需求更为紧迫。首先，视频DiT处理的序列更长——即使100K标记的上下文仅能生成5秒视频，远低于日常使用所需。其次，与语言模型不同，最先进的视频DiT主要将计算用于全分辨率、长序列训练，没有"先短后长"的适应范式。因此，这些模型在训练和推理阶段都受限于二次方复杂度的注意力计算。

VSA的创新在于其端到端训练方法和硬件对齐设计。通过粗粒度和细粒度两阶段的层次化注意力，VSA能够在不损失生成质量的情况下显著降低计算复杂度。与此同时，VSA的块稀疏模式专为现代GPU优化，确保理论上的FLOPS减少能转化为实际的墙钟时间加速。

实际应用证明，VSA能将Wan-1.3B模型的推理延迟从31秒（使用torch compile的全注意力）降至18秒，同时保持相当的生成质量。这一加速可能听起来不算太多，但对于日常用户而言，将等待时间从半分钟缩短到不到20秒，意味着生成体验从"需要耐心等待"变为"几乎即时响应"，这对提升用户体验和扩大应用场景具有重要意义。

VSA目前存在一些局限性。它使用固定的(4,4,4)立方体大小，要求视频潜在维度能被4整除。虽然这可能限制了兼容分辨率的集合，但在实践中可以通过生成稍大的潜在表示并裁剪到目标形状来解决。另一个开放问题是如何确定最佳稀疏度。虽然缩放实验提供了初步见解，但完整理解可能需要扩展缩放定律，在模型大小和训练计算量之外，明确考虑稀疏度因素。

从更广泛的角度看，VSA的成功表明，可训练的稀疏注意力不仅是对现有技术的辅助优化，而是视频DiT设计的核心组成部分。随着VSA等技术的发展，我们可以期待视频生成技术在效率和质量上的进一步飞跃，最终实现真正高质量、高效率的长视频生成。

研究团队表示，希望这项工作能够确立可训练稀疏注意力作为全注意力的实用和可扩展替代方案，并为视频DiT的进一步扩展奠定基础。从长远来看，VSA的思想可能扩展到其他涉及长序列处理的领域，为各种多模态生成任务带来新的可能性。

归根结底，VSA的关键贡献在于它证明了一个重要观点：通过精心设计的可训练稀疏注意力机制，我们可以在不牺牲质量的情况下大幅提升效率。这不仅为视频生成技术带来了实质性进步，也为解决AI领域普遍存在的计算瓶颈提供了一种新的思路。

人工智能视频生成稀疏注意力

分享至