微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

SVG2: 通过语义感知排列实现视频生成加速，伯克利与MIT团队带来视频AI重大突破

视频生成稀疏注意力语义感知排列

SVG2: 通过语义感知排列实现视频生成加速，伯克利与MIT团队带来视频AI重大突破

作者：科技行者

2025-05-30 15:07

分享至：

加州大学伯克利分校、MIT和斯坦福联合研发的SVG2技术通过语义感知排列实现了视频生成的重大加速。该方法巧妙解决了现有稀疏注意力机制中的两大瓶颈：识别不准确和计算浪费。通过k-means聚类对像素按语义特性分组并重排，SVG2在保持高质量的同时将生成速度提升至2.3倍，使原本需30分钟的视频生成缩短至13分钟，为实用化AI视频创作铺平了道路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-30 15:07 • 科技行者

近日，由加州大学伯克利分校、麻省理工学院(MIT)和斯坦福大学的研究团队联合发布了一项名为"Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation"（通过语义感知排列的稀疏注意力机制加速视频生成）的重要研究成果。这篇论文发表于2025年5月24日的arXiv预印本平台(arXiv:2505.18875v1)，该研究由Shuo Yang、Haocheng Xi等人共同完成，为当前计算密集型的视频生成技术带来了显著的效率提升。

想象一下，如果你要生成一段五秒钟的高质量视频，使用现有的最先进技术可能需要近一个小时。这就像你想快速烤一个蛋糕，却发现预热烤箱就要花掉你大半天时间！这种效率问题严重阻碍了视频生成技术在实际场景中的应用。然而，伯克利和MIT的研究团队发现了一条捷径，让这个过程大大加速，最高可提速2.3倍，同时保持几乎相同的视频质量。

一、为什么视频生成如此耗时？从扩散变换器说起

现代视频生成技术主要依赖于一种叫做"扩散变换器"(Diffusion Transformers，简称DiTs)的技术。这些模型就像是数字世界中的魔术师，能够根据文字描述或单张图片创造出栩栩如生的视频。然而，这种魔法的背后是极其庞大的计算量，特别是其中的"注意力机制"(Attention)部分。

想象一下，如果视频中的每一个像素点都需要"关注"其他所有像素点，以决定自己应该呈现什么颜色和形态，这就像是一个有成千上万人参加的会议，每个人都需要听取其他所有人的意见才能做决定。在计算机术语中，这种关系的计算复杂度是"二次方"的，这意味着当视频分辨率或长度增加时，计算量会爆炸式增长。

以现有的技术为例，使用华为的"荟源视频"(HunyuanVideo)模型在NVIDIA A100 GPU上生成一段五秒钟的视频需要将近一个小时，其中80%的时间都花在了这种"注意力"计算上。

二、发现突破口：注意力机制的"稀疏性"特质

研究人员发现了一个关键的规律：在视频生成过程中，并非所有像素点之间的关系都同等重要。事实上，对于每个像素点来说，只有一小部分其他像素点的信息是真正有价值的。这就像在一个拥挤的派对上，虽然房间里有上百人，但每个人实际上只会与少数几个人进行有意义的交流。

这种特性在技术上被称为"稀疏性"。研究人员通过实验证明，在典型情况下，只需计算约13%的"注意力关系"，就能捕捉到95%的关键信息，产生的视频质量几乎不受影响。这个发现为大幅提升计算效率提供了理论基础。

三、现有方法的局限性：错失真正的加速机会

尽管研究人员发现了注意力机制的稀疏特性，但如何高效地识别和只计算那些关键的"注意力关系"仍然是一个挑战。现有的稀疏注意力方法存在两个主要问题：

首先是"识别不准确"问题。现有方法通常基于像素在图像中的位置（而非语义含义）来对像素进行分组，然后对每组进行整体评估。这就像是按照座位位置（而非兴趣爱好）给派对参与者分组，然后假设同一组的人有相似的交流需求。这种基于位置的分组方法忽略了像素之间的语义关系，导致关键像素被错误地忽略。

其次是"计算浪费"问题。即使能够完美识别出关键像素，现有方法仍然无法充分利用GPU等硬件的特性。这是因为GPU擅长处理连续的数据块，而关键像素通常散布在整个图像中。这就像在超市购物时，你的购物清单上的物品散布在整个超市的不同角落，迫使你走遍整个超市，即使你只需要少数几件商品。

四、SVG2的创新解决方案：语义感知排列

为了解决上述问题，研究团队提出了一种名为"Sparse VideoGen2"(SVG2)的全新框架。SVG2的核心创新在于"语义感知排列"(Semantic-Aware Permutation)，这一技术同时解决了识别不准确和计算浪费两个问题。

语义感知排列的工作原理是什么呢？想象你在整理一堆彩色积木。传统方法可能按照积木的物理位置（从左到右）来处理它们。而SVG2则先对积木按颜色分类，把相同颜色的积木放在一起处理。具体来说，SVG2使用了一种叫做"k-means聚类"的技术，基于像素的语义特性（而非位置）将它们分组。

这种方法带来了两个关键优势：

首先，由于同一组内的像素共享相似的语义特性，它们的代表值（如平均值）能更准确地反映组内所有像素的特性，从而提高了关键像素的识别准确率。

其次，通过将语义相似的像素重新排列到连续的位置，SVG2创造了一种"密集布局"，让GPU等硬件能够高效处理这些数据，大大减少了计算浪费。就像是将超市重新布局，把你购物清单上的所有物品都集中在一个区域，让你只需在一个小范围内完成所有购物。

五、技术细节：如何实现语义感知排列？

SVG2的实现涉及三个关键技术：

首先是语义感知排列的具体实现。在每个注意力层和注意力头部，SVG2对查询(Query)、键(Key)和值(Value)向量应用k-means聚类，然后将同一聚类中的令牌重新排列为连续布局。这确保了语义相似的令牌被分组在一起，从而提高了识别准确率并减少了计算浪费。

其次是动态预算控制。SVG2采用了一种"Top-p"选择策略，通过聚类的中心点来估算每个聚类的关键程度，然后按重要性顺序选择聚类，直到累积重要性达到预设阈值p。这种方法允许在不同场景下动态调整计算预算，无需手动干预。

最后是定制内核实现。由于语义感知排列产生的聚类大小自然多变，SVG2引入了支持动态块大小的定制内核实现，以高效处理这种变化。

六、快速k-means与中心点缓存

尽管k-means聚类对于语义感知排列至关重要，但其迭代过程可能引入大量延迟。例如，使用最先进的GPU实现k-means++算法，在收敛前可能需要超过100次迭代，消耗50%甚至与注意力计算相当的时间。

幸运的是，研究人员发现扩散变换器在连续去噪步骤之间具有相似性，这使得可以重用前一步的中心点作为下一步k-means的快速初始化。基于这一观察，SVG2实现了一个中心点缓存，可自动缓存和重用连续步骤之间的中心点。这一技术将k-means的运行时间减少了高达76倍。

七、性能评估：更快、更好的视频生成

研究团队在两个代表性视频生成模型上评估了SVG2的质量和效率：华为的"荟源视频"(HunyuanVideo)和"万"(Wan 2.1)。结果表明，SVG2在任何给定的计算预算下始终实现了优越的生成质量。

具体来说，SVG2在保持高视觉质量的同时，实现了高达2.30倍和1.89倍的端到端加速，PSNR（一种图像质量评估指标）高达30和26。这意味着，原本需要30分钟的视频生成过程，现在只需13-16分钟就能完成，且视频质量几乎不受影响。

通过与现有方法的对比，研究人员发现SVG2一致地处于质量-效率权衡的帕累托前沿，在相同密度下提供更高的PSNR。特别是，SVG2在维持相同PSNR的同时，将密度减少了高达2.3倍。

八、应用案例展示

研究论文展示了几个应用案例，包括文本到视频和图像到视频的生成。例如，根据"一个冬季运动场景的生动照片，展示着一个靠在洁白雪山背景下的黑色滑雪板。一只毛茸茸的白色狗正欢快地摇着尾巴，追逐着在雪地里滚动的彩色网球"这样的文本提示，SVG2能够以几乎原始质量的同时，将生成时间从30分钟减少到16分钟。

同样，对于"一艘白色的游艇在热带天堂的清澈碧蓝海水上优雅滑行，其抛光表面反射着正午的灿烂阳光。上方，一架条纹鲜红与白色的老式双翼飞机在湛蓝的天空中优雅飞翔"这样的复杂场景，SVG2将生成时间从30分钟减少到13分钟，同时保持了极高的图像质量。

九、总结与展望

SVG2代表了视频生成技术在效率方面的重大进步。通过巧妙利用注意力机制的稀疏特性，结合语义感知排列的创新方法，研究团队成功地在保持高质量视频输出的同时，显著减少了计算时间和资源消耗。

这项技术对于视频生成的实际应用具有重要意义。它使得高质量视频内容的创建变得更加实用和可行，为内容创作者、广告制作、教育资源开发等领域提供了新的可能性。随着这一技术的进一步发展和优化，我们可以期待视频生成技术在更广泛的领域中的应用和普及。

对于那些对此研究感兴趣并希望深入了解的读者，可以通过arXiv:2505.18875v1访问完整论文。无论是从技术角度还是应用前景来看，SVG2都代表了视频生成领域一个令人兴奋的新方向。

视频生成稀疏注意力语义感知排列

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

SVG2: 通过语义感知排列实现视频生成加速，伯克利与MIT团队带来视频AI重大突破

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接