微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 华为巴黎研究院让AI视频"不再原地打转":一种无需重新训练就能生成超长视频的聪明方法

华为巴黎研究院让AI视频"不再原地打转":一种无需重新训练就能生成超长视频的聪明方法

2026-06-08 09:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-08 09:46 科技行者

这项研究来自华为技术法国巴黎研究中心分布式并行技术实验室与华为技术有限公司AI框架与数据技术实验室的联合团队,论文以预印本形式于2026年5月29日发布在arXiv平台,编号为arXiv:2605.31057。

你有没有想过,为什么AI生成的视频通常只有几秒钟,而且一旦变长就容易"卡住"——画面里的人或物体像被施了定身术,几乎一动不动?这个问题困扰了视频AI领域很久,而华为的这支研究团队找到了一个既聪明又实用的解法,而且完全不需要重新训练那些已经花了天价算力训练好的大模型。

先从一个生活场景说起。假设你是一位电影剪辑师,手里有一台老式放映机,它本来只能放映5分钟的胶卷。现在你想放一部90分钟的电影,但你不能换机器,也不能修改胶卷的规格。怎么办?你得想办法让这台机器"聪明地"跳过一些帧、只看关键场景,同时又不让观众觉得剧情断断续续。这支华为团队干的事,本质上就是给AI视频生成器装上了这样一套"智能剪辑策略",让它在不改变自身结构的前提下,流畅地"放映"更长的视频。

这套策略有个正式名字——长视频稀疏注意力机制,英文缩写是LVSA(Long Video Sparse Attention)。接下来,我们就一起拆解这套机制究竟是怎么运作的,为什么它比现有的方法更好,以及它在实际测试中交出了怎样的成绩单。

一、视频AI的"记忆超载"困境:为什么长视频这么难生成

要理解LVSA解决了什么问题,先得搞清楚视频AI生成器在"思考"时是怎么工作的。

目前最先进的视频生成模型,比如华为自家的Wan系列和腾讯的HunyuanVideo,都属于一类叫做"视频扩散变换器"的架构。这类模型生成视频的方式,有点像一个画家从一堆噪点中一笔一笔地"还原"出清晰的画面。在这个还原过程中,模型需要反复计算视频里每一帧和其他所有帧之间的"关系"——某帧里的猫和前一帧、后一帧、甚至十秒前那帧的猫,到底有多相似、如何衔接。这个计算过程在技术上叫做"自注意力机制",可以把它理解为模型的"全局记忆":它需要同时盯着视频里的每一个时刻,才能保证生成的画面前后连贯。

问题来了:这种"全局记忆"的计算量,随着视频帧数的增加是呈平方级爆炸的。换句话说,帧数翻倍,计算量变成原来的四倍;帧数变成三倍,计算量变成九倍。Wan模型的训练长度是81帧,HunyuanVideo是129帧。一旦你想生成更长的视频,比如6倍训练长度的481帧,计算量就会膨胀到原来的36倍。在一块显存只有80GB的高端显卡上,光是HunyuanVideo生成257帧的视频,内存就直接爆了——用行话说叫"显存溢出"(OOM,Out of Memory)。

更麻烦的是,即使强行撑过了内存关,生成出来的长视频质量也很糟糕。模型在超出它训练长度的范围后,会陷入一种奇怪的状态:它"不知道"后面应该发生什么,于是开始重复——画面里的人物开始循环同样的动作,背景几乎静止不动,整个视频像是被施了魔法,定格在了某个瞬间。这在研究团队的报告里被生动地描述为"冻结视频"(frozen video)。

现有的解决方案大多只能顾此失彼。有些方法专门优化计算速度,比如用"窗口注意力"(每帧只看附近几帧而不是所有帧),但这样一来画面的长程连贯性就容易出问题,视频容易出现时间跳跃感。另一些方法专注于提升质量,比如RIFLEx通过修改模型内部的位置编码来延伸它的"时间感知范围",或者UltraViCo通过对注意力分数加一个衰减权重来抑制远距离帧的干扰,但这两种方法都没有减少计算量,速度和内存占用依然是大问题。

LVSA的出发点就是:能不能同时解决这两个问题——既大幅减少计算量,又保证长视频的画面质量不崩塌?

二、LVSA的核心设计:像图书馆管理员一样聪明地"选择性记忆"

LVSA的设计思路,可以用一个图书馆管理员的比喻来理解。

假设你是一位需要撰写一部历史长篇的作家,图书馆里有一万本参考书。如果你每写一个段落都要把一万本书全部翻一遍,你永远写不完。聪明的做法是:首先,在每个重要历史节点(比如每隔一定年份)选几本"关键纲要书"随时翻阅,确保大历史脉络不会乱;其次,写到某个具体年份的段落时,重点参考这个年份前后几年的详细史料。这样,你既保留了整体框架,又照顾到了局部细节,工作量也大大减少。

LVSA做的事情和这个完全类似。它将每一帧需要"关注"的其他帧,分成两类:一类是"全局锚点帧",即每隔固定间距选出的关键帧,保证模型始终能看到整个视频的重要时间节点;另一类是"局部窗口帧",即当前帧前后各若干帧,保证相邻帧之间的细节衔接流畅。最终,每一帧真正需要计算关系的帧数,被控制在一个固定数量C附近,而不是随视频总长度爆炸式增长。

这个目标帧数C的设定也很有讲究。研究团队的做法是:让C等于模型在训练时处理的帧数。以Wan 2.1 1.3B为例,它在训练时处理的是81帧视频,经过内部的压缩(VAE因子为4),实际参与计算的帧数是21帧。于是,LVSA就把每帧的关注预算C固定为21帧。背后的逻辑很直白:模型是在21帧的预算下训练出来的,那么推理时也用同样的预算,模型就不会因为"信息过载"或"信息不足"而表现失常。

在具体实现上,局部窗口的大小W是预先调好的,而全局锚点的间隔Tper则根据总帧数T和预算C动态计算:Tper约等于T除以剩余预算(C减去窗口帧数)。这样,无论视频有多长,每帧的计算量都保持稳定,整体计算量随帧数线性增长而非平方增长。

不过,这套设计还有一个小陷阱需要处理。当窗口帧和全局锚点帧重叠时(比如某个全局锚点恰好就在局部窗口范围内),实际上有效关注的帧数会少于预算C,相当于"浪费"了一部分计算配额。为此,研究团队引入了"扩展窗口边界"的机制:当检测到窗口内有帧已经被全局锚点覆盖时,自动向边界延伸,补充新的非重叠帧,直到有效帧数重新达到目标。这个补充过程在CPU上只需要极短的时间(平均每帧约1.4微秒,整个步骤不超过200微秒),相比GPU上的注意力计算完全可以忽略不计。

三、旋转锚点:消灭那些"被遗忘的帧"

固定全局锚点的方案还有另一个隐患。每隔固定间距选出的那几帧,在整个生成过程中(通常需要40到50个去噪步骤)会被所有帧反复"关注",而夹在锚点之间的普通帧,只能通过局部窗口被附近的帧看到。经过几十个去噪步骤的累积,那些"不是锚点"的帧在模型的表示中会越来越薄弱,最终导致视频在这些位置出现画质下降、动作重复、人物漂移等问题。

研究团队把这个问题叫做"固定网格偏差"。解决方案是让全局锚点"轮流值班"——在每个去噪步骤,全局锚点的位置都向后移动一格(对总帧数取模循环),这样经过Tper个步骤后,视频里的每一帧都至少当过一次全局锚点。没有任何帧会被长期忽视,整个视频的信息在生成过程中得到了均匀的"滋养"。

这个旋转机制有两个关键性质使它在数学上很优雅。第一,每个周期内每帧都恰好作为全局锚点一次,彻底消除了偏差(在帧数不是间隔整数倍的情况下,最多会有极少数帧被多看一次,但实测影响可忽略)。第二,每个去噪步骤的全局锚点数量始终保持不变,所以计算预算不会因为旋转而波动。重新计算锚点位置的开销同样微不足道,在CPU上处理最长的121帧序列也不超过1毫秒。

四、测试结果:数字背后的实际含义

研究团队在三种完全不同架构的视频生成模型上测试了LVSA,这三款模型分别是单流架构的Wan 2.1 T2V-1.3B、同架构但参数量扩大十倍的Wan 2.1 T2V-14B,以及双流架构的HunyuanVideo 1.5。测试在单块80GB显存的GPU上进行,视频分辨率统一为480×832像素。

在速度方面,LVSA配合FlashInfer稀疏注意力加速核(以下简称LVSA-FI)的表现相当显眼。在Wan 2.1 1.3B上生成6倍训练长度(481帧)的视频,原本需要约51分钟,LVSA-FI将这个时间压缩到了16分钟,速度提升约3.17倍。在参数量更大的Wan 2.1 14B上,6倍长度的生成时间从238分钟缩短到80分钟,提速约2.98倍。HunyuanVideo 1.5在1.5倍长度(193帧)时,生成时间从80分钟降至24分钟,提速约3.33倍。提速比例随视频长度单调递增,符合理论预期——视频越长,原来的平方级计算惩罚越重,稀疏化的收益也越大。在1倍训练长度时,LVSA的速度与原始密集注意力基本持平(误差在5%以内),说明稀疏化方案没有引入额外的基础开销。

在内存方面,最能说明问题的是HunyuanVideo 1.5在2倍训练长度(257帧)时的情况。密集注意力在这个设置下直接因显存不足而崩溃——在已经占用74GB显存的情况下,还需要额外申请19.9GB,明显超出了80GB的上限。而LVSA在同样设置下的峰值显存只有约60.4GB,留出了接近20GB的余量,视频生成正常完成,VQeval综合评分达到58.5到60.0分。

关于VQeval,这是研究团队专门为这项工作设计的评测工具,之所以需要一个新工具,是因为现有的主流评测工具VBench-Long存在一个系统性缺陷:它的"主体一致性"和"背景一致性"指标会给静止不动的视频打高分——毕竟一幅完全静止的画面,帧与帧之间"一致性"最高。这就导致那些已经"冻结"的失败视频,在VBench-Long上反而得分很高,完全掩盖了质量问题。VQeval引入了动态质量、循环质量和文本对齐三个维度,专门惩罚那些重复循环和静止冻结的视频,更真实地反映视频的实际观看质量。

用VQeval重新评估后,结论发生了根本性反转。以Wan 2.1 1.3B在6倍长度时为例,密集注意力的VQeval综合得分只有48.2分,而LVSA-FI达到60.2分,相差超过12分。与此同时,密集注意力的VBench-Long评分反而在6倍长度时比2倍长度时更高(0.891 vs 0.875),因为视频越来越静止,"一致性"越来越"好看"。这正是那种评测工具的盲点——它把失败当成了成功。

与竞争方法的对比同样值得关注。在Wan 2.1 1.3B上,研究团队将LVSA与RIFLEx和UltraViCo做了直接比较,使用统一的50个去噪步骤和相同的5条测试提示词。在4倍长度(333帧)时,LVSA-FI的VQeval得分为62.3分,RIFLEx为53.6分,UltraViCo为58.8分,密集注意力为52.4分,LVSA-FI在质量上全面领先。在速度上,LVSA-FI相比密集注意力快了2.40倍,相比RIFLEx快了2.41倍(RIFLEx根本不减少计算量,速度与密集注意力几乎相同),相比UltraViCo快了3.27倍(UltraViCo的每对注意力衰减反而比密集注意力慢了约1.3倍)。LVSA是这一组比较中唯一既提速又提质的方法。

研究团队还额外测试了LVSA与RIFLEx组合使用的效果。两者操作的是完全不同的计算层面(LVSA改变的是哪些帧参与计算,RIFLEx改变的是位置编码的频率),理论上不冲突。实测结果是组合版本在VQeval动态质量上略有下降,但在VBench一致性指标上略有提升,两者相比没有明显的优劣之分。这说明LVSA的稀疏模式本身已经相当程度上覆盖了RIFLEx位置编码修正所带来的益处。

五、从GPU到NPU:跨平台的普适性验证

研究团队不满足于只在GPU上验证,还把LVSA移植到了华为自研的NPU(神经网络处理单元)上,集成进了开源平台vLLM-Omni。

在一块NPU上运行Wan 2.1-1.3B,720×1280高分辨率、6倍长度(481帧)时,LVSA相比密集注意力实现了3.24倍加速;480×832分辨率下也达到了2.17倍加速。在8块NPU并行(使用DeepSpeed Ulysses序列并行技术)运行Wan 2.2-A14B时,720×1280分辨率、6倍长度下的加速比为2.71倍,480×832分辨率下为1.77倍。值得注意的是,2倍长度时NPU上的加速比在部分配置下略低于1(即LVSA比密集注意力略慢),这是因为在较短的序列长度下,稀疏化带来的计算节省还不足以抵消模式调度的额外开销,只有当视频足够长时,稀疏化的收益才会显著超过开销。质量方面,NPU上LVSA与密集注意力的质量差距与GPU上的结果规律一致,随着视频长度增加,LVSA的优势越来越明显。

这组跨平台实验的意义在于说明:LVSA的设计不依赖特定硬件或特定软件栈,它是一种通用的注意力稀疏化策略,可以适配不同的加速硬件。

说到底,LVSA做的是一件听起来很简单、但做起来需要精心设计的事情:在不改变模型本身的情况下,让它在生成长视频时"只看该看的帧",而不是每次都要盯着整个视频重新想一遍。通过把全局锚点帧和局部窗口帧结合起来,再加上让锚点轮流值班的旋转机制,LVSA既保住了视频的整体连贯性,又把每帧的计算量控制在了一个固定范围内。最终的结果是:在最极端的测试场景下,生成速度提升了3倍以上,内存占用大幅降低,视频质量在传统评测工具看来有所下降(因为视频"动起来了")、但在更合理的评测标准下显著提升。这套方案不需要重新训练模型,不需要专用硬件,已经开源在GitHub上(JiusiServe/LongVideoSparseAttention),任何人都可以直接拿来用在Wan或HunyuanVideo这类模型上。

对于普通用户而言,这项研究意味着在不久的将来,你用同样的电脑或云服务生成一段两三分钟的AI视频,既不会因为"显存不够"而失败,也不会得到一段人物站着一动不动的"冻结视频",生成时间也会缩短到原来的三分之一左右。当然,目前的测试还局限于单个场景的连续视频,如果是多场景切换或者需要人物跨场景保持一致性的长视频,还需要进一步的研究来解决。这也是研究团队在论文末尾明确指出的下一步方向。对这项技术的完整细节感兴趣的读者,可以通过arXiv编号2605.31057找到完整论文。

Q&A

Q1:LVSA是什么,和普通的视频生成有什么不同?

A:LVSA是一种专门用于长视频AI生成的稀疏注意力机制,由华为巴黎研究院开发。普通的视频生成模型在计算时,每一帧都要和所有其他帧做关系计算,帧数越多计算量越大。LVSA改变了这种方式,让每帧只关注少数关键帧(全局锚点帧)和附近帧(局部窗口帧),把计算量从平方增长压缩为线性增长,同时通过旋转机制保证每帧都能被均等关注,避免视频画面"冻结"或重复循环。

Q2:VBench-Long和VQeval评测视频质量有什么区别?

A:VBench-Long会给帧与帧之间变化少的视频打高分,因为它把画面"一致"理解为质量好,这导致完全静止不动的失败视频反而得高分。VQeval是华为研究团队专门设计的评测工具,它会惩罚画面重复循环和静止冻结的视频,同时评估动态质量和文本匹配程度,能更真实地反映视频的实际观看效果。两种工具在评测AI生成长视频时往往给出相反的结论。

Q3:LVSA需要重新训练模型才能用吗?

A:不需要。LVSA是一种"无训练"方案,直接修改推理阶段的注意力计算方式,不改变模型本身的权重和结构。这意味着可以直接把LVSA插件式地应用在已经训练好的Wan、HunyuanVideo等视频生成模型上,无需任何额外的训练成本,代码已在GitHub开源。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-