微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 NVIDIA研究团队打造全球首个FP4视频生成系统,速度提升两倍还省一半内存

NVIDIA研究团队打造全球首个FP4视频生成系统,速度提升两倍还省一半内存

2026-05-25 15:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-25 15:46 科技行者

这项由NVIDIA研究团队主导完成的研究成果于2026年5月以技术报告形式发布,编号为arXiv:2605.18739,感兴趣的读者可通过该编号检索完整论文。

**生成一段长视频,为什么会让GPU"喘不过气"?**

先来设定一个场景:你手里有一台性能强劲的电脑,你希望它帮你生成一段60秒的高清视频。听起来不复杂,对吧?但对于运行在这台电脑背后的AI系统来说,这件事的难度不亚于一个人同时背诵一本百科全书、实时绘画、还要保证前后内容连贯。视频越长,需要"记住"和"处理"的东西就越多,GPU的内存很快就会被撑爆,速度也会急剧下降。

这正是长视频生成领域长期以来面临的核心痛点。NVIDIA的研究团队在这篇报告中提出了一套名为LongLive-2.0的完整系统,从训练到推理的每个环节都重新设计,目标只有一个:让长视频生成既快又省内存,同时保证画质不打折扣。

**一、给AI视频生成做一次"瘦身手术"**

要理解LongLive-2.0做了什么,先得明白AI生成视频时,数字是怎么存储和计算的。

在普通的AI系统里,每个数字通常用16个二进制位(也就是BF16格式)来表示,就像用16位密码锁来保护一个数字。这种方式精度高,但占空间大、计算慢。研究团队引入了一种叫做NVFP4的格式,只用4个二进制位来表示一个数字——相当于把16位密码锁换成4位密码锁。这样一来,同样的内存空间可以存下更多的数字,计算速度也大幅提升。

当然,"4位密码锁"听起来精度损失会很大。这里有个聪明的补救机制:NVFP4并非简单地丢弃精度,而是采用了一种"分层校准"的方法。具体来说,每16个数字共用一个用FP8格式存储的"缩放因子"(相当于一把校准尺),整个张量再共用一个FP32格式的全局缩放因子。通过这两级校准,4位数字虽然粗糙,但它所代表的实际数值仍然相当准确。这种格式是NVIDIA Blackwell架构GPU原生支持的,能够在硬件层面直接加速相关计算。

与此同时,NVFP4使用的是非均匀间距的浮点格式(E2M1),对于小数值有更精细的表示,对于大数值则间距更粗。这种设计与AI模型中数值的实际分布规律非常吻合,因为模型里大多数数值都集中在较小的范围内。

最终的结果是:与原来的BF16格式相比,NVFP4训练速度提升了2.15倍,推理速度提升了1.84倍,内存从35.4GB降低到19.4GB。

**二、训练时如何让多张GPU协同工作不"踩脚"**

生成一段长视频,就像拍一部有多个场景的电影。如果只有一台摄影机(一张GPU),拍完所有场景需要很长时间,而且摄影机的胶卷(内存)可能根本装不下。自然的解法是把工作分给多台摄影机同时拍——这就是"序列并行"(SP)的核心思想。

但问题来了:视频生成的AI训练有一个特殊结构,叫做"教师强制"机制。通俗地说,这个机制要求AI在预测下一个视频片段时,能够"偷看"前面已经生成好的干净片段,就像学生抄答案一样来加速学习。这意味着训练数据天然地被分成两类:已经生成好的"干净片段"(作为参考)和正在学习生成的"带噪片段"(作为预测目标)。

传统的序列并行方案会把这些片段像一根长木头一样横着切开,分给不同的GPU。但麻烦在于,"木头"的前半段全是干净片段,后半段全是带噪片段。这样一来,拿到前半段的GPU几乎没有"学习任务"(因为干净片段不需要计算损失),拿到后半段的GPU则任务超重——就像一个团队里有人闲得发慌、有人累到崩溃,整体效率当然低下。

NVIDIA团队提出的"平衡序列并行"(Balanced SP)方案从根本上改变了切法。它不再横向切割,而是按照视频的时间维度纵向分配:每张GPU负责视频中某一段时间范围内的所有帧,包括这段时间里的干净片段和对应的带噪片段。这样每张GPU都同时持有"参考答案"和"待预测目标",学习任务均衡分布,没有人闲置也没有人过载。

这个设计还带来了一个连锁好处。视频在送入AI模型之前,需要经过一个叫做VAE(变分自编码器)的预处理步骤,把原始像素压缩成更紧凑的"潜在编码"。在传统方案里,无论序列怎么分,每张GPU都得对完整视频跑一遍VAE编码,然后再各取自己那一份——相当于四个人都把整部小说抄了一遍,再各自留下自己的那几章。Balanced SP让每张GPU只编码自己负责的那段视频(加上一小段边缘重叠区域用于保证连续性),大大减少了冗余计算。

此外,视频生成的注意力掩码(控制哪些片段可以互相"看到")通常是一个复杂的块状稀疏矩阵。Balanced SP的分配方式让这个掩码可以在GPU通信之后自然地直接使用,不需要额外的重排操作,进一步节省了计算开销。

从实际测试数据来看,在64秒视频的训练场景下,单纯使用BF16格式已经内存不足、无法完成训练。加入传统序列并行后,总耗时为1372.9秒。切换到Balanced SP后降至1196.5秒。再叠加NVFP4量化,最终降至639.5秒——相比传统序列并行方案,整体加速了2.1倍。

**三、让视频一段一段"流水线式"地生成**

LongLive-2.0生成视频的方式,类似于工厂里的流水线作业,而不是把所有零件堆在一起最后一次性组装。

整个视频被切分成若干个"时间块",每个时间块包含8帧画面。AI模型按顺序处理这些时间块:先生成第一块,把结果存进一个叫做KV缓存的"记忆本",然后生成第二块时可以参考第一块的内容,以此类推。这种逐块生成的方式叫做"自回归生成",好处是可以生成任意长度的视频,并且支持用户在中途修改某一块的文字描述(比如"把这个场景改成下雨"),而不需要重新生成整个视频。

每个时间块还可以绑定一段独立的文字描述,不同的时间块可以对应完全不同的场景或内容。这就让LongLive-2.0天然支持"多镜头"视频生成——每一个镜头就是一个时间块,有自己的文字提示,可以独立编辑。

**四、推理时三把"加速钥匙"**

模型训练好之后,推理(也就是实际生成视频)阶段还有三个关键优化。

第一把钥匙是全链路NVFP4推理。在生成视频时,模型里所有的矩阵乘法运算(这是最耗时的操作,占据了绝大部分计算时间)都改用4位浮点数格式进行,理论上最高可以达到原来4倍的吞吐量。经过NVFP4感知训练的模型在切换到低精度推理时,质量损失远小于直接对BF16模型做压缩(PTQ)的方案。实验数据也印证了这一点:直接压缩的PTQ方案在视频质量评分上有明显下滑,而NVFP4预训练方案的评分与BF16基准非常接近。

第二把钥匙是KV缓存压缩。随着视频越来越长,AI模型需要记住的"历史内容"越来越多,KV缓存会线性增长,很快成为内存瓶颈。LongLive-2.0把KV缓存也用NVFP4格式存储。具体做法是:把缓存里的键(K)做一个简单的减均值处理(让数值分布更集中,更适合低精度表示),然后用NVFP4量化。原本每个数值需要4个字节(BF16),压缩后只需要约1.125个字节,压缩比接近3.6倍。为了高效地读取这些压缩数据,团队还专门编写了一个并行CUDA内核,能在一个时间窗口内同时解压多个缓存块,整体解压缩开销控制在2%以内。加入KV缓存压缩后,推理内存从29.7GB进一步降到19.4GB。

第三把钥匙是异步流式VAE解码。生成的视频在输出之前,还需要经过VAE解码器把压缩的潜在编码还原成真实像素。传统方案是先把所有时间块全部生成完,再一次性全部解码,这导致用户要等很长时间才能看到任何画面。LongLive-2.0把解码过程改成了流水线模式:专门分配一张GPU负责VAE解码工作,与负责生成的GPU集群并行运行。当AI模型在生成第N+1个时间块时,解码GPU同时在解码第N个时间块。由于生成过程通常比解码慢,解码时间被几乎完全"藏"在生成时间里,用户能更快地看到视频内容流式输出。这一优化让64秒视频的端到端生成时间从57.6秒降低到36.3秒。

**五、让AI从"学生模式"直接跳到"老手模式"**

一般的视频生成AI每生成一帧画面,都需要做几十步的"去噪"迭代,就像素描时要反复修改才能得到精细线条。步骤越多,质量越好,但速度也越慢。研究团队希望把生成步骤从50步压缩到4步甚至2步,同时不损失太多质量。

这个过程叫做"蒸馏"——让一个精简的"学生模型"从功能完整的"教师模型"那里快速学会生成高质量视频。LongLive-2.0的蒸馏方案叫做分布匹配蒸馏(DMD),关键特点是:所有可训练的部分都以LoRA(低秩适配)模块的形式存在,而不是修改整个模型的权重。LoRA可以理解为在原有模型旁边加了一个小型"调整器",只更新这个调整器的参数,原始模型保持不动。

这种设计带来了两个好处。第一,LoRA权重可以独立保存和分发,任何基于相同基础模型的AR生成器都可以"插入"这组LoRA权重,立刻获得少步推理能力。第二,只优化LoRA参数比优化整个模型参数更稳定,蒸馏过程不容易崩溃。

在蒸馏训练中,教师模型、学生模型(生成器)和评判模型(假分数模型)全部采用NVFP4格式,训练和推理保持完全一致的精度,避免了训练推理不对齐的问题。从实验数据来看,逐步将三个模型量化为NVFP4后,每张GPU的峰值内存从70.5GB降低到49.0GB,节省了21.5GB。

**六、多镜头视频的"记忆锚点"设计**

生成包含多个镜头的长视频时,有一个棘手的问题:AI模型只能"看"到最近一段时间窗口内的内容(使用滑动窗口注意力机制控制计算量),一旦早期的帧超出窗口范围,模型就可能"忘记"主角长什么样,导致视频前后出现同一个人却面目全非的情况。

常见的解决方案是设置"注意力锚点"——把视频最开始的几帧永远保留在模型的注意力范围内,作为全局参考。但这种方案在多镜头场景下有明显缺陷:全局锚点能保持整体风格,但无法保持当前镜头内部的连贯性;如果改用移动的镜头级锚点,又会丢失全局身份信息。

LongLive-2.0提出了"多镜头注意力锚点"机制,用两组锚点协同工作。全局锚点固定指向视频最开始的若干帧,始终保持在注意力范围内,确保整个视频的全局一致性。镜头级锚点则指向当前镜头最开始的若干帧,每当发生场景切换时,这个锚点自动重新绑定到新镜头的起始帧。两组锚点叠加在滑动窗口上,共同构成每一步生成时的有效参考集合。

当用户修改某个镜头的文字描述触发场景切换时,系统自动将镜头级锚点重置为新镜头的起始内容,同时重新初始化后续的交叉注意力缓存,全局锚点和之前的历史内容完全不受影响。这套机制几乎没有额外的内存开销——镜头级锚点只需要记录两个指针(起始位置和长度),不需要复制任何数据。

**七、一条更简洁的训练流水线**

与同期的竞争方案相比,LongLive-2.0的训练流程显著更简洁。Self-Forcing、Causal-Forcing等方案都需要经历多个阶段:先用ODE初始化生成一个初始AR模型,再做分布匹配蒸馏,部分方案还需要额外的"长视频微调"阶段,整个流程链条很长,每一步都有失败的风险,且各阶段之间的误差会层层累积。

LongLive-2.0的训练分为两个阶段,且两个阶段互不依赖。第一阶段直接在基础双向扩散模型(Wan2.2-TI2V-5B)上用长视频数据做自回归微调,跳过了ODE初始化这一步,直接得到一个支持长视频、多镜头、交互式生成的AR模型。第二阶段在第一阶段得到的AR模型基础上做LoRA蒸馏,只更新LoRA权重,不碰主干网络,将生成步骤从4步压缩到2步。

这条更短的流水线之所以可行,很大程度上归功于高质量的训练数据和高效的训练基础设施。研究团队为此专门构建了一个包含12万段长视频的数据集,覆盖16秒到超过64秒三个时长区间,每段视频的每个镜头都有结构化的描述,涵盖场景、人物、动作和摄影风格。数据经过严格筛选,去除了含水印、严重抖动、过曝欠曝、模糊、低运动量等质量不佳的视频,并用图像质量评估指标(MANIQA)对每个视频打分,只保留高分视频。

**八、实验数据说话**

在短视频生成基准测试VBench上,LongLive-2.0的5B参数模型在1280×720分辨率下以4步去噪达到29.7 FPS,总评分为84.51,高于所有同等参数规模的4步推理竞争方案,也高于需要50步推理的Wan2.2-TI2V-5B基础模型(3.3 FPS,83.32分)。切换到2步推理后,速度进一步提升到45.7 FPS,总评分83.14,相比大多数竞争方案仍保持较强竞争力,同时速度是它们的两倍以上。

在长视频生成基准测试VBench-Long上(60秒视频生成),LongLive-2.0在6个指标的平均排名中位列第一,主体一致性和背景一致性两项指标分别达到97.48和97.00,均为所有测试方法中的最高分。NVFP4版本在主体一致性上甚至以97.62略微超越BF16版本,说明量化对长视频质量几乎没有负面影响。

在推理效率的逐步消融实验中,从BF16基线(24.8 FPS,36.4GB内存)出发,切换到NVFP4推理后速度提升到32.0 FPS,内存降至29.7GB;叠加NVFP4 KV缓存压缩后内存进一步降至19.4GB;叠加异步VAE解码后端到端延迟大幅降低;最终切换到2步推理达到45.7 FPS,64秒视频的端到端生成时间为36.3秒。

值得一提的是,NVFP4加速只在NVIDIA Blackwell架构GPU(如GB200)上原生支持。对于H100、A100等非Blackwell GPU,团队提供了序列并行推理作为替代方案:在H100上,SP=2配置将16秒视频的端到端生成时间从31.0秒降低到19.3秒,进一步叠加4位KV缓存压缩后降至18.3秒。

归根结底,LongLive-2.0做的事情可以用一句话概括:把AI视频生成的每一个环节——训练时的并行分配、数值的存储格式、推理时的内存管理、视频的解码方式——都从头审视并重新优化,让这套系统在保持画质的同时,速度变快了将近两倍,内存需求缩减了将近一半。对于普通用户来说,这意味着未来在消费级硬件上实时生成高清长视频的可能性变得更加现实;对于研究者来说,这套基础设施也提供了一个可复用的参考框架。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.18739查阅完整论文。

Q&A

Q1:LongLive-2.0用的NVFP4量化和普通的模型压缩有什么区别?

A:普通压缩(PTQ)是把已经训练好的BF16模型直接转换成低精度格式,训练和推理之间存在精度差距,容易导致画质下降。LongLive-2.0的NVFP4从训练阶段就使用低精度格式,训练和推理保持完全一致的数值环境。实验对比显示,直接PTQ的VBench总评分为84.04,而NVFP4预训练方案达到84.51,更接近BF16基线的85.06,说明训练推理对齐对视频质量有实质性影响。

Q2:平衡序列并行训练为什么比传统序列并行快?

A:传统序列并行把视频的干净片段和带噪片段混合切割分配给不同GPU,导致有的GPU主要拿到干净片段(几乎没有损失计算任务),有的GPU主要拿到带噪片段(任务过重),造成工作负载不均衡。Balanced SP按时间段分配,每张GPU同时持有对应时间段的干净和带噪片段,负载完全均衡。此外,VAE编码也从"每张GPU处理完整视频"改为"每张GPU只处理自己负责的时间段",在64秒视频场景下整体训练加速了2.1倍。

Q3:多镜头注意力锚点机制是怎么解决视频前后不一致问题的?

A:生成长视频时,AI模型使用滑动窗口只关注最近一段时间的内容,早期帧超出窗口后模型会"忘记"人物外貌,导致前后不一致。多镜头注意力锚点同时维护两组参考帧:全局锚点固定指向视频最开始的几帧,保持整体身份一致;镜头级锚点指向当前镜头开头的几帧,每次场景切换时自动更新。两组锚点叠加在正常的滑动窗口上,让模型在生成每一帧时既能参考全局基准,又能保持当前场景内部的连贯性。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-