今天,我想与大家分享一项令人振奋的视频生成技术突破。由新加坡国立大学的王泽清(Zeqing Wang)、郑博文(Bowen Zheng)、杨星毅(Xingyi Yang)、徐越聪(Yuecong Xu)和通讯作者王欣超(Xinchao Wang)共同完成的研究论文《分钟级长视频的双重并行》(Minute-Long Videos with Dual Parallelisms)于2025年5月27日发布在arXiv预印本平台(arXiv:2505.21070v1)。这项研究成果可以在项目官网https://dualparal-project.github.io/dualparal.github.io/查看更多详情。
想象一下这样的场景:你想用AI生成一段几分钟长的视频,但现有技术只能生成几秒钟的短片,或者需要等待数小时才能完成。为什么会这样呢?这是因为目前最先进的视频生成模型——基于扩散变换器(Diffusion Transformer,简称DiT)的模型——尽管能生成高质量视频,但在处理长视频时却面临严重的计算瓶颈。
这就像是一个厨师要准备一场盛大宴会的所有菜肴,但只有一个灶台可用——无论这位厨师多么熟练,准备时间都会随着菜肴数量的增加而大幅延长。视频生成也是如此,每多一帧画面,计算复杂度就会呈二次方增长,同时内存需求也会随之激增。
新加坡国立大学的研究团队提出了一个巧妙的解决方案,名为"DualParal"(双重并行)。简单来说,他们不再让一台计算机(GPU)独自完成所有工作,而是将任务分配给多台计算机同时处理。但这不仅仅是简单的任务分配,而是一种全新的分布式推理策略,同时在两个维度上实现了并行:时间帧并行和模型层并行。
这项技术的核心理念就像是把一场大型宴会的准备工作分配给多个厨房团队:一方面,不同的厨房负责不同的菜品(这相当于时间帧并行);另一方面,每道菜的不同制作步骤也由专人负责(这相当于模型层并行)。通过这种双重并行机制,原本需要数小时的工作可以在短短几十分钟内完成。
但实施这个看似简单的想法时,研究团队遇到了一个关键挑战。在传统的扩散模型中,所有视频帧必须在相同的噪声水平下同步处理。这就像是一个大型管弦乐团,所有乐器必须严格按照指挥的节拍同步演奏。如果简单地将视频分割给不同计算机处理,这种同步要求会导致大量的等待时间,抵消并行处理带来的速度优势。
为了解决这个问题,研究团队引入了一种名为"分块降噪"的创新机制。他们将视频分成多个不重叠的时间块,每个块被赋予不同的噪声水平:靠近视频结尾的块噪声水平较高,而靠近开头的块噪声水平较低。在每个推理步骤中,模型可以异步处理所有块,逐步降低各自的噪声水平。
这种方法就像是将一首交响乐分成多个乐章,每个乐章由不同的乐队演奏,它们不需要严格同步,只需确保在各自演奏完成后能自然衔接成一个完整的音乐作品。
具体到技术实现上,DualParal将视频序列块组织成一个先进先出(FIFO)队列,噪声水平从尾到头递减。在每个扩散步骤中,一个新的噪声块被添加到队列尾部,同时一个干净的块从队列头部移除。这些视频块随后以相反的顺序(从尾到头)通过设备管道进行处理。在这个设置中,每台设备负责特定的视频块和模型部分,降噪后的输出异步地在GPU之间传递。
更令人兴奋的是,DualParal利用其FIFO队列实现了长视频生成。新的块可以持续添加到队列中,允许生成任意长度的视频。由于每个块内的帧数保持固定,这种方法避免了与延长视频序列相关的二次计算延迟增长和高内存成本。
为了进一步优化并行效率并保持视频质量,研究团队引入了两个关键改进。首先,他们在每个GPU上实现了一个特征缓存,存储和重用来自前一个块的关键值(KV)特征,无需显式连接这些特征。这减少了GPU间通信和在交叉注意力(Cross-Attention)和前馈网络(FFN)等组件中的冗余计算。其次,他们采用了一种协调的噪声初始化策略,通过在GPU之间共享初始噪声模式确保全局一致性,而不需要额外的资源成本。
实验结果令人印象深刻。在使用8个RTX 4090 GPU处理1,025帧视频时,DualParal比现有最先进的分布式方法实现了高达6.54倍的延迟减少和1.48倍的内存成本降低。这意味着原本可能需要一个多小时才能生成的长视频,现在只需十几分钟就能完成。
这项技术突破不仅对AI研究人员和开发者意义重大,对普通用户也有深远影响。想象一下,未来你可以简单描述一个故事情节,AI就能为你生成一段完整的几分钟长的视频,用于教育、娱乐或商业展示。DualParal的出现使这一愿景离现实更近一步。
让我们深入了解这项技术的细节和创新之处。
一、双重并行架构:打破速度与内存的双重瓶颈
扩散模型是目前生成高质量视频的主流方法,它的工作原理就像是慢慢清洗一张蒙尘的照片。首先从一张全是噪点的图像开始,然后一步步去除噪点,直到呈现出清晰的图像。在视频生成中,这个过程需要同时处理多个帧,每个帧都经历从高噪声到低噪声的转变,这个过程通常需要执行几十步降噪操作。
最新的视频扩散模型,如Wan2.1,采用了扩散变换器(DiT)架构,能够生成令人印象深刻的视频。但当我们想生成长视频时,这些模型面临两个主要挑战:
首先是计算延迟。DiT模型的核心是注意力机制,其计算复杂度与序列长度(即视频帧数)的平方成正比。当视频从几秒钟延长到几分钟时,计算时间会爆炸性增长。
其次是内存消耗。模型本身有大量参数需要存储,再加上处理长视频序列所需的临时数据,很快就会超出单个GPU的内存容量。
为了解决这些挑战,研究人员提出了两种主要的并行策略:
序列并行(Sequence Parallelism):将输入视频分割成多个部分,每部分由一台设备处理,每台设备上都运行完整的模型副本。这种方法可以减少延迟,但由于每台设备都需要存储完整的模型,内存消耗仍然很高。
管道并行(Pipeline Parallelism):将模型分割成多个部分,每部分由一台设备处理,形成一个处理"管道"。这种方法可以减少每台设备的内存使用,但无法有效降低处理长序列的延迟。
理想的解决方案是结合这两种并行策略,既分割视频序列又分割模型,以最大化速度并最小化内存使用。但这里存在一个根本性冲突:视频扩散模型要求所有输入帧必须同步通过每一层,而在管道并行中,这意味着完整输入必须在一台设备(如设备1)上处理完毕才能传递到下一台设备(如设备2)。这与序列并行直接矛盾,因为序列并行将输入分散到不同设备上。
DualParal通过一个巧妙的"分块降噪"方案解决了这一冲突。不同于传统方法要求所有帧在统一噪声水平下降噪,DualParal将视频分成不重叠的时间块,每个块根据其在视频中的位置被赋予不同的噪声水平。视频末尾的块有更高的噪声水平,而前面的块噪声水平较低。在每个推理步骤中,模型可以异步处理所有块,逐步降低各自的噪声水平。
这就像是一个工厂的流水线,不同工位可以同时处理不同阶段的产品,而不需要等待整批产品完成某一步骤才能开始下一步骤。关键是,由于噪声水平不需要在所有帧之间同步,分块降噪解决了两种并行策略之间的内在冲突。
二、FIFO队列与分块降噪:实现无限长度视频生成
DualParal的具体实现包括两个关键组件:队列和设备管道。
在设备管道中,视频扩散模型的DiT块被均匀分布在多个GPU上。而在队列中,每个元素是共享相同噪声水平的一块帧,按照先进先出(FIFO)的方式组织,噪声水平从尾到头递减(从最高噪声T到最低噪声1)。
在推理过程中,队列中的块按照相反的顺序(从尾到头)连续输入到设备管道中。每次扩散步骤后,队列中的所有块向前移动一个位置,即Q = [B0, B1, ..., BT-1]。一个新的噪声块BT被添加到队列尾部,而干净的块B0从队列头部移除并传递给解码器进行最终视频重建。
这种架构使每台设备可以处理特定的视频块和对应的模型部分,而降噪后的输出则异步地在GPU之间传递。这种分块降噪方案有效解决了简单组合序列并行和管道并行导致的串行化问题,从而实现了真正的时间帧和模型层双重并行。
更重要的是,这种设计允许生成无限长度的视频。新的块可以持续添加到队列中,而因为每个块内的帧数保持固定,这种方法避免了与延长视频序列相关的计算复杂度二次增长和高内存成本问题。
三、特征缓存与协调噪声初始化:提升效率与质量
虽然基本的双重并行架构已经大大提高了效率,但研究团队进一步引入了两项关键优化,进一步提升系统性能和生成质量。
首先是特征缓存技术。在处理相邻的非重叠块时,为了保持时间连贯性,通常需要将前一个和后一个块与当前块连接起来一起处理。这会导致额外的通信和计算开销。DualParal利用一个巧妙的特性:当处理块B'i = [Bi-1, Bi, Bi+1]时,Bi+1已经在处理前一个块B'i+1 = [Bi, Bi+1, Bi+2]时被处理过。
利用这一特性,DualParal在处理B'i+1时缓存Bi+1的自注意力模块的关键值(KV)特征,并在处理B'i时重用这些特征。这样,输入块可以减少为B'i = [Bi-1, Bi],降低了相邻设备之间的通信开销。
更进一步,研究团队观察到,在所有模型组件中,只有那些需要跨帧交互的组件(如Wan2.1模型中的自注意力模块)才真正需要相邻块的信息。因此,他们将特征缓存技术限制在自注意力模块,而跳过如交叉注意力和前馈网络等不需要跨帧信息的组件,进一步消除了冗余计算。
第二个关键优化是协调噪声初始化策略。尽管DualParal通过连接相邻块来平滑过渡,但全局一致性仍然是一个挑战。一种简单的解决方案是连接更多的全局信息,但这会导致高通信、计算和内存成本。
研究团队发现,对于基于DiT的视频扩散模型,有两个关键观察:1)使用完整噪声空间可以保持良好的全局一致性;2)在整个降噪过程中使用重复噪声会导致DiT模型性能显著下降。
基于这些观察,他们提出了一种新颖的初始化策略。具体来说,当初始化一个新块时,从一个还没有被队列中最后一个块BT的最后NumC/2个潜变量使用过的噪声池中选择噪声。这些选定的噪声经过混洗后用于初始化新块。这确保了在整个降噪过程中,连接的块中不会重复使用相同的噪声,同时仍然利用完整的噪声池,保持全局一致性而不需要额外成本。
四、理论分析与实验验证:证明DualParal的优越性
研究团队对DualParal的并行性能进行了全面的理论分析,重点关注三个方面:气泡率(设备空闲时间比例)、通信开销和内存成本。
在气泡率方面,假设设备数量N小于或等于块数量Blocknum(这在长视频生成中很容易满足),气泡率可以表示为(N?-N-1)/(N?-N-1+T×Blocknum),其中T是降噪步骤的总数。随着Blocknum增加,气泡率接近0%,表明在长视频生成过程中设备管道中的空闲时间最小。
在通信和内存成本方面,研究团队将DualParal与其他并行方法进行了对比,包括DeepSpeed-Ulysses、Ring Attention、Video-Infinity和FIFO。分析表明,DualParal在这两方面都具有明显优势,尤其是在长视频生成时。
为了验证理论分析结果,研究团队进行了广泛的实验。在生成极长视频方面,与Ring Attention相比,DualParal在生成1,025帧视频时实现了高达6.54倍的延迟减少和1.48倍的内存成本降低。与同样支持无限长度视频生成的FIFO相比,DualParal在生成513帧视频时仍然实现了1.82倍的延迟减少和1.32倍的内存成本降低。
在可扩展性方面,DualParal在使用多GPU生成301帧视频时表现出色,不论是在Wan2.1-1.3B(480p)还是Wan2.1-14B(720p)模型上,都始终优于所有其他方法。随着GPU数量的增加,DualParal的延迟持续降低,内存使用也稳步减少。
在视频质量方面,研究团队使用VBench指标评估了DualParal生成的视频质量,并与DeepSpeed-Ulysses、Video-Infinity和FIFO进行了比较。在129帧视频设置中,尽管DeepSpeed-Ulysses由于保留完整视频序列而不分割,表现最佳,但在257帧视频设置中,DualParal明显优于其他分布式方法,包括FIFO和Video-Infinity,实现了最高的总体评分。
这些实验结果证明,DualParal不仅在效率方面表现出色,而且能够生成高质量的长视频,这是其他方法难以实现的。
五、DualParal的创新价值与未来展望
DualParal的创新之处在于它首次成功地将序列并行和管道并行结合起来,在保持高视频质量的同时,极大地提高了长视频生成的效率。这种双重并行架构,加上分块降噪、特征缓存和协调噪声初始化等创新技术,共同解决了长视频生成面临的计算延迟和内存消耗双重挑战。
这项技术的意义不仅限于学术研究,它对AI视频生成的实际应用也有深远影响。随着视频内容在社交媒体、教育、营销和娱乐等领域的重要性不断增加,能够高效生成长视频的技术将变得越来越有价值。
DualParal使创作者能够生成更长、更复杂的视频叙事,为AI辅助内容创作开辟了新的可能性。例如,教育工作者可以生成完整的教学视频,营销人员可以创建详细的产品演示,而电影制作人则可以利用AI生成初步的故事板或概念视频。
此外,DualParal的分布式设计也为部署大规模视频生成服务提供了可行路径。通过有效利用多GPU资源,服务提供商可以为用户提供更快、更高质量的视频生成体验,同时控制计算成本。
当然,DualParal也有一些限制。正如研究团队所指出的,在预热和冷却阶段,当队列中的当前块数小于设备数量N时,会出现一些设备空闲时间和同步开销。虽然这在生成长视频时影响相对较小,但进一步减少这种开销可能会带来更优的解决方案。
未来的研究方向可能包括进一步优化特征缓存策略,探索更高效的噪声初始化方法,以及将DualParal扩展到其他类型的生成模型。随着硬件技术的发展和模型架构的创新,我们可以期待视频生成技术在效率和质量方面取得更多突破。
总之,新加坡国立大学研究团队提出的DualParal代表了视频生成技术的一个重要里程碑。通过巧妙结合双重并行策略,这项技术使分钟级长视频的生成变得高效且实用,为AI视频创作的未来开辟了新的可能性。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。