微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 QVGen:低比特量化视频生成模型的突破性研究

QVGen:低比特量化视频生成模型的突破性研究

2025-05-23 07:41
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-23 07:41 科技行者

本篇文章详细解读了一项由香港科技大学、商汤科技研究院、北京航空航天大学、莫纳什大学和苏黎世联邦理工学院研究团队共同完成的研究成果。该研究由黄宇实、龚瑞昊、刘璟、丁一夫、吕成涛、秦皓彤和张军等学者合作完成,目前正处于预印本阶段,尚在审核中,文章标题为《QVGen: 推动量化视频生成模型的极限》。

想象一下,当你在手机上使用最新的AI视频生成应用时,你是否希望它能像专业级设备一样产生高质量的视频,同时又能快速响应,不让你的手机电池迅速耗尽?这正是这项研究所解决的问题核心。

视频扩散模型(Video Diffusion Models,简称视频DMs)在生成高质量视频方面已经取得了惊人的进步。从OpenAI的Sora到开源的Wan和CogVideoX,这些模型能够生成令人惊叹的视频内容。但有一个大问题:它们需要消耗大量计算资源和内存。举个例子,Wan 14B模型需要在单个H100 GPU上花费超过30分钟和50GB内存才能生成一段10秒钟的720p分辨率视频片段。这使得普通消费者级别的电脑,更不用说边缘设备,几乎不可能运行这些模型。

解决这一问题的一种有效方法是模型量化。简单来说,量化就像是将高精度的数据(例如FP16/BF16)压缩成低精度格式(例如INT8/INT4)。这就像是把一部高清电影压缩成较小的文件,虽然可能会损失一些细节,但仍然保持观看体验。通过使用4比特模型和快速的实现方法,与浮点模型相比,可以在NVIDIA RTX4090 GPU上获得显著的3倍速度提升,同时模型大小减少约4倍。

然而,量化视频DMs比量化图像DMs要困难得多,而且这一领域还没有得到足够的关注。如论文图1所示,将现有的高性能方法应用于将视频DM量化为超低位(≤4位)是无效的,生成结果质量大幅下降。虽然与后训练量化(PTQ)相比,量化感知训练(QAT)通过训练量化权重可以获得更好的性能,但仍然会导致严重的视频质量下降。这凸显了需要一个改进的QAT框架,以在4位或更低的量化下保持视频DMs的卓越性能。

本研究提出了一种新颖的QAT框架,名为QVGen,旨在提高低位量化视频DMs的收敛性,同时不增加推理成本。这项研究的主要贡献包括:首次提出了一种针对视频生成的QAT方法,实现了高效的3位和4位量化;为了优化超低位QAT,研究团队使用辅助模块来减少梯度范数,理论和实证分析证明了这种方法在提高收敛性方面的有效性;为了消除辅助模块引入的推理开销,研究人员提出了一种秩衰减策略,可以逐步缩小辅助模块的规模。

在多个最先进的视频DMs上进行的大量实验表明,QVGen的性能远超现有方法。特别是在4位设置下,它首次达到了与全精度相当的性能。此外,3位CogVideoX-2B在VBench上的动态程度和场景一致性分别提高了+25.28和+8.43,显著优于现有方法。

一、深入理解视频扩散模型与量化挑战

视频扩散模型是当今AI领域的明星技术,它们就像是会"做梦"的数字艺术家,能够根据文字描述创造出令人惊叹的视频内容。这些模型的工作原理,可以想象成一个逆向的"烘焙过程":首先给蛋糕完全加热(加入噪声),然后通过一系列精确控制的"降温步骤"(去噪过程),最终还原出完美的原始形态(清晰视频)。

然而,这些数字艺术家的工作室(也就是这些模型)实在太庞大了。以Wan 14B为例,这个模型有140亿个参数,相当于一个拥有140亿个旋钮的超复杂调音台。要在这个调音台上创作一首10秒钟的"视频交响曲",即使是使用高端的H100 GPU(相当于专业音乐工作站),也需要超过30分钟和50GB的内存空间。这就像是需要一个占满整个房间的设备才能播放一首简短的歌曲,显然不适合日常使用。

量化技术就像是一种神奇的压缩魔法,它能将这个巨大的调音台缩小到可以放进口袋的大小。具体来说,量化是将高精度数据(比如BF16格式,相当于用16个二进制位表示每个"旋钮"的位置)转换为低精度格式(比如4位整数,只用4个二进制位表示)。这样一来,模型的大小可以减少约4倍,处理速度提升约3倍。

然而,将这种魔法应用到视频生成模型上比应用到图像生成模型上要困难得多。就像把一部精心编排的3D电影压缩得过于极端可能会破坏其立体效果一样,现有的量化方法应用到视频DM上会导致严重的质量下降。如图1所示,之前在图像DM上表现良好的方法如SVDQuant、LSQ、Q-DM和EfficientDM,在视频生成上的效果非常糟糕,生成的内容模糊不清,缺乏细节,动态效果也大打折扣。

研究团队深入分析了这一问题,发现关键在于——量化感知训练(QAT)的收敛性。量化过程就像是在精细的音乐中引入了一些不和谐的噪音,而现有的训练方法无法有效消除这些噪音,导致最终的"视频交响曲"失真严重。这就需要一种全新的方法来解决这个问题。

二、QVGen框架:革命性解决量化视频生成的挑战

QVGen框架就像是为那个缩小版的调音台(量化模型)配备了一位临时助手(辅助模块Φ),这位助手帮助修正调音过程中的错误,而一旦调音完成,这位助手就悄然退场,不再占用任何资源。具体来说,这个框架分为两个核心部分:

首先,研究团队通过理论分析发现,最小化梯度范数‖gt‖2是提高QAT收敛性的关键。想象一下,如果训练过程是一次山地自行车旅程,那么梯度范数就像是路面的崎岖程度。路面越平坦(梯度范数越小),骑行就越稳定,就越容易到达目的地(收敛到最优解)。

受此启发,研究者们为量化视频DM引入了辅助模块Φ来减轻量化误差。这些辅助模块就像是在崎岖的山路上铺设的临时平整板,有效地帮助缩小了离散量化模型和全精度模型之间的差距,带来了稳定的优化过程和大幅降低的‖gt‖2。量化DM因此获得了更好的收敛性。研究观察还表明,现有SOTA QAT方法(如Q-DM)的显著性能下降(如图1所示)可能是由于其较高的‖gt‖2(如图3所示)导致的。

然而,虽然Φ在训练中很有效,但在推理时会引入不小的计算开销。具体来说,Φ需要在b位激活(Qb(X))和全精度权重WΦ之间进行额外的矩阵乘法。这既不适用于低位乘法核心,又会阻碍推理加速。此外,为每个Φ存储全精度WΦ也会导致显著的内存开销,超过量化扩散模型的好几倍。

为解决这个问题,研究团队提出了一个革新性的思路:在训练过程中逐步移除Φ。这就像是随着骑手适应了地形,逐渐撤走那些临时平整板,最终让骑手能够在自然路面上稳定骑行。

具体实现这一思路的是一种称为"秩衰减"(rank-decay)的策略。通过对WΦ在各种训练迭代下的奇异值变化进行分析(如图4所示),研究者发现:WΦ包含大量小奇异值,例如,平均约73%的奇异值比最大奇异值σ1小约14倍;而且随着QAT的进行,这些小奇异值的存在变得越来越明显,比例从初始步骤的73%增加到2000步后的99%。

这些发现表明,随着训练的进行,越来越多的正交方向{us, vs}贡献很少,因为它们关联的奇异值σs很小。因此,随着训练的进行,只需要Φ的一个越来越低秩的部分,而剩余部分可以被衰减掉,而不会明显影响性能。

基于这一发现,研究团队提出了一种新颖的秩衰减计划,通过反复识别和消除上述低影响部分,逐步缩减Φ。具体来说,他们首先对WΦ进行奇异值分解(SVD),找出贡献较小的部分,然后应用基于秩的正则化γ,使这些部分逐渐衰减至零。这个过程(分解然后衰减)会不断重复,直到WΦ被完全消除,这也意味着Φ被移除。通过这种方法,该策略几乎不会影响模型性能,同时成功消除了推理开销。

三、实验结果:QVGen性能的卓越表现

为了验证QVGen的有效性,研究团队在多个开源SOTA视频DM上进行了广泛实验,包括CogVideoX-2B和1.5-5B,以及Wan 1.3B和14B。这些模型的参数规模从13亿到140亿不等,覆盖了当前视频生成领域的主流模型规模。

实验结果令人振奋。如表1所示,在W4A4量化(4位权重和4位激活)设置下,最近的QAT方法如LSQ、Q-DM和EfficientDM都表现出了不小的性能下降。到了W3A3设置,性能下降更为明显。相比之下,QVGen在3位模型上取得了可观的性能恢复,在4位量化下达到了与全精度模型相当的结果。

具体来说,对于W4A4 CogVideoX-2B,QVGen在所有指标上表现出更高的分数或与全精度模型相比下降不到2%,除了"场景一致性"指标外。而对于后训练量化(PTQ)的基线方法,它们在W4A4的逐通道(per-channel)和逐令牌(per-token)设置下完全无法生成有意义的内容。即使在W4A6量化或细粒度的逐组W4A4量化下,QVGen也大幅优于它们,特别是在Wan 1.3B上比W4A4 SVDQuant高出8.37的美学质量和14.61的主题一致性。

除了量化分析,研究者们还发现一些有趣的现象:对于Wan 1.3B,"动态程度"指标在QAT过程中很容易恢复,甚至超过了全精度模型的表现。然而,对于CogVideoX-2B,这一指标却显著下降。此外,"场景一致性"是跨模型和方法中最难维持的指标。

为了展示QVGen的可扩展性,研究团队还测试了两个更大的视频DM:CogVideoX1.5-5B和Wan 14B,使用720p分辨率。如表2所示,3位和4位模型遵循与较小模型相同的模式。然而,3位量化在要求较高的指标(如场景一致性和整体一致性)上产生了更大的下降,这表明将这些更大的模型推向3位仍然具有挑战性。在图5中,研究者们使用VBench-2.0对模型进行了进一步评估,结果表明W4A4 DM仅产生了约1%的总体性能损失,几乎可以忽略不计。

为了证明每个设计的效果,研究团队使用W4A4 Wan 1.3B和VBench的5个维度进行了消融实验。如表3所示,辅助模块Φ在所有指标上都带来了可观的性能提升。此外,秩衰减计划有效地消除了推理开销,同时在大多数指标上引起的下降不到0.6%,甚至在整体一致性上带来了轻微的改善。

研究团队还分析了缩减比例λ的选择、初始秩r的影响以及不同衰减策略的效果。他们发现λ=1/2是最佳选择,因为太小的比例会导致每个衰减阶段u从1到0的下降过快,可能会不稳定训练过程;而太大的比例可能会在每个阶段过早移除高贡献组件。同样,随着r的增加,性能提升逐渐减小,最终在r=64时恶化。在不同的衰减策略中,"基于秩"的策略在所有指标上都大幅优于其他方法,如"基于稀疏"和"基于残差量化"策略。

最后,从效率角度来看,如图6所示,在A800 GPU上,采用来自Ashkboos等人的快速CUDA核心实现,W4A4 QVGen为Wan 1.3B和14B分别带来了1.21倍和1.44倍的加速比。此外,与BF16格式相比,它展现了约4倍的内存节省。不过,研究者们认为,通过先进的核心融合技术,加速比可以进一步提高。值得注意的是,QVGen采用标准均匀量化,可以轻松地应用到各种设备的现有W4A4核心上。

四、结论与前景展望

QVGen的研究成果代表了视频生成模型量化领域的一个重要突破。通过理论分析、创新设计和大量实验,研究团队成功解决了低位量化视频DM的核心挑战——收敛性问题。

这项研究首次探索了量化感知训练在视频DM中的应用。通过理论分析,研究者们发现降低梯度范数对改善收敛性至关重要。基于这一发现,他们提出了辅助模块Φ和秩衰减策略,既提高了模型性能,又消除了推理开销。在3位和4位量化的广泛实验证明了QVGen框架的有效性。

值得一提的是,这是首个达到与全精度相当性能的4位视频DM量化方法,而且大幅优于现有方法。特别是3位CogVideoX-2B在动态程度上提高了+25.28,在场景一致性上提高了+8.43。这些改进不仅在数字上令人印象深刻,在视觉质量上也有明显提升,如图1所示的对比结果。

虽然3位和4位输出结果之间仍然存在明显差距,但这项工作为实用的3位或更低视频DM量化奠定了基础。研究团队指出,尽管本文专注于视频生成,但他们相信这些方法可以推广到更多任务,如图像生成和自然语言处理(NLP),这将是未来研究的方向。

对于普通用户来说,这项研究成果意味着更高效、更实用的AI视频生成应用将变得触手可及。无需高端GPU,普通消费级设备甚至是移动端设备也有望运行这些先进的视频生成模型,带来更广泛的创意可能性。随着技术的进一步发展,我们可以期待在不久的将来,在我们的个人设备上,只需几秒钟就能创建出令人惊叹的高质量视频内容。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-