微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华与UCLA联手破解AI视频生成瓶颈：一步生成高质量视频，成本只需原来三分之一

视频生成生成对抗网络一步生成

清华与UCLA联手破解AI视频生成瓶颈：一步生成高质量视频，成本只需原来三分之一

作者：科技行者

2026-06-04 17:04

分享至：

清华大学与UCLA联合提出One-Forcing，通过结合分布匹配蒸馏与真实数据判别器，实现单步自回归视频生成，VBench得分83.76，训练成本仅需传统方案三分之一。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 17:04 • 科技行者

这项由清华大学与加州大学洛杉矶分校（UCLA）联合开展的研究，以预印本形式发表于2026年5月，论文编号为arXiv:2605.23458，感兴趣的读者可通过该编号查询完整原文。研究提出了一种名为"One-Forcing"的新方法，旨在让AI视频生成系统以单步完成高质量视频输出，同时将训练成本压缩至传统方案的三分之一。

如果你曾经用过Sora或者类似的AI视频生成工具，你大概知道它们有个共同的烦恼：生成一段视频需要等上好一阵子。这背后的原因，是这些系统在生成每一帧画面时，都要经历几十步甚至上百步的"修改润色"过程，就像一位画家要反复打草稿、上色、修改，才能交出最终作品。对于实时互动场景，比如游戏引擎、虚拟直播或者在线世界模拟，这种等待是完全不可接受的。

研究团队瞄准的核心问题是：能不能让AI"一笔成画"？也就是说，从噪声直接跳到高质量视频帧，中间不经过任何反复修改。这个目标听起来简单，但实际上隐藏着相当多的技术陷阱，而此前的所有方案都没能真正走通这条路。

一、为什么"一步生成视频"这么难？画曲线和走直线的区别

要理解这个问题，先借助一个地图导航的比喻来铺垫背景。AI生成视频的过程，本质上是从一张随机噪声图出发，沿着一条特定的"路径"走到清晰的视频帧。传统的多步生成方法，就像走一段弯弯曲曲的山路，每一步都能及时修正方向，最终安全抵达目的地。而"一步生成"，则要求模型从起点直接飞奔到终点，中间没有任何修正机会。

问题在于，这条"山路"并不是直的。研究团队通过分析Wan2.1这一业界顶尖视频生成模型的行为轨迹，发现了一个关键的几何现象：在视频生成的路径上，几乎所有的"弯道"都集中在起始阶段（高噪声区间）。具体来说，超过92.5%的曲率集中在路径的最初阶段，也就是噪声最强的那段区间。这个比例的统计误差极小，95%置信区间在92.24%到92.73%之间，同时高噪声区域与中间区域的曲率比高达33.1。

为了对比，研究团队还分析了图像生成领域常用的EDM2模型的轨迹，发现图像生成的路径相对平滑，没有这种"开头急转弯"的特征。这就解释了一个长期困扰研究界的现象：图像生成可以比较容易地压缩到一步完成，而视频生成在从多步压缩到一步时，质量会急剧下滑。

用更直观的方式来说：如果生成路径是一段赛道，视频生成的赛道在起跑区有一个极度锋利的大弯，两步走可以在弯道中间放一个"中间站"来辅助过弯，但一步走就必须直接飞过这个急弯，稍有偏差就冲出赛道。这是一个物理层面的几何障碍，而不是模型训练不充分的问题。

正因如此，研究团队得出结论：对于视频生成，沿着轨迹走的"一致性蒸馏"方法（Consistency Distillation）在一步压缩时会失效，因为它完全依赖路径本身的平滑性。要实现真正的一步视频生成，必须换一条路：不走轨迹，直接对准目标分布。

二、前人的尝试为何都差点意思？两种主流方案的短板

在One-Forcing出现之前，研究界主要有两种思路来压缩视频生成步骤。

第一种是"一致性蒸馏"（Consistency Distillation），其核心思想是训练一个学生模型，使其在老师模型路径上的任意相邻点都预测出相同的终点。这个方法在图像生成领域表现出色，但正如前面分析的，视频生成路径在高噪声区域存在极度集中的曲率，导致一步压缩时学生模型无法应对那段急弯，生成的视频往往动作迟滞、缺乏动感。研究人员在实验中发现，基于一致性蒸馏的方案Causal Forcing在一步生成时，VBench总分仅为78.39，与多步生成方案相比有明显差距。

第二种是"分布匹配蒸馏"（Distribution Matching Distillation，DMD），这种方法不试图复制老师的路径，而是直接比对生成结果的整体分布与真实视频的分布是否接近。具体实现是维护两个评分模型：一个"真实分数"模型（判断真实视频像什么）和一个"生成分数"模型（判断生成视频像什么），通过两者之差来引导生成器改进。这种方法在一步图像生成中表现优秀，但直接套用到视频生成时，暴露出一个深层问题。

视频和图像最大的区别在于：视频生成是连续的。在自回归视频生成中，模型会把刚生成的帧当作下一帧的参考背景（也就是KV缓存），然后再生成下一帧。如果第一帧生成得模糊或不够真实，这个缺陷会被直接"喂"给第二帧的生成过程，第二帧再把累积的缺陷传给第三帧……这种错误的雪球效应，最终会导致整段视频越来越模糊，动作越来越弱。

Self-Forcing就是基于DMD思路的代表方案，在VBench上一步生成的总分仅为77.18。问题的根源在于：DMD的评分信号是局部的，它只能判断"这个生成样本的噪声版本的分数对不对"，但无法从整体上判断"这段视频放在真实视频数据集里，能不能以假乱真"。换句话说，DMD就像一个只会逐字检查拼写的编辑，却没有人检查整篇文章的逻辑和风格是否像真正的人类写作。

三、One-Forcing的核心思路：给DMD配备一个"挑剔的读者"

研究团队的解决方案，是在DMD的基础上引入一个能从整体上辨别真假的"判别器"，也就是GAN（生成对抗网络）中的判别器。这个组合并不新鲜，但关键在于如何设计这个判别器，以及如何让它真正发挥作用。

One-Forcing的训练流程是这样的：首先，自回归学生模型一帧接一帧地生成视频（每次只生成一帧），每生成一帧就立刻把结果放进缓存，作为下一帧的背景参考。这个过程完全模拟了实际部署时的行为，保证训练和使用时的一致性。

生成完视频后，系统需要给这段视频"打分"，分数来自两条渠道。第一条是DMD渠道：把生成的帧加上噪声，同时喂给"生成分数"模型和"真实分数"模型，两者的差值就代表了这帧视频与真实视频分布的偏差，这个差值会被用来更新生成器。第二条是对抗渠道：把生成的帧加噪之后，以及把真实视频数据集里的真实视频帧也加上同样的噪声，然后交给判别器，让它判断哪个是真实视频、哪个是AI生成的。判别器的判断结果会提供额外的梯度信号，专门用来防止生成结果被判别器轻易识破。

这里有一个设计上的精妙之处：判别器并没有被设计成一个单独的大型网络，而是复用了已有的"生成分数"模型的主干网络（一个大型Transformer），只是在特定的层上附加了一组轻量级的"注册令牌"和小型注意力模块，最终输出一个"真/假"的标量分数。这样做的好处是，判别器和分数模型共享同一套特征空间，两种训练信号可以互相增强，而且不需要额外引入大量参数。

更关键的一点是：One-Forcing的判别器是对着真实视频数据集来训练的，它的"真实参考"是来自现实世界的真实视频帧。这与ASD（对抗性自蒸馏，另一个竞争方案）形成了根本性的区别——ASD用"多步模型的输出"作为判别器的真实参考，结果判别器必须区分"四步生成"和"一步生成"这两种都是AI产物的视频，两者分布差异极小，判别器很快就无法提供有效的训练信号，陷入"崩溃"状态。

研究团队通过实验量化了这个差距：在训练过程中追踪判别器的"真假分数差"（真实视频的得分减去生成视频的得分），One-Forcing全程保持在较大水平，均值为1.53，波动幅度也较大（标准差1.20），说明判别器一直在积极工作，随着生成器的改善而不断调整。ASD的同一指标则几乎全程贴近零（均值0.001，最大值不超过0.006），从训练第一步开始就近乎崩溃。这就像是，One-Forcing雇了一位真正看过无数真实电影的影评人来审查AI生成的视频，而ASD只请了另一个AI来帮忙审查。

四、训练流程的细节：怎么让两种信号协调工作

在具体的训练节奏上，研究团队采用了一个交错更新的策略。每轮训练迭代都会进行一次"评分模型更新"，包括用新生成的视频帧来更新"生成分数"模型的去噪能力，以及同时更新判别器以区分加噪的真实帧和生成帧。而生成器本身的更新则更少，每五次评分模型更新之后才进行一次生成器更新，这是借鉴了DMD2中"两时间尺度"训练的经验：让评分模型充分跟上当前生成器的水平，再用稳定的信号去更新生成器，避免信号不稳定导致的训练崩溃。

生成器的目标函数是两项之和：DMD损失加上对抗损失，权重比例由超参数控制（最终配置中两者权重均为0.03）。评分模型的目标函数是：去噪损失加上判别器分类损失，也是加权求和。

在模型规模上，研究团队使用的是Wan2.1-T2V-1.3B作为生成器和"生成分数"模型的基础，而"真实分数"模型使用的是更大的Wan2.1-T2V-14B（冻结不训练），这样能提供更准确的真实分布评估。推理时只需要一张H100显卡，对于实际部署来说相对友好。

关于初始化，研究团队先用ODE（常微分方程）轨迹数据对学生模型做了预训练，让模型在进入One-Forcing训练之前就具备基础的生成能力，这个初始化阶段使用的是多步ODE轨迹数据，包含丰富的运动信息，为后续的动感表现打下基础。

五、实验结果：数字背后的真实表现

研究团队在VBench（一个全面的视频生成质量评测基准，覆盖16个维度）上评测了One-Forcing，并与一系列基准方案进行了对比。

在一步生成这个最严格的设定下，One-Forcing的帧级（framewise）版本取得了83.76的总分，视觉质量分85.22，语义对齐分77.91。相比之下，最接近的竞争对手ASD得了79.12，Causal Forcing得了78.39，Self Forcing在一步设定下仅有77.18。这意味着One-Forcing在一步生成这个维度上，比此前所有方案高出了4到7分。

更令人印象深刻的是，One-Forcing在仅使用一步生成的情况下，超越了大量需要多步才能完成生成的系统：CausVid（4步，81.18分）、LTX-Video（20步，80.00分）、Pyramid Flow（20步，81.72分）、NOVA（25步，80.12分）。它甚至与MAGI-1（64步，79.18分）拉开了相当大的差距。离最顶尖的50步Wan2.1教师模型（84.26分）仅有0.5分的差距。

在训练效率上，One-Forcing的帧级版本只需要200步就能收敛，而块级（chunkwise，每次生成3帧而非1帧）版本需要750步。帧级版本训练成本约是块级版本的三分之一，但最终质量更高（83.76 vs. 81.60）。研究团队解释这个现象的逻辑是：帧级版本每生成一段21帧的视频，会产生21个自回归步骤，每个步骤都能给判别器提供一次训练信号；而块级版本每次产生7个步骤。更多的训练信号意味着判别器学得更细致，生成器受到更精密的校正，因此收敛更快、质量更高。

除了自动评测，研究团队还做了人工偏好对比实验。50个来自VBench题库的提示词，覆盖外观风格、颜色、人类动作、多物体、场景等11个维度，每个提示词与每个基准方案做一次对比，三位评测者独立打分，选择"哪段视频在整体视觉质量、动作真实感、时序一致性和提示词对齐度上更好"。结果显示，One-Forcing对比一步Self Forcing，获胜率达到88.4%（130胜17负，另有3票弃权）；对比一步ASD，获胜率92.7%（139胜11负）。唯一输给的是四步Self Forcing，获胜率仅21.3%，说明当前一步方案与四步方案之间仍有一定差距。

六、消融实验：哪些设计真正起作用

研究团队还系统地验证了几个关键设计选择。

关于初始化方式，ODE轨迹初始化和一致性蒸馏（CD）初始化的对比显示，ODE初始化在动感表现上有压倒性优势（动态度原始分52.76 vs. 23.61），而CD初始化在语义对齐上稍好（80.50 vs. 77.91）。研究团队认为，ODE轨迹数据包含更丰富的运动信息，给了生成器更强的动态先验；CD初始化的模型已经被训练得倾向于"稳定一致"，在某种程度上压制了大幅度的运动。

关于一个额外加入的"前向KL正则项"的测试，这个正则项的目的是让生成器的输出尽可能靠近教师模型ODE轨迹的终点，以确定性的均方误差来近似KL散度。实验发现，加入这个正则项后，整体质量急剧下滑（视觉质量从83.65降到75.03，总分从81.60降到74.83），动态度几乎归零（1.30分）。研究团队分析，这是因为确定性回归目标与分布匹配目标之间存在根本性冲突：分布匹配允许生成器有多样化的输出，而均方误差回归强迫生成器集中在单一的"平均"输出，结果就是视频动作消失，画面趋于静态。

七、局限性与未来展望

研究团队坦诚地指出了One-Forcing的主要局限：它需要真实视频数据来训练判别器，这与Self Forcing、ASD等"无数据"方案不同。不过研究团队也指出，在实际的蒸馏训练流程中，训练视频或其预计算表示本来就是标配，这个要求在实践中并不构成真正的障碍。

在未来方向上，研究团队提到了几个有价值的延伸：将One-Forcing扩展到更高分辨率和更长时长的视频生成（目前测试的是832×480分辨率、21帧视频）；结合14B参数规模的更大模型骨架来进一步提升质量；探索"自适应步骤分配"，让感知上复杂的片段自动分配更多步骤；以及将这套方法扩展到动作条件视频生成，服务于交互式世界模型和游戏引擎等场景。

说到底，One-Forcing做的事情，就是给一个擅长"感觉对不对"的自动评分系统（DMD），配上了一个真正见过海量真实视频的"质检员"（基于真实数据训练的判别器）。这两个信号各有侧重、互为补充：前者在数学上保证生成分布与真实分布对齐，后者在感知上保证生成结果无法被一眼看出是假的。两者共享同一个模型骨架，没有额外的参数开销。这个组合使得一步视频生成首次真正变得可行，而不是勉强凑数的低质量替代方案。

对于普通用户而言，这项研究的意义是：你期待的那种能实时响应、流畅生成、画质不打折的AI视频工具，正在变得越来越近。当前AI视频生成最大的瓶颈之一——"等待时间"——正在被研究人员以这样的方式逐步打破。

Q&A

Q1：One-Forcing和Self Forcing有什么区别？

A：Self Forcing使用纯粹的分布匹配蒸馏（DMD），依靠生成分数与真实分数的差值来更新生成器，没有判别器。One-Forcing在DMD基础上增加了一个基于真实视频数据训练的判别器，能从整体上识别生成视频是否像真实视频，弥补了DMD只做局部分数匹配、无法全局拒绝劣质样本的短板，最终在VBench一步生成总分上高出Self Forcing约6.6分。

Q2：One-Forcing为什么选择帧级（framewise）而不是块级（chunkwise）生成？

A：帧级生成每次只输出一帧，21帧视频会产生21个自回归步骤，为判别器提供更多训练信号；块级生成每次输出3帧，同样长度的视频只有7个步骤。更密集的信号使判别器训练得更精细，生成器收敛更快，仅需200步（块级需750步），成本约为块级的三分之一，而最终VBench总分（83.76）也高于块级版本（81.60）。

Q3：视频生成轨迹的"高噪声曲率集中"具体是什么意思？

A：在AI视频生成中，从噪声到清晰视频的生成路径可以看作一条曲线。研究发现，Wan2.1视频模型的这条曲线在"起点"（高噪声端）有极度锋利的弯折，超过92.5%的弯曲集中在这段区域。两步生成可以在弯道中放一个"中间落脚点"来辅助过渡，但一步生成必须直接飞越这个急弯，稍有偏差就会生成模糊或动作稀弱的视频。图像模型没有这种集中弯折，所以图像一步生成容易，视频一步生成难。

视频生成生成对抗网络一步生成

分享至