
这项由清华大学与加州大学洛杉矶分校(UCLA)联合开展的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.23458,感兴趣的读者可通过该编号查询完整原文。研究提出了一种名为"One-Forcing"的新方法,旨在让AI视频生成系统以单步完成高质量视频输出,同时将训练成本压缩至传统方案的三分之一。
如果你曾经用过Sora或者类似的AI视频生成工具,你大概知道它们有个共同的烦恼:生成一段视频需要等上好一阵子。这背后的原因,是这些系统在生成每一帧画面时,都要经历几十步甚至上百步的"修改润色"过程,就像一位画家要反复打草稿、上色、修改,才能交出最终作品。对于实时互动场景,比如游戏引擎、虚拟直播或者在线世界模拟,这种等待是完全不可接受的。
研究团队瞄准的核心问题是:能不能让AI"一笔成画"?也就是说,从噪声直接跳到高质量视频帧,中间不经过任何反复修改。这个目标听起来简单,但实际上隐藏着相当多的技术陷阱,而此前的所有方案都没能真正走通这条路。
一、为什么"一步生成视频"这么难?画曲线和走直线的区别
要理解这个问题,先借助一个地图导航的比喻来铺垫背景。AI生成视频的过程,本质上是从一张随机噪声图出发,沿着一条特定的"路径"走到清晰的视频帧。传统的多步生成方法,就像走一段弯弯曲曲的山路,每一步都能及时修正方向,最终安全抵达目的地。而"一步生成",则要求模型从起点直接飞奔到终点,中间没有任何修正机会。
问题在于,这条"山路"并不是直的。研究团队通过分析Wan2.1这一业界顶尖视频生成模型的行为轨迹,发现了一个关键的几何现象:在视频生成的路径上,几乎所有的"弯道"都集中在起始阶段(高噪声区间)。具体来说,超过92.5%的曲率集中在路径的最初阶段,也就是噪声最强的那段区间。这个比例的统计误差极小,95%置信区间在92.24%到92.73%之间,同时高噪声区域与中间区域的曲率比高达33.1。
为了对比,研究团队还分析了图像生成领域常用的EDM2模型的轨迹,发现图像生成的路径相对平滑,没有这种"开头急转弯"的特征。这就解释了一个长期困扰研究界的现象:图像生成可以比较容易地压缩到一步完成,而视频生成在从多步压缩到一步时,质量会急剧下滑。
用更直观的方式来说:如果生成路径是一段赛道,视频生成的赛道在起跑区有一个极度锋利的大弯,两步走可以在弯道中间放一个"中间站"来辅助过弯,但一步走就必须直接飞过这个急弯,稍有偏差就冲出赛道。这是一个物理层面的几何障碍,而不是模型训练不充分的问题。
正因如此,研究团队得出结论:对于视频生成,沿着轨迹走的"一致性蒸馏"方法(Consistency Distillation)在一步压缩时会失效,因为它完全依赖路径本身的平滑性。要实现真正的一步视频生成,必须换一条路:不走轨迹,直接对准目标分布。
二、前人的尝试为何都差点意思?两种主流方案的短板
在One-Forcing出现之前,研究界主要有两种思路来压缩视频生成步骤。
第一种是"一致性蒸馏"(Consistency Distillation),其核心思想是训练一个学生模型,使其在老师模型路径上的任意相邻点都预测出相同的终点。这个方法在图像生成领域表现出色,但正如前面分析的,视频生成路径在高噪声区域存在极度集中的曲率,导致一步压缩时学生模型无法应对那段急弯,生成的视频往往动作迟滞、缺乏动感。研究人员在实验中发现,基于一致性蒸馏的方案Causal Forcing在一步生成时,VBench总分仅为78.39,与多步生成方案相比有明显差距。
第二种是"分布匹配蒸馏"(Distribution Matching Distillation,DMD),这种方法不试图复制老师的路径,而是直接比对生成结果的整体分布与真实视频的分布是否接近。具体实现是维护两个评分模型:一个"真实分数"模型(判断真实视频像什么)和一个"生成分数"模型(判断生成视频像什么),通过两者之差来引导生成器改进。这种方法在一步图像生成中表现优秀,但直接套用到视频生成时,暴露出一个深层问题。
视频和图像最大的区别在于:视频生成是连续的。在自回归视频生成中,模型会把刚生成的帧当作下一帧的参考背景(也就是KV缓存),然后再生成下一帧。如果第一帧生成得模糊或不够真实,这个缺陷会被直接"喂"给第二帧的生成过程,第二帧再把累积的缺陷传给第三帧……这种错误的雪球效应,最终会导致整段视频越来越模糊,动作越来越弱。
Self-Forcing就是基于DMD思路的代表方案,在VBench上一步生成的总分仅为77.18。问题的根源在于:DMD的评分信号是局部的,它只能判断"这个生成样本的噪声版本的分数对不对",但无法从整体上判断"这段视频放在真实视频数据集里,能不能以假乱真"。换句话说,DMD就像一个只会逐字检查拼写的编辑,却没有人检查整篇文章的逻辑和风格是否像真正的人类写作。
三、One-Forcing的核心思路:给DMD配备一个"挑剔的读者"
研究团队的解决方案,是在DMD的基础上引入一个能从整体上辨别真假的"判别器",也就是GAN(生成对抗网络)中的判别器。这个组合并不新鲜,但关键在于如何设计这个判别器,以及如何让它真正发挥作用。
One-Forcing的训练流程是这样的:首先,自回归学生模型一帧接一帧地生成视频(每次只生成一帧),每生成一帧就立刻把结果放进缓存,作为下一帧的背景参考。这个过程完全模拟了实际部署时的行为,保证训练和使用时的一致性。
生成完视频后,系统需要给这段视频"打分",分数来自两条渠道。第一条是DMD渠道:把生成的帧加上噪声,同时喂给"生成分数"模型和"真实分数"模型,两者的差值就代表了这帧视频与真实视频分布的偏差,这个差值会被用来更新生成器。第二条是对抗渠道:把生成的帧加噪之后,以及把真实视频数据集里的真实视频帧也加上同样的噪声,然后交给判别器,让它判断哪个是真实视频、哪个是AI生成的。判别器的判断结果会提供额外的梯度信号,专门用来防止生成结果被判别器轻易识破。
这里有一个设计上的精妙之处:判别器并没有被设计成一个单独的大型网络,而是复用了已有的"生成分数"模型的主干网络(一个大型Transformer),只是在特定的层上附加了一组轻量级的"注册令牌"和小型注意力模块,最终输出一个"真/假"的标量分数。这样做的好处是,判别器和分数模型共享同一套特征空间,两种训练信号可以互相增强,而且不需要额外引入大量参数。
更关键的一点是:One-Forcing的判别器是对着真实视频数据集来训练的,它的"真实参考"是来自现实世界的真实视频帧。这与ASD(对抗性自蒸馏,另一个竞争方案)形成了根本性的区别——ASD用"多步模型的输出"作为判别器的真实参考,结果判别器必须区分"四步生成"和"一步生成"这两种都是AI产物的视频,两者分布差异极小,判别器很快就无法提供有效的训练信号,陷入"崩溃"状态。
研究团队通过实验量化了这个差距:在训练过程中追踪判别器的"真假分数差"(真实视频的得分减去生成视频的得分),One-Forcing全程保持在较大水平,均值为1.53,波动幅度也较大(标准差1.20),说明判别器一直在积极工作,随着生成器的改善而不断调整。ASD的同一指标则几乎全程贴近零(均值0.001,最大值不超过0.006),从训练第一步开始就近乎崩溃。这就像是,One-Forcing雇了一位真正看过无数真实电影的影评人来审查AI生成的视频,而ASD只请了另一个AI来帮忙审查。
四、训练流程的细节:怎么让两种信号协调工作
在具体的训练节奏上,研究团队采用了一个交错更新的策略。每轮训练迭代都会进行一次"评分模型更新",包括用新生成的视频帧来更新"生成分数"模型的去噪能力,以及同时更新判别器以区分加噪的真实帧和生成帧。而生成器本身的更新则更少,每五次评分模型更新之后才进行一次生成器更新,这是借鉴了DMD2中"两时间尺度"训练的经验:让评分模型充分跟上当前生成器的水平,再用稳定的信号去更新生成器,避免信号不稳定导致的训练崩溃。
生成器的目标函数是两项之和:DMD损失加上对抗损失,权重比例由超参数控制(最终配置中两者权重均为0.03)。评分模型的目标函数是:去噪损失加上判别器分类损失,也是加权求和。
在模型规模上,研究团队使用的是Wan2.1-T2V-1.3B作为生成器和"生成分数"模型的基础,而"真实分数"模型使用的是更大的Wan2.1-T2V-14B(冻结不训练),这样能提供更准确的真实分布评估。推理时只需要一张H100显卡,对于实际部署来说相对友好。
关于初始化,研究团队先用ODE(常微分方程)轨迹数据对学生模型做了预训练,让模型在进入One-Forcing训练之前就具备基础的生成能力,这个初始化阶段使用的是多步ODE轨迹数据,包含丰富的运动信息,为后续的动感表现打下基础。
五、实验结果:数字背后的真实表现
研究团队在VBench(一个全面的视频生成质量评测基准,覆盖16个维度)上评测了One-Forcing,并与一系列基准方案进行了对比。
在一步生成这个最严格的设定下,One-Forcing的帧级(framewise)版本取得了83.76的总分,视觉质量分85.22,语义对齐分77.91。相比之下,最接近的竞争对手ASD得了79.12,Causal Forcing得了78.39,Self Forcing在一步设定下仅有77.18。这意味着One-Forcing在一步生成这个维度上,比此前所有方案高出了4到7分。
更令人印象深刻的是,One-Forcing在仅使用一步生成的情况下,超越了大量需要多步才能完成生成的系统:CausVid(4步,81.18分)、LTX-Video(20步,80.00分)、Pyramid Flow(20步,81.72分)、NOVA(25步,80.12分)。它甚至与MAGI-1(64步,79.18分)拉开了相当大的差距。离最顶尖的50步Wan2.1教师模型(84.26分)仅有0.5分的差距。
在训练效率上,One-Forcing的帧级版本只需要200步就能收敛,而块级(chunkwise,每次生成3帧而非1帧)版本需要750步。帧级版本训练成本约是块级版本的三分之一,但最终质量更高(83.76 vs. 81.60)。研究团队解释这个现象的逻辑是:帧级版本每生成一段21帧的视频,会产生21个自回归步骤,每个步骤都能给判别器提供一次训练信号;而块级版本每次产生7个步骤。更多的训练信号意味着判别器学得更细致,生成器受到更精密的校正,因此收敛更快、质量更高。
除了自动评测,研究团队还做了人工偏好对比实验。50个来自VBench题库的提示词,覆盖外观风格、颜色、人类动作、多物体、场景等11个维度,每个提示词与每个基准方案做一次对比,三位评测者独立打分,选择"哪段视频在整体视觉质量、动作真实感、时序一致性和提示词对齐度上更好"。结果显示,One-Forcing对比一步Self Forcing,获胜率达到88.4%(130胜17负,另有3票弃权);对比一步ASD,获胜率92.7%(139胜11负)。唯一输给的是四步Self Forcing,获胜率仅21.3%,说明当前一步方案与四步方案之间仍有一定差距。
六、消融实验:哪些设计真正起作用
研究团队还系统地验证了几个关键设计选择。
关于初始化方式,ODE轨迹初始化和一致性蒸馏(CD)初始化的对比显示,ODE初始化在动感表现上有压倒性优势(动态度原始分52.76 vs. 23.61),而CD初始化在语义对齐上稍好(80.50 vs. 77.91)。研究团队认为,ODE轨迹数据包含更丰富的运动信息,给了生成器更强的动态先验;CD初始化的模型已经被训练得倾向于"稳定一致",在某种程度上压制了大幅度的运动。
关于一个额外加入的"前向KL正则项"的测试,这个正则项的目的是让生成器的输出尽可能靠近教师模型ODE轨迹的终点,以确定性的均方误差来近似KL散度。实验发现,加入这个正则项后,整体质量急剧下滑(视觉质量从83.65降到75.03,总分从81.60降到74.83),动态度几乎归零(1.30分)。研究团队分析,这是因为确定性回归目标与分布匹配目标之间存在根本性冲突:分布匹配允许生成器有多样化的输出,而均方误差回归强迫生成器集中在单一的"平均"输出,结果就是视频动作消失,画面趋于静态。
七、局限性与未来展望
研究团队坦诚地指出了One-Forcing的主要局限:它需要真实视频数据来训练判别器,这与Self Forcing、ASD等"无数据"方案不同。不过研究团队也指出,在实际的蒸馏训练流程中,训练视频或其预计算表示本来就是标配,这个要求在实践中并不构成真正的障碍。
在未来方向上,研究团队提到了几个有价值的延伸:将One-Forcing扩展到更高分辨率和更长时长的视频生成(目前测试的是832×480分辨率、21帧视频);结合14B参数规模的更大模型骨架来进一步提升质量;探索"自适应步骤分配",让感知上复杂的片段自动分配更多步骤;以及将这套方法扩展到动作条件视频生成,服务于交互式世界模型和游戏引擎等场景。
说到底,One-Forcing做的事情,就是给一个擅长"感觉对不对"的自动评分系统(DMD),配上了一个真正见过海量真实视频的"质检员"(基于真实数据训练的判别器)。这两个信号各有侧重、互为补充:前者在数学上保证生成分布与真实分布对齐,后者在感知上保证生成结果无法被一眼看出是假的。两者共享同一个模型骨架,没有额外的参数开销。这个组合使得一步视频生成首次真正变得可行,而不是勉强凑数的低质量替代方案。
对于普通用户而言,这项研究的意义是:你期待的那种能实时响应、流畅生成、画质不打折的AI视频工具,正在变得越来越近。当前AI视频生成最大的瓶颈之一——"等待时间"——正在被研究人员以这样的方式逐步打破。
Q&A
Q1:One-Forcing和Self Forcing有什么区别?
A:Self Forcing使用纯粹的分布匹配蒸馏(DMD),依靠生成分数与真实分数的差值来更新生成器,没有判别器。One-Forcing在DMD基础上增加了一个基于真实视频数据训练的判别器,能从整体上识别生成视频是否像真实视频,弥补了DMD只做局部分数匹配、无法全局拒绝劣质样本的短板,最终在VBench一步生成总分上高出Self Forcing约6.6分。
Q2:One-Forcing为什么选择帧级(framewise)而不是块级(chunkwise)生成?
A:帧级生成每次只输出一帧,21帧视频会产生21个自回归步骤,为判别器提供更多训练信号;块级生成每次输出3帧,同样长度的视频只有7个步骤。更密集的信号使判别器训练得更精细,生成器收敛更快,仅需200步(块级需750步),成本约为块级的三分之一,而最终VBench总分(83.76)也高于块级版本(81.60)。
Q3:视频生成轨迹的"高噪声曲率集中"具体是什么意思?
A:在AI视频生成中,从噪声到清晰视频的生成路径可以看作一条曲线。研究发现,Wan2.1视频模型的这条曲线在"起点"(高噪声端)有极度锋利的弯折,超过92.5%的弯曲集中在这段区域。两步生成可以在弯道中放一个"中间落脚点"来辅助过渡,但一步生成必须直接飞越这个急弯,稍有偏差就会生成模糊或动作稀弱的视频。图像模型没有这种集中弯折,所以图像一步生成容易,视频一步生成难。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。