微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学团队打造实时交互视频生成新方案：让AI"边想边说"不再卡顿

视频生成扩散模型蒸馏因果一致性蒸馏

清华大学团队打造实时交互视频生成新方案：让AI"边想边说"不再卡顿

作者：科技行者

2026-05-21 16:17

分享至：

清华大学与人民大学团队提出Causal Forcing++，用因果一致性蒸馏替代因果ODE蒸馏，将自回归视频生成训练成本降至四分之一，首帧延迟减半，同时提升画质。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-21 16:17 • 科技行者

这项由清华大学与人民大学联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.15141，有兴趣深入了解的读者可通过该编号查询完整论文。研究团队来自清华大学和生数科技（ShengShu），与人民大学的研究人员共同合作完成。

你有没有玩过那种需要实时响应玩家操作的游戏？当你按下方向键，游戏画面要立刻跟着动，而不是让你等上好几秒才看到结果。现在，AI视频生成正在朝着同样的方向努力——不只是让AI"慢慢想好再说"，而是要让它像人类谈话一样，边生成边给你看，你还能随时插手改变剧情走向。这正是这项研究要解决的核心问题。研究团队提出了一个叫做"Causal Forcing++"的新方法，在保持高画质的前提下，把生成视频的等待时间砍掉了一半，同时让整个训练过程的成本也降低到原来的四分之一。

一、为什么让AI"边想边说"这么难？

要理解这项研究的价值，先要搞清楚AI视频生成目前面临的一个根本矛盾。

传统的AI视频模型有点像一个需要提前背好全部台词的演员——在开始"表演"之前，它要把整段视频从头到尾都规划好，然后一次性生成出来。这种方式生成的画面质量很高，但问题是你得等很久才能看到第一帧画面，而且中途根本没法插手修改。这就好比你去餐厅点了一道菜，厨师要把整桌菜全部做完才端上来，你饿着肚子等了一个小时，还不能在中途说"我不要香菜"。

为了解决这个问题，研究者们提出了"自回归扩散模型"（Autoregressive Diffusion Model）的思路。这种模型更像一个即兴演讲的人——它一帧一帧地生成视频，每生成完一帧就立刻给你看，然后根据已经生成的内容决定下一帧怎么画。这样你不用等很久才看到第一帧，也可以在中途给出新的指令。这是"流式生成"，也是实现真正实时交互的基础。

然而，这里还有一个速度问题。哪怕是一帧一帧地生成，生成每一帧本身也需要很多步骤。就好像一个画家，哪怕只画一幅小画，也需要先打草稿、再上底色、再细化、再润色，好几步才能完成。如果每一帧都要走这么多步，速度还是快不起来。

研究团队面对的挑战，就是如何让AI在尽可能少的步骤内（最少只需要一步或两步）就能生成每一帧高质量的视频画面，同时还能维持整体视频的流畅性和一致性。这件事听起来简单，但里面藏着一个大坑——如何在训练阶段为这个"少步骤生成器"打好基础。

二、现有方案为何都差点意思？

在这项研究之前，已经有几个团队尝试解决这个问题，但每种方案都有各自的硬伤。

第一种方案来自CausVid和Self Forcing两个工作。他们的做法是先用一个"双向视频生成模型"（就是那种需要提前规划全局的传统高质量模型）来生成参考路径，然后训练一个只看过去、不看未来的"自回归模型"去模仿这条路径。

问题在哪里？这就像你请一个只能往前走、看不到身后的向导，去复刻一条由能看前后左右全景的侦察机所规划的路线。侦察机在规划路线时用了"你这个向导看不到的信息"（未来的帧），所以这条路线对向导来说根本是个错误的目标，学了也没用，甚至越学越偏。这个问题在生成步骤越少、生成粒度越细的情况下，会被急剧放大，最终导致画面质量崩溃。

第二种方案出现在LiveAvatar和WorldPlay中，思路更直接：既然少步骤生成器不好训练，那就干脆不特别训练它，直接用多步骤的自回归模型充数。

这种做法的问题同样显而易见。就像一个习惯了用十步来完成一道菜的厨师，你突然要求他只用一步完成，他根本没学过怎么做，每一帧的误差都很大，而这些误差在一帧帧生成的过程中会像滚雪球一样越滚越大，最后视频质量彻底崩。

第三种方案是Causal Forcing（也就是这篇论文要升级的前一代工作）。它的思路最严谨：先把那个全局规划的传统模型"改造"成一个只看过去的自回归版本，然后用这个"改造版"来生成参考路径，再训练少步骤的学生模型去学这条路径。这样学习目标终于对了，不再让向导去学一条自己看不到全貌的路。

然而这个方案有一个巨大的代价——生成参考路径需要对每一个训练样本都走完整的48步计算过程，然后把整条路径存下来。在他们80,000个视频的训练规模下，光是这个数据准备工作就要消耗约11,600个A800 GPU小时，还需要约1,900 GB的额外存储空间。而且一旦你想换个配置（比如改变每次生成的帧数），所有这些数据就得全部重新生成。这就像每次换菜单就要把整个厨房重新布置一遍，实在太费事了。

由此可见，三条现有路都各有致命的短板：要么目标搞错了，要么能力不够用，要么代价太高昂。这项研究的使命，就是找到一条同时满足"目标正确""能力够用""代价合理"三个条件的新路。

三、Causal Forcing++的核心妙招：换一种更聪明的"练习方式"

这项研究提出的关键洞察，可以用一个学钢琴的比喻来理解。

Causal Forcing的老方法相当于：老师先完整演奏一遍整首曲子（走完48步的完整路径），把每个音符都录下来，然后让学生对着录音逐音模仿。这种方法学习目标确实是对的，但准备那份录音的工作量极大，而且你让学生跨越很大的"信息鸿沟"——从嘈杂的噪声状态一步跳到完美成品，这个跨度太大，学起来很吃力。

新方法"因果一致性蒸馏"（Causal Consistency Distillation，简称Causal CD）则换了一种思路：不预先录制完整路径，而是在每次练习时，让老师只演示相邻两个时间点之间的"一小步"变化，学生从这一小步中学习如何做"连贯"的预测。

关键在于，这种方法和旧方法的学习目标其实是一模一样的——都是要学会那个"AR条件流映射"（AR-conditional flow map），也就是"给你当前的噪声状态和过去的帧，告诉你最终干净的结果应该是什么"这个映射关系。但是旧方法需要提前生成并存储整条路径才能学，新方法只需要在训练时临时算一小步就够了，完全不需要预先存储任何东西，训练时直接用真实视频数据在线计算即可。

从数学上看，这背后有严格的理论保证。研究团队证明了：在训练最优的情况下，新方法学到的结果与旧方法相差的误差量，会随着相邻时间步之间的间距缩小而缩小到可以忽略不计。也就是说，理论上两种方法会收敛到同一个学习目标。

实际效果甚至更好。旧方法要求学生一步跳过很大的鸿沟（从高噪声直接预测最终结果），这本身就是个很难的优化任务，容易学偏。新方法每次只学相邻一小步，每个小步的难度大大降低，整体优化过程更稳定，最终学出的模型反而质量更高。就像练钢琴时，与其每次都要求直接弹完整首曲子，不如先把每个小节练熟，最后连起来自然更流畅。

在成本上，新方法的优势极为显著。同样的80,000个视频训练规模下，Causal CD只需要约2,900个A800 GPU小时（原来是11,600，节省约75%），额外存储空间降为零（原来需要1,900 GB）。换句话说，不仅训练时间缩短到原来的四分之一，还完全不需要额外的硬盘空间来存预计算的数据。

四、为什么不用另一种听起来更厉害的"DMD方法"？

看到这里，熟悉这个领域的读者可能会问：除了一致性蒸馏，还有一种叫做"分布匹配蒸馏"（Distribution Matching Distillation，简称DMD）的技术，它在传统图像生成领域通常能产生更清晰的结果，能不能用来做这里的初始化？

研究团队确实认真测试了这条路，结果出乎意料。他们发现，用DMD方式做出的初始化（称为Causal DMD），在视频生成的头几帧质量确实比一致性方式更好，画面更清晰。但随着视频继续生成，质量急剧下滑，后面的帧变得混乱不堪，甚至出现严重的镜头漂移现象。

为什么会这样？这里有一个很直观的解释。DMD优化的是"反向KL散度"，它倾向于"压注"——把所有的概率质量都集中在最可能的那几种结果上，就像一个极度自信的赌徒，把所有筹码压在最热门的选项上，不怎么关心其他可能性。这在静态图像生成时是优势，因为确实能产生更清晰的结果。但在自回归视频生成中，每帧生成的时候都需要基于前面已经生成的帧来预测。前面的帧不可避免地存在一点误差，而这个误差会让条件分布发生"偏移"。对于DMD来说，由于概率质量过于集中，一旦这个集中的"峰值"因为历史误差而偏移到了低质量区域，几乎所有生成结果都会跟着掉进低质量区——这就叫"暴露偏差"的雪崩效应。

相比之下，一致性蒸馏优化的是"前向KL散度"，它更倾向于"覆盖"——保持一个相对分散的概率分布，关注多种可能结果。这样的模型面对历史误差带来的偏移时，更有弹性：哪怕概率分布整体偏移了一些，依然有相当一部分质量可以落在好的区域。虽然单帧看可能不如DMD那么清晰，但整段视频下来，稳定性要好得多。

这个发现在直觉上也很有道理：在一个你需要持续犯小错误的连续过程中，一个"弹性大、不钻牛角尖"的策略，往往比一个"极度自信、只认最优解"的策略更稳健。

五、实验结果：数字背后的真实差距

研究团队在Wan2.1-1.3B这个基础模型上进行了全面测试，生成480×832分辨率、81帧的视频，并与现有最好的方法进行了详细对比。

在与现有方法的横向比较中，Causal Forcing++（2步生成版本）在两个主要评测基准上均取得了最好的综合成绩。在VBench总分上达到84.14，超过了Causal Forcing的84.04和Self Forcing的83.74；在VBench画质分上达到84.89，同样领先于所有前辈方法。在VisionReward这个衡量人类视觉偏好的指标上，2步版本得分6.661，远超Causal Forcing的6.326和Self Forcing的5.820。与此同时，首帧延迟从所有前代方法的0.60秒降低到了0.27秒，整整快了一半。视频生成的吞吐量（每秒能生成多少帧）也从10.4帧每秒提升到了14.1帧每秒。

如果选择4步生成版本，VisionReward进一步提升到6.798，动态程度得分达到71，超过了所有之前的方法，首帧延迟依然保持在0.27秒这个更低的水平。

在消融实验（也就是逐一测试每个设计选择是否有效的对照实验）中，研究团队系统比较了五种不同的初始化策略在1步、2步、4步三种设置下的表现。结论非常清晰：Self Forcing式的初始化在逐帧设置下全面崩溃，动态程度得分在1步和2步设置下都降到了0，VBench总分都低于80。直接用多步模型做初始化的方案在1步设置下同样近乎崩溃，动态程度为0。Causal ODE（前代方法）在质量上表现尚可，但代价是每次训练要花11,600 GPU小时和1,900 GB存储。Causal DMD的质量介于其间，但暴露偏差问题明显。而Causal CD在所有步数设置下都达到了最高或持平最高的质量分数，同时只需要2,900 GPU小时，存储开销为零。

六、举一反三：把这套方法用到"游戏世界模型"上

除了通用视频生成，研究团队还展示了这套方法在一个更有趣的应用场景下的效果：根据摄像机操控指令实时生成对应的游戏世界画面。

这种应用被称为"动作条件世界模型"（Action-Conditioned World Model），灵感来自一个叫做Genie3的概念框架。简单来说，你可以把它想象成：你在一个虚拟世界里，用摇杆控制摄像机向前走、向左转、向下看，AI要实时生成你"看到"的画面，而且要保持场景的几何一致性——你刚才看到的那棵树，绕过去之后从另一个角度看还应该在那里。

研究团队的做法分三步：首先构建一个带有摄像机位姿标注的训练数据集；然后在基础视频模型上注入摄像机位姿信息，让它理解"这个角度的摄像机应该看到什么"；最后用Causal Forcing++把这个懂摄像机位姿的模型蒸馏成一个低延迟的交互版本。从展示的效果来看，系统能够正确响应"持续向前走"和"先向前走再向下倾斜摄像机"等指令，生成视觉上连贯的场景变化。研究团队也指出，把这个场景进一步压缩到逐帧两步生成以实现完全实时的交互，是下一步的工作方向。

说到底，这项研究做了一件很有实际价值的事：它找到了一条更聪明的"练习方式"，让AI视频生成模型能够用更少的时间、更少的计算资源，学会"边想边说"这项关键技能。具体来说，就是用因果一致性蒸馏代替了因果ODE蒸馏，在保证学习目标完全正确的前提下，把训练成本降低到四分之一，同时还因为优化难度降低而获得了更好的质量。

对于普通用户来说，这意味着未来你在玩AI驱动的互动故事、虚拟世界探索或者实时AI助手时，等待时间会大幅缩短，响应也会更流畅自然。而对于研究者和工程师来说，这套更高效的训练方法意味着同样的计算预算可以探索更多不同的配置和应用场景，加快整个领域的迭代速度。

当然，这项工作也还有一些没有完全解决的挑战。比如在逐帧1步生成这个最激进的设置下，语义准确性（81.13分）相比Causal Forcing（81.84分）仍然略有下降；动作条件世界模型也还停留在4步生成，尚未实现完全实时的逐帧交互。这些都是作者明确列出的未来工作方向。

对这个领域感兴趣的读者，可以通过arXiv编号2605.15141找到原始论文，研究团队也在GitHub上开放了相关代码（thu-ml/Causal-Forcing和shengshu-ai/minWM），有技术背景的读者可以直接上手实验。

---

Q&A

Q1：Causal Forcing++和普通视频生成AI有什么区别？

A：普通视频生成AI通常要把整段视频规划好再一次性输出，等待时间长，用户无法中途干预。Causal Forcing++采用逐帧自回归方式，边生成边输出，首帧延迟只有0.27秒（比前代方法快50%），且用户可以实时给出新的控制指令，更适合交互式应用场景。

Q2：因果一致性蒸馏为什么比因果ODE蒸馏训练成本低这么多？

A：因果ODE蒸馏需要对每个训练样本都预先生成完整的48步计算路径并存储起来，80,000个视频规模下需要11,600 GPU小时和1,900 GB存储。因果一致性蒸馏不需要预存路径，每次训练只临时计算相邻两个时间步之间的一小步变化，直接用真实视频在线训练，因此只需要2,900 GPU小时，额外存储为零，大约节省了75%的训练时间。

Q3：为什么Causal DMD初始化的视频后期会崩？

A：DMD方法优化的是反向KL散度，会把概率集中在少数高置信度的结果上，生成的画面初期很清晰。但在自回归视频生成中，历史帧的微小误差会让后续帧的条件分布发生偏移，高度集中的概率一旦偏移到低质量区域，几乎所有后续帧都会跟着变差，形成暴露偏差的雪崩效应。而一致性蒸馏的分布更分散，对历史误差有更强的容错性。

视频生成扩散模型蒸馏因果一致性蒸馏

分享至