微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

南洋理工大学研究团队打破视频AI创作天花板：让AI导演真正学会"讲故事"的时间节奏

视频生成扩散模型推理时控制

南洋理工大学研究团队打破视频AI创作天花板：让AI导演真正学会"讲故事"的时间节奏

作者：科技行者

2026-04-21 14:16

分享至：

这项由新加坡南洋理工大学S-Lab实验室完成的研究提出了一种名为Prompt Relay（提示接力）的视频生成控制方法，于2026年4月以预印本形式发布（arXiv:2604.10030）。该方法无需重新训练模型，通过在推理阶段向交叉注意力机制引入平滑的时间惩罚信号，使视频的不同时间段各自只响应对应的文字描述，从而解决多事件视频生成中普遍存在的语义纠缠问题，实现了事件按序发生、场景平滑过渡的效果，在时间提示对齐度和过渡自然度上显著优于Sora、Kling、Veo等主流模型。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 14:16 • 科技行者

这项由新加坡南洋理工大学S-Lab实验室完成的研究，以预印本形式于2026年4月11日发布，论文编号为arXiv:2604.10030，题为《Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation》。对视频生成AI感兴趣的读者可通过该编号查阅完整论文。

**一个导演的烦恼**

假设你是一位导演，手边有一台神奇的摄影机——只要你口头描述一段场景，它就能自动拍出你要的画面。听起来很美，对吧？但当你兴致勃勃地告诉它："先拍一个穿越赛博朋克城市的飞鹰特写，然后镜头拉远，揭示其实这一切都在一台老式电视机的屏幕上播放"——摄影机拍出来的东西，很可能是鹰的眼睛里飞着一台电视机，或者整个画面里城市、鹰、电视机同时出现，乱作一团。

这不是假设，而是今天绝大多数顶尖视频生成AI的真实困境。南洋理工大学的研究团队把这个问题称作"语义纠缠"——就像把一首曲子的所有音符同时按下，你得到的不是旋律，而是噪音。他们提出的解决方案叫做**Prompt Relay（提示接力）**，目标是让AI真正学会按照时间顺序、一件事一件事地"讲故事"，而无需对模型进行任何结构改造，也不增加任何额外的计算负担。

**一、视频AI为什么总是"时间盲"？**

要理解这个问题的根源，可以把现有的视频AI想象成一位同时听到所有指令的厨师。你告诉他："先做凉拌黄瓜，再做红烧肉，最后上一道清汤。"但他的耳朵没有"先后"的概念，所以他会把黄瓜、猪肉和汤料全部扔进同一口锅里一起炒。结果端上来的，是一道你完全认不出来的奇怪混合物。

视频扩散模型（一种通过逐步"去噪"来生成画面的AI技术）内部有一套叫做"交叉注意力"的机制，负责把文字描述和视频画面联系起来。用更直白的话说，这套机制的作用是让AI知道"这段文字描述的是画面里的哪个部分"。然而问题在于，这套机制是"全局性"的——它会让视频的每一帧，同时参考你提供的所有文字描述。当你的描述包含多个按顺序发生的事件时，AI没有任何内置的办法知道哪句话该在哪段时间生效，于是所有描述的内容就会相互"渗透"，挤进本不属于它们的时间段里。

这种现象在业界已经有所关注，也出现过一些尝试解决的方法。一类做法是对AI模型进行重新训练，给它喂大量带有时间标注的视频数据，让它学会"事件A在第0到3秒，事件B在第3到6秒"这样的对应关系。代表性的工作是MinT，它在模型内部专门加了一个负责处理时间的模块。这种方法效果不错，但代价是你需要海量的标注数据、大量的训练时间，而且改造完的模型已经和原来不一样了，原有的生成能力可能受到影响。

另一类做法完全不训练模型，直接在生成过程中做手脚，比如DiTCtrl这类工作，通过给注意力机制加上"遮罩"（你可以理解为给不同段的文字各套一个不透明的信封，让它们互不干扰）来实现控制。但这种硬切换的方式会在场景交接处产生明显的"跳接"感——就像电影里突然出现一道割裂的剪辑，让人一下子出戏。还有SwitchCraft和TS-Attn这类方法，思路是找到每个事件中最核心的"主角词"，让这个词负责锁定该时间段的画面。这种做法在主角明确的场景下还算可以，但如果你描述的是一个整体氛围的转变——比如"从白天的街道渐渐变成夜晚的霓虹"——根本就找不出一个单一的"主角词"，方法就会失灵。

**二、"接力棒"的比喻：Prompt Relay的核心思路**

南洋理工的团队提出的思路，本质上是一场接力赛的设计。在接力赛里，每位选手只在属于自己的那段跑道上全速奔跑，在交接区域放慢速度、平稳传棒，然后退场，把赛道交给下一位。没有人会整场比赛都在跑道上乱串。

Prompt Relay做的事情，就是给AI的注意力机制引入这样一套"接力"规则。具体来说，当AI在生成某个时间段的画面时，研究团队会向注意力机制施加一个"惩罚信号"，让属于这段时间的画面帧对其他时间段的文字描述"视而不见"。惩罚的力度不是一刀切的硬开关，而是随着距离当前时间段越远，惩罚越强；靠近当前时间段的中心区域，则完全没有惩罚，AI可以自由地参考对应的文字描述。

在数学上，这个惩罚被设计成一个经典的"高斯衰减"形式——也就是说，惩罚强度从时间段中心向两侧呈现一条对称的钟形曲线，平滑下降。这意味着在时间段的中心区域，注意力完全不受干扰；随着帧离中心越来越远，注意力对该时间段文字描述的"感知"逐渐减弱，直到接近另一个时间段时几乎降为零。

这里有一个关键参数叫做"自由窗口"（用字母w表示）。这个窗口决定了在时间段内有多大的"免惩罚区域"。研究团队通过实验发现，当自由窗口设置为整个时间段长度减去2帧时（w = L - 2），效果最好——这意味着每个时间段内部几乎可以完全自由地参考对应描述，只在最边缘的一两帧才开始向下一段平滑过渡。还有一个参数ε，控制惩罚在边界处衰减到多低。研究团队测试了0.001、0.01、0.1和1.0（无惩罚）几个值，发现只要ε足够小，具体数值的差别对最终画面影响不大，最终采用ε = 0.1作为默认值。

除了针对每段时间的"局部提示"，研究团队还保留了一个"全局提示"——一段覆盖整个视频的文字描述，提供贯穿始终的背景信息和视觉风格。这就像接力赛的场地本身：无论哪位选手在跑，场地的规则、氛围和背景始终不变。

**三、为什么"软过渡"比"硬切换"更好？**

这套方案与此前硬遮罩方法之间最关键的区别，在于边界处的处理方式，研究团队把它称为"边界注意力衰减"机制。

硬切换的问题可以用一个日常场景来理解：假设你正在看一场话剧，舞台上的灯光突然从暖黄色瞬间切换到冷蓝色，而演员的动作、道具和服装却没有任何变化。这种灯光和内容的"不同步"会让观众感到突兀，因为视觉信号之间产生了矛盾。

在视频AI里，同样的矛盾存在于两套机制之间：一套是我们在讨论的"交叉注意力"，负责把文字指令翻译成画面内容；另一套是"自注意力"，负责让画面在时间上保持连贯——比如一个人从第1帧走到第5帧，他的脸、衣服、位置应该是前后一致的。硬切换让交叉注意力在某一帧突然换了一套新指令，但自注意力还记得上一段的视觉结构，两者产生冲突，AI只好"硬凑"——往往导致奇怪的形变或错误的主体替换，比如原本应该"一个男人在吃意面"切换到"一个穿红裙子的女人走过"，结果变成了一个穿红裙子的女人在吃意面。

Prompt Relay的软衰减方案则不同。在两个时间段交接的区域，两段的提示描述会同时保留一定比例的注意力——就像接力赛中的"传棒区"，两位选手并肩跑了一小段。交叉注意力在这段时间里"知道"即将发生什么变化，可以提前做好准备；自注意力也有足够的缓冲时间来适应视觉结构的转变。这样生成出来的视频，在场景切换处就会显得自然流畅，而不是突兀割裂。

**四、对比实验：和顶尖AI系统的正面较量**

为了验证Prompt Relay的实际效果，研究团队用它增强了当前最先进的视频生成模型之一Wan2.2-T2V-A14B（一个拥有140亿参数的大型视频生成模型），并将结果与业界几款代表性系统进行了对比，包括Sora Storyboard、Veo 3.1、原版Wan 2.2，以及Kling 2.6。

测试场景由ChatGPT随机生成了20个多事件视频场景，每个场景包含3到6个按时间顺序发生的事件，涵盖了明确的场景转换、多角色互动、复杂的镜头运动等多种类型。评估采用了人类偏好打分的方式，邀请了30位参与者，在不知道视频来源的情况下对每段视频的三个维度打分（1到5分），打分越低代表排名越靠前。

三个评估维度分别是：时间提示对齐度（视频内容是否按照文字描述的顺序在正确的时间段发生）、过渡自然度（相邻事件之间的切换是否流畅、没有跳接或奇怪的形变）、以及视觉质量（整体画面是否清晰、时间上是否稳定、有没有明显的视觉瑕疵）。

结果相当明显。在时间提示对齐度上，加入Prompt Relay的Wan 2.2以1.10分排名第一，原版Wan 2.2得了4.00分，Sora Storyboard得了4.67分——这意味着原版模型和Sora在这方面的表现接近垫底，而增强版则遥遥领先。在过渡自然度上，Prompt Relay同样以1.17分名列前茅，远超Kling 2.6的4.43分和Wan 2.2的3.50分，而Veo 3.1在这个维度上得到1.30分，是唯一在这一项上与Prompt Relay接近的竞争对手。在视觉质量上，Veo 3.1以2.0分拿下最佳，Kling 2.6以2.50分紧随其后，Prompt Relay增强版得到2.83分，虽然不是第一，但显著好于原版Wan 2.2的4.00分。

研究团队对视觉质量的改善给出了合理的解释：Prompt Relay通过压制跨时间段的注意力干扰，实际上减少了注意力机制在处理当前段内容时面临的"竞争噪音"。当AI不再需要同时应付来自其他时间段的干扰信号，它能把更多的"注意力资源"集中在当前应该描绘的内容上，生成结果自然更清晰、更稳定。至于Kling和Veo在视觉质量上仍然领先，研究团队认为这主要是因为这两款产品使用了本身能力更强的底层模型——Prompt Relay是一套方法，不是模型本身，它的视觉质量上限受限于它所增强的那个底层模型。

一个具体的对比案例能很好地说明这种差距：测试提示描述的是"一个男人用自拍视角在香港的霓虹街道上拍摄自己，然后他将手掌慢慢推向镜头直到遮住画面，再拉开，此时他背后已经变成了大峡谷"。Sora的输出停留在香港场景，没有完成转换；Kling的输出虽然两个场景都出现了，但中间过渡充满了奇怪的形变；Veo在内容上基本实现了，但香港和大峡谷的人物细节一致性不足；原版Wan 2.2则出现了明显的时间混乱；而加了Prompt Relay的版本，从香港到大峡谷的整个过渡流畅自然，手掌遮挡镜头的桥段也作为两段场景之间的视觉过渡被完整保留。

**五、这套方法的边界与局限**

研究团队在论文中坦诚地指出了Prompt Relay的一个固有局限。由于每个时间段主要只"听"自己对应的局部描述，如果不同时间段的描述对同一个角色或场景元素的描述不一致——比如第一段说"穿蓝色外套的男人"，第二段只说"男人"——那么这个角色的外貌可能会在不同段之间出现漂移，蓝色外套可能凭空消失。

好在研究团队已经找到了一个有效的应对办法：在局部提示之外，额外提供一段覆盖全视频的"全局提示"，用来锚定贯穿始终的视觉元素。就像一位总导演在拍每一个分镜之前，先给全体演员念一遍整部电影的人物设定，确保无论拍到哪一场，角色的基本形象都不会走样。加入全局提示之后，这个问题在实验中被完全消除。

**从接力赛到电影工业**

说到底，Prompt Relay解决的是一个看起来简单、但困扰了这个领域很久的问题：怎么让AI知道"什么时候该干什么"。答案不是重新训练一个新模型，而是在现有模型生成视频的过程中，轻轻地调整它的"注意力分配规则"——用一套随时间平滑变化的奖惩机制，让不同时段的画面只认领各自对应的文字指令，同时在交接处留下足够的缓冲空间，让过渡变得自然。

这种方法的优雅之处在于它的"零成本"性质：不需要收集新数据，不需要重新训练，不需要修改模型结构，甚至不增加额外的计算时间。任何人只要手头有一个支持交叉注意力机制的视频扩散模型，都可以直接把Prompt Relay"插上"就用。

对于那些希望用AI生成具有完整故事弧度的短视频、广告片段或创意内容的创作者来说，这套方法意味着你终于可以用更清晰的方式告诉AI"先做这个，再做那个"——不再是一锅乱炖，而是一道有起承转合的菜。这距离真正的"AI导演"还有很长的路要走，但Prompt Relay至少让AI第一次开始真正理解"时间顺序"这件事的重要性。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2604.10030查阅完整原文。

---

**Q&A**

Q1：Prompt Relay需要重新训练视频AI模型吗？

A：不需要。Prompt Relay是一种"即插即用"的推理时方法，意思是它只在AI生成视频的过程中介入，对模型内部的注意力分配规则做轻微调整，完全不需要收集新数据或重新训练模型，也不增加任何额外的计算时间。任何使用交叉注意力机制的视频扩散模型都可以直接搭配使用。

Q2：Prompt Relay的"边界注意力衰减"和硬遮罩方法有什么具体区别？

A：硬遮罩会在两段视频交接处让文字描述突然切换，导致画面内容信号和视觉连贯性信号产生冲突，常常出现奇怪的形变或错误的人物替换。Prompt Relay的边界注意力衰减则在交接区域让相邻两段的描述都保留一定比例的注意力，平滑过渡，让AI有时间"预判"即将发生的变化，从而生成更自然的场景切换效果。

Q3：Prompt Relay如何保证同一个角色在多个时间段中外观保持一致？

A：Prompt Relay默认每段时间只参考对应的局部文字描述，如果不同段描述不一致，角色外观可能会发生漂移。研究团队的解决方案是在局部提示之外额外提供一段覆盖整个视频的全局提示，用来锚定贯穿所有时间段的角色外貌、场景风格等持久性元素，实验中这一方法被证明可以完全消除这个问题。

视频生成扩散模型推理时控制

分享至