微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

视频"变身"太生硬？特拉维夫大学研究团队教AI学会"匀速变形"

视频生成语义分析节奏控制

视频"变身"太生硬？特拉维夫大学研究团队教AI学会"匀速变形"

作者：科技行者

2026-05-04 16:48

分享至：

这篇来自特拉维夫大学与西蒙弗雷泽大学的论文发表于2026年SIGGRAPH会议，针对AI生成变形视频中普遍存在的"语义节奏不均匀"问题，提出了语义进度函数（SPF）和ReTime两项核心贡献。SPF通过SigLIP语义嵌入模型计算帧间语义距离，拟合出反映视频语义变化速度的一维曲线；ReTime则通过修改视频扩散模型的旋转位置编码（RoPE），在推理阶段无需重新训练即可纠正变化节奏。该框架同样适用于真实拍摄视频，并支持任意目标节奏的自定义调整。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-04 16:48 • 科技行者

这项由特拉维夫大学、西蒙弗雷泽大学联合开展的研究，发表于2026年7月举办的ACM SIGGRAPH Conference Papers会议（会议地点：美国洛杉矶），论文DOI为10.1145/3799902.3811049，论文编号arXiv:2604.22554。

你有没有看过那种"变形"视频——一朵玫瑰慢慢变成一只蝴蝶，或者一只猫逐渐蜕变成一头狮子？这类视频在短视频平台、影视特效乃至广告制作中越来越常见。AI生成工具的进步让创作者能够轻松生成这样的"变身"片段，看起来很美好，但实际体验却经常让人皱眉：视频前半段什么都没发生，猫还是猫，然后在某两帧之间，突然就变成了狮子。整个过程就好像一辆汽车在高速公路上一直停着，突然猛踩油门冲出去，既突兀又不舒服。

这个问题长期以来没有被认真对待，因为大家虽然感觉"不对劲"，却没有办法把这种感觉量化出来。你怎么衡量一段视频的"变化节奏均不均匀"？这正是这篇论文要解决的核心问题。研究团队提出了一种名为"语义进度函数"（Semantic Progress Function，简称SPF）的工具，以及基于它的"ReTime"方法，用来分析并纠正视频变化节奏不均匀的问题。

这项研究的价值不仅仅在于让视频看起来更好看，更在于它提供了一把尺子——一把专门用来衡量"视频语义变化速度"的尺子。有了这把尺子，研究者可以客观比较不同AI模型生成的视频质量，创作者可以精准控制变形过程的节奏，而观众则能获得更流畅、更舒适的观看体验。

一、那辆"忽停忽冲"的汽车究竟出了什么问题

要理解这项研究解决的是什么问题，可以把一段变形视频想象成一段从A城开往B城的公路旅程。理想情况下，这辆车应该匀速行驶，每经过相同的时间，就前进相同的距离，让乘客感觉平稳舒适。但现实中，AI生成的变形视频往往不是这样。这辆"AI之车"会在路上磨磨蹭蹭地走很长一段，然后突然疾速冲刺一段，再磨磨蹭蹭……整段旅程充满了猛烈的加速和减速。

论文开篇给出的那个例子非常形象：一个由视频模型生成的"从珠子变成蜜蜂"的视频，珠子在前半段几乎纹丝不动，然后在很短的几帧内骤然变成了蜜蜂。这就是所谓的"语义跳跃"——视频内容在语义层面（也就是"看起来是什么东西"这个层面）发生了突兀的剧烈变化。

这种现象广泛存在于当前主流的视频生成模型中，无论是用于电影特效的工具，还是用于艺术创作的商业软件。问题的根源在于，这些模型在生成视频时，并没有任何机制来约束"每一帧相较于前一帧，内容变化了多少"。模型只知道视频的开头应该是什么，结尾应该是什么，中间怎么过渡则完全凭"感觉"，结果往往是前松后紧或者前紧后松。

更麻烦的是，在这篇论文之前，根本没有一个工具可以量化这种不均匀性。研究人员感知到问题的存在，但缺乏一个"测量仪"来告诉你：这个视频在第37帧到第42帧之间发生了多大的语义跳跃？这个问题恰恰是论文的出发点。

二、给视频装上一个"语义速度表"

研究团队设计的"语义进度函数"，本质上就是给视频安装了一个速度表，只不过这个速度表衡量的不是车速，而是视频内容在"意义"层面的变化速度。

具体来说，这个速度表是这样运作的。研究团队首先借助一个已经经过大量训练的AI图像理解模型——SigLIP，将视频中的每一帧图像转换成一个数字向量（可以理解为一串数字，代表这帧图像的"语义指纹"）。两帧图像的语义指纹越相似，它们的语义距离就越小；两帧图像差异越大，语义距离就越大。这就好比用DNA指纹来鉴别两个物种有多近的亲缘关系——SigLIP给每帧图像测出一个"语义DNA"。

之所以选择SigLIP而非其他模型，是因为研究团队通过对比实验发现，SigLIP在捕捉细粒度语义变化方面表现最佳。举个例子，在实验中有一段视频记录了一个人慢慢变得愤怒的过程，SigLIP能够检测到"愤怒情绪开始出现"这个细微的语义节点，而其他模型（如OpenCLIP、DINO）以及最简单的像素级差异测量方法（L2距离），都无法捕捉到这种细节，只能感知到比较明显的外观变化。这个对比直接说明了为什么衡量"语义变化"需要专门的AI理解模型，而不能简单看像素有没有动。

有了每对帧之间的语义距离之后，研究团队用一套数学方法（带权重的最小二乘优化）把这些散乱的距离数据整合成一条平滑的曲线。这条曲线就是语义进度函数。横轴是帧的编号（时间轴），纵轴代表累积的语义变化量。如果这条曲线是一条直线，说明视频以匀速变化；如果曲线在某段骤然陡峭，说明那段时间语义变化很急剧；如果曲线在某段几乎水平，说明那段时间视频内容几乎没有变化。

在权重设计上，研究团队做了一个很有意思的决定：时间上相邻的帧对之间的约束权重更高，时间上相距较远的帧对之间的约束权重更低。这样做的原因是，相邻帧之间的变化更能反映"局部的语义速度"，而跨度太大的帧对比则容易受到干扰。距离超过30帧的帧对甚至被直接排除在计算之外，这既节省了计算资源，又让得到的曲线更能反映视频的局部节奏变化。

三、从"量化问题"到"修复问题"：ReTime方法的诞生

有了语义进度函数这把尺子之后，研究团队发现它不仅能用来诊断问题，还能直接用来解决问题。他们提出的"ReTime"方法，核心思想是：既然原始视频的语义变化速度是不均匀的，那就重新生成一遍视频，但这次在生成过程中告诉模型"时间要重新分配"。

这个"时间重新分配"的过程，可以用一个音乐剪辑的比喻来理解。假设你有一首歌的原始录音，前半段演奏得太慢，后半段突然加速。你现在要把它重新处理，让整首歌的节奏均匀。一个方法是直接对原始录音做音频处理，但这样效果往往很差，会有明显的拼接感。更好的方法是重新让乐手按照新的节奏演奏一遍——这就是ReTime的做法。

具体而言，ReTime利用了现代视频生成模型（如Wan2.2和LTX-2）的一个内部机制：旋转位置编码（RoPE）。这个机制负责告诉模型"这帧是视频的第几帧"。在正常生成时，第1帧就告诉模型"这是第1帧"，第2帧告诉模型"这是第2帧"，以此类推，时间是均匀的。ReTime的做法是：根据语义进度函数计算出需要怎样重新分配时间，然后修改这些位置编码，告诉模型一些扭曲过的时间信息。

举个直观的例子。原始视频在第1到第50帧几乎没有语义变化，在第51到第60帧急剧变化。语义进度函数告诉我们，前50帧只完成了整体变化量的10%，而后10帧完成了剩下的90%。要让变化均匀，我们需要重新生成视频时，把原本属于1%~90%这段语义变化分配给视频的前90帧，把90%~100%这段变化压缩到最后10帧。通过修改位置编码，ReTime就实现了这种时间上的"重新分配"。

四、高频和低频的微妙平衡

然而，研究团队很快发现，如果对所有的位置编码都进行同等程度的扭曲，生成出来的视频会出现问题。视频里会有局部的抖动和不自然感，仿佛是一段录像被错误地拉伸了某些部分。

这个问题的根源在于，视频的位置编码不是单一的，而是由多个频率分量叠加而成的。低频分量负责编码视频的整体结构和全局变化趋势，高频分量负责编码局部的细节和短时动态。如果把这个类比成一幅地图，低频分量相当于省级行政区划的大框架，高频分量相当于街道和建筑物的细节。

研究团队的解决方案是"频率感知扭曲"：对低频分量进行强烈的扭曲（因为全局节奏需要被修正），对高频分量只进行轻微的扭曲（因为局部细节不应该被过度改动）。具体实现上，每个频率带的扭曲强度按照指数衰减的规律从低到高频递减。这个设计背后的直觉是：你需要大幅调整全局的叙事节奏，但不需要也不应该干扰每一个细节动作的自然流畅性。

通过消融实验（也就是逐一测试不同方案的效果），研究团队验证了这个频率感知设计的必要性。如果对所有频率做同等扭曲，视频会出现不自然的抖动；如果只扭曲低频而完全不动高频，全局节奏的修正效果又不够显著。只有按照指数衰减的方式分配各频率的扭曲强度，才能得到既全局节奏均匀、又局部流畅自然的结果。

五、扩散过程的早晚也有讲究

研究团队还发现了另一个值得关注的细节：在视频生成的过程中，AI模型是从噪声开始，一步步"降噪"出视频内容的。这个过程早期主要确定视频的大结构，后期才填充细节。基于这个特性，研究团队设计了一个随时间衰减的调制机制。

简单来说，在降噪过程的早期（也就是视频整体结构还在形成阶段），施加较强的时间扭曲，强迫模型在全局层面按照目标节奏来构建内容。而在降噪过程的后期（细节填充阶段），逐渐减弱扭曲力度，让模型自然地生成局部细节，避免生硬干预导致的质量下降。这就好比一个雕塑家，在粗雕阶段就按照目标比例塑形，但在精雕细节阶段则不再强行约束，而是顺着材料的纹理自然雕刻。

此外，单次扭曲往往不足以完全解决节奏不均匀的问题，因为模型有自己的"惯性"，不会完全顺着输入的位置信息走。研究团队因此设计了一个迭代细化方案：先生成一遍视频，测量生成结果的语义进度函数，看离理想的直线还差多远，然后调整位置编码，再生成一遍，再测量……如此循环。实验表明，三次迭代就足以让视频的语义进度接近理想的匀速直线。

六、当AI管不住生成过程时：对已有视频的重构

上面介绍的方法适用于"你可以控制视频生成模型"的场景。但现实中，很多视频来自闭源商业模型，你根本没法修改它的内部机制；还有很多视频来自真实拍摄，根本没有所谓的"生成模型"。面对这类情况，研究团队提供了第二套解决方案：对现有视频进行重构。

这套方案的思路是，先用语义进度函数分析视频，找出语义变化速度突变的节点，把视频切分成若干段，每段内部的语义变化速度相对均匀。然后，把每段的首帧和尾帧提取出来，作为关键帧输入给视频生成模型，让模型重新生成这一段的中间过程，并根据语义变化量来分配每段的时长（语义变化大的段分配更多时长，变化小的段分配更少时长）。最后，把重新生成的各段拼接在一起，就得到了节奏均匀的版本。

论文中以美剧《怪奇物语》第四季中的一段变身场景为例展示了这个效果。原版视频中，因为一道闪电打来，人物的变身过程被一个极强的光影变化所掩盖，看起来像是突然变身，而非逐渐蜕变。经过研究团队的方法处理后，重构的视频把这段语义变化均匀分摊到整个片段，背景元素的缓慢生长和人物形态的渐进蜕变都清晰可见，视觉体验远比原版流畅。

这套方案的另一个优势在于，它对使用的视频生成模型没有特定要求。只要模型能够接受"首帧+尾帧"作为条件输入，或者能够接受一组有序关键帧作为输入，就可以被整合进这套流程中。研究团队分别用Wan2.2和LTX-2两个不同架构的模型验证了这一点，两者都取得了良好效果，说明这个框架的适用性确实很广。

七、不只是"匀速"——任意节奏都可定制

研究团队还顺便展示了一个有趣的扩展能力：语义进度函数不仅可以被用来"线性化"视频（让变化匀速），还可以被用来把视频调整成任意目标节奏。

研究团队用一段日出视频演示了这个能力。他们设定了两种目标节奏：一种是"先快后慢"的指数衰减曲线，一种是"先慢后快"的指数增长曲线。通过ReTime，他们成功把同一段视频改成了两个截然不同的版本：一个版本里太阳快速跃出地平线然后缓缓升高，另一个版本里太阳缓缓出现然后骤然高升。整个调整过程只需要指定目标节奏曲线，无需任何手工标注。

这个能力在影视创作中有很实际的应用价值。比如一个导演想要某个变形镜头"先从容后惊心"，或者一个广告创作者想要产品的"变身"过程在关键时刻特别突出，都可以通过这种方式精确实现，而不再依赖剪辑师的手感或者反复重拍。

八、用数字验证：量化评估与用户研究

研究团队对方法的有效性进行了多层次的量化验证。

首先是合成实验验证。研究团队设计了一个非常干净的测试场景：让一个三维模型（Keenan的斑点狗模型，一个计算机图形学领域常用的标准测试物体）在纯白背景上以不同速度旋转——匀速旋转、加速旋转、减速旋转。由于场景极其简单，语义进度函数的变化几乎完全由旋转速度决定。实验结果显示，语义进度函数计算出的曲线与真实的旋转角度曲线高度吻合，准确捕捉到了三种旋转速度模式。这验证了语义进度函数确实在追踪"内容变化的节奏"，而不是在测量其他什么东西。

其次是视频质量保持验证。研究团队对128个分别由Wan2.2和LTX-2生成的视频进行了处理，并用VBench这一标准视频质量评测工具对原始版本和ReTime处理后的版本进行了对比。评测指标涵盖美学质量、动作流畅度和时间一致性三个维度。结果显示，处理前后的视频在所有指标上的差异都在一个标准差以内，说明ReTime在修正语义节奏的同时，没有显著损害视频的整体质量。

最后是用户研究。真实用户的主观感受才是最终裁判。研究团队进行了一项主观评测，让参与者在原始视频和ReTime处理后的视频之间做选择。结果显示，88%的参与者认为ReTime处理后的版本在语义节奏上更为均匀和流畅，同时视觉质量也得到了维持。这个数字直接说明了方法的实际感知效果。

九、这项研究的边界与未来方向

任何方法都有它的适用范围和局限，这篇论文的作者也坦率地讨论了这些问题。

当前方法的主要局限在于，语义进度函数依赖的是逐帧的图像语义嵌入，而图像嵌入对视频内容的理解是以帧为单位的，不感知时序上的动态信息。这意味着，当视频中存在剧烈的摄像机运动（比如快速平移或旋转）、强烈的光影变化（比如突然的强光照射），或者大面积的非语义性外观变化时，语义进度函数可能会把这些感知上的变化误判为语义内容的变化，从而导致不准确的节奏分析。如何把真正的语义变化和这些"假变化"区分开来，是一个有待解决的挑战。

另一个局限在于迭代细化的次数。研究表明三次迭代足够，但随着迭代次数增加，时间位置编码会逐渐偏离模型训练时所使用的分布，可能导致视频质量退化。因此，迭代次数不能无限增加，这在某些极端情况下可能限制纠正效果的上限。

研究团队提出了几个有价值的未来研究方向。引入能够感知动态信息的时序嵌入（而非纯静态的图像嵌入）可能有助于区分语义变化和运动变化。将语义进度函数扩展为多维度的函数——比如同时追踪"身份变化速度"、"风格变化速度"和"几何变化速度"——将允许对视频变化过程进行更精细的控制。此外，这套框架还可以被应用于视频生成模型的基准测试，让研究者客观比较不同模型在"语义变化均匀性"这个维度上的表现。均匀节奏的变形视频数据还可以作为训练数据，用来训练能够精确控制"变化强度"的新一代生成模型。

说到底，这项研究做的事情看似小众，但触及了一个非常普遍的问题：当AI帮你"讲一个变化的故事"时，它默认讲得节奏很差。这篇论文提供了一个清晰的诊断工具和一套可操作的修复方案，让AI生成的视频变化过程能够被有意识地控制和调整，而不再完全听凭模型的随机发挥。对于视频创作者、影视工作者乃至对AI生成内容质量感兴趣的研究者来说，这都是一个值得关注的进展。有兴趣深入研究的读者，可以通过DOI:10.1145/3799902.3811049或arXiv编号2604.22554查阅完整论文。

Q&A

Q1：语义进度函数（SPF）到底衡量的是什么，跟普通的视频帧差异有什么区别？

A：语义进度函数衡量的是视频内容在"意义"层面的累积变化量，而不是像素级别的视觉差异。普通的帧差异可能因为一阵风吹过、一道闪光或者镜头晃动而剧烈波动，却完全没有语义上的实质变化。SPF借助SigLIP这类语义理解模型，提取每帧的语义指纹，再计算这些指纹之间的语义距离，因此能区分"看起来有变化"和"内容本质上在变化"，这是它与简单像素差异最根本的不同。

Q2：ReTime方法需要重新训练视频生成模型吗？

A：不需要重新训练模型。ReTime是在模型推理（生成）阶段进行干预的，具体方式是修改模型内部用来表示时间位置的编码信息（RoPE），让模型以为时间的流逝速度是经过重新分配的，从而生成节奏更均匀的视频。整个过程不改变模型的任何参数，也不需要额外的训练数据或微调过程。

Q3：对于来自真实拍摄或闭源AI工具生成的视频，这套方法还能用吗？

A：可以使用，但走的是另一条路径。对于无法介入生成过程的视频，研究团队提供了"分段重构"方案：先用SPF分析视频找到语义节奏突变点，把视频切成若干段，再把每段的首尾关键帧输入给任意一个支持首末帧条件生成的视频模型，重新生成中间过渡内容，最后按语义变化量分配各段时长并拼合。这条路径对具体使用哪个视频模型没有限制，适用范围很广。

视频生成语义分析节奏控制

分享至