近日,以色列特拉维夫大学计算机科学学院的研究团队发表了一项关于提升视频生成质量的创新研究。这篇名为《FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation》的论文由Ariel Shaulov、Itay Hazan(两位为共同第一作者)、Lior Wolf和Hila Chefer共同完成,于2025年6月1日发表在arXiv预印本平台(arXiv:2506.01144v1)。
解决AI视频生成的"动作不连贯"难题
想象一下,你用AI生成了一段海豚跃出海面的视频,但仔细观察后发现,海豚的身体在不同帧之间突然变形、消失或出现额外的鳍。又或者你生成了一位跳舞的芭蕾舞演员,但她的手臂在视频中突然多出了一条。这些问题在当前的文本到视频(Text-to-Video,简称T2V)生成模型中非常普遍,被称为"时序不连贯性"问题。
特拉维夫大学的研究团队将这种现象描述为:"目前的文本到视频模型在捕捉现实世界的时序动态方面仍然存在明显局限,生成的视频经常出现物体突然出现或消失、肢体重复或缺失,以及运动不连续等时序问题。"
现有解决这类问题的方法通常需要重新训练模型、引入外部运动信号(如光流或像素轨迹)或设计复杂的专用架构。这些方法要么需要大量计算资源和训练数据,要么需要额外的输入条件,限制了其灵活性和普适性。
FlowMo:让AI视频"动"得更自然
研究团队提出了一种全新的方法——FlowMo,它无需重新训练模型或引入外部信号,仅通过模型在生成过程中的内部表示就能显著改善视频的运动连贯性。这就像是一位经验丰富的电影导演,不需要重新拍摄整部电影或使用额外的特效设备,仅通过对现有素材的巧妙剪辑就能让动作场景更加流畅自然。
FlowMo的核心理念基于一个简单而深刻的观察:当物体运动连贯时,其空间位置的变化应该是平滑渐进的,而非突兀的。用日常生活打个比方,如果你观察一个人走路,他的每一步都是前一步的自然延续,不会突然从地面跳到半空中。
具体来说,研究团队发现,在视频的每个空间位置(称为"块"或"patch")上,如果测量其随时间变化的方差,那么运动连贯的视频会显示较低的方差,而不连贯的视频则显示较高的方差。这就像是测量心率的波动——平稳的心率意味着身体状态稳定,而剧烈波动则可能表示存在问题。
技术创新:从模型内部提取时序信号
FlowMo的核心技术创新在于,它能够从预训练模型的内部表示中提取有意义的时序信号,无需任何外部输入或额外训练。
研究团队首先需要解决的一个关键挑战是,如何从模型的潜在表示中分离出与运动相关的信息,而不受外观信息的干扰。就像从一段包含人物对话的视频中分离出人物的动作信息,而不受人物外表、服装或背景场景的影响一样。
为此,研究者设计了一个"去偏置"操作,通过计算连续帧之间潜在表示的差异来突出时序结构。这种方法类似于计算两张照片之间的差异,以突显物体的移动轨迹,而忽略静态的背景信息。
研究团队通过一系列定性和定量实验验证了这一方法的有效性。他们收集了一组具有明显运动的生成视频,将它们分为连贯和不连贯两类,然后计算基于时序方差的指标。结果显示,高时序方差与运动不连贯之间存在明显相关性,证实了这一指标可以可靠地估计视频的连贯性。
更有趣的是,研究者还发现,在视频生成过程中,粗略的外观特征(如场景布局和空间结构)在非常早期的去噪步骤中就已确定,而时序信息则主要在中期去噪步骤中形成。这就像建造一座房子,首先确定地基和整体框架,然后才添加门窗和内部结构。
FlowMo算法:引导AI创造更连贯的运动
基于上述发现,研究团队开发了FlowMo算法,它在视频生成过程中的特定时间点动态地引导模型生成更连贯的运动。
算法工作原理可以简单理解为三个步骤:
首先,在选定的生成时间步骤中,计算每个空间块在时间维度上的最大方差。这就像找出视频中最"不稳定"的区域,例如一个角色的手臂突然消失又出现的位置。
然后,优化模型的预测,减少这些高方差区域,鼓励更平滑、更连贯的运动。这相当于让模型重新考虑如何让这些不稳定区域的变化更加自然。
最后,这种优化在整个生成过程中迭代应用,影响视频的粗略和精细动态特征。就像一位画家,先勾勒出大致轮廓,然后逐步完善细节。
重要的是,FlowMo只在视频生成的前12个时间步骤中应用,因为研究表明这些步骤负责确定粗略的运动和结构。这种有针对性的干预使FlowMo能够高效地改善视频质量,而不会过度干扰生成过程。
实验结果:显著提升的视频质量
研究团队在两个最流行的开源模型上测试了FlowMo:Wan2.1-1.3B和CogVideoX-5B。通过一系列评估指标,包括VBench基准测试和人工评估,研究者评估了FlowMo对运动质量、整体视频质量和文本对齐的影响。
结果令人印象深刻。在人类评估中,FlowMo生成的视频在所有评估标准上都获得了显著的偏好提升。具体来说,对于运动连贯性,FlowMo在Wan2.1上获得了44.3%的胜率(相比基线的16.2%),在CogVideoX上获得了43.0%的胜率(相比基线的17.6%)。
在美学质量方面,FlowMo也显示出明显优势,在Wan2.1上获得31.1%的偏好率(基线为14.0%),在CogVideoX上获得31.7%的偏好率(基线为17.1%)。
自动评估指标也证实了这些发现。FlowMo显著提高了综合得分(Final Score),Wan2.1提高了6.2%,CogVideoX提高了5.26%。特别是,FlowMo在运动平滑度(Motion Smoothness)上取得了明显改善,Wan2.1提高了2.13%,CogVideoX提高了2.28%。
视觉上,FlowMo修复了严重的时序问题,如额外肢体的出现(如图中的女性示例)、物体的消失和出现(如火烈鸟示例),以及物体变形(如海豚和鹿的示例)。
技术解析:FlowMo的工作原理
从技术角度详细解析,FlowMo是如何在流匹配(Flow Matching)框架下工作的。流匹配是一种用于生成模型的目标函数,在变分自编码器(VAE)潜在空间中操作以提高效率。
在每个生成步骤中,FlowMo首先获取模型预测uθ,t,这是速度vt的估计。然后,它使用去偏置操作Δ计算连续帧之间的l1距离,消除共同的外观信息。接下来,它计算每个空间块在时间维度上的方差σ?,并使用最大方差作为优化目标。
关键的技术创新在于,FlowMo通过优化输入潜在变量zti来影响生成的视频,而不是直接修改模型权重。这允许优化修改生成视频中的低级特征,包括粗略运动,同时保持模型的整体能力。
研究团队还进行了消融研究,验证了FlowMo的各个设计选择的有效性。例如,用平均值替代最大值会显著减弱优化效果,移除去偏置操作也会产生类似效果。此外,在所有扩散步骤中应用FlowMo会引入伪影,表明有针对性地在特定步骤应用FlowMo是必要的。
局限性与未来方向
尽管FlowMo显著改善了生成视频的质量,但它仍有一些局限性。首先,由于计算和传播梯度的需要,FlowMo会增加推理时间。平均而言,使用FlowMo生成视频需要234.30秒,而不使用它则需要99.27秒,相当于2.39倍的增加。研究团队指出,这种开销可以通过将FlowMo整合到训练阶段来减轻,从而消除在推理时进行基于梯度的优化的需要。
其次,由于FlowMo不修改模型权重,它受到预训练模型学习能力的限制。虽然它可以改善模型预测的运动连贯性,但它无法合成模型尚未学会表示的运动类型。研究团队认为,这一限制可以通过在训练过程中加入基于模型内部表示的运动目标来解决,从而鼓励生成模型中更丰富的时序理解。
结论:从内部寻找时序连贯性的解决方案
这项研究的核心贡献在于,它证明了我们可以从预训练模型自身学到的表示中提取有意义的时序信息,而不需要依赖外部信号、额外数据或专门的架构。通过仔细分析文本到视频扩散模型学习的语义潜在空间,研究者发现它隐含地编码了有价值的时序信息。
具体来说,帧对之间在这个潜在空间中的距离与直观的时序伪影度量(如块间时序方差)相关。基于这些见解,FlowMo实现了一种推理时引导方法,鼓励潜在空间中更平滑的过渡,这映射到像素空间中更平滑的行为,显著提升了运动连贯性,同时保留甚至改善了生成的其他方面。
研究团队希望这项工作能激发更多探索语义潜在空间的时序特性的兴趣,并鼓励开发通过内部而非外部寻找解决方案的方法,从而提高时序连贯性。
对于对该研究感兴趣的读者,完整论文可在arXiv上获取(arXiv:2506.01144v1),项目页面为https://arielshaulov.github.io/FlowMo/。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。