这项引人注目的研究来自上海交通大学计算机科学与工程系、人工智能学院以及人工智能教育部重点实验室的研究团队,由张向东、廖佳琦、张少峰、孟繁青、万向鹏、严骏驰和香港中文大学的程禹共同完成。这篇题为《VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models》(VideoREPA:通过与基础模型的关系对齐学习视频生成的物理知识)的论文于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23656v1),展示了一种提升AI生成视频物理合理性的全新方法。
想象一下,你正在使用一个AI工具生成一段关于"棒球手套接住一个硬棒球"的视频。在传统的文本到视频(T2V)模型中,你可能会得到一个看似真实但物理上不合理的结果——比如手套碰到棒球后,棒球却诡异地穿过手套继续飞行,或者棒球触碰手套时没有任何动量变化。这种不符合物理常识的现象在当前最先进的文本到视频生成模型中相当普遍。
上海交大团队的研究人员发现了一个有趣的现象:虽然视频生成模型对物理规律的理解有限,但自监督学习的视频理解模型(如VideoMAEv2)却对物理现象有着更深入的理解。这就像一个会讲故事的人(生成模型)和一个观察细致的人(理解模型)之间的差距——后者能更好地理解物体如何在现实世界中运动和交互。
基于这一发现,研究团队提出了一个巧妙的想法:能否让"会讲故事"的模型向"观察细致"的模型学习,从而生成更符合物理常识的视频?这就是VideoREPA(Video Representation Alignment through Physics Awareness)的核心思想。
一、什么是VideoREPA?为何物理常识对视频生成如此重要?
在我们的日常生活中,当我们看到一个球从高处落下,我们自然而然地期待它会因重力而加速下落,而不是悬浮在空中或以匀速降落。我们对物理世界的这种直观理解来自于长期的生活经验,这种理解让我们能够预测物体的运动和交互方式。然而,当前的AI视频生成模型并没有这种与生俱来的物理常识。
上海交大团队首先通过对比实验证实了一个重要差距:尽管CogVideoX(一个拥有20亿参数的视频生成模型)能够生成高质量的视频内容,但它在物理理解方面远远落后于VideoMAEv2(一个仅有8600万参数的自监督视频理解模型)。在Physion基准测试中(这是一个专门用于评估物理理解能力的测试集),这种差距尤为明显。
传统上,提升视频生成模型物理合理性的方法主要有两类:基于模拟的方法和非模拟方法。基于模拟的方法通常需要引入外部物理模拟器来指导生成过程,但这些方法受限于模拟器的复杂性和难以模拟多样化的开放域现象。非模拟方法则相对较少被探索,其中的WISA方法通过将文本描述分解为物理现象并使用"物理专家混合注意力"机制来提高生成质量,但它在开放域数据上的泛化能力有限。
二、VideoREPA如何工作?从理解到生成的知识桥梁
想象一下,你正在教一个讲故事的朋友如何更准确地描述物理现象。你不会直接告诉他"重力加速度是9.8米每秒平方"这样的专业知识,而是会指导他注意物体之间的关系和变化——"当球落下时,它会越来越快","当手接住球时,球会停止移动"等。这正是VideoREPA的工作方式。
VideoREPA的核心创新在于提出了一种称为"令牌关系蒸馏"(Token Relation Distillation,TRD)的损失函数。这个特殊的损失函数不是简单地让视频生成模型直接模仿视频理解模型的特征表示(这样做会破坏预训练模型已有的知识结构),而是让生成模型学习令牌之间的关系模式。
具体来说,TRD损失函数关注两个层面的关系:
首先是空间关系,也就是同一帧内不同位置的令牌之间的关系。这有助于模型理解物体的形状、结构和空间位置,确保生成的物体形状合理而不会扭曲或变形。
其次是时间关系,即不同帧之间令牌的关系。这帮助模型理解物体如何随时间变化,如何运动,以及如何与其他物体交互,确保生成的动作符合物理规律。
研究团队将这种方法应用于预训练的CogVideoX模型,创建了VideoREPA。与直接使用表示对齐(REPA)方法相比,VideoREPA解决了几个关键挑战:
第一,它不仅关注空间特征,还特别重视时间动态,这对于视频中的物理合理性至关重要。
第二,它专为微调预训练模型设计,而不是像REPA那样用于加速从头训练。
第三,它采用了更为温和的对齐机制,避免了硬对齐可能导致的预训练模型内部表示破坏。
第四,它巧妙处理了视频扩散模型中的时间压缩问题,确保不同时间粒度的特征可以有效对齐。
三、实验结果:VideoREPA如何改善视频的物理合理性?
为了验证VideoREPA的有效性,研究团队在多个基准测试上进行了全面的评估。他们主要使用了两个专门用于评估视频物理合理性的基准:VideoPhy和VideoPhy2。
在VideoPhy基准测试中,VideoREPA-5B(基于CogVideoX-5B的增强版本)在物理常识(PC)评分上取得了40.1分,相比基线CogVideoX-5B的32.3分提高了24.1%。更值得注意的是,在不同类型的物理交互中,VideoREPA均展现出显著提升:固体-固体交互提升了42.9%,固体-流体交互提升了16.7%,流体-流体交互提升了20.6%。
与专门设计用于增强视频生成物理常识的WISA方法相比,VideoREPA也展现出明显优势。特别是,虽然WISA在专门的物理数据集(WISA-32K)上训练时表现良好,但它在开放域数据集(如Koala-36M)上的泛化能力有限。相比之下,VideoREPA在开放域数据集上的表现明显优于WISA(PC评分40.1 vs. WISA的33)。
在更具挑战性的VideoPhy2基准测试中,VideoREPA同样展现出强大性能,PC评分达到72.54,相比基线CogVideoX的67.97提高了4.57分。
视觉对比结果更加直观地展示了VideoREPA的优势。例如,在"铅笔在桌面上滚动"的场景中,HunyuanVideo和CogVideoX生成的视频中铅笔的运动往往不符合刚体运动规律,而VideoREPA生成的视频则展示了物理上一致且稳定的运动。同样,在"起重机吊起砖块"的例子中,VideoREPA准确表现了起重机在吊起托盘时保持物理连接的过程,而其他方法往往生成砖块不符合物理规律地悬浮在空中而没有任何可见的支撑。
四、技术细节与实现挑战
VideoREPA的实现面临着几个技术挑战,研究团队通过一系列巧妙的设计解决了这些问题。
首先是特征维度不匹配问题。视频生成模型和视频理解模型在编码过程后的时间和空间维度往往不同。高级视频生成模型(如CogVideoX)通常使用具有高时间压缩率的3D VAE(例如4倍或8倍压缩),而视频理解模型(如VideoMAEv2)则使用较低的压缩率(例如2倍)。这导致视频理解模型的特征图在时间上有更大的尺寸,空间尺寸也可能不同。
为了解决这个问题,研究团队采用了将视频生成模型的潜在维度插值到匹配视频理解模型特征的策略。通过实验,他们发现这种方法比其他策略更为有效。
另一个挑战来自计算资源限制,特别是当处理视频理解模型的输入时。视频理解模型通常使用3D全注意力机制,直接输入高分辨率视频(如480x720)或大量帧(如49帧)会消耗巨大的内存资源。为了平衡质量和计算效率,团队探索了三种策略:以统一降低的分辨率处理所有视频帧,以高分辨率处理时间分组的帧子集,以及以高分辨率处理带有空间裁剪的所有帧。经过评估,他们选择了第一种策略,因为它能够以最低的计算资源需求最好地保持视频理解模型预训练表示的整体性质。
五、VideoREPA的意义与未来展望
VideoREPA的成功不仅仅是在技术层面的突破,它代表了一种新的思维方式:通过将理解能力注入生成模型,我们可以显著提高生成内容的质量和真实性。这种方法可能在更广泛的领域产生影响,从视频生成扩展到其他需要特定领域知识的生成任务。
对于普通用户来说,这意味着未来的AI视频生成工具将能够创建更加逼真、符合物理常识的视频内容。例如,当你要求AI生成一个"倒水入杯"的视频时,水流会正确地从高处流向低处,形成符合流体力学的水花和涟漪,而不是像现在一些模型那样生成违反物理规律的奇怪行为。
然而,VideoREPA也有其局限性。尽管它通过微调视频生成模型取得了显著改进,但研究团队尚未验证其在视频生成模型预训练阶段的潜力,主要是由于计算资源限制。未来的研究方向可能包括将VideoREPA纳入视频生成模型的预训练过程,以及开发针对性创新,在这一阶段更有效地注入物理知识。
总的来说,VideoREPA代表了一种有前途的方向,通过桥接视频理解和生成之间的鸿沟,为创建更加真实、符合物理常识的AI生成视频铺平了道路。随着这类研究的深入,我们可以期待未来的AI生成内容将越来越难以与真实世界区分,为创作者和内容消费者带来全新的可能性。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。