在当今科技迅猛发展的时代,视频生成模型取得了令人瞩目的进步,但对于如何使这些模型能够响应更自然的物理交互,比如推动或风吹等真实世界的力量,一直是一个未被深入探索的领域。近日,布朗大学的Nate Gillman、谷歌DeepMind的Charles Herrmann与Deqing Sun,以及布朗大学的Michael Freeman、Daksh Aggarwal、Evan Luo和Chen Sun共同发表了一篇题为《力量提示:视频生成模型可以学习并泛化物理力控制信号》的研究论文。这项研究发表于2025年5月26日的arXiv预印本平台(arXiv:2505.19386v1),为我们展示了一种全新的方式,让视频生成模型能够理解并响应物理力控制。
想象一下,你可以对着屏幕上的一朵花轻轻一戳,它就会像真实世界中那样摇晃;或者你可以对着一面旗帜吹一口气,它就会随风飘动。这正是这项研究要实现的愿景。研究团队提出了一种名为"力量提示"(Force Prompting)的方法,使视频生成模型能够接受两种物理力控制信号:局部点力(比如戳一下植物)和全局风力(比如风吹过布料)。
这项研究的最惊人之处在于,尽管只使用了有限的合成训练数据(仅约15,000个训练示例),视频生成模型却展现出了令人惊讶的泛化能力,能够对各种不同的物体、材料和环境做出物理上合理的反应。更令人印象深刻的是,整个训练过程仅需在四台A100 GPU上运行一天时间,就能达到这样的效果。
一、研究背景与动机
从小时候起,人类就开始发展对物理力的直觉理解:轻轻戳一下植物会使它摇晃,微风会使织物形成波纹状。研究团队提出了一个有趣的问题:通过互联网规模的预训练编码了强大视觉和运动先验知识的视频生成模型,是否也具有类似的直觉物理理解能力?如果有,我们如何才能激发它们对力量输入做出反应的能力?
这些问题的答案将为视频内容创作提供更灵活、更具表现力的界面,使用户能够通过物理力控制进行交互式视频生成(比如生成一个视频游戏),并最终为智能代理提供一个直观的世界模型,用于规划和决策。
二、力量提示的核心原理
力量提示本质上是将物理力作为控制信号引入视频生成模型。研究团队探索了两种截然不同的力量提示类型:
第一种是局部力提示,如瞬时的戳或拉,应用于特定区域。想象你用手指轻轻推动屏幕上的一个物体,比如一朵花或一个玩具车,模型就会生成这个物体受到推力后的运动视频。
第二种是全局力提示,如作用于整个场景的持续定向风力。比如你想象一阵风从左向右吹过,画面中的所有可移动物体——头发、旗帜、树叶等——都会相应地向右摆动。
研究的关键挑战在于获取高质量的力-视频配对训练数据非常困难。在真实世界中,记录力信号本身就很复杂;而在合成数据方面,物理模拟器在视觉质量和领域多样性上都存在局限。
为了解决这个问题,研究团队利用物理模拟器(如Blender)手工制作了完美标注的训练数据。他们指定一系列物体及力条件,然后模拟产生的动态以获得配对的训练视频。研究团队假设,这种从模拟到真实的泛化是可行的,因为最先进的视频生成模型已经编码了关于视觉动态的强大先验知识,而配对的力-视频数据只是起到引导它们理解物理力控制信号的作用。
三、数据集构建与模型训练
研究团队构建了两个独特的数据集,分别用于训练全局力模型和局部力模型。
对于全局风力数据集,他们使用Blender构建了一个旗帜在不同风力条件下飘动的数据集。为了生成多样化的数据,他们随机化了多个参数:旗帜数量(从1到64不等)、旗帜颜色(从100种选择中)、旗帜位置、相机放置、HDRI背景图像(从50个选项中选择)、风向(0到360度)和风速(从0到1,0表示无风,1表示非常强的风)。每个视频捕捉旗帜从静止到受风影响状态的过渡。他们的训练数据集包含15,000个视频。
对于局部力数据集,他们创建了两种场景。第一种场景包含12,000个球体视频,其中一个球被看不见的点力推动而滚动,而其他球保持静止。他们通过Blender生成这些视频,随机化了球的数量(2到4个)、球的纹理(足球或保龄球)、球的颜色、位置、相机位置、地面纹理、目标球选择、力的角度和力的大小。保龄球被设定为足球质量的四倍,目的是教导模型基于质量的动态。第二种场景(11,000个视频)利用PhysDreamer(一种生成-模拟器混合模型)生成被推动后前后摇摆的康乃馨视频。研究团队生成这些视频时随机化了相机位置、接触点、力角度和力大小。
在两个数据集中,研究团队都使用相机参数将3D空间中的力投影到2D像素平面上。这种转换将力向量和物体位置从物理世界坐标系映射到屏幕坐标,使他们能够在图像帧内建模力。他们还使用GPT-4o API为每个HDRI背景和地面纹理生成详细的文本提示,并为所有PhysDreamer康乃馨视频创建了一个共享提示。
四、技术实现与力量编码
由于风力是全局应用的,而点力是局部应用的,研究团队提出了两种不同的力编码策略。
对于全局风力,控制信号由力F∈[0,1]和角度θ∈[0,360)参数化。他们将物理提示表示为一个张量,其中第一通道编码力的大小,第二和第三通道分别编码角度的余弦和正弦值。这定义了一个平滑映射,编码了风力场的角度和大小。
对于局部点力,控制信号不仅包括力的大小F∈[0,1]和角度θ∈[0,360),还包括应用力的像素坐标(x,y)。他们将控制信号表示为一系列帧,其中一个高斯斑点从像素位置(x,y)开始,然后以恒定速度向θ方向移动,总距离与力F成比例。当力最小(F=0)时,总位移是较小的,而当力最大(F=1)时,位移更大。
值得注意的是,这些力提示模型与基于轨迹的视频生成模型(如Zhang等人和Geng等人的工作)有根本区别。在力提示中,高斯斑点作为局部力模型的力指示器通常远离它影响的像素,正如摇摆花朵的复杂振荡运动所示。同样,风力控制信号也不指定哪些点必须移动到哪些位置,因为该控制信号是全局的和因果的。
五、架构与训练
研究团队基于CogVideoX-5B-I2V(Yang等人,2024)构建了力提示模型,这是一个接受文本和初始帧作为条件输入的视频生成模型。该模型以8fps的速度生成49帧视频。为了整合力提示条件,他们添加了一个ControlNet(Zhang等人,2023),该网络输入物理控制提示,通过下采样、编码和时间压缩处理后,通过零卷积与隐藏状态结合。
ControlNet克隆了前六个Transformer层并对它们进行微调,同时保持基础模型的Transformer层冻结。他们在四个80GB A100 GPU集群上训练模型5000步,大约需要一天时间。训练使用每设备1的即时批量大小,两个梯度累积步骤,产生8的有效批量大小。
六、惊人的泛化能力
研究的最关键发现是,尽管训练数据有限且视觉外观合成,视频生成模型确实能够学习执行精细的力提示,并表现出惊人的泛化行为。
局部点力模型仅在球体滚动(线性运动)和植物戳动(复杂运动)场景上训练,但能够泛化到各种不同的运动类别:
1. 线性运动:模型能够对玩具车、直轨上的玩具火车、热气球等施加力,使它们按照预期方向移动。
2. 振荡运动:风车、钟摆、装饰品和秋千等物体在受到力后能够进行自然的振荡运动。
3. 复杂运动:环形轨道上的玩具火车、各种植物(包括常春藤、苹果树和花卉)等,能够根据力的应用展现复杂的运动模式。
全局风力模型仅在旗帜飘动(系绳运动)数据上训练,但能够泛化到不同类型的物理属性:
1. 系绳运动:头发、布料、人身上的衣物、挂在钩子上的纸灯笼等能够随风摆动。
2. 空气动力学运动:气泡、落叶、游泳池中的充气管、漂浮的垃圾、五彩纸屑等在风力下表现出自然的运动。
3. 流体动态:雾、烟、雪、蒸汽等流体现象也能够受到风力影响,展现出逼真的流动模式。
通过人类评估,研究团队证明力提示在遵循物理指令的同时保持了逼真的运动和视觉质量,相比于基于文本的基线模型表现更好。这验证了他们的假设:合成数据可以教导视频生成模型直观物理学和控制,而不损害它们的视频先验知识。
七、质量理解的初步证据
研究团队还发现,他们的力条件模型展示了对质量的某种程度理解,即相同的力会导致较轻的物体比较重的物体移动得更远。
他们设计了一项实验,测量足球和保龄球在受到相同力时的滚动距离。结果证实了两个关键物理原理:对于两种球类型,行进距离都与施加的力线性增加;而且,足球在所有力大小下都比保龄球行进得更远,这表明模型对质量依赖的物理学有直观理解。
他们还对四个具有不同隐含质量的几何相同物体的基准任务进行了质量理解评估:木制与铸铁装饰品、空与装满衣物的洗衣篮、一本、两本或三本书的堆叠,以及单个与双重立方体。结果表明,较轻的物体在受到相同力时确实一致地移动得更远。这种模式在四个随机种子上保持稳健,表明力提示模型中出现了对质量依赖物理学的初步理解。
八、数据设计选择对泛化的影响
研究团队还探索了合成数据集设计选择如何影响模型泛化。他们发现,对于局部点力任务,移除场景中的"干扰球"(即保留只有一个受点力影响的球)会显著降低力的定位能力。没有干扰球,模型会表现出不良行为:戳一个热气球时,所有气球都会轻微移动;戳玻璃花瓶中的玫瑰花时,玫瑰和花瓶会一起移动,无法隔离力的施加。
对于全局风力任务,他们评估了两个多样性因素:旗帜数量和背景多样性。他们发现,使用单一背景训练会导致模型遵循力物理学,但经常无法区分前景和背景,降低视觉质量。同样,当场景仅限于包含一面旗帜而不是可变数量(1到64面)时,模型成功建模了布料力学,但无法泛化到其他材料。在这些情况下,篝火的烟雾不受风影响,五彩纸屑要么不响应要么不自然地悬浮,气泡不响应风,而人体四肢不正确地像布料一样飘动。
九、文本提示特异性的重要性
研究团队还调查了文本提示中的特异性如何影响模型输出。他们进行了一项2×2网格搜索消融研究,训练和测试他们的风模型时使用或不使用风相关关键词(风/微风/吹)。结果表明,在训练过程中省略这些关键词会显著增加基准数据集中的失败案例——雾保持静止,灯笼意外倒塌,蒸汽无故出现。相比之下,使用特定于风的术语训练的模型展示了对多样化风场景的更好泛化能力。
有趣的是,这些关键词在推理过程中的存在比在训练过程中的影响要小,尽管使用风术语通常会产生更稳健的结果。
十、研究的局限性与失败案例
尽管成功,研究也存在一些局限性。力提示模型展示了相关性问题——例如,在头发吹动场景中,面部有时会根据风向重新定向,这可能反映了训练数据中的模式,即头发通常向后吹动。该方法受到底层视频先验的物理理解能力的根本限制;研究团队专注于控制现有物理能力,而非改进模型的物理理解。
研究还发现了一些失败案例,比如当基础模型的物理学超出领域时(如尝试滚动非球形物体),或当视频先验与力提示的意图冲突时(如摇椅移动方向正确,但基础视频模型难以区分前景和背景物体)。
十一、结论与未来方向
这项研究介绍了力提示,使用户能够通过物理上有意义的控制与生成视频模型交互,包括局部点力和全局风力效果。研究表明,视频生成模型可以成功学习响应基于力的条件,从有限的合成训练数据中进行广泛泛化,而在推理时不需要物理模拟器。
这些结果表明了一个有希望的方向,可以开发响应自然物理交互的直观世界模型,潜在应用于创意内容生成和具身AI规划。研究团队已在项目页面https://force-prompting.github.io/上发布了所有数据集、代码和模型。
这项工作不仅展示了视频生成模型的潜力,也为我们提供了一种新的交互方式,使数字内容创作更接近真实世界的物理交互体验。通过简单的物理力输入,我们可以让虚拟物体以自然、直观的方式响应,就像它们在现实世界中那样,这为增强现实、虚拟现实和交互式媒体创造了新的可能性。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。