微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

卡内基梅隆大学联手NEC实验室：让AI视频生成模型真正"懂物理"的新方法

视频生成ControlNet物理属性控制

卡内基梅隆大学联手NEC实验室：让AI视频生成模型真正"懂物理"的新方法

作者：科技行者

2026-05-07 13:35

分享至：

这篇来自卡内基梅隆大学、NEC美国实验室和加州大学圣地亚哥分校的研究（arXiv:2604.28169，2026年4月）提出了PhyCo框架，旨在解决AI视频生成模型普遍存在的物理一致性问题。研究团队构建了超过10万个仿真视频数据集，涵盖摩擦、弹性、形变和外力四类物理属性，并通过ControlNet精调和视觉语言模型引导的奖励优化两阶段训练，使模型能够在不使用物理引擎的情况下，生成可精确控制物理行为的视频，在Physics-IQ基准测试上显著超越现有方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-07 13:35 • 科技行者

这项由卡内基梅隆大学、NEC美国实验室以及加州大学圣地亚哥分校联合开展的研究，以预印本形式发表于2026年4月30日，论文编号为arXiv:2604.28169，感兴趣的读者可通过该编号查阅完整原文。

**被物理法则"抛弃"的AI视频**

你有没有看过某些AI生成的视频，感觉哪里不对劲？一颗球砸到地板上，却没有任何弹跳；一块冰在阳光下"漂浮"而不是融化；或者一辆玩具车被推了一把，却莫名其妙地飘向了错误的方向。这种违和感，源于现代AI视频生成模型的一个顽固短板——它们对物理世界的理解，还停留在"表面功夫"阶段。

这些模型擅长生成漂亮的画面、流畅的光影，却常常忽视一个最基本的事实：物体在现实世界中的运动，受到摩擦力、弹性、形变和外力的严格约束。一块涂了润滑油的冰块和一块粗糙的橡皮，在同样的力推动下，运动方式截然不同。但对大多数AI视频模型来说，这两者几乎毫无区别。

正是为了解决这个问题，来自卡内基梅隆大学、NEC美国实验室和加州大学圣地亚哥分校的研究团队，提出了一套名为**PhyCo**（发音类似"菲克"）的新框架。这套方案的核心目标，是让视频生成模型真正"读懂"物理属性，并能根据用户指定的物理参数，生成符合现实规律的运动视频——而且完全不需要在生成时运行任何物理模拟器。

**一、为什么已有的方法还不够好**

在讨论PhyCo的具体做法之前，有必要先理解这个领域的现有方案，以及它们各自的局限所在。

此前的研究者们大致走了两条路。第一条路是"直接插入物理引擎"：让AI视频生成模型和真实的物理模拟器绑定在一起使用。比如有一种叫PhysGen的方法，会在生成视频之前先用一个2D物理引擎算出物体的运动轨迹，再让扩散模型按照这条轨迹"绘制"画面。还有一种叫WonderPlay的方法，借助了一种叫"物质点法"的高级模拟技术，把虚拟物体的物理行为算得相当精确。

这类方法的问题在于，它们过于依赖"预先重建"：你得先把场景的三维几何结构搞清楚，或者提前定义好材质属性，才能让物理引擎运转起来。这就好像你想看一部电影，却得先把片场里所有道具的重量、材质全部测量一遍，才能开机拍摄——显然不够实用，更难以扩展到真实世界的复杂场景。

第二条路是"语言和轨迹引导"：用自然语言或运动轨迹来间接提示模型生成符合物理规律的视频。比如有一种叫VLIPP的方法，让视觉语言模型（一种能同时理解图像和文字的AI）先规划出物体的大致运动路径，再将这个路径作为提示传给视频生成模型。还有一种叫ForcePrompting的方法，专门针对"力"这一个物理属性进行了训练，让模型能够根据力的方向生成对应的运动视频。

这条路虽然不需要物理引擎，但控制粒度太粗——你能指定"往右推"，但无法同时控制这个物体有多滑、弹性有多强、形变程度如何。正如烹饪时你只能告诉厨师"做咸一点"，却无法同时精确指定盐的分量、烹饪时间和火候大小。

PhyCo选择了一条不同的路：既不依赖推理时的物理引擎，也不局限于单一的物理属性，而是让模型在训练阶段就"内化"多种物理规律，并通过一种叫"物理属性图"的输入方式，实现对摩擦力、弹性系数、形变程度和外力四个核心属性的同时控制。

**二、打造一个"物理学习操场"：100K仿真视频数据集**

要让一个AI模型学会物理，最直接的方式就是给它看大量"物理行为清晰可辨"的视频，并告诉它每段视频背后的物理参数是什么。

但这件事说起来简单，做起来却充满挑战。研究团队发现，仿真数据必须同时满足两个条件才真正有用：第一，视频里的物理行为必须清晰、无歧义地体现目标物理属性；第二，场景本身不能太复杂，否则现有的视频生成模型根本学不会。举个例子，如果你用一个十几个球同时乱飞的复杂撞球场景来训练模型，模型可能会被各种干扰因素搞混，根本无法建立"这个参数=这种运动"的清晰对应关系。

基于这个认识，研究团队构建了一个包含超过10万个视频的仿真数据集，核心工具是Kubric框架（一种专门用于生成物理仿真视频的开源平台），底层物理引擎是PyBullet，渲染工具是Blender。整个数据集涵盖六种精心设计的场景类型：一块砖在平面上滑动、一个球从墙上反弹、一个球垂直弹跳、一个软球在重力下下落、一个物体撞上可形变的表面，以及台球桌上多球碰撞。

每个场景里，摩擦系数、弹性系数（即restitution，决定碰撞后能弹回多高）、形变参数和外力大小与方向，都被系统性地取不同值，以覆盖从"几乎不动"到"强烈反应"的完整物理行为范围。与此同时，每个视频的物体颜色、表面材质、摄像机角度和环境光照都会随机变化（光照环境共有50种），表面纹理来自高质量图库Polyhaven，确保数据集在视觉上足够丰富多样。这种设计的深意在于：让模型学会把"物体长什么样"和"物体怎么动"这两件事分开来看。

最终生成的数据集，每个视频都配有同步的深度图、逐帧分割掩码、场景几何信息、材质属性元数据，以及一段标准化的文字描述，为后续训练提供了极为丰富的监督信号。与同领域其他数据集相比，这个数据集在规模、真实感、视角多样性和物理属性覆盖度上都有明显优势，如表1所示的对比中，它是唯一同时具备超过10万视频、照片级真实感、多视角、有完整物理属性标注的数据集。

**三、让模型"看懂"物理属性图：ControlNet精调**

有了数据，下一步是设计一种让模型接收物理属性信息的方式。PhyCo选择的基础模型是NVIDIA的Cosmos-Predict2-2B，这是一个基于扩散变换器（DiT）架构的视频生成模型，已在大量视频数据上预训练，具备较强的通用视频生成能力。

物理属性的注入方式，借鉴了图像生成领域一种叫ControlNet的技术。ControlNet的原理可以这样理解：假设你已经有一个会画画的AI，现在你想让它按照你给出的"骨架图"来画人物——ControlNet就是那个"骨架图输入通道"，它并不改变AI原本的绘画能力，只是给它额外提供了一个结构性的参考。

在PhyCo里，这个"骨架图"变成了"物理属性图"（physical property map）：一张与视频帧像素对齐的图，图上的每个位置都标注了对应物体的物理属性数值。具体来说，研究团队把四类物理属性分成三组来处理：第一组包含摩擦系数和弹性系数（加一个常数通道凑成三通道）；第二组包含描述形变行为的三个Neo-Hookean材料参数（这是一种常用于描述橡胶类软材料弹性的数学模型）；第三组包含外力的大小以及力的方向（用cos和sin分量表示）。

为了让物理属性图能被扩散模型"读懂"，这些图像需要先经过Cosmos的分词器（tokenizer）转化为一种叫"嵌入向量"的数值序列，再通过一个适配网络对齐到模型的内部维度。每组物理属性对应一个独立的ControlNet分支，这样设计有两个好处：训练更快，而且不同属性之间可以自由组合，实现"摩擦+弹性"、"外力+形变"等多属性叠加控制。

训练时，只有ControlNet部分的参数会被更新，基础扩散模型和分词器的权重全程保持冻结。这种策略保护了预训练模型积累的通用生成能力，同时让ControlNet专注学习物理属性和运动行为之间的对应关系。优化目标采用扩散模型标准的"分数匹配损失"，确保生成视频在时间维度上的一致性。每个ControlNet分支在4块H100 GPU上训练约1万步，大约半天时间，峰值显存占用约45GB。

**四、引入"物理考官"：VLM引导的奖励优化**

仅靠第一阶段的精调，模型已经能够生成一些看起来符合物理的视频，但研究团队发现，单靠监督式训练并不能保证模型在推理时真正"忠于"输入的物理参数——有时候模型生成的运动方向和你指定的力的方向并不完全一致，或者弹跳高度并不随弹性系数的变化而变化。

为了解决这个"理解到位但执行走样"的问题，研究团队引入了第二阶段训练：用一个视觉语言模型（VLM）来充当"物理考官"，对生成视频打分，并将分数反馈给模型，指导其进一步改进。

这个想法的灵感来自强化学习中的"奖励信号"概念：训练一个模型不仅看它有没有模仿对正确答案，还要看它产出的结果是否满足某种质量标准。在这里，"质量标准"就是生成视频是否忠实体现了输入的物理属性。

具体流程是这样的：在每轮训练中，模型先对一个带噪声的潜在表示进行10步去噪推理（相当于快速生成一个粗糙但完整的视频），再把这个视频解码出来，送给一个专门调优过的视觉语言模型，由该模型回答一系列关于物理行为的是非题。

使用的视觉语言模型是Qwen2.5-VL-3B，一个参数量30亿的视觉语言模型。直接使用现成的版本效果并不理想，因为通用VLM虽然擅长回答"这是一只猫吗"这样的问题，但对"这段视频里物体的摩擦系数是否在0.3到0.6之间"这种涉及隐性物理推断的问题，准确率很低。因此研究团队在PhyCo数据集上对其进行了200步的微调，每个视频配有多个物理相关问题，微调后的模型在100次迭代内就达到了约85%的二分类准确率，能够稳定地充当奖励信号来源。

问题被设计为"是/否"的二元形式，比如"这个物体的运动是否在指定的力的方向扇形区域内？"、"物体的弹跳幅度是否在高/低弹性对应的范围内？"对于力的方向这类难以用文字描述的属性，研究团队采用了一个巧妙的可视化技巧：在视频帧上叠加一个蓝色扇形区域，标示目标力的方向范围，然后询问VLM"物体运动是否在这个蓝色区域内"。

奖励的计算方式是：用VLM对"是"和"否"两个答案的输出概率之差（通过logit差值计算），来构造一个连续的、可微分的损失函数——叫做VLM对齐损失。这个损失函数可以通过反向传播，直接更新ControlNet的参数，让模型朝着"生成的视频更符合输入物理属性"的方向调整。这一阶段在8块H200 GPU上进行，每个ControlNet分支训练100次迭代，约70分钟，峰值显存需求约115GB。

**五、实验验证：PhyCo在多个维度上的表现**

研究团队通过多种方式对PhyCo的性能进行了全面评估，对比的基线方法包括Cosmos-Predict2、CogVideoX-I2V-5B、SVD-XT、LTX-Video-I2V，以及最接近PhyCo的两个先前方案ForcePrompting和VLIPP。

在Physics-IQ基准测试上，PhyCo的表现相当突出。Physics-IQ是一个专门用于评估视频生成模型物理真实性的测试集，包含396个真实世界参考视频，涵盖固体力学、流体动力学、光学、磁学和热力学五个领域，通过比较生成视频与真实视频在关键事件发生时间和空间位置上的对齐程度，计算一个综合"物理IQ分数"。

PhyCo的训练视频长度是57帧，而Physics-IQ要求的评估视频是120帧（5秒），存在明显的"训练-测试长度不匹配"问题。即便如此，在允许测试时推断生成120帧的设置下，PhyCo（ControlNet+VLM）的综合IQ分数达到36.3，超过了VLIPP的34.6、Cosmos-Predict2的27.7以及其他所有基线。

在更公平的比较条件下（生成57帧后重复最后一帧补全到120帧），PhyCo的优势更为显著，综合IQ分数达到43.6，比VLIPP高出约9分，比Cosmos-Predict2基础模型高出近16分。固体力学领域尤其突出，PhyCo达到53.1分，远超VLIPP的42.3分。

在运动一致性的定量评估上，研究团队还引入了一个叫"Fréchet视频运动距离"（FVMD）的指标，衡量生成视频与真实视频在运动统计特征上的差距，数值越低越好。ControlNet+VLM组合在固体力学、流体动力学和磁学领域均取得最低或次低的FVMD分数，表明其运动行为在统计意义上与真实物理更加接近。

在消融实验中（即逐步去掉某些模块，看性能如何变化），研究团队用细调过的Qwen2.5-VL-3B预测生成视频的物理属性值，再与输入的真实标注对比。结果显示：引入ControlNet后，力方向的角度偏差从基础模型的91.87度降至38.05度；再加上VLM奖励优化后，进一步降至22.53度。弹性系数误差从0.40降至0.16，形变误差从0.45降至0.10。这些数字说明，每一个模块的加入都带来了可量化的改进，缺一不可。

在对真实世界25个视频的力方向控制测试中，PhyCo的平均角度误差为15.2度，而ForcePrompting的误差高达40.5度——也就是说，PhyCo对力方向的控制精度大约是对比方法的2.7倍。

**六、人类用户眼中的PhyCo**

定量指标之外，研究团队还开展了一项涉及16名参与者的人类偏好研究。每位参与者面对39对视频，每对视频在某一个物理属性上有所不同，参与者需要选择哪个视频更好地体现了对应的物理变化。评估覆盖摩擦、弹性、形变和外力四个属性，每种方法共生成98个视频。

结果显示，相比CogVideoX-I2V-5B，人类参与者在摩擦属性上有95.5%的概率更偏向PhyCo，在弹性属性上有100%的概率更偏向PhyCo，在形变属性上有82.2%，在外力属性上有91.1%。相比Cosmos-Predict2基础模型，摩擦和形变属性上PhyCo同样占优。这些数字表明，PhyCo生成的视频不只是在数值上更接近真实物理，在人眼可感知的层面，其物理行为的变化也更清晰、更直观。

**七、超越训练域的泛化能力**

PhyCo最令人印象深刻的能力之一，是它能够将从仿真数据中学到的物理规律，迁移到完全不同的真实世界场景中。尽管训练数据全部来自虚拟仿真，模型却能在真实场景中表现出一致的物理控制能力。

比如，模型只在"简单弹球仿真"上训练过，却能在一个"人跳蹦床"的真实视频中正确体现弹性系数的变化——低弹性设置下，人跳上蹦床后几乎不弹起；高弹性设置下，则有明显的反弹。又比如，在"方块在平面滑动"的仿真上训练的摩擦模块，能够迁移到现实中的豆袋椅在地板上滑动、卡通小车在山坡上行驶等场景。

在多属性组合控制方面（即同时指定力+摩擦、弹性+形变等），模型同样表现出一定的"组合泛化"能力——即便训练时某些属性组合并未出现过，模型也能合理地将各个属性的效果叠加在一起，产生连贯的视觉结果。

值得一提的是，研究团队还测试了将PhyCo数据集迁移到另一个完全不同的视频生成模型Wan2.2上，仅用文字条件微调（不使用ControlNet），就在Physics-IQ上取得了平均4.6%的提升。这说明PhyCo数据集本身就携带了有价值的物理先验知识，不局限于特定模型架构。

**八、局限与尚未解决的问题**

PhyCo的研究团队在论文中坦诚地指出了若干局限。当前的物理建模主要针对简化的刚体和软体行为，对于更复杂的物理现象——比如流体与固体之间的耦合（想想海浪拍打礁石时的形变与溅射）、多关节物体的协调运动（比如人体行走时各关节的物理约束）、或多个物体之间同时发生的接触碰撞——目前的框架只能提供部分建模，无法完整还原。

此外，虽然物理属性图提供了清晰的控制接口，但它并不强制模型遵守物理守恒定律（比如动量守恒、形变能量守恒），所以偶尔会出现微妙但肉眼可见的物理违和感。这类问题在训练帧率较低时（比如8FPS）还会伴随时间上的闪烁现象——研究团队发现，将训练帧率提升到24FPS可以显著缓解这个问题，而架构更先进的模型（如Wan2.2）由于本身的时序建模能力更强，闪烁现象也更少。

在计算成本方面，VLM奖励优化阶段需要8块H200 GPU以及高达115GB的显存，这对于大多数研究机构来说门槛不低。研究团队也提到，未来如果能直接将DiT内部的潜在表示送给VLM评分，而不是先解码成完整视频，可以显著降低内存需求，但这一方向留待后续工作探索。

归根结底，PhyCo是一次有意义的尝试，但离"让AI真正理解物理"这个终极目标，还有相当长的一段路要走。它解决的是可控性和多属性物理先验的问题，而不是构建一个完整的世界物理模型。

这项研究给我们带来的启发是：要让AI视频生成模型更"懂物理"，不一定非要在推理时挂载一个物理引擎——通过足够丰富、足够清晰的物理标注数据，加上精心设计的条件注入机制和语言模型的语义反馈，模型是可以在内部学会物理规律的统计规律的。随着模型能力的持续提升，这条路或许能走得越来越远。

---

Q&A

Q1：PhyCo控制视频物理属性时，用户需要提供什么样的输入？

A：用户需要提供三样东西：一张初始图像帧、一段描述场景的文字提示，以及一张"物理属性图"。物理属性图是一张与图像像素对齐的参数图，上面标注了目标物体的摩擦系数、弹性系数、形变参数和外力大小与方向，数值在-1到1之间归一化。用户通过调整这些数值，就能控制生成视频中物体的运动行为，整个过程不需要运行任何物理引擎。

Q2：PhyCo的训练数据集和已有物理数据集相比有什么不同？

A：PhyCo数据集包含超过10万个仿真视频，是目前同类数据集中规模最大的，同时具备照片级真实感渲染、多摄像机视角、完整的四类物理属性标注（摩擦、弹性、形变、外力）。相比之下，大多数已有物理数据集要么规模较小，要么只标注了单一物理属性，要么缺乏真实感渲染，很难直接用于训练和评估现代视频生成模型。

Q3：VLM奖励优化在PhyCo里具体起什么作用，为什么不能只靠第一阶段的监督训练？

A：第一阶段的监督训练让模型学会了"看到某种物理属性图就生成对应的运动模式"，但不能保证推理时的实际输出严格忠于输入参数。VLM奖励优化通过让视觉语言模型对生成视频提问（比如"力的方向是否正确"），将答案转化为可微分的奖励信号反馈给模型，让模型主动纠正那些"方向对但程度偏"或"属性识别正确但执行走样"的问题，从而进一步提升物理控制的精准度。

视频生成ControlNet物理属性控制

分享至