微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

伊利诺伊大学厄巴纳-香槟分校新研究：AI视频生成终于学会了"物理常识"，不再让皮球落地就停、倒水先出水

人工智能视频生成物理感知建模

伊利诺伊大学厄巴纳-香槟分校新研究：AI视频生成终于学会了"物理常识"，不再让皮球落地就停、倒水先出水

作者：科技行者

2026-04-17 10:16

分享至：

这项由美国伊利诺伊大学厄巴纳-香槟分校PLAN Lab团队于2026年4月完成的研究（arXiv:2604.08503），提出了名为Phantom的视频生成框架。该框架在现有视频生成系统基础上，通过并行增加一条专门的物理轨道，利用V-JEPA2编码器提取视频帧的物理状态表示，并通过双向交叉注意力机制让视觉生成与物理推断实时互相校正。实验证明，Phantom在VideoPhy、VideoPhy-2和Physics-IQ三个物理评测基准上分别取得了50.4%、2.6%和33.9%的显著提升，同时整体视觉质量不受影响，为AI视频生成真正理解物理规律提供了一条有效路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-17 10:16 • 科技行者

这项由美国伊利诺伊大学厄巴纳-香槟分校PLAN Lab团队完成的研究，以预印本形式于2026年4月9日公开发布，论文编号为arXiv:2604.08503，研究名称为"Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics"（Phantom：通过视觉与潜在物理动力学联合建模的物理注入式视频生成）。

你有没有用过AI生成视频，然后看着生成结果忍不住皱眉头——一个皮球从高处落下，撞到地面后居然像被施了定身咒一样瞬间停住不动；或者一个空杯子，还没开始倒水，杯底就莫名其妙地冒出了液体？这类问题不是个例，而是当前几乎所有主流AI视频生成系统都存在的通病。这些系统在"好看"这件事上已经做得相当不错，但在"合理"这件事上，却像一个从未见过真实世界的人——它们不懂物理。

伊利诺伊大学厄巴纳-香槟分校的研究团队注意到这个问题，并提出了一个核心疑问：AI视频模型看了海量真实世界的视频，为什么还是学不会物理常识？答案令人深思。研究团队的判断是，仅仅"看更多视频"这件事本身，根本解决不了这个问题。就像一个小孩光是盯着别人打乒乓球看，却从来没有机会在脑子里去思考"球为什么会弹起来"，那他永远也搞不清楚弹跳背后的规律。现有AI模型的训练方式，本质上就是这种"只看不想"的模式。

于是这支团队提出了一个新方案，叫做Phantom，直译过来是"幽灵"。这个名字颇有意味——它指的是一种隐藏在视频背后、肉眼看不见却真实存在的东西：物理规律本身。Phantom的核心思路是，既然物理规律是隐形的，那就专门造一个"感知隐形信息"的通道，让模型在生成画面的同时，同步预测画面背后的物理状态。这项研究的意义在于，它给AI视频生成装上了一个真正能"感受"物理的内部机制，而不是靠堆砌数据或者在外部打补丁。

一、AI视频为什么总在"耍赖"

要理解Phantom解决了什么问题，先得搞清楚现有AI视频系统是怎么工作的，以及它们在哪里出了毛病。

现在主流的AI视频生成系统，本质上是在做一件事：给定前一帧画面，预测下一帧画面长什么样。这个过程不断重复，就构成了一段视频。这种方法听起来很合理，但它有一个致命的隐患——它只关心"画面看起来像什么"，而不关心"画面里的东西应该怎么运动"。

用一个比喻来说明：假设你要画一个故事，画面里有一个人把杯子推下桌子，杯子应该掉落、撞击地面、可能碎裂或弹跳。一个只"看画"的AI学徒，会学会画出"杯子在高处"和"杯子在低处"这两种状态，但它不理解为什么杯子会从高处到低处，也不明白这个过程中动量、重力、弹性是怎么起作用的。于是，当它遇到一个新场景——比如让一个橡皮球从高处落下并弹跳——它可能会画出球落地后直接消失、或者停在地面上纹丝不动的画面，因为这两种结果在"视觉上"对它来说都是"可以接受的"。

已有研究证明，单纯扩大模型规模或者增加训练数据量，并不能解决这个问题。模型展现出来的，更多是对训练数据的模仿和记忆，而非对物理规律的真正理解。遇到训练数据里没怎么出现过的场景，它就会露馅。这就是为什么Phantom的研究团队认为，必须换一种根本不同的思路。

二、Phantom的核心思路：给AI装一个"物理感知器"

Phantom的设计哲学，可以用一个关于乐队的比喻来理解。传统AI视频生成系统就像一支只有"视觉演奏者"的乐队，他们负责画面的色彩、光影、动态——演奏得很好听，但整支乐队缺少一个节拍指挥，所以演奏出来的音乐时常会在关键地方乱了节奏，因为没人在统一管理"什么时候该怎么运动"这件事。Phantom的做法，是给这支乐队增加一个新的声部——"物理演奏者"，专门负责追踪和预测场景背后的物理状态，然后让这两个声部互相配合、互相校正，演奏出一首视觉和物理都协调统一的乐曲。

具体来说，Phantom建立在一个已有的强大视频生成系统Wan2.2-TI2V-5B之上，这个系统本身已经能生成相当高质量的视频画面。Phantom没有推翻这个系统重来，而是给它并排增加了一条新的"物理轨道"。这条物理轨道专门处理视频里隐藏的物理信息——不是直接用牛顿定律来计算轨迹，而是用一种更灵活的方式：通过一个预训练好的视频理解模型（叫做V-JEPA2），把视频帧转化为一种能够反映物理特征的抽象表示。

V-JEPA2本身是一个用海量自然视频自学成才的模型，它在学习过程中自然而然地发展出了对"物体会不会消失"、"碰撞会怎么发生"、"重力会让东西怎么运动"这类直觉物理概念的理解。研究团队把这个模型提取出来的特征，称为"物理感知嵌入"——可以理解为一种把物理状态压缩成数字密码的方式，用来代表当前场景里物体的物理状态。

Phantom接收一段观察到的视频帧，通过两条并行的通道同时处理它：一条是原有的视觉通道，负责提取画面的外观信息；另一条是新加的物理通道，负责用V-JEPA2提取对应的物理状态信息。两条通道各自独立运作，但同时通过一种叫做"双向交叉注意力"的机制紧密联系在一起——视觉通道会去参考物理通道的状态，物理通道也会反过来参考视觉通道的信息，两者不断相互校准，确保生成的画面既好看又合理。

三、双轨并行：视觉与物理如何互相"倾听"

把"双向交叉注意力"这个词翻译成日常语言，可以这样理解：Phantom的两条轨道，就像两个合作侦探在同时调查同一个案件。视觉侦探负责描述案发现场的外观——颜色、形状、位置；物理侦探负责推断现场里发生了什么物理事件——谁碰了谁、速度是多少、弹力如何。两人会定期碰头交换情报，视觉侦探会根据物理侦探的推断来调整自己对现场的描述，物理侦探也会根据视觉侦探提供的图像证据来修正自己的推断。最终，两人共同得出一个既在视觉上可信、又在物理上合理的结论。

在技术层面，这两条轨道在模型内部每经过一个计算层，都会进行一次信息交换：视觉轨道的当前状态会被用来更新物理轨道的状态，物理轨道的当前状态也会被用来更新视觉轨道的状态。这种交换用数学公式来表达，就是分别用对方的信息来计算自己的"查询-键-值"注意力——视觉轨道用自己的内容去查询物理轨道，物理轨道用自己的内容去查询视觉轨道，两边都在不断地"问"对方"你那边现在是什么情况"，然后各自根据回答调整自己的状态。

研究团队特别指出，这种设计比另一种可能的做法——直接把视觉信息和物理信息混在一起处理——要更有效。把两种信息混在一起，往往会导致模型把视觉特征和物理特征搅成一锅粥，反而两样都没法准确追踪。保持两条独立轨道、只在关键节点交换信息，才能让每条轨道都专注做好自己的事情，同时又不会忽视对方的存在。

四、训练策略：冻结优势，只练短板

Phantom的训练方式也相当有意思，体现了一种务实的工程哲学。既然原有的视觉生成系统Wan2.2已经做得很好了，那就把它的参数全部"冻结"——也就是训练期间不去改变它，保留它已有的强大能力。只有新加入的物理轨道和两条轨道之间的交叉注意力层，才会在训练中被更新和优化。

这个策略的好处显而易见：不需要从头训练整个庞大的视频生成系统，节省了大量计算资源；同时，也避免了因为物理训练信号干扰到已有的视觉生成能力，导致原本好的东西被破坏掉。

训练过程中，Phantom同时学习两个目标：预测未来视频帧的视觉内容，以及预测未来帧对应的物理状态表示。为了让这两个目标都被合理照顾到，研究团队还设计了一个特别的"循环权重调度策略"。问题在于，物理轨道产生的训练信号往往比视觉轨道强得多，如果不加控制，物理训练信号就会压过视觉信号，导致整个训练过程不稳定。于是研究团队把物理损失的权重初始设为零，然后慢慢增大；一旦物理轨道的梯度范数超过一个设定阈值，就把权重重置回零，重新开始这个循环。就像给一个新乐手循序渐进地增加演奏难度，而不是一上来就让他挑战最难的曲子，否则整个乐队的节奏都会乱掉。

训练数据来自OpenVidHD-0.4M数据集，这是一个包含约40万条高质量视频-文字对的数据集。研究团队特别提到，这个数据集本身并不是专门针对物理场景设计的，而是涵盖各种日常视觉内容。这意味着Phantom不是靠死记硬背物理场景来获得物理理解能力的，而是真正从通用视觉经验中提炼出物理感知能力。

训练使用了4块NVIDIA H200 GPU，模型训练了两轮，使用AdamW优化器，学习率设为4e-5，权重衰减为1e-3，采用余弦学习率衰减策略，并有5%的预热比例。

五、不只是视频生成：Phantom还能接受物理控制信号

除了主要的视频生成功能，研究团队还探索了一个更有趣的应用方向：基于力的物理控制。

设想一个静态图片，比如一辆停在沙滩上的玩具小汽车。你想让AI把这张图片变成一段视频，显示小汽车被一个向左的推力推动后的运动过程。这就需要AI不仅能生成视频，还能理解并响应具体的物理控制指令——"在坐标(x, y)施加大小为F、方向为θ度的力，生成随后发生的运动"。

Phantom处理这类任务的方式是，把力的信息转换成一段短视频（一种可视化的力场表示），然后用V-JEPA2对这段力场视频进行编码，得到对应的物理状态表示，再喂给物理轨道。与此同时，视觉轨道接收的是原始图像和正常的场景描述文字，而物理轨道接收的是力场信息和对应的物理描述文字（比如"在坐标位置施加大小为X的向左的力"）。两条轨道各司其职，最终生成一段符合力学规律的运动视频。

在Force-Prompting数据集上进行了大约1100步的微调之后，Phantom就能生成随外力方向合理运动的视频——向左推就向左动，向右推就向右动，挂在树上的玩具马被力施加后会来回摆动，小火车沿铁轨方向运动。这个扩展应用证明，Phantom的物理轨道不只是一个被动的观察者，而是一个能够主动响应物理控制信号的感知与生成系统。

六、测试结果：物理合理性大幅提升，视觉质量丝毫不减

研究团队用三个专门针对物理合理性的测试基准来检验Phantom，分别是VideoPhy、VideoPhy-2和Physics-IQ，同时还用VBench-2这个综合视频质量评测工具来评估整体表现。

在VideoPhy基准测试中，这个测试关注生成视频是否符合物理常识，覆盖多种材料类型和物理交互场景。Phantom相比基础模型Wan2.2-TI2V，物理常识得分提升了50.4%，达到了所有对比方法中的最高分37.9分；语义贴合度也提升了14.5%。这个提升幅度是非常显著的，相当于原来每100个物理场景里只有25个能被正确表现，现在变成了接近38个。

在更具挑战性的VideoPhy-2基准测试上，该测试专注于包含人类交互的动作场景，情况更加复杂多变。Phantom在语义贴合度上提升了13.1%，物理常识得分提升了2.6%。虽然物理常识的提升幅度相对较小，但这个基准测试本身难度更高，能有所提升已经说明问题。

Physics-IQ基准测试最为特殊，它用真实世界拍摄的视频作为参考，评测模型生成的视频与真实物理过程的吻合程度。测试分为两种设定：单帧条件（只给模型看第一帧，让它预测后续）和多帧条件（给模型看一段初始片段，让它预测后续）。在单帧条件下，Phantom的整体Physics-IQ得分相比基础模型提升了33.9%，具体来看，空间重叠度提升了49.4%，加权空间重叠度提升了37.3%，预测误差降低了11.1%。在多帧条件下，Phantom也展现出了竞争力，尽管原始的Wan2.2-TI2V模型本身并不支持多帧输入。

在综合质量评测VBench-2上，Phantom在整体得分上比基础模型高出0.5%，并在多个维度上取得了改善：人体真实性提升2.7%，物理合理性提升6.0%，可控性提升9.4%，常识符合度提升1.4%。细粒度指标方面，人体解剖结构准确性提升3.3%，人体服装真实性提升4.9%，画面构图质量提升11.7%，人类互动场景的表现提升高达25.9%，多视角一致性提升99.2%，空间关系动态变化捕捉提升31.4%，运动顺序合理性提升15.7%，力学表现提升2.3%。

唯一有所下降的维度是创意性中的多样性分项，从64.67降到了45.95。研究团队对此给出了一个合理解释：物理上不合理的视频往往包含各种随机、奇怪的变化，这些变化在多样性评测中可能反而会被当成"丰富多样"来打高分；Phantom生成的视频更加遵循物理规律，行为更加一致和可预期，自然在这个维度上的表现会偏低。这更像是一个评测指标本身的局限性，而不是Phantom真正的缺陷。

七、与竞争对手的对比：各有千秋，但物理理解独树一帜

研究团队与多个对比方案进行了比较，涵盖通用视频生成模型和专门针对物理合理性设计的方法。

通用视频生成模型方面，对比了CogVideoX-5B、HunyuanVideo、Wan2.2-TI2V-5B等。这些模型本身都没有专门为物理合理性设计任何机制，Phantom在物理类测试上全面超越它们。

专门针对物理的方法方面，研究团队对比了三种有代表性的做法。PhyT2V的思路是利用大型语言模型对提示词进行反复迭代优化，通过链式思维推理来让现有视频生成模型输出更符合物理的结果，它不需要重新训练视频生成模型，但每次生成视频都需要额外进行多轮语言模型推理，增加了推理时间和成本；另外，它只是优化了"说明"，而没有让模型真正具备物理理解能力。WISA的做法是把物理类别和属性信息嵌入到生成过程中，通过专门的物理专家注意力机制和物理分类器来引导生成。VideoREPA则是通过让视频扩散模型的隐藏状态与视频基础模型的表示对齐来注入物理理解。Phantom在VideoPhy的物理常识得分（37.9）上超过了所有这些专门方法，包括PhyT2V（37分）和WISA（33分），也远超VideoREPA（22.4分）。特别值得注意的是，VideoREPA是建立在比Wan2.2更强大的CogVideoX-5B上的，即便如此，Phantom仍然在物理合理性上取得了更大的提升幅度。

在编码器选择上，研究团队还做了一个对比实验：把V-JEPA2换成VideoMAEv2（另一种视频理解模型）来作为物理状态编码器，其他设置不变。结果显示，使用V-JEPA2的版本在所有指标上都优于使用VideoMAEv2的版本，这验证了V-JEPA2确实比VideoMAEv2更擅长捕捉物理相关特征，从而为物理轨道提供更有价值的输入。

八、用眼睛看得出来的改善：几个典型案例

论文中呈现的定性对比（即肉眼能看出来的对比）同样说明了很多问题。

第一个场景是气球从大变小。基础模型Wan2.2-TI2V的处理方式是让气球逐渐移远，视觉上看起来越来越小，但实际上是相机距离的变化，而非气球本身在缩小；更糟糕的是，气球的颜色到最后还无端端地从原色变成了红色。Phantom则生成了一个真正在缩小的气球，颜色保持一致，体积变化自然渐进。

第二个场景是用咖啡壶倒咖啡。Wan2.2-TI2V生成的杯子上有盖子，但倒咖啡的动作却无视盖子的存在直接继续，造成了明显的逻辑矛盾。Phantom生成的是一个没有盖子的杯子，倒咖啡的过程合乎常理地进行。

第三个场景是橡皮球落地弹跳。这正是开头提到的案例。Wan2.2-TI2V让球在接触地面后直接停住，完全忽视了弹性和动量守恒；Phantom则让球在着地后产生了合理的弹跳，速度逐渐衰减，符合现实中橡皮球的行为。

第四个场景是把液体倒入杯子中。在图像条件下（给定一个初始帧），Wan2.2-TI2V让液体在倒入动作发生之前就莫名出现在杯底，违背了时间顺序；Phantom则保持杯子为空，直到液体真正被倒入时才开始出现。

第五个场景是海滩上的大肥皂泡。Wan2.2-TI2V生成的泡泡像半刚性物体一样漂移，缺乏肥皂泡应有的轻盈和变形特性；Phantom生成的泡泡会拉伸、摆动，在风中自然飘动，更真实地反映了薄膜材料的物理特性。

第六个场景是高黏度蓝色液体倒入碗中。Wan2.2-TI2V在后半段让液体看起来像是落入了一个无底洞，失去了堆积和折叠的效果；Phantom则生成了液体层层叠加、缓慢流动、形成折叠波纹的画面，这正是高黏度流体的典型行为。

这些对比不只是视觉上的美化，而是物理合理性上的本质提升，说明Phantom确实在某种程度上学会了这些物理行为背后的规律，而不仅仅是在复制表面的视觉样式。

说到底，Phantom这项研究告诉我们一件很有启发性的事：AI系统要真正理解世界，光靠"多看"是不够的，还需要"多想"——或者更准确地说，需要在架构上给它专门配备一个负责"想物理"的模块，让它在生成画面的同时，同步追踪画面背后的物理逻辑。这个思路的价值不只是让皮球弹得更真实，更深远的意义在于，它迈出了让AI从"视觉模仿者"向"物理理解者"转变的重要一步。

当然，这项研究也有它自己的局限。目前Phantom的物理理解依赖V-JEPA2这个编码器所能捕捉的物理特征，而V-JEPA2本身也有它能力边界；训练数据OpenVidHD-0.4M虽然质量不错，但并非专门为物理场景设计，这意味着某些较为特殊的物理场景可能仍然是盲区。此外，目前的多样性评测指标下降，也提示我们现有的评测体系可能还需要进一步完善，才能更准确地衡量"物理合理性"与"生成多样性"之间的平衡。

不过，这些都是可以持续改进的方向。Phantom作为一种将物理推理内化到视频生成模型本身的尝试，已经证明了这条路线的可行性和有效性。对物理合理的AI视频生成感兴趣的读者，可以通过arXiv编号2604.08503找到完整的论文原文，PLAN Lab的项目主页也提供了更多可视化案例供参考。

Q&A

Q1：Phantom模型是如何让AI理解物理规律的？

A：Phantom在原有视频生成系统旁边并行增加了一条"物理轨道"，这条轨道专门利用V-JEPA2编码器提取视频帧里隐含的物理状态信息，比如物体的运动趋势、碰撞方式等。这两条轨道通过双向交叉注意力机制定期互相交换信息，让视觉生成和物理推断相互校正。训练时，模型同步学习预测未来画面的视觉内容和对应的物理状态，而不是只学"画面像什么"。

Q2：Phantom和其他让AI视频更符合物理的方法有什么区别？

A：现有的物理增强方法大多在模型外部动手脚，比如用语言模型反复优化提示词、接入物理模拟器、或者对齐模型与外部特征等，这些方法要么增加了推理成本，要么没有真正改变模型内部的推理方式。Phantom的不同在于，它把物理推理直接集成到了视频生成模型的内部架构里，让模型在生成每一帧画面时都同步追踪物理状态，不需要外部辅助，推理时也不用额外步骤。

Q3：Phantom训练需要大量专门的物理视频数据吗？

A：不需要。Phantom使用的训练数据集OpenVidHD-0.4M是一个通用的高质量视频文字数据集，并不是专门针对物理场景收集的。这说明Phantom并不是靠死记硬背物理场景来获得物理理解能力，而是从通用视觉经验中，通过物理轨道的联合训练机制，提炼出了对物理规律的感知能力。

人工智能视频生成物理感知建模

分享至