微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI视频生成模型到底懂物理吗?弗莱堡大学、马克斯·普朗克研究所和CISPA联合研究给出了让人警醒的答案

AI视频生成模型到底懂物理吗?弗莱堡大学、马克斯·普朗克研究所和CISPA联合研究给出了让人警醒的答案

2026-06-01 12:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-01 12:35 科技行者

这项由弗莱堡大学、马克斯·普朗克信息学研究所以及CISPA亥姆霍兹信息安全中心联合完成的研究,以预印本形式于2026年5月22日发布,论文编号为arXiv:2605.23699,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

当AI开始"看图说话",它真的理解物理世界吗

近年来,AI生成视频的技术进步速度令人瞠目。只需要给模型一张图片,或者几秒钟的视频片段,它就能自动生成一段看似流畅、画面精美的后续视频——球在滚动,物体在碰撞,一切看起来都那么真实。于是,越来越多的研究者相信,这些模型正在逐步成为"世界模型",也就是能够理解和预测真实物理世界运作规律的智能系统。

然而,"看起来真实"和"真正理解物理规律"之间,可能存在一道巨大的鸿沟。打个比方:一个从未学过物理的人,如果看了足够多的苹果落地视频,他也许能画出一幅看起来很像苹果落地的图——但如果你换一个角度拍摄,或者把苹果换成一个橙子,他可能就画歪了。他学到的不是"重力定律",而是"我见过的那种苹果落地画面的样子"。

这三所顶尖机构的研究团队正是想弄清楚:当前最先进的AI视频生成模型,究竟更像那个"学会了重力定律的物理学生",还是那个"只是记住了苹果落地画面的绘画爱好者"?

为了回答这个问题,他们构建了一套名为CRONOS的测试基准,通过系统性地改变视频中的各种视觉条件,来检验这些模型的预测是否真正稳定、合理。研究结果揭示的问题,对于任何对AI未来抱有期待的人来说,都值得认真对待。

一、测试的核心思路:换一件衣服,AI就认不出你了吗

CRONOS测试的核心逻辑,可以用一个日常场景来理解。假设你认识一个人叫小明,你知道他走路的姿势、说话的方式,知道当他被一辆自行车撞到时会摔倒。现在,如果小明换了一件衬衫,你还能预测他被撞后会怎么摔倒吗?当然可以,因为摔倒的方式跟衬衫颜色无关。

但如果是AI呢?研究团队的核心问题正在于此:当场景的视觉外观发生变化——换个拍摄角度、换个背景环境、换个物体颜色,甚至换个物体种类——AI对同一个物理事件的预测质量,会不会随之产生大幅波动?

如果AI真正理解了物理规律,那么换个角度看同一个碰撞事件,它的预测质量应该基本不变。但如果AI只是记住了特定画面风格下的视觉模式,那么一旦视觉条件改变,它的表现就会大打折扣。这种"在不同视觉条件下保持预测质量稳定"的能力,研究团队将其命名为"反事实物理一致性"。

二、构建测试场:一个由虚幻引擎打造的物理实验室

为了进行这种系统性的测试,研究团队需要一套能够精准控制所有变量的视频数据集。真实世界的视频拍摄无法做到这一点——你很难在完全相同的物理事件下,精确地只改变拍摄角度,而保持物体、场景、光照完全一致。

于是,他们选择了虚幻引擎——一款被电影和游戏行业广泛使用的专业级三维渲染工具。在这个数字物理实验室里,他们能够精确控制每一个参数:物体的质量、摩擦力、弹性系数,以及相机的位置、场景的背景环境、物体的外观颜色,所有这些都可以被单独调整,而其余条件保持完全不变。

这套虚拟实验室渲染出的视频分辨率达到1920×1080像素,帧率为每秒30帧,视觉质量相当精良,同时能够为每个物体提供精准的分割遮罩,方便后续的精细化评测。

在具体的物理事件设计上,研究团队精心挑选了三种典型场景,分别代表物理交互的不同基本类型。第一种是"滚落"事件:一个物体在平面上滚动,然后从边缘跌落,这个过程涉及接触面的变化和自由落体运动,考验AI对重力和惯性的理解。第二种是"碰撞"事件:一个运动物体撞上另一个静止物体,这考验AI是否能正确预测动量传递和碰后运动轨迹,以及是否能维持物体的形状完整性。第三种是"遮挡"事件:一个物体滚过一段路程后,被另一个物体遮挡,然后再次出现,这考验AI是否能在物体暂时消失于视野后,仍然正确推断它的后续运动。

这三种事件加在一起,覆盖了物理世界中刚体运动的核心交互形式——既有运动轨迹预测,又有物体交互,还有长时序的逻辑一致性。

三、四把手术刀:精准切开影响预测的四个视觉维度

有了这个虚拟实验室,研究团队就开始系统性地进行"反事实干预"——也就是在保持物理事件完全相同的前提下,一次只改变一个视觉因素,观察AI的预测质量如何变化。他们选择了四个干预维度。

第一个维度是场景干预,即改变背景环境。数据集中包含了五种不同的场景,有室内也有室外,有不同的地面材质和空间布局。对于滚落事件,场景的变化还会影响物体跌落的高度,这意味着场景干预不仅是视觉上的变化,有时还会引入真实的物理参数差异。

第二个维度是拍摄视角干预,即从不同角度拍摄完全相同的物理事件。这种干预最为关键,因为视角的改变不影响任何物理参数——物体的质量、速度、轨迹完全没有变化,只是摄像机换了个位置。一个真正理解物理的模型,面对同一个事件的不同视角,预测质量应该保持稳定。

第三个维度是物体外观干预,即改变物体的颜色或表面纹理,但不改变物体的形状和物理参数。这是最"无害"的干预——换个颜色完全不影响物理运动,所以理想情况下,AI的预测质量应该对外观变化完全不敏感。

第四个维度是物体类别干预,即将主体物体替换为另一种物体。这是最复杂的干预,因为不同的物体不仅外观不同,物理属性也会有所差异,比如不同的质量、摩擦系数和弹性,这些都会影响实际的运动轨迹。所以这个干预既测试AI能否适应视觉变化,也测试它能否相应调整对物理参数的判断。

最终,这套全因子设计产生了675段参考视频(遮挡事件因为需要保持特定的能见度结构而不进行视角变化),覆盖3种物理事件、5个场景、5种物体类别、最多4个拍摄视角、3种外观变化的组合。

四、评测标准:不只是"好看不好看",而是"对不对"

传统的AI视频评测通常只看生成视频的视觉质量——画面是否清晰、物体边缘是否锐利。但CRONOS的研究团队认为,这远远不够。他们设计了一套多维度、更细致的评测指标体系,每个指标都聚焦于生成视频的一个具体方面。

外观稳定性衡量的是视频中物体的视觉身份是否保持一致。假如你在第一帧看到一个红色的小球,但随着视频进行,它的颜色开始漂移、纹理变得奇怪,这就是外观不稳定的表现。研究团队使用了一个叫DINOv2的深度学习视觉特征提取器,通过比较各帧中物体图像的特征相似度来量化这种稳定性。关键的技术细节是,他们会先把背景遮盖,只分析物体本身,这样就不会受到背景变化的干扰。

背景稳定性衡量的是背景区域是否保持静止和一致。在这些物理事件视频中,背景应该完全不动——没有莫名其妙出现的新物体,没有光照漂移,没有摄像机晃动。背景变化的检测方式是直接比较各帧背景区域与第一帧的像素级差异,任何异常的背景变动都会拉低这个分数。

三维形状稳定性是一个相当新颖的指标。物体的三维形状在整个视频过程中应该保持不变——一个球从头到尾应该是球形,不应该突然变成椭圆或者奇怪的多边形。为了衡量这一点,研究团队使用了一个叫SAM3D的三维形状重建模型,从每帧视频中推断物体的三维网格,然后用Chamfer距离(一种衡量两个三维形状差异的数学工具)来量化形状变化。

运动相似性衡量的是AI生成视频中的运动模式与参考视频中的运动是否相似。这里有一个精妙的设计:他们使用了一个叫DisMo的运动编码器,这个编码器专门被训练成对物体外观不敏感,只关注运动本身的抽象模式。这样一来,即使物体换了颜色,运动相似性的衡量也不会因此受到干扰,能更纯粹地评估AI是否预测出了正确的运动轨迹。

物理合理性则是更宏观的事件级评估。研究团队用一个叫做Qwen3-VL-32B的视觉语言大模型来"观看"视频,并回答一系列针对特定物理事件设计的判断题。比如对于滚落事件,问题包括"物体是否在到达边缘后跌落了""物体跌落时是否在加速"等;对于碰撞事件,则会问"两个物体是否发生了接触""碰撞后的运动变化是否符合物理规律"等。每个事件有5道专属题,另有5道通用题(如"背景是否保持静止""物体在视频过程中是否保持了形状和颜色"),总共十道题的答对率决定了最终的物理合理性分数。

最后,成功率是一个将上述所有指标综合起来的二元判断——一段视频只有在所有单项指标都超过预先标定的阈值时,才算"通过"。这些阈值是通过真人用户研究来标定的:凡是人类评注者认为该维度表现不达标(低于5分制的3分)的视频,对应的自动化指标就应该落在阈值以下。这种与真实人类感知对齐的标定方式,使得成功率具有实际意义。

在灵敏度分析方面,研究团队还专门设计了一个衡量"干预敏感性"的指标:对于同一组干预实验(比如同一物理事件在不同视角下的多个版本),计算各个版本的指标分数之间的最大差距。差距越小,说明模型对该干预类型越不敏感,即表现出越好的反事实物理一致性。

五、参与测试的AI选手:四个来自不同门派的视频生成高手

研究团队选择了当前开源社区中最具代表性的几款视频生成模型来参加这场测试。Cosmos2.5是由英伟达发布的自回归视频生成模型,采用了token逐步预测的方式生成视频,研究团队分别测试了它的2B(20亿参数)和14B(140亿参数)两个版本,以研究模型规模对性能的影响。MAGI-1由Sand AI开发,是另一款自回归架构的视频模型,参数量为4.5B。CogVideoX1.5来自智谱AI,是基于扩散Transformer架构的图生视频模型,参数量为5B。Wan2.2则是由阿里通义团队发布的大型视频生成模型,参数量达14B。

测试分为两种条件。图像生成视频(I2V)条件下,所有模型只接收物理事件的第一帧图像作为输入,需要自主预测后续发展。视频生成视频(V2V)条件下,Cosmos和MAGI-1额外接收了前5帧视频,这些帧包含了物体的初始运动方向和速度信息,因此提供了更多关于物理状态的线索。

为了减少随机性带来的影响,每个实验配置下都生成了三个不同随机种子的视频,取其中运动相似性最高的那个来代表该模型在该配置下的最优表现——这种"最优三次"的评测方式,让模型有机会展示自己的最佳状态。

所有实验中使用的文字提示语都经过精心设计,描述场景配置、物体属性和预期的运动方式,但不会提供过于具体的轨迹细节,以便保留合理的不确定性空间。

六、真人先验证:让人类来校准机器的眼光

在正式分析AI表现之前,研究团队做了一件非常严谨的事:通过真实的人类用户研究来验证他们设计的自动化评测指标是否真的有意义。

他们通过Prolific平台招募了8位合格的人工标注员,每人都经过资质审核和入职考试,并以每小时14英镑的报酬参与工作。标注员们观看了从各个模型中精心挑选出来的540段视频,对每段视频在物体外观、物体形状、背景稳定性、运动合理性和事件质量五个维度上进行1到5分的评分。每段视频由3位标注员评分,取中位数作为最终的人类评分。

将人类评分与自动化指标的分数进行对比,研究团队发现两者之间存在显著的正相关关系。背景稳定性指标与人类评分的相关系数高达1.00,三维形状稳定性的相关系数为0.92,物理合理性指标的相关系数为0.86,外观稳定性的相关系数为0.82。运动相似性指标的相关系数为0.68,虽然相对较低,但p值为0.07,仍在可接受的统计显著性范围内。这些验证结果支持了研究团队在后续分析中使用这套自动化指标的合理性。

七、测试结果:几个让人清醒的发现

当所有测试跑完,数字汇总出来之后,研究团队得到了几个具有相当重量的发现。

第一个发现是:所有参与测试的开源AI视频模型,在生成基础物理事件视频方面的表现都相当糟糕。即使是表现最好的模型,总体成功率也只有22%——也就是说,10段视频里有将近8段是"不合格"的。其他大多数模型的成功率甚至不到15%。从各项指标来看,所有模型都在至少一个维度上存在明显的短板,没有任何一个模型能在所有方面同时达标。

具体来看各模型的表现,Cosmos2.5(2B参数,V2V模式)和Wan2.2(14B参数,I2V模式)是综合表现最好的,成功率分别为22%和20%。MAGI-1和CogVideoX1.5的整体表现则明显较差,成功率仅在1%到2%之间。各模型在各项具体指标上的差异也很显著——以背景稳定性为例,Cosmos2.5-2B(V2V模式)的得分高达0.77,而MAGI-1-4.5B的得分仅为0.21,几乎是前者的四分之一。

第二个发现更值得深思:所有模型对视觉干预都极为敏感,尤其是视角变化带来的干预。从灵敏度分析的结果来看,仅仅改变摄像机角度这一不影响任何物理参数的因素,就能让大多数模型的预测质量产生0.3到0.4左右的波动(在0到1的归一化尺度上),这是相当大的变动幅度。换句话说,对于同一个碰撞事件,从正面拍和从侧面拍,AI给出的预测质量可能差异悬殊。

在四种干预类型中,视角变化引起的灵敏度普遍最高,其次是物体类别变化,然后是场景变化,而外观变化(仅改变颜色)引起的灵敏度相对最低——但即便如此,即使只是换个颜色,最稳健的模型也会出现约20%的性能波动,这对于一个应该"不在乎颜色"的物理预测任务来说,依然是令人困扰的数字。

这种对视角高度敏感的现象,揭示了一个深层问题:这些模型的预测机制是强烈依赖视角的,它们学到的不是"在三维空间中理解物理规律",而是"在某种特定视觉构图下,这类画面应该怎么延续"。一旦视觉构图改变,它们就像换了一个它们从未见过的视角在猜测,性能随之下滑。

第三个发现与视频条件有关:使用多帧视频作为输入(V2V模式)比只用单张图像(I2V模式)效果明显更好,而且改善不仅体现在运动预测上,还体现在背景稳定性和物体外观稳定性上。研究团队推测,多帧条件下模型能够从连续帧中建立起更稳定的物体表示,对摄像机运动的理解也更清晰,从而生成背景更稳定的视频。

第四个发现让人颇感意外:将Cosmos2.5从2B参数扩展到14B参数,在几乎所有指标上的表现反而有所下降。V2V模式下,2B版本的成功率为22%,而14B版本只有14%;I2V模式下,2B版本成功率12%,14B版本只有8%。这一结果与此前部分研究者提出的观点相吻合——更大的模型在训练数据分布内可能表现更好,但在需要真正泛化物理规律的场景下,更多的参数并不必然带来更好的泛化能力。当然,研究团队也指出,这个发现仅基于一个模型家族的一次规模对比,需要更多证据才能得出更普遍的结论,但CRONOS基准本身为未来的深入研究提供了工具。

第五个发现来自各事件类型的细分结果。碰撞事件在物理合理性指标上的表现普遍高于滚落事件——这可能是因为碰撞事件的判断题("两个物体是否接触了")相对直观,而滚落事件中的物理细节(如加速轨迹、落点位置)更难被AI模型正确再现。遮挡事件在物理合理性上表现最好,因为"物体消失后是否重新出现"这种判断相对容易,但在形状稳定性上的挑战更大,因为长时序的物体跟踪会积累更多误差。

八、局限与未来:这套测试本身有哪些边界

研究团队对自身工作的局限进行了相当坦诚的讨论。

最明显的局限是合成数据与真实世界之间的领域差距。CRONOS使用的是虚幻引擎渲染的合成视频,虽然画质相当精良,但与真实拍摄的视频在纹理细节、光照变化、噪声特性等方面仍然存在差异。因此,CRONOS上的测试结果更应该被理解为一种诊断性证据,而非对模型在真实视频场景中表现的直接估算。

另一个局限是参考视频的单一性。大多数指标将AI生成视频与唯一一段参考渲染进行比较。但实际上,对于同一个物理初始条件,存在多种在物理上都合理的后续发展——例如碰撞后物体可能以不同角度弹开,仍然符合动量守恒定律。研究团队通过多种子采样和专门设计的不依赖参考视频的稳定性指标来部分缓解这个问题,但在未来版本中,评估应该能够与多个物理上合理的参考轨迹进行比较。

此外,测试覆盖的模型仅限于开源模型,像Veo、Sora、Kling这样的商业闭源模型并未纳入评测。这不是研究团队的疏漏,而是客观限制——固定权重和可复现设置是进行严格对比分析的前提条件。考虑到即便是最强的开源模型成功率也只有22%,这套基准距离"被饱和"还有相当长的路要走,未来的研究者完全可以在此基础上继续推进。

---

说到底,CRONOS这项研究给我们提供的,是一面照出AI视频生成领域真实状况的镜子。当前这些模型生成的视频,看起来越来越像真的,但在理解物理世界这件事上,它们很可能还停留在"记住了常见画面长什么样"的阶段,而非真正掌握了"无论在哪个角度、什么颜色的物体,在重力下都会按照这套规律运动"这种本质性的物理认知。

这对普通人意味着什么呢?至少在可预见的将来,把AI视频生成器当成可靠的物理仿真工具来使用,是需要格外谨慎的。一段AI生成的"滚球撞杯子"视频,如果看起来很合理,可能只是因为这类画面在训练数据中大量出现过,而不是因为AI真的计算了动量守恒。

当然,这个领域的进步速度也不容小觑。也许在不久的将来,会有模型在CRONOS上取得真正令人信服的成绩,那时候我们才能更有把握地说,AI开始真正"理解"物理世界了。在此之前,CRONOS提供了一把量尺,让研究者可以清晰地追踪这条路走了多远。感兴趣的读者可以通过论文编号arXiv:2605.23699查阅完整的研究报告,数据集和评测代码也已公开发布在论文主页上。

---

Q&A

Q1:CRONOS基准测试和普通的视频生成质量评测有什么区别?

A:普通的视频质量评测主要看画面是否清晰好看,而CRONOS专门测试同一个物理事件在视角、场景、物体外观等视觉条件发生变化时,AI的预测质量是否保持稳定。换句话说,CRONOS不是在问"视频好不好看",而是在问"AI是否真正理解物理规律,而不只是记住了特定画面的视觉风格"。

Q2:为什么换个摄像机角度会让AI视频生成模型表现变差?

A:因为目前这些模型主要是从大量视频数据中学习"什么样的画面接着什么样的画面",而不是真正在三维空间中理解物体运动规律。同一个碰撞事件从正面拍和从侧面拍,在画面构图上差异很大,模型可能对某个角度见得多、对另一个角度见得少,导致预测质量出现明显差异。

Q3:Cosmos2.5把参数从2B扩大到14B,为什么效果反而变差了?

A:CRONOS测试的是模型在受控干预下的物理一致性,而不是训练数据分布内的生成质量。更大的模型可能更擅长模仿训练数据中常见的视觉模式,但这不等于更好地泛化物理规律。当测试条件包含系统性的视觉变化时,靠记忆视觉模式的策略反而可能带来更大的波动,导致规模扩大后性能不升反降。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-