微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 牛津大学团队首创突破:AI视频生成模型的"物理常识考试"能力大揭秘

牛津大学团队首创突破:AI视频生成模型的"物理常识考试"能力大揭秘

2025-11-18 10:20
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-18 10:20 科技行者

这项由牛津大学袁建昊团队领导的研究发表于2025年的arXiv预印本平台(论文编号:arXiv:2510.11512v1),联合了MBZUAI、芝加哥大学、UWE布里斯托大学等多个知名院校。这是首次系统性评估AI视频生成模型是否真正理解物理世界运行规律的开创性研究。

当我们观看AI生成的视频时,往往会被其精美的画面所震撼。一个球从桌子上滚落,水从水龙头中流出,布料在风中飘动——这些看起来都那么逼真。但是,这些AI模型真的理解物理世界的基本规律吗?还是只是在创造视觉上令人信服的假象?

这就像一个学生参加物理考试。表面上看,他的答案写得工工整整,图画得也很漂亮,但仔细检查就会发现,他可能把重力画成了向上的,或者让两个球相撞后莫名其妙地增加了动能。外表光鲜,内核却可能完全违背了物理常识。

传统的评估方法就像只看学生作业的整体美观度,却没有仔细检查其中的物理逻辑是否正确。研究团队意识到,要真正判断AI视频模型的"物理智慧",需要一套全新的"考试方法"。

于是,他们开发了一个名为LikePhys的评估系统,这个系统就像一位严格的物理老师,专门检查AI模型是否真正掌握了物理世界的基本规律。与以往依赖人眼观察或其他AI判断的方法不同,LikePhys直接"窥视"AI模型的内心想法,看它在面对物理正确和物理错误的场景时,内心的"确信度"有什么不同。

一、创新的"内心窥视"评估法

要理解LikePhys的巧妙之处,我们可以把AI视频生成模型想象成一位画家。这位画家在创作时,内心对每一幅画都有一个"满意度评分"——越符合他所学知识的画面,他内心越确信,评分越高。

传统的评估方法是让人们观看这位画家的作品,然后投票决定哪幅更好看。但这种方法有个致命缺陷:一幅画可能因为色彩鲜艳、构图优美而获得高分,即使它在物理上完全不合理(比如苹果往天上掉)。

LikePhys的创新在于,它不看画面的美丑,而是直接"读取"画家内心的评分。研究团队发现了一个绝妙的技巧:通过观察AI模型在处理不同场景时的"努力程度",可以推断出它对这些场景的内心确信度。

具体来说,他们会给同一个场景的两个版本——物理正确版和物理错误版——都添加一些"噪声"(就像在画上撒一些沙子),然后让AI模型试图清理这些噪声。如果AI模型对某个场景更确信,它清理噪声时就会更轻松,反之则会更吃力。

这种方法的绝妙之处在于,它完全绕过了视觉表象,直达AI模型的"内心世界"。即使两个场景看起来差不多,但如果一个符合物理规律,另一个违背物理规律,AI模型的内心反应会截然不同。

二、精心设计的"物理考试题库"

为了全面测试AI模型的物理常识,研究团队就像出题老师一样,精心设计了一套包含12种不同场景的"考试题库"。这些题目涵盖了物理世界的四大核心领域,每一道题都经过精心设计,确保只有真正理解物理规律的AI才能答对。

在刚体力学领域,研究团队设计了五种经典场景。球球碰撞场景就像台球游戏,两个球相撞时必须遵守动量守恒定律。在正确版本中,两球碰撞后的速度完全符合物理计算,而错误版本则可能出现球突然加速、穿透对方或者违反能量守恒的情况。球体下落场景模拟了最基础的重力现象,正确版本中球体按照重力加速度自然下落和弹跳,错误版本则可能让球体悬浮、弹跳高度超过释放高度,或者在半空中改变颜色和大小。

滑块下滑场景重现了经典的斜面运动,考验AI是否理解摩擦力和重力的相互作用。摆锤摆动则检验AI对周期运动和能量转换的理解,正确的摆锤应该按照固定的周期来回摆动,而错误版本可能让摆锤突然停止、摆动路径偏离或者摆动频率无规律变化。金字塔撞击场景更加复杂,模拟了一个立方体撞击球体金字塔的过程,考验AI对复杂碰撞和能量传递的理解。

连续介质力学领域主要通过两种布料场景来测试。布料悬垂场景让一块布自然地悬挂在柱状物上,正确版本中布料应该表现出自然的重力形变和柔软特性,错误版本则可能让布料穿透支撑物、产生不可能的折叠或者表现得像刚性板材。布料飘动场景则模拟布料在风力作用下的运动,正确版本应该展现出符合空气动力学的波浪状运动,错误版本可能让布料突然破碎、部分区域瞬间冻结或者产生不符合物理规律的扭曲。

流体力学是最具挑战性的测试领域,包含了三种不同的流体场景。水滴下落场景考验AI对表面张力、重力和流体连续性的理解,正确的水滴应该保持完整的形状直到撞击地面,然后产生符合流体力学的飞溅,而错误版本可能让水滴在半空中分裂成不连续的小块、违反重力向上运动或者撞击时不产生飞溅。水龙头出水场景更加复杂,涉及连续流体的保持和重力作用下的自然流动,错误版本可能出现水流突然断裂、水体颜色变化或者流动方向违反重力。河流流动场景则模拟了更大规模的流体运动,正确版本应该展现出层流或湍流的自然模式,错误版本可能让水流突然消失、出现隐形障碍物或者流动方向完全混乱。

光学效果领域通过两种阴影场景来测试AI对光影关系的理解。移动阴影场景中,一个物体在固定光源下移动,其阴影应该相应地平滑移动且形状保持与物体一致。错误版本可能让阴影出现在天花板上、完全消失、与物体分离或者形状完全不匹配。环绕阴影场景则让阴影围绕物体做圆周运动,正确版本应该展现出平滑的圆形轨迹和一致的光照关系,错误版本可能让阴影突然改变方向、与物体失去联系或者轨迹出现跳跃。

每一种场景都包含10个不同的变体,这些变体在物体形状、纹理、环境等视觉因素上有所不同,但物理规律保持一致。这样的设计确保了测试的公平性——如果AI模型在某个场景上表现好,那不是因为它记住了特定的视觉模式,而是真正理解了underlying的物理原理。

三、令人意外的AI物理"成绩单"

当研究团队用这套"考试系统"测试了12个主流AI视频生成模型后,结果既有惊喜也有担忧。就像期末考试成绩公布一样,不同模型的"物理成绩"差异巨大,而且整体水平还有很大提升空间。

在这场"物理考试"中,研究团队使用了一个叫做"合理性偏好错误率"(PPE)的评分标准。这个指标就像错误率一样,数值越低代表AI模型的物理理解能力越强。满分是0%(完全理解物理),最差是100%(完全不理解),50%则相当于随机猜测的水平。

令人惊讶的是,大多数AI模型的表现都不算理想。在测试的12个模型中,只有少数几个模型的总体错误率低于50%,这意味着很多所谓的"先进"AI视频模型,在物理常识方面的表现甚至还不如抛硬币猜测。

表现最好的是华为的Hunyuan T2V模型,错误率为43.6%,紧随其后的是阿里巴巴的Wan2.1-T2V-14B(43.8%)和智谱AI的CogVideoX1.5-5B(43.8%)。这三个模型都采用了基于Transformer架构的设计,展现出了相对较强的物理理解能力。

相比之下,一些较早的模型表现就差强人意了。AnimateDiff和ZeroScope等基于传统U-Net架构的模型,错误率都超过了50%,其中AnimateDiff的错误率甚至达到了60.8%。这就像一些学生在物理考试中的表现还不如盲猜,说明这些模型对物理世界的理解确实存在根本性问题。

更有趣的是,不同类型的物理场景对AI模型的挑战程度也不相同。流体力学场景是所有模型的"梦魇",平均错误率高达60%以上。这并不难理解——流体的行为涉及复杂的非线性动力学,即使对人类来说也是相当具有挑战性的。当我们看到河流中的水花或者水龙头流出的水流时,其中蕴含的物理学原理远比表面看起来复杂得多。

相对而言,光学效果是AI模型表现最好的领域,错误率普遍较低。这可能是因为现有的训练数据中包含了大量的图片和短视频,AI模型通过观察这些数据已经学会了光影关系的基本规律。阴影的行为虽然也涉及几何光学,但其规律相对简单且直观,更容易被AI模型掌握。

刚体力学和连续介质力学的表现则介于两者之间。有趣的是,AI模型在处理简单的球体碰撞时表现尚可,但一旦涉及更复杂的多体相互作用(如金字塔撞击场景),错误率就会显著上升。这说明AI模型虽然能够处理一些基础的物理场景,但在面对复杂系统时仍然力不从心。

四、深度分析:什么影响了AI的"物理智商"

为了更好地理解这些结果,研究团队进行了深入的分析,就像教育专家研究影响学生成绩的各种因素一样。他们发现了几个关键因素,这些因素就像学生的学习条件一样,显著影响着AI模型的物理理解能力。

首先,模型规模的影响非常显著,就像学生的大脑容量一样重要。研究团队发现,参数量更大的模型普遍表现更好。从2亿参数的小型模型到140亿参数的大型模型,随着规模增长,物理理解能力呈现出明显的提升趋势。这就像一个学生的记忆力和思维能力越强,越能够掌握复杂的物理概念和它们之间的关系。

训练数据的规模同样起到了关键作用。那些使用了更大规模数据集训练的模型,往往在物理常识测试中表现更出色。这很好理解——就像一个学生阅读的物理教科书和练习题越多,对物理世界的理解就越深入。当AI模型见过更多真实世界的视频时,它自然更容易学会其中蕴含的物理规律。

架构设计的影响也不容忽视。基于Transformer的模型普遍比基于U-Net的传统模型表现更好。Transformer架构就像一个更高效的学习方法,能够更好地捕捉视频中不同帧之间的时间关系,从而更好地理解运动和变化的物理规律。这就像一个学生如果掌握了更好的学习方法,就能更有效地理解和记忆物理知识。

视频长度对物理理解能力的影响尤其值得关注。研究团队发现,能够处理更长视频序列的模型,在物理常识测试中表现更好。这个发现很有启发性——物理现象往往需要一定的时间才能完整展现,比如一个摆锤的完整摆动周期,或者一个球从抛出到落地的完整轨迹。只看很短的片段,AI模型很难真正理解其中的物理规律。这就像学习物理时,只看实验的某个瞬间是无法理解完整物理过程的,需要观察整个过程才能得出正确的结论。

令人意外的是,分类器自由引导(CFG)的强度对物理理解能力的影响微乎其微。CFG就像一个"画面质量调节器",可以让生成的视频看起来更清晰或更符合用户的要求。但研究结果表明,无论如何调节这个参数,AI模型的物理理解能力基本不变。这说明物理常识是深深嵌入在模型的内部表示中的,不是通过后期调节就能改善的表面特征。

五、人类评审团的验证实验

为了确保这套"考试系统"的可靠性,研究团队还进行了一项有趣的验证实验,邀请真人评审来判断同样的AI生成视频,看看人类的判断是否与LikePhys系统的评分一致。

这项实验就像是请一群经验丰富的物理老师来给同一批学生答卷打分,然后看看他们的评分是否与自动评分系统一致。研究团队为每个AI模型生成了120个测试视频,涵盖了所有12种物理场景,然后请人类评审按照1-5分的标准进行评分,其中1分代表严重违反物理规律,5分代表完全符合物理常识。

结果令人鼓舞。LikePhys系统的评分与人类评审的判断显示出了强烈的一致性,相关系数达到了0.44。这个数字可能看起来不算很高,但在这种主观性较强的评估任务中,这已经是一个相当不错的结果了。这说明LikePhys确实能够捕捉到人类在判断物理合理性时关注的核心要素。

更有趣的是,研究团队还将LikePhys与其他现有的评估方法进行了对比,包括一些专门设计用于评估视频物理合理性的AI系统。结果显示,LikePhys在与人类判断的一致性方面表现最好,超过了包括VideoPhy、VideoPhy2和通用视觉语言模型Qwen2.5 VL在内的所有对比方法。

这种优势的原因在于LikePhys独特的评估思路。传统的方法往往依赖于视觉特征的分析,容易被表面的视觉质量所干扰。比如,一个画面精美但物理错误的视频可能会获得高分,而一个画面略显粗糙但物理正确的视频可能会被低估。LikePhys通过直接检查AI模型的内部确信度,有效地避免了这种视觉偏见。

为了进一步验证这一点,研究团队还检查了LikePhys评分与传统视觉质量指标的相关性。结果显示,LikePhys与美学质量的相关性几乎为零(相关系数-0.05),与主体一致性和背景一致性的相关性也极低(均为-0.01)。这证明了LikePhys确实在测量一个独立的维度——物理合理性,而不是简单地重复现有的视觉质量评估。

六、跨越不同物理定律的能力差异

通过对测试结果的深入分析,研究团队发现了一个有趣的现象:不同AI模型在不同类型物理定律面前表现出了明显的"偏科"现象,就像学生可能擅长力学但不擅长电磁学一样。

在时间连续性方面,AI模型的表现差异最大。时间连续性指的是物体的运动应该是平滑连续的,不应该出现突然的跳跃或时间倒流。一些模型在这方面表现不错,能够生成时间上连贯的视频,而另一些模型则经常出现物体突然传送、时间跳跃或者运动轨迹不连续的问题。这种差异可能反映了不同模型在处理时间序列信息时的架构差异。

空间连续性是另一个挑战性的领域。这涉及物体在空间中的位置变化应该遵循连续性原则,不能凭空出现或消失。令人惊讶的是,一些在其他方面表现不错的模型在这个测试中却表现很差,经常生成物体穿墙、瞬间移动或者凭空消失的场景。这说明即使是先进的AI模型,在理解空间几何关系方面仍然存在基本缺陷。

能量守恒定律的测试结果尤其值得关注。这是物理学中最基本的定律之一,但却是AI模型表现最不稳定的领域之一。一些模型能够很好地处理简单的能量转换场景,比如球的弹跳,但在面对复杂的多体相互作用时就会出现明显的能量守恒违背。最常见的错误包括碰撞后物体获得比碰撞前更多的动能、摆锤摆动幅度逐渐增大而不是减小、或者流体在流动过程中莫名其妙地加速。

质量守恒在流体场景中特别重要,但这也是AI模型普遍感到困难的领域。很多模型生成的流体视频中会出现水量突然增加或减少、水流在流动过程中分裂成不连续的部分、或者水滴在空中突然改变大小等违反质量守恒的现象。这反映出AI模型对流体的连续性和不可压缩性缺乏深入理解。

几何不变性测试关注的是物体的形状和大小在运动过程中应该保持稳定(除非有外力作用导致形变)。令人意外的是,这是AI模型表现相对较好的领域之一。大多数模型都能保持物体在运动过程中的基本几何特征,很少出现物体形状随意变化的问题。这可能是因为几何不变性是视觉系统中相对基础的概念,在大量的训练数据中得到了充分体现。

光学一致性测试主要关注光照和阴影的关系是否符合几何光学原理。这是AI模型表现最好的领域,大多数模型都能生成光影关系基本正确的视频。这很可能是因为现有的图像和视频数据中包含了大量的光影信息,AI模型通过观察这些数据已经学会了基本的光影规律。

材料响应测试关注不同材料在外力作用下的反应是否符合材料力学原理。这个领域的测试结果呈现出中等水平的表现,AI模型能够处理一些基本的材料行为,比如布料的柔软性和金属的刚性,但在面对更复杂的材料相互作用时仍然会出现问题。

七、研究的局限性与未来展望

如同任何科学研究一样,这项开创性的工作也有其局限性,研究团队对此保持了诚实和谦逊的态度。他们清楚地认识到这些限制,并为未来的改进指出了方向。

首先,LikePhys方法的核心假设是AI模型的训练数据主要来自真实世界,因此遵循物理规律。这个假设在目前来说是合理的,因为像HD-VILA-100M和Panda-70M这样的大规模数据集主要由真实拍摄的视频组成,而不是动画或合成内容。但随着生成内容在互联网上越来越普遍,未来的训练数据可能会包含更多人工生成的、可能违反物理规律的内容,这可能会影响这种评估方法的有效性。

测试数据的构建成本是另一个实际限制。与那些仅需要文本提示就能生成评估内容的方法相比,LikePhys需要精心设计的配对视频,这确实需要更多的时间和资源投入。每一对测试视频都需要在3D渲染软件中精确建模,确保物理正确版和物理错误版除了关键的物理违背之外,在视觉上尽可能相似。这种严格的对照设计虽然保证了测试的科学性,但也限制了方法的快速扩展。

技术可及性也是一个需要考虑的因素。LikePhys需要访问AI模型的噪声预测功能,这意味着无法直接评估那些只提供API接口而不开放内部架构的商业模型。随着越来越多的先进模型以封闭式服务的形式提供,这个限制可能会变得更加明显。不过,对于开源社区和研究界来说,这个方法仍然具有很大的价值,可以用于指导模型训练和选择检查点。

尽管存在这些局限性,LikePhys为AI视频生成领域带来的贡献是不可否认的。它首次提供了一种客观、系统的方法来评估AI模型的物理理解能力,填补了这个重要领域的评估空白。更重要的是,它为改进AI模型指出了明确的方向。

从测试结果可以看出,当前AI视频生成模型在物理理解方面还有很大的提升空间。特别是在流体力学、复杂多体相互作用和长时间动力学演化方面,现有模型的表现还远远不能满足作为"物理世界模拟器"的要求。这为未来的研究指出了几个重要方向。

首先,更长的训练序列可能是关键。研究结果显示,能够处理更长视频序列的模型在物理理解测试中表现更好。这提示我们,物理规律的学习需要足够的时间窗口。未来的模型可能需要在更长的视频序列上进行训练,才能真正掌握物理世界的动力学演化规律。

其次,物理感知的训练目标可能需要被明确地整合到模型训练中。目前的模型主要通过观察训练数据中的统计模式来学习,这种隐式的学习方式虽然能够捕捉到一些物理规律,但显然还不够充分。未来可能需要设计专门的训练目标和约束,明确地鼓励模型学习和遵循物理定律。

多尺度记忆机制也可能是一个重要的研究方向。物理系统往往涉及从微观到宏观的多个尺度,以及从短期到长期的多个时间跨度。现有的模型架构可能还没有很好地捕捉到这种多尺度特性。未来的模型可能需要更复杂的记忆和注意力机制,来处理这种跨尺度的相互作用。

除了这些技术改进方向,LikePhys方法本身也有进一步发展的潜力。研究团队已经证明了这种方法可以应用于其他现有的物理理解基准测试,如IntPhys数据集。未来可以考虑将这种评估思路扩展到更多的物理现象和更复杂的场景中,构建更全面的AI物理理解能力评估体系。

说到底,这项研究虽然揭示了当前AI视频模型在物理理解方面的不足,但也为这个领域的发展指明了清晰的道路。随着模型规模的继续扩大、训练数据的不断丰富和训练方法的持续改进,我们有理由相信,真正理解物理世界的AI视频模型终将出现。到那时,AI不仅能生成视觉上令人惊叹的视频,更能创造出物理上完全可信的虚拟世界,为科学研究、教育培训、娱乐产业等众多领域带来革命性的变化。

对于普通人来说,这项研究的意义在于提醒我们,在为AI生成的精美视频而惊叹的同时,也要保持一份理性的思考。当前的AI虽然在视觉表现上已经相当出色,但在真正理解和模拟物理世界方面还有很长的路要走。在那些需要物理准确性的应用场景中,我们仍然需要谨慎对待AI生成的内容。同时,这项研究也让我们对未来充满期待——随着AI物理理解能力的不断提升,我们最终将拥有真正智能的、能够准确模拟物理世界的AI助手。感兴趣的读者可以通过论文编号arXiv:2510.11512v1查询这项研究的完整技术细节。

Q&A

Q1:LikePhys评估系统的核心原理是什么?

A:LikePhys通过检查AI模型内部的"确信度"来评估物理理解能力。它给物理正确和错误的场景都添加噪声,然后观察AI模型清理噪声的难易程度。如果AI对物理正确的场景更确信,清理噪声就会更轻松,这样就能判断AI是否真正理解物理规律,而不是仅仅依靠视觉表象。

Q2:目前AI视频生成模型的物理理解能力如何?

A:测试结果显示大多数AI模型的物理理解能力还不够理想。在12个测试模型中,最好的华为Hunyuan T2V错误率为43.6%,多数模型错误率超过50%(相当于随机猜测水平)。流体力学是最大难点,平均错误率超过60%,而光学效果相对较好。这说明当前AI在生成视觉精美视频的同时,对物理世界的真正理解还有很大提升空间。

Q3:这项研究对普通用户有什么实际意义?

A:这项研究提醒我们在使用AI生成视频时要保持理性判断。虽然AI能创造视觉效果惊艳的视频,但在需要物理准确性的场景(如教育、科研、工程模拟等)中仍需谨慎。同时,研究指出了AI发展的明确方向,随着物理理解能力的提升,未来AI将能提供更可靠、更智能的视频生成服务,在虚拟现实、影视制作、科学可视化等领域发挥更大价值。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-