这项由清华大学IEI实验室联合威斯康星大学麦迪逊分校及Adobe研究院共同完成的研究,于2026年5月14日以预印本形式发布,论文编号为arXiv:2605.15185v1,有兴趣深入了解的读者可通过该编号查询完整论文。
你有没有看过某个AI生成的视频,感觉哪里不对劲,但又说不清楚问题在哪?一辆车开着开着身形突然"膨胀"了,一只动物跑着跑着腿却像果冻一样颤抖,或者一个人走向远方但缩小的速度怎么看都不像真实世界里的样子——这种奇怪的感觉其实不是你的错觉,而是AI视频里真实存在的"物理谎言"。
现在,清华大学的研究团队带着一套专门的检测工具来了。他们给它起了一个名字:PDI-Bench,全称是"透视失真指数评测框架"(Perspective Distortion Index Benchmark)。这套工具就像是一把精密的尺子,专门用来量一量AI生成的视频到底有多"不守物理规则"。
一、为什么AI生成的视频会说谎
要理解这项研究,得先从一个物理常识说起。现实世界里有一条铁律:一个物体距离你越远,它在你眼睛里看起来就越小。这条规则支配着我们所有的视觉体验,相机也遵守同样的法则,被称为"针孔摄像机模型"。具体来说,一个物体在画面里显示的高度,乘以它距离摄像机的深度,结果应该始终是一个固定的常数。就像一张橡皮筋,拉长的部分和剩余长度之积不变。
然而,当下最强大的AI视频生成模型——包括大家耳熟能详的Sora、Veo、Wan等等——在生成视频时并没有真正"理解"这条规则。它们本质上是在学习海量视频里的像素统计规律,而非真正模拟三维空间。于是,视频里的物体有时会在不该变大的时候变大,在不该变形的时候变形,运动轨迹有时也会出现突兀的抖动或不合逻辑的转向。
这些问题长期以来缺乏系统的量化方法。现有的评测工具,比如FVD(弗雷歇视频距离)或CLIP分数,主要衡量的是视频的"好不好看"和"内容符不符合描述",根本无法判断视频里的物理逻辑是否成立。正是这个空白,催生了PDI-Bench的诞生。
二、三种"物理谎言"的类型
研究团队将AI视频中的几何错误归纳为三种核心类型,每一种都可以用我们日常生活中的场景来理解。
第一种叫做"尺度-深度对齐误差"。回到那条铁律:物体越远就应该越小,而且缩小的程度必须跟距离精确匹配。当AI违背这条规则时,就会出现研究团队所称的"体积呼吸"现象——一辆远去的火车,原本应该均匀缩小,却突然鼓胀了一圈,然后又瘪回去,就好像它在深呼吸一样。这不是艺术效果,而是一种物理上的谎言。
第二种叫做"三维运动一致性误差"。现实世界里,一个物体从A点移动到B点,它在三维空间中的运动轨迹应该是平滑连贯的,不会无缘无故地抖动,也不会在没有外力的情况下突然急转弯。研究团队把这称为"空间抖动"或"非自然逆转"问题。想象一辆高速行驶的列车,正常情况下它的运动方向变化非常缓慢,但AI有时会让它在某一帧突然"鬼畜"般地颠簸,或者方向莫名其妙地反向。
第三种叫做"三维结构刚性误差",也就是研究者们戏称的"果冻效应"。一辆汽车是刚性物体,它的车头和车尾之间的距离在三维空间里应该始终保持不变。但AI生成的视频里,刚性物体有时会像果冻一样扭曲形变,车身的不同部位开始以不一致的方式运动,整体结构失去了应有的稳定性。
三、检测"物理谎言"的三步流水线
知道了要检测什么,接下来的问题是怎么检测。研究团队设计了一套被他们称为"目标-提升-锚定"的三步工作流程,像一套精密的鉴定程序。
第一步是"语义定位",使用一个名叫SAM 2的分割模型来锁定视频中被检测的主体对象。系统先通过Florence-2模型自动识别画面里的目标物体(比如一辆车或一只鸟),然后让SAM 2在视频的每一帧里精准地勾勒出这个物体的轮廓,就像给主角打上了一个贯穿全片的追踪标记。从这个轮廓里,系统可以提取出每一帧里物体在画面中的像素高度。
第二步是"三维几何提升",这是整套流程里最关键的一步。使用一个名叫MegaSaM的模型,系统将视频里的每一个像素都"提升"到三维世界坐标系中,同时估算出摄像机的运动轨迹和焦距。这个步骤的神奇之处在于,它能够把摄像机本身的移动影响从物体运动中剥离出来——毕竟,如果摄像机在追着物体跑,物体在画面里的变化一部分来自摄像机运动,另一部分才来自物体自身运动,而我们只关心后者。
第三步是"三维结构锚定",使用CoTracker3这个点追踪模型,在第一步确定的物体区域内密集地"种下"一批追踪锚点,然后跟踪这些锚点在视频每一帧里的二维位置变化。结合第二步建立的三维世界坐标,系统把每个锚点的二维轨迹"映射"回三维空间,得到这些锚点在真实三维世界里的运动路径。有了这些三维轨迹,系统就可以计算锚点之间的距离是否保持恒定,从而判断物体是否发生了不该有的形变。
值得一提的是,为了确保检测结果本身的可靠性,研究团队还设计了一套"感知保真度守卫"机制,用来验证每一步感知工具的输出质量。比如,对于MegaSaM的三维重建,系统会把一帧的三维点云"投影"回另一帧的视角来渲染出图像,然后对比渲染结果与真实帧的差异,只有误差足够小,这次重建才被认为是可信的。
四、给"物理谎言"打分:透视失真指数
有了上面三步工作流收集到的数据,系统就可以计算最终的"透视失真指数",也就是PDI分数。这个分数是三个子指标的加权求和:尺度误差占40%权重,轨迹误差占40%权重,刚性误差占20%权重。
尺度误差的计算基于前面提到的物理铁律:物体像素高度乘以深度应该是常数。系统取前五帧的这个乘积的中位数作为基准,然后计算后续每一帧偏离这个基准的程度,用对数空间来衡量(这样对"变大"和"变小"的惩罚是对称的),最后取均方根误差。
轨迹误差的计算则是在三维世界坐标系里,分析物体质心的运动是否符合牛顿力学常识。系统计算每一帧的三维速度和加速度,然后从两个维度衡量异常:一是加速度的大小是否超出合理范围(用相对于平均速度的比值来衡量,并通过tanh函数压缩极端值),二是连续两帧之间运动方向的突变程度(用相邻速度向量之间夹角的余弦不相似度来衡量)。这两个维度各占50%权重合并为轨迹残差,最后同样取均方根误差。
刚性误差的计算则依托那些三维锚点对。系统在初始帧选出一组最优的锚点对——选择标准是既要让锚点对尽量分散(提高信噪比),又要让锚点尽量远离物体轮廓边缘(避免深度估计的边界噪声)。然后对于后续每一帧,计算所有锚点对之间的三维距离与初始帧的比值,用这些比值的"中位数绝对偏差"除以"中位数"来得到每帧的刚性分数,最后对所有帧取平均。
PDI分数越低,意味着视频越符合三维物理规律;分数越高,意味着物理谎言越多、越严重。
五、谁在说谎,谁说得少
研究团队用这套工具对六款主流AI视频生成模型进行了全面评测,同时用15段真实世界拍摄的视频作为基准参照。
真实视频的PDI分数为0.1206,其中尺度误差极低,仅为0.0660,这验证了整套检测方法的准确性——真实世界的物理规律确实被捕捉到了。
在六款AI模型中,ByteDance的Seedance 2.0和Zhipu AI的CogVideoX-3表现最好,PDI分数分别为0.2422和0.2480,与真实视频的差距相对较小。Seedance 2.0的一个突出特点是稳定性极佳,异常值比例为0%,而且有89.3%的视频通过了"数学验证"(即物理规律得到了满足),是所有模型中最高的。CogVideoX-3则在运动一致性和结构刚性两个维度上表现接近真实视频,三维运动轨迹最为流畅,物体形变也最少。
Google的Veo 3.1排名第四,PDI为0.4521,但有一个值得关注的特征:它的尺度误差高达0.7507,远超运动和刚性误差,说明它最主要的问题是物体的"体积呼吸"而非运动抖动。Wan 2.2排名第五,PDI为0.5595,尺度误差更是达到了0.9317,刚性误差0.5150也偏高,异常值比例达到7.1%。
最令人意外的是排名末尾的两位:Sora的PDI高达0.8255,HunyuanVideo的PDI则是0.8825。这两款模型在视觉上都以高度逼真著称,但恰恰在物理一致性上败得最惨。它们的尺度误差分别高达1.6753和1.8469,是真实视频的25倍以上。更糟糕的是,它们的标准差都超过1.7,异常值比例各达14.3%,意味着它们在不同场景下的物理表现极不稳定,时好时坏,无法预期。
研究团队还邀请了七位计算机视觉领域的专家,对同一批视频进行人工评分(1分最好,10分最差)。专家打出的排名与PDI分数的排名完全吻合,相关系数达到了完美的1.0。这说明PDI-Bench确实能够捕捉到人类专家也会注意到的物理失真,而且是用完全自动化、客观量化的方式实现的。
六、五种场景下的专项失败分析
研究团队精心设计了五种不同的几何挑战场景,用来压力测试各模型在特定物理情境下的表现。
第一种是"纵深收敛"场景,即物体沿着镜头轴线方向移动(比如一辆车开进或开出画面)。在这个场景里,HunyuanVideo和CogVideoX-3表现意外地好,PDI分别仅为0.10和0.15,接近真实视频的0.07。反而是Wan 2.2和Veo 3.1在这个场景里尺度误差偏高(超过0.32),产生了一种物体大小与深度变化不匹配的"滑行"感。
第二种是"动态追踪"场景,即摄像机跟随运动物体移动。CogVideoX-3和HunyuanVideo在这个场景里表现最佳,PDI分别为0.16和0.17,接近真实视频的0.12。但Sora在这个场景里栽了大跟头,尺度误差高达2.84——它的"世界模型"似乎会把摄像机靠近物体的动作误解为物体本身在变大,导致透视关系完全崩溃。
第三种是"生物运动"场景,评测对象是动物(如飞鸟、游豚、章鱼、孔雀等)的自然运动。Seedance 2.0以PDI 0.25领跑,能较好保持生物体的结构完整性。而Veo 3.1和HunyuanVideo则深陷"体积呼吸"困境,尺度误差均超过1.97,动物在运动周期中体型忽大忽小,在生物的步态循环中身体质量出现不一致的波动。
第四种是"曲线运动"场景,测试物体做弯道运动或旋转时的表现。这是最具挑战性的场景,Sora在这里惨遭"灾难性失败",PDI高达2.13,尺度误差更是飙至4.87。研究团队认为,以Transformer架构为基础的生成模型在处理旋转变换时,特别难以维持h·Z=常数这个透视不变量。CogVideoX-3和Seedance 2.0在此场景中仍然是最稳健的选手。
第五种是"部分遮挡"场景,测试当物体被遮挡后重新出现时模型是否能维持物理一致性。HunyuanVideo在这里表现最差,PDI高达2.41,尺度误差5.38——模型在物体被遮挡期间似乎"忘记"了该物体的物理尺寸,等物体重新出现时,它的大小已经变得面目全非。相反,Sora和Seedance 2.0在遮挡场景下表现出了较好的"空间记忆",物体重新出现后的结构一致性维持得较好(刚性误差均低于0.45)。
七、当AI视频越来越长:自回归生成的隐患
研究团队还做了一项颇具前瞻性的压力测试:当AI视频生成模型被要求生成比它训练时见过的更长的视频时,会发生什么?
测试对象是基于Wan2.1-T2V-1.3B架构的Self-Forcing模型。该模型是通过训练81帧长度的视频序列来学习的,研究团队则强迫它生成129帧的视频,相当于让它"外推"到训练边界之外。
结果揭示了一个耐人寻味的"运动成功,几何崩溃"二元悖论。三维运动轨迹误差在所有场景下都保持了相当的稳定(总体平均0.317),说明Self-Forcing的训练范式配合滚动KV缓存机制,成功地抑制了长视频生成中常见的高频空间抖动和非自然逆转。换句话说,视频里物体的运动"看起来"还是挺顺滑的。
然而,尺度误差却飙升至2.8583,是训练窗口内的数倍。一旦模型尝试超越81帧的训练边界去预测更远的未来,它就逐渐失去了对物体原始三维体积的"空间记忆",导致物体开始以与深度变化不匹配的方式膨胀或收缩。在部分遮挡场景下,这个问题更是被放大到极致:PDI高达2.757,当物体消失在遮挡物后方时,自回归机制丢失了对物体三维结构的追踪,物体重新出现后已经和原来大相径庭。
说到底,这项研究告诉我们一件很重要的事:一个AI视频看起来有多漂亮,和它有多符合物理规律,是两件完全不同的事情。我们当下那些最令人叹为观止的AI视频生成模型,在视觉上确实已经足够以假乱真,但如果你拿着三角尺和物理定律去量一量,它们其实还差得远。这就好比一个画功极好的画家,能把一幅写实油画画得栩栩如生,但如果你拿尺子去量画里每个物体的透视比例,会发现错误处处可见——只是因为整体效果足够好,所以我们的眼睛没有追究。
PDI-Bench的贡献,本质上是给AI视频领域建立了一套"物理审计"标准,让"它看起来真实"和"它符合物理规律"这两个问题可以被分开、被独立地量化评估。这对于未来AI世界模型的发展至关重要,因为如果我们想用AI来模拟真实世界,用它来训练机器人、辅助自动驾驶或者构建虚拟现实环境,那些"物理谎言"的代价可能远不只是一个看起来奇怪的画面那么简单。
当然,这套工具本身也有局限性。它依赖SAM 2、MegaSaM和CoTracker3这三个外部工具,一旦视频画质太差或者场景太复杂导致这些工具失效,整个检测流程就得降级为精度更低的二维代理方案。整套方法还建立在"刚性物体"的假设之上,对于流体、布料或人群这类高度非刚性的对象,理论上的适用性就打了折扣。另外,用单目视觉来区分三维旋转和轴向平移,本身就是一个数学上没有唯一解的问题,即便有各种统计补救措施,在极端弯道运动场景下还是会引入一些测量噪声。
对于这项研究感兴趣的读者,可以通过arXiv编号2605.15185查阅完整论文,或访问项目主页pdi-bench.github.io获取代码和数据集。
Q&A
Q1:PDI-Bench和现有的视频评估工具(比如FVD分数)有什么本质区别?
A:FVD这类传统工具主要衡量AI视频在像素分布或语义内容上与真实视频的相似程度,本质上是在问"这个视频好不好看、内容对不对"。PDI-Bench则完全不同,它问的是"这个视频符不符合三维物理规律"。通过把视频里的二维画面"提升"到三维坐标系,PDI-Bench可以量化物体的尺度变化是否符合透视定律、运动轨迹是否符合牛顿力学、物体结构是否保持刚性不变。两类工具衡量的维度完全正交,一个视频完全可以FVD分数极好但PDI分数极差,反之亦然。
Q2:Sora和HunyuanVideo视觉效果这么好,为什么物理一致性反而是最差的?
A:这恰恰揭示了当前AI视频生成的核心矛盾。Sora和HunyuanVideo是在海量视频数据上训练的大型Transformer模型,它们学会了模仿真实视频的像素统计规律,因此画面极为精美。但"像素看起来对"和"三维关系真的对"是两回事。研究发现,这类Transformer架构特别难以维持透视不变量,尤其在曲线运动时尺度误差会飙升到真实视频的25倍以上。它们擅长让每一帧单独看起来都很好,却没有在内部建立起真正的三维空间模型来约束帧与帧之间的几何一致性。
Q3:PDI-Bench对普通用户或AI视频创作者有什么实际意义?
A:对于普通用户,PDI-Bench提供了一个客观依据来理解为什么某些AI视频"哪里不对劲"——那种说不清道不明的违和感,往往正是物理一致性问题造成的。对于AI视频创作者,了解各模型在不同场景下的物理失真规律,可以帮助他们选择合适的工具:比如需要拍摄物体直线行进的场景时,HunyuanVideo和CogVideoX-3的纵深收敛表现其实相当不错;但如果场景涉及弯道旋转或部分遮挡,Seedance 2.0可能是更稳健的选择。对于AI研究者,PDI-Bench提供了一个清晰的改进方向:如何在生成模型中引入显式的三维几何约束。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。