
这项由新加坡国立大学的杨洛、赵轩雷,香港科技大学(广州)的林白炯,香港大学的朱凌婷,悉尼大学的唐立尧,香港中文大学的刘宇琦,以及光速公司的钱盛举、王鑫等研究者合作完成的突破性研究,于2025年11月20日发表在预印本平台arXiv上,论文编号为arXiv:2511.16668v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当前的视频生成技术已经发展到了令人惊叹的地步。OpenAI的Sora-2、Google的Veo-3.1等模型能够根据文字描述生成极其逼真的视频内容,这些AI系统仿佛拥有了神奇的"创作魔力"。然而,就像一个画家可以画出美丽的画作,但不一定能解开数学难题一样,这些视频生成模型虽然在视觉效果上表现卓越,但它们的"思考能力"究竟如何?它们能否像人类一样进行逻辑推理、空间认知和物理直觉的运用?
这正是研究团队想要解决的核心问题。他们注意到,尽管视频生成模型在创造视觉内容方面已经达到了专业级水准,但科学界对这些模型的推理能力缺乏系统性的评估方法。就像我们评判一个学生不能只看他的绘画作品,还要考察他的数学、物理和逻辑思维能力一样,评估AI模型也需要更全面的"考试体系"。
为了填补这个空白,研究团队开发了名为V-ReasonBench的综合评估基准。这套评估体系就像一个专门为视频生成模型设计的"智力测试",包含了四大核心推理维度:结构化问题解决、空间认知、模式推理和物理动力学。每个维度都包含精心设计的任务,总共涵盖13种不同类型的推理挑战,从简单的数学运算到复杂的物理现象预测。
研究团队采用了一个巧妙的评估策略,称为"帧链推理"(Chain-of-Frame)。这个概念类似于人工智能领域著名的"思维链"方法,但专门适用于视频模态。具体来说,就是给模型提供一个初始图像和任务指令,让模型生成一段视频,其中每一帧都代表推理过程中的一个步骤,最后一帧展示最终答案。这就好比让学生在考试中不仅要写出答案,还要展示解题的完整过程。
在实际测试中,研究团队对六个当前最先进的商用视频生成模型进行了全面评估,包括Sora-2、Veo-3.1、Hailuo-02、Vidu-Q2、KlingAI-2.5-Turbo-Pro和Seedance-1.0-Lite。测试结果揭示了一个有趣的现象:不同模型在各个推理维度上表现出明显的差异化特征,没有任何一个模型能在所有方面都表现优异。
**一、四大推理维度:给AI模型的全方位"体检"**
V-ReasonBench的核心创新在于将视频推理能力分解为四个互补的维度,每个维度都对应着人类认知的不同方面。这种分类方法就像医生给病人做全身检查时要分别检查心肺功能、血液指标、神经反应等各个系统一样,确保评估的全面性和准确性。
结构化问题解决维度主要考察模型处理规则导向任务的能力。这个维度包含四个子任务:数学运算、代码执行、数独游戏和井字棋游戏。数学运算任务要求模型完成各种难度级别的算术题,从简单的加减法到复杂的四则混合运算。代码执行任务则让模型像程序员一样跟踪代码的执行过程,预测最终输出结果。数独游戏测试模型的约束满足推理能力,而井字棋游戏则评估模型在对抗性环境中的策略规划能力。
空间认知维度专门评估模型对几何关系和空间变换的理解能力。这个维度包括形状拼装、视觉对称和颜色连接三个子任务。形状拼装任务类似于拼图游戏,要求模型通过旋转和位移将几何图形正确放置到相应的槽位中。视觉对称任务考察模型识别和完成各种对称模式的能力,包括水平对称、垂直对称、对角线对称和180度旋转对称。颜色连接任务则像连线游戏一样,要求模型在网格中用非相交的路径连接相同颜色的端点。
模式推理维度探测模型的归纳学习和抽象思维能力。这个维度包含序列补全、类比推理和规则跟随三个子任务。序列补全任务展示一系列遵循特定规律的图像,要求模型推断下一个图像应该是什么样子。类比推理任务采用经典的"A对B正如C对什么"的形式,测试模型理解关系映射的能力。规则跟随任务通过几个示例展示某种变换规律,然后要求模型将同样的规律应用到新的输入上。
物理动力学维度评估模型对基本物理原理的直觉理解。这个维度包括物体滑动、连通容器和温度变形三个子任务。物体滑动任务要求模型预测放置在斜面上的物体是否会滑落,这需要对重力、摩擦力和物体属性的综合考量。连通容器任务考察模型对流体静力学的理解,要求预测液体在连通容器中的最终平衡状态。温度变形任务则测试模型对热胀冷缩、相变等热学现象的认知。
**二、创新评估方法:从"看结果"到"看过程"的转变**
传统的AI模型评估通常只关注最终输出的正确性,就像只看学生的考试答案而不管解题过程一样。但V-ReasonBench采用了一种更加先进的评估策略,不仅要看模型能否给出正确答案,更要观察它的"思考过程"是否合理。
这种方法的核心是"最后帧评估"策略。研究团队巧妙地设计了所有任务,使得正确的推理过程必然导致正确的最终状态,而错误的推理过程则会在最后一帧中暴露问题。这就像设计一个精巧的机械装置,只有每个齿轮都正确转动,整个机器才能正常工作并产生预期的最终状态。
为了确保评估的准确性和可扩展性,研究团队开发了三种互补的评估方法。第一种是掩码评估法,主要用于有明确物体边界的任务。这种方法会自动识别图像中的关键区域,然后重点比较这些区域的预测结果与标准答案的相似度。第二种是网格评估法,专门用于需要精确空间定位的任务,比如对称性补全或规则应用。这种方法将图像划分为规则的网格,然后逐格比较预测结果的准确性。第三种是视觉语言模型评估法,用于那些具有简单视觉布局且AI模型能够可靠理解的任务,比如数学运算或代码执行结果的提取。
这种多层次的评估策略有效避免了单一评估方法可能带来的偏差。研究团队特别注意到,纯粹依赖视觉语言模型进行评估可能会在处理复杂网格结构或细粒度几何关系时出现误判。因此,他们根据不同任务的特点选择最合适的评估方法,确保每个任务都能得到公平且准确的评估。
**三、六大模型的"考试成绩单":各有千秋的表现特色**
研究团队对六个顶级视频生成模型进行了全面测试,结果展现了一幅复杂而有趣的能力图谱。每个模型都像具有不同专长的学生一样,在某些科目上表现出色,而在其他科目上则相对薄弱。
Sora-2作为OpenAI的旗舰模型,在测试中展现了最均衡的表现,总平均得分达到43.86分(满分100分)。它在结构化问题解决方面表现尤为突出,得分高达72分,这意味着它在处理数学运算、逻辑推理和策略规划等任务时具有相当强的能力。在空间认知方面,Sora-2也取得了36.76分的不错成绩,显示出它对几何关系和空间变换的良好理解。在模式推理维度,该模型得到40分,证明它具备一定的归纳学习和抽象思维能力。然而,有趣的是,Sora-2在物理动力学方面的表现相对较弱,只得到26.67分,这表明尽管它在逻辑推理方面很强,但对物理世界的直觉理解还有待提高。
Hailuo-02作为国产模型的代表,展现了另一种有趣的能力分布模式。它的总平均得分为37.52分,在四个维度中表现最为均衡。特别值得注意的是,它在物理动力学方面与Vidu-Q2并列第一,得分达到36.67分,这表明中国的研发团队在模拟物理世界方面投入了相当的精力。在结构化问题解决方面,Hailuo-02得分46.86分,虽然低于Sora-2,但仍然显示出不错的逻辑推理能力。
Veo-3.1作为Google的代表作品,得到了24.25分的平均成绩。它的表现相对中庸,在各个维度都没有特别突出的亮点,但也没有明显的短板。这种平衡性表现可能反映了Google在模型训练时追求全面发展的策略。
相比之下,其他三个模型的表现则显得更加专业化或者说存在明显的发展重点差异。Kling-2.5-Turbo-Pro的平均得分为11.34分,Vidu-Q2得到16.69分,而Seedance-1.0-Lite只有10.68分。这些较低的分数并不意味着这些模型在视频生成质量上有问题,而是说明它们在推理任务上还有很大的提升空间。
研究团队还进行了人类偏好对齐验证,结果显示自动评估结果与人类评判的一致性达到97.09%。这个高度的一致性证明了V-ReasonBench评估方法的可靠性。剩余的2.91%差异主要出现在一些视觉上模糊的情况,比如接近对称的配置或部分遮挡的物理场景,在这些情况下人类评估者通常会对微小的感知偏差表现出更高的容忍度。
**四、令人意外的发现:视觉丰富度与推理准确性的矛盾**
在深入分析模型表现时,研究团队发现了一个既有趣又令人担忧的现象。许多视频生成模型存在一种"过度美化"的倾向,它们似乎无法忍受简洁、干净的测试环境,总是试图向其中添加额外的视觉元素来"改善"画面效果。
以Seedance-1.0-Lite为例,当面对一个简单的井字棋游戏板时,模型没有保持原有的简洁设计,而是将其转换成一个卡通风格的场景,添加了角色形象和装饰性图标。在另一个案例中,同样的模型将一个标准的井字棋布局映射到了棋盘上,周围环绕着各种棋子和标记物。虽然这些变化从视觉叙事的角度来看是无害的,甚至可以说是"创意性"的,但它们破坏了任务所要求的严格符号和空间精确性。
这种现象背后的原因可以追溯到这些模型的训练数据特征。当前的视频生成模型主要在开放域视频数据上进行训练,这些训练数据强调视觉真实性和丰富性,很少包含图表式的清洁数据。因此,当模型遇到具有小符号和细线条的最简化输入时,可能会将其视为"不完整"的内容,并尝试通过添加额外细节来"改进"它们。
训练和解码选择进一步加强了这种行为模式。重建目标奖励精细纹理,时间平滑项鼓励运动(即使正确的解决方案应该是静态的),以及对图表式数据的有限暴露,这些因素共同推动生成器朝向美学补全的方向发展,而不是结构保持渲染。这种趋势与依赖精确空间或符号约束的任务产生了冲突。
**五、视频长度的悖论:更长的"思考时间"未必带来更好的结果**
研究团队还探索了一个直觉上很有趣的问题:给模型更多的"思考时间"(即更长的视频时长)是否会提高推理质量?在帧链推理框架中,更长的视频时长理论上对应着更长或更详细的推理过程,这在直觉上似乎应该能够增强推理准确性。
然而,实验结果却展现了一个反直觉的模式:延长视频时长并不能持续带来更好的推理效果或更高质量的输出。相反,更长的序列往往会引入冗余或不相关的内容,在某些情况下甚至会导致模型在最终帧中产生与任务无关的幻觉对象。
这种现象与先前关于时间推理的研究发现相一致。增加序列长度确实能扩展可用的因果证据,但同时也会放大注意力漂移和时间错误绑定的问题。虽然当额外帧包含相关信息且模型能够有效整合远距离线索时,更长的片段可以提高性能,但过度的时间扩展往往会稀释注意力并积累噪声。
研究团队通过具体案例展示了这一现象。在数独和规则跟随等任务中,当给予模型更长的生成时间(比如从4秒增加到8秒,或从5秒增加到10秒)时,结果输出并没有显示出一致的改善。这表明,就像人类思考一样,有时候过度思考反而可能导致错误的结论或不必要的复杂化。
**六、视频模型与图像模型的对决:时间维度的优势与劣势**
为了更好地理解时间建模在推理中的作用,研究团队将Veo-3.1与NanoBanana进行了对比,前者代表基于视频的推理范式,后者代表基于图像的推理范式。这种对比就像比较一个能够看到完整电影的观察者和只能看到静态照片的观察者在解决问题时的不同表现。
图像模型在单个静态帧上操作,因此严重依赖结构先验、文本线索和模式识别。这使得它们在代码推理和符号任务方面具有高可靠性,在这些任务中,语法、布局和字符级精度是性能的驱动因素。然而,缺乏时间信息限制了它们推断动态过程的能力。当面对涉及动量传递、平衡、碰撞、空间变换或链式结构几何操作的任务时,它们往往选择视觉上合理但不反映正确因果过程的结果。
视频模型表现出相反的强度特征。通过生成帧链序列,Veo-3.1能够明确建模转换过程,表示潜在的运动路径,并在时间上保持空间和因果连续性。这种帧级演进为模型提供了模拟物理动态和多步骤空间变换的内部机制,这直接提高了物理导向任务的准确性。重要的是,同样的帧链机制也有益于代码推理任务:中间帧充当稳定符号生成过程的视觉检查点,减少局部不一致性并改善逐步逻辑执行。
通过帧链的时间建模为视频模型在物理和程序推理方面提供了明显优势。图像模型在静态结构任务方面表现强劲,而视频模型利用过程感知的时间动态来处理多步骤、因果和仿真密集型问题。将精确的静态解析与基于帧链的时间建模相结合,为构建更强的视觉推理系统提供了一个有希望的路径。
**七、AI视频推理中的"幻觉"现象:正确答案,错误过程**
在探索性研究阶段,研究团队观察到了视频推理中的几种有趣的幻觉现象。这些现象的特点是模型有时能够产生正确的最终结果(最后一帧),但遵循的却是不正确的推理过程。这就像学生在数学考试中写出了正确答案,但解题步骤完全错误一样。
在迷宫解决任务中,研究团队发现小鼠在最终帧中成功到达了奶酪的位置,但它的中间轨迹却穿过了实心墙壁,违反了基本的物理约束。类似的问题也出现在导航任务中。在牛顿摆任务中,球的最终配置(运动和静止的球)与真实标签保持一致,但中间帧违反了动量守恒定律。例如,当释放最左边的球时,整个系统保持静止而不是立即传递运动。
这些案例体现了时间幻觉现象,其中发明或错序的动作和虚构的转换保留了正确的端点但破坏了因果一致性。这种现象已在最近的视频语言模型评估中被记录,多模态幻觉调查也证实了它们对密集或抽象视觉模式的脆弱性。
从基准测试的角度来看,这种"正确答案,错误过程"的失败很难检测,如果我们只检查端点的话。而且使用视觉语言模型作为中间帧判断器也很难裁决,因为视觉语言模型本身可能会误绑定时间关系或产生缺失步骤的幻觉。因此,研究团队倾向于采用端状态可验证的任务,其中任何过程错误都必然会产生不正确的终端状态。
**八、研究意义与未来展望:推理能力评估的新标杆**
V-ReasonBench的推出标志着视频生成模型评估领域的一个重要里程碑。这套基准系统不仅填补了当前评估体系中推理能力测试的空白,更为整个人工智能社区提供了一个标准化、可重现的评估框架。
从技术发展的角度来看,这项研究揭示了当前最先进视频生成模型在推理能力方面存在的显著差距。尽管这些模型在视觉生成质量上已经达到了令人印象深刻的水平,但它们的推理能力仍然远远落后于人类水平。这种发现对于指导未来的模型开发具有重要意义,提示研发人员不能仅仅关注视觉效果的提升,还需要在推理能力的培养上投入更多精力。
研究团队的发现也为训练数据的选择和模型架构的设计提供了重要启示。目前大多数视频生成模型的训练数据主要来源于开放域视频内容,这些数据强调视觉丰富性和娱乐性,但缺乏对推理能力的系统性培养。未来的模型训练可能需要更多地包含图表式、符号化的内容,以及明确的推理步骤展示。
从应用前景来看,具备强推理能力的视频生成模型将开启全新的应用可能性。在教育领域,这样的模型可以生成展示复杂概念推导过程的教学视频,帮助学生更好地理解抽象概念。在科学研究中,它们可以可视化复杂的物理过程或数学证明,为研究人员提供直观的理解工具。在工程设计领域,它们可以模拟和预测各种工程方案的执行效果,帮助设计师优化方案。
然而,这项研究也提醒我们,实现真正智能的视频生成模型还面临诸多挑战。如何平衡视觉美观性与推理准确性、如何处理复杂的多步骤推理过程、如何避免幻觉现象的产生,这些都是需要进一步研究和解决的问题。
说到底,V-ReasonBench为我们提供了一个全新的视角来审视视频生成模型的能力。它告诉我们,真正智能的AI系统不仅要能够创造美丽的视觉内容,更要能够进行深入的思考和推理。这项研究为整个人工智能领域树立了一个新的评估标杆,推动着我们朝着更加智能、更加可靠的AI系统不断前进。未来随着更多研究团队基于这个基准开展工作,我们有理由期待看到推理能力更强、更接近人类智能水平的视频生成模型的出现。对于感兴趣的研究者,可以通过访问项目页面https://oahzxl.github.io/VReasonBench/获取更多技术细节和数据集信息。
Q&A
Q1:V-ReasonBench评估基准包含哪些推理任务?
A:V-ReasonBench包含四大推理维度共13种任务:结构化问题解决(数学运算、代码执行、数独、井字棋),空间认知(形状拼装、视觉对称、颜色连接),模式推理(序列补全、类比推理、规则跟随),物理动力学(物体滑动、连通容器、温度变形)。每个任务都专门测试视频生成模型的不同推理能力。
Q2:为什么视频生成模型会出现"过度美化"问题?
A:这主要因为模型的训练数据偏重视觉丰富性。当前视频生成模型主要在开放域视频上训练,这些数据强调真实性和多样性,缺乏简洁的图表式内容。因此模型遇到简单、干净的测试环境时,会认为内容"不完整"而添加装饰元素,虽然提升了视觉效果但破坏了推理任务所需的精确性。
Q3:视频模型比图像模型在推理方面有什么优势?
A:视频模型通过帧链推理能够模拟完整的思考过程,特别在物理动力学和多步骤推理方面表现更好。它们能够建模运动轨迹、表示时间变化,对涉及动量传递、碰撞等动态过程的任务有明显优势。图像模型虽然在符号处理和代码执行等静态任务上更可靠,但缺乏时间维度信息限制了它们处理动态推理的能力。
好文章,需要你的鼓励
腾讯混元提出CPPO方法,通过位置权重和累积前缀预算两个机制改进AI强化学习训练,在多个Qwen3模型的数学推理任务上超越现有方法,最大提升达5.56分。
PaperMentor是多伦多大学等机构联合开发的AI论文写作导师,通过12个专业智能体和40余份专家技能文件,在Overleaf中为科研人员提供行内批注式的写作建议。
论文揭示AI安全测试的"审计缺口":模型外表安全但内部可能脆弱,并提出潜在脆弱性分数(LVS)量化内部风险。
这项研究提出ICMIL框架,让AI通过在合成数据上预训练,无需针对新任务重新训练即可完成多示例学习分类,在十二个基准上超越需要调参的监督方法。