随着人工智能技术的飞速发展,大型语言模型(LLM)在各种复杂任务中展现出了令人印象深刻的能力,尤其是在采用"思维链"(Chain-of-Thought,简称CoT)推理技术后,这些模型在数学、编程和科学推理等领域取得了显著进步。然而,在视频理解这一领域,我们尚未看到类似的突破。
这项研究由Moonshot AI的吴昊宁(项目负责人)、刘苑欣(北京大学)等人领导,于2025年5月29日发布在arXiv预印本平台上,论文编号为2505.23359v1。研究团队还包括北京大学多媒体信息处理国家重点实验室、南京大学以及Moonshot AI的多位研究人员。项目数据集可通过huggingface.co/datasets/lyx97/reasoning_videos获取,代码已在github.com/llyx97/video_reason_bench开源。
研究团队发现,目前视频理解领域缺乏能够充分展示"思维链"推理优势的基准测试。现有的视频理解测试往往难度不足,无法展示出扩展CoT推理链的优势。如图1所示,像Video-MME和TempCompass这样的流行基准测试,先进的多模态大模型Gemini-2.5-Flash无需开启"思考模式",只用几个词就能正确回答问题。
虽然最近出现了一些强调视频推理的测试集,如Video-MMMU和MMVU,但这些测试主要依赖于特定领域的知识,而非严格基于视觉内容的推理。简单来说,在这些测试中,模型往往可以依靠已有知识而不是真正"看懂"视频来回答问题。
为了解决这一问题,研究团队提出了一个新的基准测试:VideoReasonBench,专门设计用于评估基于视觉内容的复杂视频推理能力。什么是"基于视觉内容的复杂视频推理"?想象一下,你在观看一段视频,视频中展示了一系列精细的操作(比如移动棋子或翻转卡片),这些操作会改变一个你只能在视频部分时刻看到的状态(比如棋盘上的棋子排列)。要回答关于这个视频的问题,你必须准确记住视频中的多个操作,并进行逐步推理才能得出正确答案。
研究团队定义了三个层次的视频推理能力,每个层次都需要越来越复杂的推理: 第一层是准确回忆视频中观察到的视觉信息; 第二层是推断视频中没有直接展示的隐藏信息; 第三层是预测超出视频范围的新信息。
举个简单的例子,假设视频展示了一个"滑动数字拼图"游戏:拼图的初始状态(数字的排列)是可见的,但随后数字被蓝色覆盖,只能看到拼图块的移动。要回答相关问题,模型必须首先准确记住初始数字排列和所有后续移动(第一层能力),然后推断出最终的数字排列(第二层能力),最后能够预测如果进行额外的移动,拼图会变成什么样子(第三层能力)。
基于这些核心理念,研究团队构建了VideoReasonBench基准测试。他们设计了六种不同类型的视频演示,涵盖各种场景,包括合成视频和真实世界视频:
首先是"数字"类型,展示一个带数字的滑动拼图,只有一个空位; 其次是"圆圈"类型,展示一个包含黑白棋子的网格,一个红色圆圈在网格上移动并翻转它经过的棋子及其邻居的颜色; 第三是"杯子"类型,展示一个棋盘,上面有杯子可能覆盖着硬币,操作包括交换两个杯子的位置; 第四是"文件"类型,展示对文件路径的操作,如创建、删除、复制和移动文件; 第五是"卡片"类型,展示几堆卡片,操作包括在堆顶添加卡片或从底部移除卡片; 最后是"筹码"类型,展示几个杯子,每个杯子里有若干筹码,操作包括添加或移除筹码。
为了评估这三个层次的推理能力,研究团队为每个层次设计了两种技能评估,总共六种问题类型: 对于第一层(回忆),他们设计了"回忆顺序"和"回忆计数"两种问题; 对于第二层(推断),他们设计了"推断状态"和"比较状态"两种问题; 对于第三层(预测),他们设计了"预测状态"和"预测操作"两种问题。
构建数据集的过程中,研究团队开发了一个半自动化框架,包括视频引擎和问题引擎两部分。视频引擎负责生成状态转换并制作视频,问题引擎则基于状态转换生成问题和答案。最终,VideoReasonBench包含1,440个问题和240个视频,每种技能和每种视频类型的样本数量均衡分布。视频中的操作数量从5到14不等,视频平均时长为54.3秒。
基于VideoReasonBench,研究团队对18个最先进的多模态大型语言模型(MLLM)进行了全面评估。结果令人震惊:大多数模型在这项测试中表现不佳,准确率低于10%。即使是最新的思考增强模型,如o4-mini和Seed1.5-VL,也只能达到约10%的准确率;非思考型的顶尖模型(如GPT-4o和Qwen2.5VL-72B)的得分低于10%;所有轻量级模型(<10B参数)的准确率甚至不到2%。
唯一表现突出的是思考增强的Gemini-2.5-Pro,达到了56.0%的准确率,远超其他模型。相比之下,人类测试者的平均准确率为73.8%(尽管人类也需要平均223.2秒才能回答一个问题)。
研究团队还发现,模型的表现从第一层能力到第三层能力逐渐下降,这与基准测试的设计预期一致,即更高层次的能力建立在更低层次的能力之上。同时,开启"思考模式"对模型表现有显著提升,如Gemini-2.5-Flash启用思考模式后,准确率从18.8%提升到27.4%。
进一步的分析表明,VideoReasonBench确实对视觉内容有很强的依赖性。当删除50%的视频帧时,Gemini-2.5-Flash在VideoReasonBench上的性能下降了55.5%,而在其他测试集上的下降不到11%。当仅提供单个帧时,其在VideoReasonBench上的性能下降了98.2%,而其他测试集最多下降28.3%。
这些发现凸显了VideoReasonBench作为评估基于视觉内容的复杂视频推理能力的有效工具,同时也揭示了当前多模态大模型在这方面能力的不足。研究团队希望这一基准测试能够推动视频理解和推理领域的进一步发展。
值得注意的是,尽管Gemini-2.5-Pro在测试中表现最佳,但与人类表现相比仍有显著差距。这表明即使是最先进的MLLM,在复杂视频推理任务中也还有很大的提升空间。随着扩展思维链(CoT)推理技术的不断发展,我们有理由期待未来模型在视频理解领域取得更大的进步。
通过VideoReasonBench这一富有挑战性的测试基准,研究人员不仅能够更准确地评估当前模型的视频推理能力,还能指导未来模型的开发方向。正如研究结果所示,开启"思考模式"和提高视觉内容的依赖性可能是提升模型在复杂视频推理任务中表现的关键因素。
总的来说,VideoReasonBench的提出填补了视频理解评估领域的一个重要空白,为测评模型的视频推理能力提供了一个更具挑战性、更加全面的基准。随着人工智能技术的不断发展,我们有理由相信,未来的多模态大模型将能够在这一基准测试中取得更好的表现,进一步缩小与人类能力的差距。
这项研究还提出了一个有趣的见解:视频复杂度可以通过调整操作次数和状态大小来灵活控制,这为未来扩展基准测试的难度提供了便利。此外,研究发现当隐藏状态在视频结尾而非开头显示时,所有模型的表现都会下降,这表明通过观察一系列操作逆向推断初始状态比按自然顺序推理更具挑战性。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。