随着人工智能技术的飞速发展,大型语言模型(LLM)在各种复杂任务中展现出了令人印象深刻的能力,尤其是在采用"思维链"(Chain-of-Thought,简称CoT)推理技术后,这些模型在数学、编程和科学推理等领域取得了显著进步。然而,在视频理解这一领域,我们尚未看到类似的突破。
这项研究由Moonshot AI的吴昊宁(项目负责人)、刘苑欣(北京大学)等人领导,于2025年5月29日发布在arXiv预印本平台上,论文编号为2505.23359v1。研究团队还包括北京大学多媒体信息处理国家重点实验室、南京大学以及Moonshot AI的多位研究人员。项目数据集可通过huggingface.co/datasets/lyx97/reasoning_videos获取,代码已在github.com/llyx97/video_reason_bench开源。
研究团队发现,目前视频理解领域缺乏能够充分展示"思维链"推理优势的基准测试。现有的视频理解测试往往难度不足,无法展示出扩展CoT推理链的优势。如图1所示,像Video-MME和TempCompass这样的流行基准测试,先进的多模态大模型Gemini-2.5-Flash无需开启"思考模式",只用几个词就能正确回答问题。
虽然最近出现了一些强调视频推理的测试集,如Video-MMMU和MMVU,但这些测试主要依赖于特定领域的知识,而非严格基于视觉内容的推理。简单来说,在这些测试中,模型往往可以依靠已有知识而不是真正"看懂"视频来回答问题。
为了解决这一问题,研究团队提出了一个新的基准测试:VideoReasonBench,专门设计用于评估基于视觉内容的复杂视频推理能力。什么是"基于视觉内容的复杂视频推理"?想象一下,你在观看一段视频,视频中展示了一系列精细的操作(比如移动棋子或翻转卡片),这些操作会改变一个你只能在视频部分时刻看到的状态(比如棋盘上的棋子排列)。要回答关于这个视频的问题,你必须准确记住视频中的多个操作,并进行逐步推理才能得出正确答案。
研究团队定义了三个层次的视频推理能力,每个层次都需要越来越复杂的推理: 第一层是准确回忆视频中观察到的视觉信息; 第二层是推断视频中没有直接展示的隐藏信息; 第三层是预测超出视频范围的新信息。
举个简单的例子,假设视频展示了一个"滑动数字拼图"游戏:拼图的初始状态(数字的排列)是可见的,但随后数字被蓝色覆盖,只能看到拼图块的移动。要回答相关问题,模型必须首先准确记住初始数字排列和所有后续移动(第一层能力),然后推断出最终的数字排列(第二层能力),最后能够预测如果进行额外的移动,拼图会变成什么样子(第三层能力)。
基于这些核心理念,研究团队构建了VideoReasonBench基准测试。他们设计了六种不同类型的视频演示,涵盖各种场景,包括合成视频和真实世界视频:
首先是"数字"类型,展示一个带数字的滑动拼图,只有一个空位; 其次是"圆圈"类型,展示一个包含黑白棋子的网格,一个红色圆圈在网格上移动并翻转它经过的棋子及其邻居的颜色; 第三是"杯子"类型,展示一个棋盘,上面有杯子可能覆盖着硬币,操作包括交换两个杯子的位置; 第四是"文件"类型,展示对文件路径的操作,如创建、删除、复制和移动文件; 第五是"卡片"类型,展示几堆卡片,操作包括在堆顶添加卡片或从底部移除卡片; 最后是"筹码"类型,展示几个杯子,每个杯子里有若干筹码,操作包括添加或移除筹码。
为了评估这三个层次的推理能力,研究团队为每个层次设计了两种技能评估,总共六种问题类型: 对于第一层(回忆),他们设计了"回忆顺序"和"回忆计数"两种问题; 对于第二层(推断),他们设计了"推断状态"和"比较状态"两种问题; 对于第三层(预测),他们设计了"预测状态"和"预测操作"两种问题。
构建数据集的过程中,研究团队开发了一个半自动化框架,包括视频引擎和问题引擎两部分。视频引擎负责生成状态转换并制作视频,问题引擎则基于状态转换生成问题和答案。最终,VideoReasonBench包含1,440个问题和240个视频,每种技能和每种视频类型的样本数量均衡分布。视频中的操作数量从5到14不等,视频平均时长为54.3秒。
基于VideoReasonBench,研究团队对18个最先进的多模态大型语言模型(MLLM)进行了全面评估。结果令人震惊:大多数模型在这项测试中表现不佳,准确率低于10%。即使是最新的思考增强模型,如o4-mini和Seed1.5-VL,也只能达到约10%的准确率;非思考型的顶尖模型(如GPT-4o和Qwen2.5VL-72B)的得分低于10%;所有轻量级模型(<10B参数)的准确率甚至不到2%。
唯一表现突出的是思考增强的Gemini-2.5-Pro,达到了56.0%的准确率,远超其他模型。相比之下,人类测试者的平均准确率为73.8%(尽管人类也需要平均223.2秒才能回答一个问题)。
研究团队还发现,模型的表现从第一层能力到第三层能力逐渐下降,这与基准测试的设计预期一致,即更高层次的能力建立在更低层次的能力之上。同时,开启"思考模式"对模型表现有显著提升,如Gemini-2.5-Flash启用思考模式后,准确率从18.8%提升到27.4%。
进一步的分析表明,VideoReasonBench确实对视觉内容有很强的依赖性。当删除50%的视频帧时,Gemini-2.5-Flash在VideoReasonBench上的性能下降了55.5%,而在其他测试集上的下降不到11%。当仅提供单个帧时,其在VideoReasonBench上的性能下降了98.2%,而其他测试集最多下降28.3%。
这些发现凸显了VideoReasonBench作为评估基于视觉内容的复杂视频推理能力的有效工具,同时也揭示了当前多模态大模型在这方面能力的不足。研究团队希望这一基准测试能够推动视频理解和推理领域的进一步发展。
值得注意的是,尽管Gemini-2.5-Pro在测试中表现最佳,但与人类表现相比仍有显著差距。这表明即使是最先进的MLLM,在复杂视频推理任务中也还有很大的提升空间。随着扩展思维链(CoT)推理技术的不断发展,我们有理由期待未来模型在视频理解领域取得更大的进步。
通过VideoReasonBench这一富有挑战性的测试基准,研究人员不仅能够更准确地评估当前模型的视频推理能力,还能指导未来模型的开发方向。正如研究结果所示,开启"思考模式"和提高视觉内容的依赖性可能是提升模型在复杂视频推理任务中表现的关键因素。
总的来说,VideoReasonBench的提出填补了视频理解评估领域的一个重要空白,为测评模型的视频推理能力提供了一个更具挑战性、更加全面的基准。随着人工智能技术的不断发展,我们有理由相信,未来的多模态大模型将能够在这一基准测试中取得更好的表现,进一步缩小与人类能力的差距。
这项研究还提出了一个有趣的见解:视频复杂度可以通过调整操作次数和状态大小来灵活控制,这为未来扩展基准测试的难度提供了便利。此外,研究发现当隐藏状态在视频结尾而非开头显示时,所有模型的表现都会下降,这表明通过观察一系列操作逆向推断初始状态比按自然顺序推理更具挑战性。
好文章,需要你的鼓励
这项由Snowflake AI Research发表的研究挑战了传统语言学对大型语言模型的批评,通过引入波兰语言学家Mańczak的理论框架,论证了LLM的成功实际上验证了"频率驱动语言"的观点。研究认为语言本质上是文本总和而非抽象系统,频率是其核心驱动力,为重新理解AI语言能力提供了新视角。
freephdlabor是耶鲁大学团队开发的开源多智能体科研自动化框架,通过创建专业化AI研究团队替代传统单一AI助手的固化工作模式。该框架实现了动态工作流程调整、无损信息传递的工作空间机制,以及人机协作的质量控制系统,能够自主完成从研究构思到论文发表的全流程科研工作,为科研民主化和效率提升提供了革命性解决方案。
德国马普智能系统研究所团队开发出专家混合模型的"即时重新布线"技术,让AI能在使用过程中动态调整专家选择策略。这种方法无需外部数据,仅通过自我分析就能优化性能,在代码生成等任务上提升显著。该技术具有即插即用特性,计算效率高,适应性强,为AI的自我进化能力提供了新思路。
Algoverse AI研究团队提出ERGO系统,通过监测AI对话时的熵值变化来检测模型困惑程度,当不确定性突然升高时自动重置对话内容。该方法在五种主流AI模型的测试中平均性能提升56.6%,显著改善了多轮对话中AI容易"迷路"的问题,为构建更可靠的AI助手提供了新思路。