微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 揭开真相:现有长视频理解评估其实靠猜?多伦多大学团队推出更公平的VideoEval-Pro评测基准

揭开真相:现有长视频理解评估其实靠猜?多伦多大学团队推出更公平的VideoEval-Pro评测基准

2025-05-26 08:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-26 08:16 科技行者

在当今人工智能快速发展的时代,大型多模态模型(LMMs)在视频理解领域取得了显著进展。一个特别引人注目的挑战是长视频理解(LVU),即让AI系统分析、理解并推理时长较长的视频内容。这项由多伦多大学的Wentao Ma、滑铁卢大学的Weiming Ren等研究人员领导的研究发表于2025年5月,他们在研究过程中发现了一个令人警醒的问题:目前评估长视频理解能力的基准测试存在严重缺陷。

想象一下,你正在准备一场重要考试,但你突然发现考试是多选题形式,而且即使你完全不学习,随机猜测也能得到不错的分数。这就是研究者们发现的问题所在。现有的长视频理解基准测试主要依赖多选题(MCQs),而这种评估方式存在两个明显缺陷:一是模型可以通过猜测获得高分;二是许多问题存在强烈的先验偏好,使模型甚至不需要真正理解视频内容就能回答正确。

举个例子,谷歌的Gemini-1.5-Pro模型仅看一帧随机抽取的视频画面,就能在Video-MME测试中达到超过50%的准确率。这就像你在电视节目中只看了一个片段,却能猜出整个故事情节一样不合理。更让人费解的是,当增加输入视频的帧数时,模型性能并没有如预期那样提高,有时反而下降。这完全违背了我们的直觉,因为更多的视频信息应该提供更丰富的上下文,理应帮助模型做出更准确的判断。

为了解决这些问题,研究团队提出了一个更加稳健和真实的评估基准——VIDEOEVAL-PRO。与现有基准不同,VIDEOEVAL-PRO采用开放式短答案形式的问题,这些问题真正需要模型理解整个视频内容才能回答正确。就像从填空题或选择题转变为问答题,大大增加了作弊和猜测的难度。

研究者们从四个现有的长视频理解基准(Video-MME、MLVU、LVBench和LongVideoBench)中收集问题,并将它们转换为开放式问题。经过严格的筛选,最终的基准包含465个视频,平均时长38分钟,共1,289个问答对。这些问题评估模型对视频片段和完整视频的理解能力,涉及感知和推理两大类任务。

研究团队对21个专有和开源视频LMM进行了评估,结果令人深思:首先,在开放式问题上,模型性能与多选题相比下降了超过25%;其次,令人惊讶的是,在多选题上得分较高的模型并不一定在开放式问题上表现更好;第三,与其他多选题基准相比,增加输入帧数对VIDEOEVAL-PRO的性能提升更为显著。

这项研究犹如给长视频理解领域泼了一盆冷水,揭示了当前评估方法的局限性。同时,它也为未来研究提供了更可靠的评估工具,帮助我们更准确地衡量AI系统理解长视频的真实能力。

看完这项研究,我忍不住想到:在人工智能的其他领域,是否也存在类似的评估问题?我们是否过于乐观地评估了当前AI系统的能力?当技术进步如此迅速时,确保我们的评估方法能真实反映AI能力的重要性怎么强调都不为过。

接下来,让我们深入了解VIDEOEVAL-PRO是如何构建的,以及它揭示了哪些关于当前视频理解模型的真相。

一、研究背景:为什么长视频理解如此重要?

想象一下,你是一名保安,需要通过监控系统检测异常行为;或者你是自动驾驶系统的设计者,需要预测行人的行为;又或者你是一名学生,想从一堂长达一小时的视频讲座中提取关键信息。这些场景都需要AI系统能够理解和推理长视频内容。

长视频理解(LVU)正是指让AI系统处理、解析并推理长时间视频内容的任务。它在视频监控中的事件和异常检测、自动驾驶中的时间推理和行为预测,以及教学视频中的内容总结或关键信息检索等领域有着广泛的应用。因此,设计能够理解和推理长视频的AI系统是人工智能领域的一个基础挑战。

近年来,大型多模态模型(LMMs)作为解决长视频理解问题的潜在方案涌现出来。研究人员通过多种方式增强LMMs处理长视频的能力,包括扩展上下文长度、丢弃或合并视频令牌,以及利用高效的线性复杂度模型。除了模型架构的改进外,研究人员还在探索更好的训练数据和强化学习方法,以提升针对LVU任务的LMMs性能。

这些努力取得了显著成果:最初的尝试如Video-LLaVA(2023年11月)只能处理包含八帧画面的短视频,而今天,像Vamba、Video-XL-Pro和InternVideo2.5(2025年初)这样的LMMs已经能够编码数千帧画面并推理长达一小时的视频。

为了严格评估视频LMMs的进展,研究人员引入了专门的长视频理解基准测试,这些测试提供标准化的分数来量化和比较不同模型推理长视频的能力。然而,深入研究这些基准测试后,研究团队发现了一些令人担忧的问题。

二、现有长视频评估基准的问题

如果你参加过选择题考试,你可能知道有时候即使不完全理解问题,也能通过排除法或运气猜对答案。这正是研究团队在现有长视频理解基准中发现的问题。

第一个主要问题是,大多数现有的LVU基准几乎完全依赖多选题(MCQs)。这种格式无意中可能为模型提供线索,使其能够通过猜测正确答案。想象一下,如果你被问"视频中的主角穿着什么颜色的衣服?",并给出选项"红色"、"蓝色"、"绿色"和"黄色",即使模型对视频内容理解有限,也有25%的机会猜对。

研究结果令人震惊:当同一组问题从多选题转换为开放式问题回答时,模型准确率平均下降超过20%。这一巨大差距表明,基于MCQ的准确率可能被大大夸大,无法可靠地反映模型对视频内容的真实理解。

第二个问题更加微妙但同样严重。许多现有LVU基准中的问题存在强烈的先验偏好,允许模型在没有真正处理输入视频的情况下正确回答。例如,在Video-MME基准测试中,专有模型(如Gemini-1.5-Pro)和开源模型(如Qwen2.5-VL-7B)仅使用一帧输入画面就能达到约50%的准确率。

这就像你不用看电影,只看电影海报就能猜出电影的主要情节一样荒谬。这些问题导致了一个违反直觉的现象:随着输入帧数的增加,模型性能趋于平稳甚至下降,而不是如我们所期望的那样提高。这完全违背了常理,因为更多的帧应该提供更丰富的上下文信息,理应改善长视频理解。

这些发现引发了两个核心问题: 1. 现有的长视频基准是否真实反映了模型理解长视频内容的实际能力? 2. 由较新模型报告的性能提升是否真正转化为更强的长视频理解能力,或者这些提升只是幻象?

为了探索这些问题,研究团队提出了VIDEOEVAL-PRO,一个更加稳健和真实的长视频理解评估基准。

三、VIDEOEVAL-PRO:一个更公平的评估基准

VIDEOEVAL-PRO就像是一场不允许作弊的考试,它要求参与者真正理解所学内容,而非仅仅依靠选择题的猜测。这个基准包含开放式、短答案形式的问答问题,这些问题真正需要理解整个视频内容才能回答正确。

### 数据收集与筛选流程

研究团队首先从四个公开可用的长视频理解基准中收集源问答对:Video-MME、MLVU、LVBench和LongVideoBench。这些基准覆盖了多样化的视频内容和问题类型,为长视频理解任务提供了丰富的素材。初始种子问题集包含5,562个问题,全部采用包含4-6个选项的MCQ格式。

为了创建开放式评估基准,研究者将每个多选题转换为自由形式的问题:正确的MCQ选项成为参考答案,而干扰项则被丢弃。在评估过程中,模型只接收问题本身,迫使其基于输入视频生成答案,而不是利用不同选项中的提示。

收集初始问题池后,研究团队应用了多阶段筛选过程,确保最终数据集强调长期视频理解并为当前模型提供有意义的挑战:

**视频时长筛选**:首先,研究者过滤掉所有与短于10分钟视频相关的样本。较短的片段通常包含较少的复杂长期时间依赖关系,可能降低视频感知和推理任务的难度。为了保持VIDEOEVAL-PRO的难度和可靠性,研究者只选择了与中长视频(>10分钟)相关的问题。

**问题和答案类型筛选**:在第二阶段,研究者移除了原始MCQ格式中答案选项平均词数超过五个词的问题。例如,"这个视频是关于什么的?"这类问题通常会产生过于详细的回答,这会使答案评估变得复杂。这一词数限制减少了过于冗长的选项带来的不确定性,确保转换后的开放式问题有简洁但有意义的答案,从而更容易让LLM评判模型响应,提高基准的整体有效性和准确性。

**可回答性筛选**:在第三阶段,研究者评估每个多选题是否可以合理地重新表述为自由形式问题,而不失去清晰度或可回答性。从收集的问题池中,研究者注意到三类可回答性较低的问题: 1. 选项评估或比较问题,要求模型比较不同选项并选择最合理的选项; 2. 时间戳依赖问题,要求模型回答给定数字时间戳的问题; 3. 字幕依赖问题,查询仅出现在字幕中的信息。

研究者使用Gemini-2.0-Flash模型对问题(不包括答案选项)进行判断,确定该问题是否仅基于视频内容就可以回答。这一步帮助识别并丢弃严重依赖检查MCQ选项的问题,这些问题不适合开放式评估。

**难度筛选**:最后,研究者过滤掉了太容易回答的问题。为了识别这类情况,研究者从每个输入视频中随机采样一帧,并提示Gemini-2.0-Flash使用该帧生成对应MCQ和开放式问题的答案。然后使用Gemini-2.0-Flash判断开放式答案。对于Gemini-2.0-Flash在MCQ和开放式格式都能产生正确答案的问题,将从基准中排除。这一筛选步骤确保剩余问题需要更广泛的时间理解,不能仅使用最少的视觉上下文解决。

经过这一严格的数据收集和筛选流程,最终的基准问题需要更深入的时间理解和推理,超越表面线索。最终数据集包括1,289个问答对,每对都基于一个时长超过10分钟的长视频。如表1所示,VIDEOEVAL-PRO包括总共465个视频,平均长度为38.25分钟。其中,204个视频在10到30分钟之间,261个视频超过30分钟。对于基准中使用的1,289个问题,371个与10-30分钟范围内的视频相关,而918个基于长度超过30分钟的视频。答案的平均长度为2.1个词。这些设计选择确保评估专注于模型从长视频内容中检索简洁准确信息的能力。

### 任务定义与分布

研究团队提出了一个统一且可推广的任务分类法,将基准问题分为四种主要类型和15种子类型。这些任务类型涵盖了对本地视频片段和整体长视频理解任务的感知和推理需求。四种主要任务类型是:

**局部感知(LP)**:LP专注于从长视频中的短视频片段中识别和检索视觉元素或动作。该类别包括片段问答、大海捞针问答、属性感知、动作识别、物体识别、实体识别、关键信息检索和组合的其他子类型。

**局部推理(LR)**:LR专注于短时间窗口内的推理,如推断因果关系、时间顺序或在本地事件序列中发生的变化。该类别中的四个子类型是自我中心视频推理、物体推理、时间推理和动作推理。

**整体感知(HP)**:HP涉及对统计、结构或空间信息的全局和整体理解,通常需要视觉聚合。在VIDEOEVAL-PRO中,HP由视觉计数问题组成。

**整体推理(HR)**:HR需要跨事件或场景对长视频进行抽象或高层次理解,通常涉及叙事或意图理解。HR的两个子类型是事件理解和情节推理。

这种分类法使得能够对长视频理解所需的不同认知需求进行细粒度评估。基于这种分类法,数据集中问题的分布如图2b所示。大多数问题(59%)属于局部感知类别,反映了VIDEOEVAL-PRO对细粒度跟踪和理解视觉动态的强调。整体推理占问题的21%,而局部推理和整体感知分别占数据集问题的11%和10%。

四、评估流程:如何测试模型性能

评估过程就像是一场公平、标准化的考试,确保所有参与的AI模型都在相同条件下接受测试。具体来说,评估流程是这样的:

对于基准中的每个问题,研究团队从相应视频中均匀采样固定数量的帧。如果可用帧的总数少于所需帧数,则使用所有帧。采样的帧与开放式问题一起传递给被评估的模型以生成答案。

为了评估每个模型响应的正确性,研究团队采用了SimpleQA和Video-SimpleQA中引入的评估标准。具体来说,每个模型响应被分类为以下类别之一:

**正确**:预测答案全面包含参考答案中的所有基本信息,且不包含任何矛盾内容。

**不正确**:预测答案包含与参考答案矛盾的陈述,或提供不确定的回应,如"可能"或"我认为"。

**未尝试**:预测答案省略了参考答案的关键元素,但不与之矛盾,或模型拒绝回答问题。

研究团队遵循"LLM作为评判"范式,采用GPT-4o-0806作为评估模型来评估生成的短答案的准确性。最后,团队报告整体正确率,即标记为"正确"的响应在整个数据集中的比例。这一指标反映了模型提供准确、忠实的答案(基于视觉内容)的能力。

五、实验结果:揭示视频理解模型的真实能力

研究团队对21个专有和开源LMMs进行了全面评估,结果令人深思。以下是主要发现:

### MCQ与VIDEOEVAL-PRO对比

如表2所示,与MCQ准确率相比,所有模型在开放式问题上的性能都有显著下降。此外,从MCQ和开放式问题获得的分数不一定相关。例如,虽然InternVL2.5和InternVL3在MCQ准确率上优于Qwen2.5-VL,但它们在开放式问答分数上却低于Qwen2.5-VL。这些发现表明,基于MCQ的准确率可能高估了模型性能,无法捕捉模型理解长视频的真实能力。因此,MCQ结果可能不是对视频LMMs进行排名的可靠指标。

### 局部与整体任务对比

在比较局部与整体理解任务的性能时,研究者观察到大多数模型在局部任务上表现更好,表明整体任务通常更具挑战性。这种差异是预期的,因为整体任务要求模型处理整个视频并推理跨越长时间的复杂时间动态。相反,局部任务限于短视频片段,其中动作或事件通常更简单且更具时间局限性,使其更容易识别和解释。

### 感知与推理任务对比

比较感知与推理任务的结果,研究者发现虽然模型在两种任务类型上常常获得相似的MCQ准确率,但它们在开放式问题上的表现却显著不同。具体来说,模型在开放式设置中往往在感知任务上表现显著好于推理任务。例如,Gemini-2.5-Flash在局部感知任务和局部推理任务上的MCQ准确率相当,分别为64.1%和65.3%。然而,其开放式问答准确率在局部推理任务上降至30.6%,而在局部感知任务上则保持较高的42.4%。这种差异突显了长视频推理任务的增加难度,这一点可以通过VIDEOEVAL-PRO正确反映出来。

### 专有与开源模型对比

研究团队比较了专有和开源模型在多个基准上的表现,观察到一个有趣的现象。如表3所示,虽然最佳开源视频LMMs(如InternVideo2.5或InternVL3)已经在现有长视频理解基准上超过GPT-4o/Gemini-1.5-Pro高达14%,但它们在VIDEOEVAL-PRO上的表现仍落后于GPT-4o/Gemini-1.5-Pro 13%。这一显著对比揭示了开源模型在更具挑战性的长视频理解任务上的脆弱性。

### VIDEOEVAL-PRO的帧缩放属性

研究团队还检查了VIDEOEVAL-PRO在不同输入帧数下的性能变化。如图3a所示,评估了两个专有模型(Gemini-1.5-Flash和Gemini-1.5-Pro)和三个开源模型(Qwen2-VL、Qwen2.5-VL和InternVideo2.5)。

研究者的第一个观察是,现有基准如Video-MME即使只向模型提供一帧,也能产生相对较高的准确率。如图3b所示,专有和开源模型在这种设置下都能达到约45%的准确率,Gemini-1.5-Pro甚至超过50%。这些结果表明,当前的长视频基准可能包含不够具有挑战性的问题,允许模型即使在大部分视频信息缺失的情况下也能正确回答。相比之下,当仅提供一帧输入帧时,所有模型在VIDEOEVAL-PRO上的准确率仅为10%左右,如图3a所示。这一性能下降突显了VIDEOEVAL-PRO不能在没有结合输入视频中更丰富的视觉线索的情况下轻易解决,证明VIDEOEVAL-PRO是一个更具挑战性和更具辨别力的长视频理解评估基准。

研究者还发现,在现有长视频基准上的性能往往随着输入帧数的增加而饱和或甚至下降。如图3b所示,所有模型在使用256个输入帧时在Video-MME上达到最高准确率,但当输入延长到512帧时,性能开始平稳或下降。这是一个反直觉的发现,因为人们预期提供更多输入帧会提供额外的上下文信息,模型可以利用这些信息来提高性能。另一方面,五个测试模型在VIDEOEVAL-PRO上随着输入帧数的增加表现出一致的准确率提升。这种差异表明,VIDEOEVAL-PRO是评估长视频任务的更稳健基准,提供了对模型整合和推理更长视频上下文能力的更忠实评估。

六、案例分析:模型真的理解视频内容吗?

通过使用Gemini-2.0-Flash的结果进行定性分析,研究团队更深入地了解了VIDEOEVAL-PRO带来的挑战。他们识别了几个有趣的案例,模型在MCQ设置中选择了正确答案,但在自由形式响应中未能产生准确的事实细节。

在第一个例子中,问题询问多伦多纪念战争纪念馆的外观。虽然Gemini在多选题(MCQ)格式中正确选择了答案"数千面加拿大国旗",但在开放式设置中未能给出正确回应。这表明,当MCQ选项可用时,模型可能依赖常识(多伦多和加拿大相关联),而不是进行详细的视频分析。

在第二个例子中,虽然模型在MCQ格式中正确识别了选项"牛车",但在开放式回应中错误地将内容描述为"那是一匹马"。这表明,长视频中的细粒度视觉识别仍然是LMMs的重大挑战,MCQ选项可能提供线索帮助模型规避这一困难。

类似地,在第三个例子中,问题询问视频中出现的人数,模型在MCQ格式中正确选择了"15",但在开放式版本中回应"20"。这种差异表明,正确的MCQ答案可能是通过猜测或消除策略选择的,而不是通过对视频内容的精确分析。

这些案例凸显了开放式问题在评估模型真实理解能力方面的价值,而不仅仅依赖多选题形式的评估。

七、结论与未来展望

这项研究介绍了VIDEOEVAL-PRO,一个稳健而真实的LVU基准,旨在忠实评估LMM对长视频的理解和推理能力。与现有的LVU基准相比,VIDEOEVAL-PRO将MCQ问题重新表述为开放式问题,防止模型利用选项中固有的捷径,减少MCQ格式导致的性能变化。VIDEOEVAL-PRO还采用严格的数据筛选流程,消除具有强烈先验偏好的问题,这些问题允许LMMs基于常识或刻板印象关联回答,而无需真正阅读视频。

通过评估21个专有和开源模型,研究团队发现VIDEOEVAL-PRO对当前的视频LMMs提出了重大挑战,表现最好的模型GPT-4.1也仅达到40.8%的准确率。他们还观察到,与其他LVU基准不同,在那些基准中,随着输入帧数的增加,模型性能趋于饱和,而在VIDEOEVAL-PRO上,随着提供更多帧,性能持续提高。这些观察表明,VIDEOEVAL-PRO是一个更可靠的基准,能够追踪长视频理解的进展。

这项研究为我们敲响了警钟:在评估AI系统的能力时,我们需要更加严格和真实的方法。它提醒我们,表面上的高分可能掩盖了模型理解能力的实际局限性。同时,它也为未来研究提供了一条清晰的道路,指向开发真正能理解和推理复杂视频内容的系统。

随着视频内容在我们生活中的不断增长,从社交媒体到监控系统,从教育到娱乐,能够准确理解长视频的AI系统将变得越来越重要。VIDEOEVAL-PRO提供了一个更可靠的方法来衡量我们在这一关键领域的进展,确保未来的技术进步是真实的,而不仅仅是基准测试中的幻象。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-