微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南洋理工大学揭晓:AI看视频为何总是"错过关键细节"?全新基准测试让机器智能无所遁形

南洋理工大学揭晓:AI看视频为何总是"错过关键细节"?全新基准测试让机器智能无所遁形

2025-07-25 09:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-25 09:37 科技行者

这项由南洋理工大学S-Lab实验室的张远涵、刘紫薇等研究者领导的突破性研究发表于2025年7月,论文详细信息可通过arXiv:2507.15028v1获取。研究团队还包括来自独立研究机构的专家,共同开发了一个名为"视频思维测试"(Video-TT)的全新评估基准。

当我们观看一段视频时,比如看到一个看起来像纸巾盒的东西,我们能敏锐地察觉到其中的蹊跷——也许这实际上是一个精心制作的蛋糕。然而,当前最先进的AI视频理解模型却经常在这样的"视觉陷阱"面前败下阵来。这种差距不仅仅是技术问题,更关乎AI是否真正具备了类似人类的理解能力。

研究团队通过深入分析发现,现有的视频理解评估方式存在根本性缺陷。许多测试无法区分AI模型是因为没有看到足够的视频帧而出错,还是因为真正缺乏理解能力而出错。这就像是在测试一个人的阅读理解能力时,却只给他看了文章的片段,然后就断定他理解能力不足——这样的测试结果显然是不公平也不准确的。

为了彻底解决这个问题,研究团队开发了视频思维测试,这个测试专门设计来暴露AI模型在视频理解方面的真实短板。他们精心收集了1000个YouTube短视频,每个视频都配备了5个巧妙设计的问题。这些问题不是随意选择的,而是经过精心设计,确保即使AI模型能够看到足够多的视频帧,仍然需要真正的理解能力才能正确回答。

一、揭开AI视频理解的真实面纱

目前的AI视频理解模型就像是一个只能看到电影片段的观众,却被要求完整理解整部电影的情节。研究团队发现,这种评估方式存在严重的误导性。当AI模型回答错误时,我们往往不知道这是因为它没有看到关键画面,还是因为它真的不理解视频内容。

以GPT-4o为例,这是目前最强大的AI模型之一。在一些视频理解任务中,当它能够获得足够多的视频帧时,表现接近人类水平。但这种表现可能给我们一种错误的印象,让我们以为AI已经达到了人类级别的视频理解能力。实际上,一旦面对真正需要深度理解的复杂场景,AI模型的表现会急剧下降。

研究团队通过对比分析发现,在VideoMME-Short这样的短视频测试中,当AI模型能够采样到足够多的关键帧时,它们的表现确实不错。但在VideoMME-Long这样的长视频测试中,由于无法采样到所有关键信息,模型性能大幅下降。这种现象揭示了一个重要问题:我们一直以来可能高估了AI的视频理解能力。

更令人担忧的是,现有的测试方法无法评估AI模型在面对"自然对抗性"问题时的表现。这些问题就像是换了一种问法的同一个问题,人类能够轻松应对这种变化,但AI模型却经常在这种看似微小的变化面前露出马脚。比如,如果直接问"男子拍了8号球员的头",AI可能答对,但如果换个问法"男子是否拍了9号球员的头",AI可能就会被误导。

二、什么让视频问题变得复杂?

为了设计真正有挑战性的测试题目,研究团队深入思考了一个根本问题:到底是什么因素让一个关于视频的问题变得困难?他们的发现颇为有趣——问题的复杂性不仅取决于问题本身的类型,更重要的是问题被提出时的具体情境和条件。

举个简单的例子,"视频中第二辆车是什么颜色?"这个问题看起来很简单,但如果这辆车在高速移动、被其他物体遮挡,或者从一个不寻常的角度拍摄,那么这个"简单"问题就变得相当困难了。研究团队正是基于这样的洞察,系统地分析了让视频内容难以理解的各种因素。

从视觉复杂性的角度来看,研究团队识别出四个主要的困难因素。首先是"不清晰和异常内容"——当视频中出现我们日常生活中不常见的东西,或者画面存在模糊、遮挡等问题时,理解难度就会大大增加。其次是"运动速度"——当视频中的物体或摄像机移动过快时,识别和跟踪就变得困难。第三个因素是"时空排列"——当场景中有大量物体复杂地相互作用,或者包含大量需要同时处理的时空信息时,认知负担会显著增加。最后是"错觉效果"——比如那个看起来像纸巾盒但实际上是蛋糕的例子,这类视觉错觉技巧会让理解变得极其困难。

除了视觉复杂性,研究团队还从叙事复杂性的角度分析了问题的难度。他们发现,一些视频制作者会使用特殊的叙事技巧,这些技巧超越了简单的线性讲故事方式,需要观众更积极地参与理解过程。比如,"复杂情节"包含了意想不到的转折或结局;"叙事剪辑"使用了复杂的蒙太奇等手法来呈现故事;"技术剪辑"采用了特殊的拍摄技术或后期制作手段;"世界知识"要求观众具备特定的背景知识才能完全理解视频内容。

这些复杂性因素的组合创造出了真正有挑战性的视频理解任务。研究团队确保他们设计的每个问题都至少包含一个这样的复杂因素,同时又能在合理数量的视频帧内找到答案。这样既保证了问题的挑战性,又避免了因为采样不足而导致的不公平评估。

三、设计巧妙的"陷阱"问题

除了复杂的理解问题,研究团队还开发了一套巧妙的"自然对抗性"问题来测试AI模型的稳健性。这些问题的设计理念很简单:如果一个AI真正理解了视频内容,那么无论问题以什么方式提出,它都应该能够给出一致的正确答案。

以一个足球场景为例,主要问题可能是"男子拍了哪位球员的头?"正确答案是"8号球员"。基于这个核心问题,研究团队设计了四种不同的变体问题。第一种是"重新表述问题",比如"那个男子触碰了谁的头部?"这种问法在语义上与原问题完全等价,只是换了一种表达方式。

第二种是"正确引导问题",比如"男子是否拍了8号球员的头?"这种问法实际上给出了正确答案的提示,如果AI真正理解了视频内容,应该能够确认这个说法是正确的。第三种是"错误引导问题",比如"男子是否拍了9号球员的头?"这种问法故意给出了错误的信息,看AI是否会被误导。

第四种是"多项选择问题",将正确和错误的选项混合在一起,比如"男子拍了哪位球员的头?A. 7号,B. 8号,C. 9号,D. 10号"。这种题型测试AI是否能在多个选项中准确识别正确答案。

这套对抗性问题设计的精妙之处在于,它们能够有效揭示AI模型理解的深度和一致性。人类在回答这些不同形式的问题时,通常能保持高度的一致性,因为我们真正理解了视频的内容。但AI模型往往在不同的问题形式面前表现出令人意外的不一致性,这暴露了它们理解能力的局限性。

四、数据收集的严格标准

为了确保测试的质量和可靠性,研究团队建立了一套极其严格的数据收集和标注流程。他们从YouTube Shorts中精心挑选了1000个视频,每个视频都必须满足多项严格标准。

首先,每个问题都必须包含至少一种前面提到的复杂性因素。标注者需要明确指出问题中存在哪种视觉复杂性或叙事复杂性,这确保了问题确实具有挑战性,而不是简单的事实性询问。其次,所有问题都必须能够通过观看80个均匀采样的视频帧来回答。这个标准解决了一个关键问题:确保任何错误答案都是由于理解不足造成的,而不是因为没有看到足够的信息。

更重要的是,研究团队还设置了一个"模型挑战性"测试。每个问题都会先拿给当前最先进的AI模型(包括GPT-4o、LLaVA-Video-7B和Qwen2.5-VL-7B)进行测试。只有当这些模型中至少有一个在三次尝试中都无法正确回答时,这个问题才会被保留。这确保了所选问题确实对当前的AI模型构成挑战。

标注过程同样严格细致。每个问题不仅需要提供正确答案,还必须包含详细的推理过程说明。标注者需要解释他们是如何得出正确答案的,以及为什么某些可能看起来合理的答案实际上是错误的。这种详细的标注为后续的错误分析提供了宝贵的参考。

为了保证质量,研究团队还实施了多重验证机制。每个问题都由三个独立的标注者进行验证,任何存在分歧的问题都会被排除。特别是那些涉及事件原因且可能有多种解释的问题,除非三个标注者完全一致,否则不会被包含在最终的数据集中。

整个标注过程耗费了超过8000个人工小时,这个数字体现了研究团队对质量的严格要求。从最初的近3000个候选视频到最终的1000个精选视频,每一个都经过了层层筛选和验证,确保了数据集的高质量和可靠性。

五、AI模型的真实表现揭秘

当研究团队用他们精心设计的视频思维测试来评估当前最先进的AI模型时,结果令人震惊。人类在这个测试中的表现相当出色,正确率达到84.3%,稳健性达到64.4%。然而,即使是最强大的AI模型GPT-4o,其正确率也只有36.6%,稳健性更是只有36.0%。这意味着AI模型的表现连人类的一半都不到。

更有趣的是不同类型问题上的表现差异。在"正确引导"类型的问题中,也就是给出了正确提示的问题中,AI模型的表现相对较好。比如GPT-4o在这类问题上达到了67.5%的正确率。这说明当AI获得了正确的线索时,它确实能够更好地理解视频内容。但是,一旦面对"错误引导"问题,也就是那些故意给出误导信息的问题,AI的表现就大幅下降。GPT-4o在这类问题上的正确率只有39.8%,这表明AI很容易被错误信息误导。

开源模型的表现更是令人担忧。以InternVL-2.5-8B为例,它在正确引导问题上表现不错,达到65.7%,但在错误引导问题上却只有24.5%的正确率。这种巨大的性能差异暴露了开源模型在处理对抗性信息方面的严重不足。

特别值得注意的是,虽然最好的开源模型LLaVA-Video-72B在多项选择题上的表现与GPT-4o相当(47.5%对比46.6%),但在开放式问答上却明显落后。这个发现很重要,因为开放式问答更接近真实世界的应用场景,人们通常用自然语言提问,而不是从预设选项中选择答案。

这些结果揭示了当前视频理解模型的一个根本性问题:它们在稳健性方面严重不足。人类能够在各种不同的问法面前保持理解的一致性,但AI模型却很容易因为问题表达方式的微小变化而给出截然不同的答案。这种不一致性在实际应用中是相当危险的,因为用户可能会因为问法的不同而得到完全不同的信息。

六、AI犯错的三大根本原因

为了深入理解AI模型为什么会在视频理解任务中犯错,研究团队对GPT-4o的所有错误进行了详细分析。他们发现了三个主要的错误模式,每一个都揭示了AI理解能力的重要缺陷。

第一个主要问题是"时空混淆"。AI模型在理解物理世界的时间和空间关系时经常出现混乱。比如,在一个需要数数的任务中,当某个物体在视频中消失后又重新出现时,AI往往无法正确追踪这个变化过程。具体来说,如果画面中有10个相框,摄像机从左向右扫视然后又返回,结尾的相框与开头的是同一批,人类能够轻松理解这一点并给出正确的数目,但AI却可能数成12个,因为它把结尾重新出现的相框当成了新的物体。

这种时空混淆在涉及序列理解的任务中表现得更加明显。当问题涉及"第二个"、"第三个"这样的序数词时,AI经常无法准确跟踪事件的发生顺序。比如,在一个翻跟斗的视频中,如果问"第二个成功翻跟斗的人有什么特征?"AI可能会混淆不同人物的动作序列,给出错误的答案。这说明AI在维持对多个物体或事件的时空关系的清晰理解方面存在根本性困难。

第二个关键问题是"世界知识缺失"。这在涉及人物反应和动机的问题中表现得特别突出。AI能够准确描述它在视频中看到的内容,比如"一个人看起来很平静放松",但它无法将这种表面现象与更深层的世界知识联系起来。比如,在一个比赛场景中,获得第二名的人可能表面上看起来平静,但根据我们的常识,银牌获得者往往是最不快乐的,因为他们刚刚错失了金牌。这种基于世界知识的推理是人类理解社会情境的重要能力,但AI在这方面明显不足。

这种世界知识的缺失不仅体现在情感理解上,也体现在对常见社会情境和文化背景的理解上。AI可能能够正确识别视频中的动作和物体,但无法理解这些元素组合起来代表什么样的社会情境或文化含义。这限制了AI在需要常识推理的复杂场景中的表现。

第三个重要问题是"复杂情节混淆"。当视频包含需要将不同场景联系起来形成逻辑序列的复杂情节时,AI经常无法建立正确的因果关系。比如,在一个包含两个场景的视频中,第一个场景显示某人在房子外面打棒球,第二个场景显示这个人坐在厨房里,屏幕上显示着不断减少的金额数字。人类能够轻易理解这两个场景之间的逻辑关系:打棒球损坏了租住的房屋,导致押金被扣除。但AI往往将这两个场景视为独立事件,无法建立它们之间的因果联系,可能错误地认为这个人只是在记录他在棒球比赛上的花费。

这种复杂情节理解的困难反映了AI在长期记忆和跨场景推理方面的根本性局限。AI擅长处理单一场景内的信息,但当需要整合来自多个场景的信息来理解整体叙事时,它们的能力就显著下降了。

七、人类与AI的表现差异分析

通过深入比较人类和AI在不同类型问题上的表现,研究团队发现了一些有趣的模式。总体而言,人类和AI在问题难度的判断上存在中等程度的一致性,相关系数为0.49。这意味着人类觉得困难的问题,AI通常也会觉得困难,但这种一致性并不完美。

更引人注目的是,在涉及视觉复杂性的问题上,人类和AI的表现呈现出负相关关系,相关系数为-0.50。这个发现相当重要:AI模型在那些对人类来说相对简单的视觉理解任务上表现更差,而人类在这些情况下却能保持稳定的高水平表现。

具体来说,在涉及"元素计数"或"位移"的问题中,AI的表现显著下降,但人类在这些任务中仍然表现出色。这种差异表明,人类的视觉理解系统在处理复杂视觉信息方面具有AI尚未达到的稳健性。

研究团队还测试了增加视频帧数对性能的影响。结果显示,人类的表现随着可用帧数的增加而稳步提升,在64帧时达到近乎完美的准确度。这符合我们的直觉:看到更多信息通常有助于更好地理解内容。然而,AI模型的表现模式却截然不同。它们的性能在大约8帧后就达到饱和,继续增加帧数并不能带来显著的性能提升。

这个发现对于视频思维测试的设计验证具有重要意义。它证实了研究团队的核心设计理念:他们创建的问题确实可以在合理数量的帧内回答,因此AI的错误答案不能归咎于信息不足,而是真正反映了理解能力的不足。

八、提升AI表现的尝试

研究团队还探索了一些可能提升AI性能的方法。首先,他们测试了"思维链"提示技术的效果,这种技术通过在问题前添加"让我们一步步思考"这样的提示来鼓励模型进行更仔细的推理。

结果显示,思维链提示对某些类型的问题确实有帮助。特别是在"错误引导"问题上,这种方法带来了约6.8%的相对性能提升。这表明结构化思考确实能帮助模型更好地识别和避开误导性信息。然而,在多项选择题上,思维链提示的效果并不明显,这说明这种方法主要对需要开放式推理的任务有帮助。

研究团队还测试了添加音频转录信息的效果。有趣的是,在多项选择题上,音频信息并没有显著改善性能,这与一些其他视频理解基准测试的结果不同。这个结果实际上支持了研究团队的设计理念:视频思维测试主要关注视觉内容的理解,而不是依赖音频信息。

不过,音频信息在稳健性测试中表现出了意想不到的价值,带来了近15%的相对性能提升。这表明语音信息能够帮助模型在面对不同问法时保持更一致的理解,提高了回答的可靠性。

九、研究的深远意义

这项研究的意义远远超出了技术层面的改进,它为我们理解AI视频理解能力的真实水平提供了一面"照妖镜"。长期以来,我们可能对AI的能力过于乐观,而这个新的测试基准揭示了一个更加现实的图景。

从实际应用的角度来看,这些发现对于依赖视频理解的AI系统具有重要警示作用。无论是自动驾驶汽车需要理解道路情况,还是医疗AI需要分析手术视频,亦或是教育AI需要理解课堂教学视频,稳健性都是至关重要的。用户不能因为问法的微小变化就得到截然不同的答案,这在安全关键的应用中可能带来严重后果。

这项研究还为AI开发者指明了改进方向。显然,简单地增加模型规模或训练数据量可能不足以解决根本问题。AI模型需要在时空理解、世界知识整合和跨场景推理等方面获得根本性的提升。这可能需要全新的架构设计或训练方法。

从科学研究的角度来看,这项工作强调了评估方法的重要性。一个好的评估基准不仅能测试当前系统的能力,更重要的是能够揭示真正的不足之处,为未来的改进指明方向。视频思维测试在这方面树立了一个良好的标杆。

说到底,这项研究让我们更清楚地认识到,尽管AI在某些方面表现出色,但在真正理解复杂视觉信息方面,它们距离人类水平还有相当大的差距。这种认识既是对当前AI能力的现实评估,也是对未来发展的重要指引。正如研究团队所指出的,我们需要在推理能力、稳健性和真实世界理解能力等方面大幅提升AI模型的表现。

这个发现对于普通用户也有重要意义。当我们使用AI工具来理解视频内容时,需要保持一定的谨慎态度,特别是在面对复杂场景或重要决策时。同时,这也提醒我们,人类的视觉理解能力仍然具有独特的价值,在很多情况下是AI无法替代的。

研究团队的这项工作不仅推动了学术界对AI视频理解能力的深入认识,也为整个AI行业的健康发展提供了有价值的参考。通过诚实地面对AI的局限性,我们才能更好地发挥其优势,同时避免过度依赖可能导致的风险。这种实事求是的研究态度,正是推动AI技术持续进步的重要动力。

Q&A

Q1:视频思维测试和现有的AI视频评估有什么不同? A:视频思维测试最大的创新在于能区分AI是因为没看到足够视频帧而出错,还是因为真正缺乏理解能力而出错。它确保每个问题都能在80帧内回答,所以AI的错误答案真实反映了理解不足,而不是信息不够。

Q2:AI在视频理解上为什么会表现这么差? A:主要有三个原因:时空混淆(无法准确追踪物体在时间空间中的变化)、世界知识缺失(缺乏常识推理能力)、复杂情节混淆(无法将不同场景联系起来理解整体故事)。这些都是人类轻松胜任但AI严重不足的能力。

Q3:这个研究会不会影响我们使用AI视频工具? A:会有一定影响,特别是在处理复杂视频内容时需要更加谨慎。比如使用AI分析监控视频、医疗影像或教学视频时,最好还是要有人工核验。不过这也促使AI技术继续改进,长远来看是好事。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-