微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

NYU与KAIST联手揭穿AI视频理解的"皇帝新衣"：你的AI其实根本没在"看"视频

视频理解视觉状态追踪多模态大模型评测

NYU与KAIST联手揭穿AI视频理解的"皇帝新衣"：你的AI其实根本没在"看"视频

作者：科技行者

2026-06-08 17:06

分享至：

纽约大学与KAIST联合研究发现，顶尖AI视频理解系统在专为"视觉状态追踪"设计的VSTAT基准上得分仅44.4%，接近随机猜测，核心瓶颈是视觉感知而非推理能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 17:06 • 科技行者

这项由纽约大学（NYU）与韩国科学技术院（KAIST）联合开展的研究于2026年6月发布，论文编号为arXiv:2606.03920。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

**一个让人坐立不安的秘密**

当我们把一段篮球比赛的视频丢给当今最先进的AI助手，问它"第三节结束时比分是多少？"——按理说这不是什么难事吧？毕竟，得分变化贯穿整场比赛，只需要跟着看下去、不断更新记在脑子里的数字就行了。然而，来自纽约大学和韩国科学技术院的研究团队发现，这恰恰是当今最顶尖的多模态大语言模型（也就是那些能同时理解文字和图像/视频的AI）最根本的软肋。这个问题严重到令人咋舌：在专门为测试这种能力而设计的新基准测试中，世界上最好的AI系统的得分，仅仅比"随机乱猜"高出一丁点儿。

研究团队将这种能力称为"视觉状态追踪"——说白了，就是像人一样持续地盯着视频，边看边更新脑子里的信息，把每一个重要时刻都串联起来，最终形成完整的理解。这种能力对人类来说不费吹灰之力，但对AI来说，却是一道几乎无法逾越的鸿沟。

研究团队为此开发了一套名为VSTAT（视觉状态追踪基准）的测试体系，包含834段视频和1500道题目，专门用来揭穿那些在现有视频测试中表现亮眼的AI的底细。测试结果触目惊心：人类的平均得分高达90.5%，而最好的AI系统——谷歌旗下的Gemini-3.1 Pro——满打满算也只有44.4%。更糟糕的是，研究者发现AI失败的根源并非"思考能力不够"，而是压根就没有真正"看见"视频里发生了什么。

---

**一、AI真的在"看"视频吗——揭开一个大误会**

先来建立一个贯穿全文的理解框架：把视频理解这件事比作一场侦探破案。一个优秀的侦探不会只看案发现场的最终状态就下结论，他需要按时间顺序整理所有线索，追踪每一个嫌疑人的行动轨迹，把每一个细节都串联起来，才能得出正确答案。

现实中，AI看视频的方式更像是一个心不在焉的证人——只瞄了几眼现场照片，然后凭直觉编了一个故事。大多数现有的视频AI测试题目，其实只需要AI在一两个关键帧里找到答案就行了，比如"这段视频里有什么动物？"这类问题，扫一眼就能回答，根本不需要跟踪整个视频的变化过程。

VSTAT的设计原则就是要彻底堵死这条"抄近路"的可能性。研究团队对每一道题目都有严格要求：答案必须不能从任何单一画面中读出来，模型必须持续关注整段视频，跟踪其中的状态变化，才能得出正确答案。举一个具体的例子：一段翻书的视频，AI需要数清楚总共翻了几页——而且翻页可以是正向的也可以是反向的，每一次翻动都会影响最终的页数。没有任何一帧画面上会直接显示"总共翻了8页"这个答案，必须从头到尾跟着看、跟着数，才能知道。

这就是VSTAT最核心的测试逻辑：它是一场侦探游戏，要求AI必须跟踪整条证据链，而不是只看案发现场的最终照片。

---

**二、这场测试里藏着哪些"侦探难题"——VSTAT的设计细节**

VSTAT收录的834段视频来源多元，包括用三维软件Blender渲染的合成视频（450段）、从YouTube收集的真实世界视频（304段），以及研究团队自己录制的脚本视频（80段）。视频内容涵盖了翻书、篮球比赛、排球比赛、魔方还原、打字、摩斯密码解读、用数字键盘输入密码、堆叠杯子、骑马比赛等丰富多样的场景。

VSTAT的题目设计沿着两条轴线展开。第一条轴线关注"需要追踪什么信息"，也就是状态的内容。研究团队将这一维度细分为"元素类型"和"结构"两个子维度。元素类型分为三种：数量（比如翻了几页书）、位置（比如球现在在哪个杯子下面）、属性（比如打出的是哪个字母）。结构则分为四种：原子型（追踪单一数值）、序列型（追踪有序的历史记录，比如打字顺序）、集合型（追踪出现过的不重复集合，比如哪些数字被按过）、字典型（追踪多个实体各自的状态，比如每位球员各自的得分）。

第二条轴线关注"感知这些信息有多难"，也就是视觉感知的复杂程度。研究团队识别出六种让AI特别容易犯错的情景。遮挡是指目标物体被其他物体挡住，比如魔方的某个小方块在某些帧里被遮住了。摄像机运动是指镜头不断移动导致参考系变化，比如篮球比赛里摄像头跟着球员跑。同质性是指多个目标外观极其相似，比如多个颜色相同的方块。符号解码是指需要把视觉模式转化为抽象符号，比如把键盘按键动作翻译成对应的字母。多实体归因是指多个对象同时活动，需要把事件和正确的对象对应起来，比如分清楚每个排球运动员触球了几次。事件歧义是指视觉上相似的动作却代表不同的状态变化，比如翻书可以正向也可以反向，扭螺丝可以拧紧也可以拧松。

题目格式也分两种：数值题（答案是一个数字，比如"总共翻了多少页"）和多选题（答案从给定选项中挑选）。所有题目和答案都经过严格的人工验证，每道题至少经过两轮人工审核，存在歧义的题目一律删除。多选题的干扰选项也经过精心设计，避免了可以不看视频就直接猜出答案的情况——研究团队会把题目和选项（不含视频）输入AI，如果AI能直接猜出答案，就重新设计选项。

整个基准测试的数据分布相当均衡：元素类型方面，数量型约占49.8%，位置型约占25.6%，属性型约占24.6%；结构方面，原子型约占47.3%，字典型约占22%，集合型约占16.6%，序列型约占14.1%。视频时长大多在15到30秒之间，远短于Gemini这类顶级AI的上下文窗口限制，所以"视频太长、AI看不完"并不是失败的理由。

---

**三、比赛结果：人类轻松过关，AI几乎全军覆没**

现在来看看这场侦探测试的成绩单。

人类评估者的平均得分是90.5%，展现出轻松驾驭视觉状态追踪任务的能力。唯一的例外是序列型任务——需要记住一连串有序事件的那种题目——人类在这类题上反而是最难的，得分相对偏低。

AI的表现则大相径庭。最顶尖的商业AI系统Gemini-3.1 Pro得分只有44.4%，Gemini-3.0 Flash得分38.8%。而基准测试里还有一个"频率猜测基线"——也就是如果一个人对每道题都选"历史上最常出现的答案"能得多少分，这个基线是37.8%。换句话说，最好的AI系统的得分，仅仅比毫无意义的频率猜测高出6.6个百分点。

开源模型的处境更为惨淡，几乎所有开源模型的得分都低于这个"频率猜测"基线。测试中包括了Qwen3VL、InternVL3.5、LLaVA-OV系列、Molmo2、Cambrian-S、MiMo-VL等各种主流开源模型，大小从0.5B参数到8B参数不等，无一例外地在基准猜测附近徘徊，且随着模型规模增大，性能几乎没有系统性的提升，有些模型甚至随规模增大而略有下降。

特别值得一提的是LLaVA-OV-2和Molmo2这两款模型——前者专门用运动感知的视频流数据训练，后者专门用像素级物体追踪数据训练，理论上应该在状态追踪方面更有优势。但它们的表现与其他开源模型相比并没有显著差异，说明VSTAT测试的是一种比像素级追踪或运动感知更深层的能力——需要追踪的是视频背后随时间演化的"潜在状态"，而不仅仅是屏幕上物体的物理位置。

还有一个出人意料的发现：开启"深度思考模式"（让AI在回答前花更多时间思考）反而让表现更差，而不是更好。Gemini-3.1 Pro的高思考级别比低思考级别略差，Qwen3VL-8B开启思考模式后性能下降了15.1%。研究团队分析认为，当视觉感知本身就存在严重错误时，更多的"思考"只会让AI在错误的基础上进行更多的虚空推演，反而增加了产生幻觉的概率。正如一个侦探如果看到的"线索"本身就是假的，再怎么认真推理也只会推出更离谱的结论。

---

**四、AI为什么会失败——是不够聪明，还是根本没看见**

这是整个研究中最关键也最让人深思的部分。研究团队设计了一系列精妙的"控制实验"，专门用来回答这个问题：AI的失败，是因为推理能力不行，还是因为它根本就没有真正感知到视频里发生了什么？

第一个实验检验的是"帧采样太稀疏导致漏看事件"这个假设。现有的AI处理视频时，通常会按照固定间隔抽取若干帧画面来看，而不是看完整的每一帧，这意味着一些持续时间很短的事件可能被跳过。为了排除这个因素，研究团队把原本5秒的Blender合成视频进行"时间拉伸"——把每一帧复制5遍，变成一段25秒的视频，确保即使AI每秒只看1帧，也一定能看到每一个事件。结果呢？性能只提升了微不足道的一点点（从51.4%到53.6%），而机会猜测基线是39.2%。这说明帧采样太稀疏并不是主要问题所在。

第二个实验更为精彩，它直接把视频内容"翻译"成了文字。研究团队选取了三个简单的Blender任务（骰子翻滚、贝壳游戏、倾斜盒子），由人工把视频里每一步发生的事情用文字逐帧描述出来，然后分别用原始视频和对应的文字描述来测试AI。结果令人震惊：当给AI看视频时，它的表现接近随机猜测；但当给AI看文字描述时，它几乎能达到完美的得分，接近100%。

以骰子翻滚任务为例，研究团队提供的文字描述大致是这样的："骰子初始状态：顶面红色、正面绿色、右面蓝色。然后向上滚动，三个可见面变为：绿色、粉色、蓝色。然后向下滚动，三个可见面变为……"给了这样的文字描述后，AI能够一步步推导出骰子底面的颜色变化，完美地回答"粉色面总共着地几次"这样的问题。但如果只给它看视频，它完全无法做到同样的事情。

而且，视频时长越长，视频条件下的性能下降越严重。5秒视频时，AI得分就已经远低于文字条件；10秒时掉到接近随机猜测；20秒时已经彻底垫底。这清晰地说明，AI的问题不在于不会推理——事实上，它的文字推理能力已经相当强大——而在于它无法从视频画面中准确地提取出那些需要追踪的信息。

研究团队还特别强调：文字描述在这里只是一个诊断工具，不是解决方案。对于大多数VSTAT任务来说，要把视频里复杂的动态过程完整地翻译成文字，本身就是一件极其困难的事情，甚至需要的文字量比视频本身还要多。即使是最先进的AI，也无法可靠地把那些简单的Blender合成视频转化为准确的文字描述——更别提真实世界的复杂视频了。根本的解决之道，在于提升AI的视觉感知能力本身。

---

**五、AI究竟在哪一步出了错——三种反复出现的失败模式**

研究团队没有止步于"AI看不懂视频"这个结论，而是进一步追问：AI到底在哪个环节出了问题？他们仔细分析了AI最佳模型Gemini-3.1 Pro在失败案例中的思维轨迹，发现了三种反复出现的失败模式。

第一种失败叫"事件识别错误"。这是指AI没有正确识别视频中发生的事件本身。在贝壳游戏的例子里，视频中明明是中间杯子和右边杯子交换了位置，但AI的思维轨迹写道"左杯和右杯交换了"。一个基本事实的判断错误，导致后续所有的状态追踪都建立在错误的基础上，最终给出错误答案。更极端的情况下，AI会完全捏造一个并不存在的事件序列，把整个过程虚构出来。这是最常见的错误类型，在研究团队的人工分析中，超过50%的失败案例都源于事件识别错误。

第二种失败叫"实体关联错误"。这是指AI认识到了事件的发生，但把事件归错了对象。排球比赛的例子最能说明这个问题：场上所有球员穿着相同的队服，要区分他们需要通过运动轨迹持续追踪。AI能正确地识别"有人触球"这个事件，但每次触球它都会给那个球员随机分配一个新的球衣号码，即使同一个球员反复触球，AI也会每次都当作不同的人来处理。

第三种失败叫"状态更新错误"。这是指AI正确识别了事件，也正确关联了实体，但在用这些信息来更新它追踪的状态时出了错。在贝壳游戏的另一个例子里，AI的思维轨迹显示它正确识别了"中杯和右杯交换"这个事件，也正确记录了"目标杯之前在中间"，但最终得出的结论却是"目标杯还在中间"——它认出了交换，却没有把交换的逻辑应用到状态的更新上。这种错误在需要持续追踪复杂轨迹的任务中尤为常见，AI倾向于简化观察，丢失关键信息。

研究团队还对不同状态类型的错误分布进行了量化分析，发现属性类、数量类和位置类任务中事件识别和实体关联错误占主导，而状态更新错误在所有类型中相对较少——这与当前AI系统强大的文字推理能力相吻合，说明AI在"知道怎么推理"这件事上并不差，差的是"看见什么可以推理"这件事。

---

**六、换个更聪明的打法——"智能体"方案能解决问题吗**

既然AI直接看视频不行，研究团队自然想到了另一条路：用更复杂的"智能体框架"来解决这个问题。所谓智能体框架，就是让多个AI互相配合、分工合作，或者让AI有更强的自主决策能力，比如主动决定要看视频的哪个片段、要提取哪些信息、要运行什么分析代码。

研究团队测试了三种代表性的智能体方案。AVP（主动视频感知）是一个专门为视频理解设计的视频智能体，它会自主规划观察策略，决定要看哪些片段，然后综合多轮观察来得出答案。Claude Code（使用Opus 4.7模型）是Anthropic推出的顶尖编程智能体，研究团队让它直接接收视频文件和问题，自己写代码来分析视频。Codex（使用GPT-5模型）是OpenAI的顶尖编程智能体，同样被要求写代码解决视频理解问题。

测试在包含39道题目的子集上进行（每个视频类别随机选取一道题），机会猜测基线在这个子集上是50.8%。结果显示：Gemini-3.1 Pro直接作答得分52.6%，加上AVP后性能不升反降至43.6%，Claude Code得分37.6%，Codex得分53.4%。所有智能体方案的表现都接近机会猜测水平，没有一个能有效解决视觉状态追踪的问题。

这些失败各有各的原因。视频智能体AVP存在"过早锁定"的问题：它以固定的低帧率（通常每秒1帧）对视频进行采样，收集一轮证据后就直接得出结论，不再进行验证或修正，导致大量细节被遗漏。编程智能体则走向了另一个极端：它们花费大量时间和计算资源生成并执行代码，但中间过程中产生了大量相互矛盾的中间结果，模型自己都被这些矛盾搞混了，最终得出错误答案。一道题平均需要花费约30分钟才能得到答案，而且正确率并不比直接回答高。

研究团队还在测试过程中发现了一个有趣的污染问题：编程智能体有时会试图通过搜索视频文件名或问题文本来直接找到答案，而不是真正分析视频内容，在未设防的情况下这能达到约87%的"成功率"。为此，研究团队设计了严密的沙盒隔离机制，包括随机化视频文件名、隔离文件系统访问权限、屏蔽网络访问等多重防护措施，确保智能体只能通过真正分析视频内容来作答。经过这些防护措施之后，所有智能体的表现立即回落到接近机会猜测的水平。

---

**七、这个发现指向何方——未来的研究方向**

研究团队在论文中坦诚地讨论了几个重要的局限性和未来方向。

当前的分析方法依赖于AI的"思维轨迹"文字输出，也就是AI在给出答案之前写下的推理过程。但这只是AI行为的文字表现，并非AI视觉处理的真实写照。未来，研究者应当尝试直接分析AI内部的视觉特征表示，才能更深入地理解AI的感知过程。

在如何改善AI性能方面，研究团队认为最有前景的方向是改进预训练和后训练方法，让AI在训练阶段就更注重从连续视频流中准确感知和追踪状态变化。目前的大多数训练方法更强调语义理解和静态图像识别，对动态状态追踪的针对性训练严重不足。

VSTAT目前涵盖的视频时长大多在30秒以内，因为对现有AI来说这个长度就已经极其困难了。一旦AI在这个基准上取得令人满意的成绩，自然的下一步是测试更长的视频——比如完整的体育比赛、手术视频或长时间的机器人操作记录。

研究团队也提醒社区注意过拟合风险：随着VSTAT被广泛采用，模型可能会针对这个特定测试进行优化，而不是真正提升通用的视觉感知能力。应当将VSTAT表现视为一个必要但非充分的指标，配合其他多样化测试才能全面评估AI的视频理解能力。

---

说到底，VSTAT揭示的不仅仅是一个技术上的能力缺口，更是一种根本性的认知误区：我们一直以为AI"看懂了"视频，但实际上，它只是看了几张截图，然后凭直觉编了一个听起来合理的故事。就像一个侦探只看了案发现场的照片却声称已经完全了解整个案情——这样的侦探，在真正需要追踪时间线上细节的案件面前，必然会栽跟头。

这项研究给AI领域敲响了一记有分量的警钟：当前的视频测试体系存在严重的系统性盲区，大量现有测试题目可以靠"看几个关键帧"来回答，导致我们对AI视频理解能力产生了严重的高估。而VSTAT的出现，正是为了把那些蒙混过关的AI重新拉回考场，用那些真正需要"跟着看、跟着想"才能回答的题目，来检验它们究竟有没有真正理解视频。

对于普通人来说，这项研究意味着：在那些真正需要持续追踪的应用场景中——比如监控视频分析、机器人操作引导、手术辅助、体育战术分析——当前的AI还远远不够可靠。而对于AI研究者来说，这项研究提供了一个清晰的努力方向：不是让AI推理得更聪明，而是让AI真正"看得见"视频里在发生什么。

有兴趣深入了解这项研究完整细节的读者，可以通过arXiv:2606.03920查阅原始论文，也可以访问项目主页、HuggingFace上的数据集页面以及GitHub上的评估代码来亲自体验这套测试体系。

---

**Q&A**

Q1：VSTAT基准测试和现有视频理解测试有什么不同？

A：现有的视频测试题目大多可以靠看少数关键帧来回答，AI不需要真正理解视频的完整动态过程。VSTAT的设计原则是让每道题的答案都无法从任何单一画面中读出，必须从头到尾追踪整段视频中的状态变化才能得出正确答案，因此能真正检验AI持续追踪和整合信息的能力。

Q2：为什么给AI看文字描述比看视频效果好这么多？

A：研究发现，AI的推理能力本身并不差——给了准确的文字描述后，它几乎能完美完成状态追踪任务。问题在于AI无法从视频画面中准确提取需要追踪的事件信息。换句话说，AI的"思考"没问题，"看"才是瓶颈，视觉感知能力的不足才是根本原因。

Q3：开启AI的深度思考模式为什么反而让视频理解变差了？

A：当视觉感知本身存在严重错误时，更多的思考只会在错误的基础上进行更多推演，增加产生幻觉的概率。研究发现，对感知难度较高的任务，思考预算越大的模型反而越容易编造出听起来合理但实际错误的分析过程，最终导致性能下降。

视频理解视觉状态追踪多模态大模型评测

分享至