
这项由本古里安大学INSIGHT实验室的Dan Ben-Ami、Gabriele Serussi等研究人员以及该校的Kobi Cohen、Chaim Baskin教授共同完成的研究,发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.14870v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们看电影时,大脑会自然地把不同场景中的信息串联起来。比如看到男主角在第一幕穿着蓝色衣服,第二幕在咖啡厅,第三幕又出现在公园里,我们能轻松理解这是同一个人的连续故事。然而,目前最先进的AI视频理解模型却做不到这一点——它们就像只能看懂单张照片的"近视眼",无法真正理解视频中跨越时间的复杂故事情节。
研究团队发现了一个令人震惊的问题:现在被广泛使用的AI视频问答测试基准,就像只考察学生能否通过看一页书就回答问题的考试一样,完全没有测试AI是否真的理解了整个故事。这些测试中的大部分问题,AI只需要看到视频中的一两个关键画面,或者仅仅依靠常识推理,就能猜对答案。这就好比你只需要看到电影中有人拿着雨伞的画面,就能猜测外面在下雨,而不需要真正理解整个剧情发展。
为了彻底改变这种状况,研究团队精心设计了一套名为HERBench的全新测试系统。这套系统就像是为AI设计的"综合理解力大考",每一道题目都需要AI把至少三个不同时间段的视频片段信息整合起来才能回答正确。换句话说,如果AI想要通过这个测试,就必须具备真正的"看电影理解剧情"的能力,而不能再靠"看图猜词"的投机取巧方式。
研究团队创造性地提出了"最小必需帧集"这一概念来衡量每道题的难度。这个概念就像测量一本书需要读多少页才能理解故事情节一样直观。通过这个标准,研究人员发现现有的测试基准平均只需要看2.6到4.2帧画面就能答对,而HERBench则需要平均5.5帧,这意味着AI必须整合更多分散在不同时间点的信息片段。
在实际测试中,研究团队对13个目前最先进的AI视频理解模型进行了全面评估,结果令人深思。即便是表现最好的模型,准确率也仅仅达到42.1%,而最差的只有31.4%,这些数字都只是略高于20%的随机猜测概率。这就好比让一群优等生参加考试,结果发现他们的成绩都只是刚刚及格,说明考试确实考察了他们此前没有掌握的能力。
更深入的分析揭示了AI视频理解的两大核心问题。第一个问题可以称为"选帧困难症"。当AI面对一段几分钟的视频时,它需要从成百上千帧画面中挑选出最关键的几帧来分析,这个过程就像在图书馆的海量书籍中找到解答特定问题所需的几本书一样困难。尽管目前已有一些智能选帧算法,比如自适应关键帧采样技术,表现确实比简单的均匀采样要好,但距离人工精心筛选的理想效果还有很大差距。
第二个问题更加根本,可以称为"信息整合障碍"。即使给AI提供了包含所有必要信息的完美帧集合,它们仍然无法有效地将这些信息融合起来形成正确答案。研究团队通过精巧的实验设计发现,AI在处理多帧信息时存在严重的"注意力分配不均"问题——它们往往会过度关注某一帧的信息,而忽略其他同样重要的帧内容。这种现象就像一个学生在考试时只看了参考书的第一章就开始答题,完全忽略了其他章节的关键信息。
通过对AI模型内部工作机制的深入分析,研究团队发现了一个有趣的规律:当AI答对题目时,它对不同帧信息的重视程度相对均衡,平均每帧的重要性权重大约在0.5左右;而当AI答错时,往往会把80%以上的注意力集中在某一帧上,形成严重的"一叶障目"现象。这个发现就像揭示了学霸和学渣在学习方法上的根本差异——学霸会全面复习各个章节,而学渣容易被某个有趣的话题吸引而忽略其他内容。
HERBench测试系统包含26806道精心设计的五选一题目,覆盖了十二种不同类型的视频理解任务。这些任务被巧妙地组织成四大类别,每一类都针对AI视频理解的不同核心能力。
第一类是"时间推理与编年史"任务,就像要求AI成为一个电影剪辑师,能够理解不同场景之间的时间关系。其中包括时序镜头排序任务,要求AI根据四个场景描述重新构建正确的故事发展顺序;多人持续时间推理任务,需要比较不同人物在视频中出现时间的长短;以及动作序列完整性识别任务,要求从多个可能的动作顺序中找出真正发生的那个。这类任务的设计理念是让AI必须建立起完整的时间轴概念,而不能仅凭单个时刻的信息进行判断。
第二类是"指称与追踪"任务,这类任务就像在人群中追踪特定的人物。AI需要先通过外貌描述识别目标人物,然后在整个视频过程中持续关注这个人的行为轨迹。具体包括基于外貌的行为交互任务,要求识别目标人物与谁产生了互动;基于外貌的属性识别任务,需要在追踪过程中读取特定时刻的人物特征;以及基于外貌的定位轨迹任务,要求分析人物的移动路径和出入方式。这类任务的巧妙之处在于将人物识别信息和行为分析信息在时间上完全分离,确保AI无法通过简单的图像匹配获得答案。
第三类是"全局一致性与验证"任务,这类任务让AI扮演细心的事实核查员角色。虚假动作记忆任务要求AI从多个看似合理的动作中找出实际上没有发生的那一个;场景验证安排任务给出几个场景描述,其中部分是准确的,部分是虚构的,AI需要先识别真实场景,再按时间顺序排列;虚假物体记忆任务则要求识别哪个物体实际上没有被操作过。这类任务特别考验AI对视频内容的全面掌握能力,因为要证明某个事件没有发生,需要对整个视频有完整的理解。
第四类是"多实体聚合与计数"任务,这类任务考验AI处理复杂数据统计的能力。多实体定位与定位任务需要判断几个描述的人物中哪些确实在视频中出现;动作计数任务要求统计特定动作-物体组合在整个视频中发生的确切次数;区域定位人员计数任务则需要在特定空间约束下进行人数统计,比如统计从视频顶部边缘进入画面的人数。这类任务的难点在于需要在时间维度上进行精确的去重和累加操作。
研究团队在构建这套测试系统时采用了三管齐下的策略,确保每道题目都真正考察多证据整合能力。第一个策略是基于物体追踪和轨迹分析的精细化处理。研究团队使用先进的RF-DETR检测器和DeepSORT追踪器对视频中的每个人物进行连续追踪,然后为每个追踪对象生成严格分离的外貌卡片和行为卡片。外貌卡片基于轨迹的前后20%时间段生成,只描述人物的静态特征如服装颜色、配饰等;行为卡片则基于中间60%的时间段,专门描述动作和轨迹信息。这种设计确保了描述外貌的信息和询问行为的信息在时间上完全不重叠,AI无法通过简单的视觉匹配获得答案。
第二个策略是基于场景分割和语义描述的宏观处理。研究团队使用TransNetV2技术对视频进行镜头边界检测,将长视频分解成语义相对独立的片段,然后用大型语言模型为每个片段生成简洁的场景描述。为了增加难度,他们还会故意生成一些看似合理但实际错误的场景描述,这就像在真实的历史记录中混入一些虚假的历史事件,考验AI的辨别能力。
第三个策略是基于人工验证事件日志的真实性保证。对于一些需要验证缺失信息的任务,研究团队依靠人工验证的事件记录作为黄金标准。他们会从相似视频的常见事件库中选择在当前视频中确实没有发生的事件作为干扰选项,这种方法确保了错误选项的高度可信性,AI无法仅凭常识推理排除错误答案。
为了防止AI通过语言先验知识投机取巧,研究团队还实施了严格的文本过滤机制。他们使用四个不同的语言模型对每道题目进行纯文本测试,如果其中三个或更多模型能够在不看视频的情况下答对题目,这道题就会被剔除。这个过程就像确保考试题目无法通过死记硬背或投机取巧的方式解答,真正考察学生的理解能力。
整个数据集的构建过程还包括多轮专家验证环节。研究团队对15%的题目进行了人工抽样检查,确保每道题目确实需要至少三帧不同的视频内容才能正确回答,同时验证答案的唯一性和客观性。这个验证过程的严格性反映在18%的拒绝率上,说明研究团队宁可牺牲数据集规模也要保证质量。
通过对13个当前最先进AI模型的全面测试,研究团队获得了令人深思的结果。这些模型在HERBench上的表现呈现出明显的任务类型差异。在单实体追踪任务如外貌引导的行为交互和属性识别方面,部分模型表现相对较好,最佳模型Ovis-2.5-9B在这些任务上能达到约80%的准确率。这说明当前AI在追踪单个明确目标方面已经具备了一定的能力,就像有经验的侦探能够在人群中持续关注某个特定的嫌疑人。
然而,一旦涉及需要整合多个信息源的复杂推理任务,所有模型的表现都急剧下降。在动作计数和多实体定位任务上,平均准确率只有23%左右,几乎接近随机猜测水平。更令人惊讶的是,在时序镜头排序任务上,某些模型的准确率甚至低至0.1%,这意味着它们在理解场景时间关系方面几乎完全失效。
这种性能差异揭示了当前AI视频理解技术的一个根本性局限:它们更像是能力很强的"图像分析专家",而不是真正的"视频理解智能"。当任务可以通过分析单个时刻的画面完成时,AI表现尚可;但当需要跨时间整合信息、建立复杂关联时,它们就暴露出明显的能力不足。
研究团队进一步通过精心设计的对比实验,将AI的失败原因分解为两个相对独立的环节。他们比较了使用不同帧选择策略时AI的表现差异,包括均匀采样、基于BLIP嵌入的相似性选择、自适应关键帧采样AKS、逆变换采样BOLT-ITS,以及人工精选的"神谕帧"。
结果显示,虽然智能选择策略相比简单的均匀采样确实有所改善,但改善幅度有限,通常只有2-3个百分点的提升。更重要的是,即使在提供人工精选的最优帧组合的情况下,AI的平均性能提升也只有5-6个百分点,最终准确率仍然保持在50%以下。这个发现证实了研究团队的判断:问题不仅仅在于找不到正确的信息,更在于即使找到了正确信息也无法有效利用。
通过对AI内部注意力机制的深入分析,研究团队发现了一个关键的行为模式。他们计算了AI对不同帧的重要性权重分配,发现正确回答和错误回答之间存在显著差异。正确回答时,AI会相对均匀地关注各个关键帧,每帧的重要性权重通常在0.4-0.6之间;而错误回答时,AI往往会将过度的注意力集中在某一帧上,该帧的重要性权重经常超过0.8。
这种现象就像学生在考试时的不同策略:优秀学生会系统性地回顾所有相关知识点后再给出答案,而表现较差的学生容易被某个印象深刻的细节所误导,忽略其他同样重要的信息。这个发现为改进AI视频理解技术指出了明确的方向:需要开发更好的多帧信息平衡机制,避免过度依赖单一信息源。
HERBench的推出对整个AI视频理解领域具有重要的指导意义。传统的评估基准由于其内在的设计缺陷,可能给研究者造成了AI视频理解能力"虚高"的错觉。当研究者看到AI在现有基准上达到70%甚至80%的准确率时,很容易认为这个问题已经基本解决。然而,HERBench的测试结果清楚地表明,当前的AI系统在真正需要多时刻信息整合的场景下仍然力不从心。
这种认知偏差的纠正对于指导未来研究方向至关重要。研究者需要将更多精力投入到开发能够有效处理跨时间信息关联的新架构和算法上,而不是继续在已经相对成熟的单帧分析技术上进行微调。这就像发现了传统考试无法真正测试学生的综合能力后,教育工作者需要重新设计更全面的评估方法和相应的教学策略。
从技术发展的角度来看,HERBench揭示的问题也为AI视频理解的下一代技术指明了两个关键发展方向。在帧选择方面,需要开发更智能的时空注意力机制,能够根据问题类型动态调整对不同时间段信息的关注策略。在信息融合方面,需要设计更强大的多模态推理架构,能够同时处理和整合来自不同时刻的视觉、动作和语义信息。
研究团队通过HERBench项目还为AI评估方法学贡献了重要的理论框架。"最小必需帧集"这一概念为量化评估任务的复杂度提供了客观标准,使得不同基准之间的比较成为可能。这个概念的提出就像为教育评估引入了"知识整合度"的衡量标准,可以客观地判断一道题目是考察记忆还是考察理解综合运用能力。
更广泛地说,HERBench项目体现了AI评估从"看起来有效"向"实际上有效"的重要转变。在AI技术快速发展的今天,建立真正能够反映实际应用能力的评估基准变得越来越重要。只有通过这样严格和全面的测试,我们才能准确了解AI技术的真实水平,避免过度乐观的估计影响技术发展规划和应用部署决策。
说到底,HERBench项目虽然揭示了当前AI视频理解技术的不足,但这种"揭短"恰恰是推动技术进步的重要动力。就像严格的体检能够发现隐藏的健康问题一样,HERBench为AI视频理解技术提供了一面更加精准的"诊断镜子"。通过这面镜子,研究者可以更清晰地看到技术发展的真实现状和改进空间,从而制定更有针对性的研究策略。
对于普通用户而言,这项研究的意义在于提醒我们理性看待当前AI视频理解技术的能力边界。虽然AI在某些简单的视频分析任务上表现出色,但在需要深度理解和复杂推理的场景下仍然有很大的改进空间。这就像了解了汽车的真实性能参数后,我们可以更合理地规划行程路线,避免对技术能力的过高期待导致的失望。
随着越来越多的应用场景需要AI具备真正的视频理解能力——从自动驾驶汽车的环境感知到智能监控系统的行为分析,再到教育领域的互动视频内容理解——HERBench这样的严格评估基准将帮助推动整个行业向更实用、更可靠的方向发展。研究团队已经将这套基准公开发布,为全球的AI研究者提供了统一的评估平台,这将有助于加速相关技术的成熟和应用。
Q&A
Q1:HERBench测试跟现在的AI视频评测有什么不同?
A:现在的AI视频测试就像让学生看一页书就回答整本书的问题,AI经常能蒙对。而HERBench就像真正的理解力考试,每道题都需要AI把至少三个不同时间段的视频片段整合起来才能答对,无法靠看单个画面或常识猜测过关。
Q2:为什么最先进的AI在HERBench上表现这么差?
A:主要有两个原因。首先是"选帧困难症",AI很难从长视频中准确找到所有关键画面。其次是"信息整合障碍",即使给了AI所有必要信息,它们也会过度关注某一帧而忽略其他重要内容,就像学生考试时只看了第一章就答题。
Q3:HERBench对AI视频技术发展有什么影响?
A:HERBench揭示了当前AI视频理解的真实水平,避免了虚高的性能评估。它为研究者指出了明确的改进方向:开发更好的跨时间信息整合能力和平衡的注意力机制,推动AI从"图像分析专家"向真正的"视频理解智能"发展。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。