
这项由浙江大学、西湖大学、蚂蚁集团等多家机构合作完成的研究发表于2026年3月,论文编号为arXiv:2603.19217v1,有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们人类观看一部电影时,能够轻松地跟踪角色关系、理解剧情发展,还能通过音乐和对话理解情感变化。但对于人工智能来说,这个看似简单的任务却充满挑战,特别是当视频长达数十分钟甚至更长时间的时候。
现在的全能AI模型(也就是能同时理解文字、图像、声音的AI系统)在处理短视频方面已经相当出色,但面对真实世界中常见的长视频内容——比如一场完整的讲座、一集电视剧或一个详细的教学视频——它们的表现就大打折扣了。就像一个人只能记住电影的前几分钟,却无法理解整个故事的完整脉络一样。
研究团队发现了一个令人惊讶的现象:目前大多数AI评测都只关注10秒到5分钟的短视频片段,这就像用短跑成绩来评判马拉松选手的耐力一样不合理。在现实应用中,我们需要AI能够理解完整的视频内容,而不仅仅是片段。为了解决这个问题,研究团队创建了一个全新的评测基准——LVOmniBench,专门用来测试AI模型在长时间音视频理解方面的能力。
这个评测基准就像是为AI设计的"视频理解马拉松"。它包含275个高质量的长视频,每个视频的时长从10分钟到90分钟不等,平均长度超过34分钟。这些视频涵盖了生活方式、娱乐、烹饪、纪录片等21个不同类别,确保了内容的丰富性和多样性。研究团队还精心设计了1014个问答题,每个问题都需要AI同时理解视频中的画面和声音才能正确回答。
在测试结果中,研究团队发现了一个令人深思的现象:即使是目前最先进的商业AI模型Gemini 3 Pro,准确率也仅达到65.8%左右,而开源模型的表现更是令人担忧,大多数都在35%以下,这个成绩接近随机猜测的水平。这就好比让一个学霸去考试,结果只能答对一半多的题目,说明这个考试确实具有相当的挑战性。
一、构建史上最全面的长视频理解测试
研究团队面临的第一个挑战就是如何收集到足够多样且高质量的长视频内容。他们选择从YouTube这个视频宝库中寻找素材,但并非随意选择,而是制定了严格的筛选标准。
所有选中的视频都必须遵循创意共享协议,这确保了这个数据集能够被研究社区自由使用。研究团队就像是在海量视频中寻找宝藏的探险家,他们先是根据关键词在21个细分类别中进行初步筛选,收集了超过3000个候选视频。
接下来是更加严格的人工筛选过程。研究团队的专家们就像电影选片师一样,逐一审查每个视频,确保它们具备丰富的音视频信息和动态变化。最终,只有275个视频通过了这个严格的选拔过程,平均时长达到2069秒,这个数字是现有音视频理解基准测试平均时长的6倍以上。
这些精选视频的时长分布很有意思:大部分集中在20到50分钟之间,这正好符合现实生活中我们观看视频的典型时长。无论是一节网课、一期播客,还是一个详细的产品评测,都通常在这个时长范围内。
二、设计巧妙的问答系统来测试AI理解能力
仅仅有了长视频还不够,研究团队需要设计出能够真正测试AI理解能力的问题。他们创建的问答系统就像是一套精心设计的智力测验,涵盖了四个不同层面的认知能力。
感知层面的问题就像是测试AI的"眼睛"和"耳朵"是否灵敏。比如询问视频中出现了多少个特定物体,或者背景音乐是什么类型。这看似简单,但当视频长达几十分钟时,AI需要在整个时长内保持注意力,就像人类观看电影时需要记住开头出现的角色一样。
理解层面的问题更加复杂,要求AI能够识别人物关系、情感变化和事件发展。例如,AI需要通过观察一个人的表情和听取语调变化来判断他们的情绪状态,或者理解视频中多个人物之间的互动关系。
推理层面的问题则考验AI的"思维能力"。它需要根据听到的声音推断画面中正在发生什么,或者根据时间线上的事件推测因果关系。这就像侦探通过蛛丝马迹推理案情一样,需要将零散的音视频信息整合成完整的理解。
最具挑战性的是逻辑推理层面的问题,这些问题需要AI进行多步骤的复杂推理。比如,AI可能需要先识别出视频中的某个特定场景,然后结合之前的信息来回答一个涉及因果关系的问题。
每个问题都被精心设计成多选题形式,并且必须同时依赖音频和视频信息才能正确回答。研究团队还为每个问题标注了难度等级:低、中、高三个层次,这样就能更细致地分析AI在不同难度水平上的表现。
为了确保问题的质量,研究团队采用了多轮筛选机制。他们首先让Gemini模型尝试仅使用单一模态(只看图像或只听音频)来回答问题,如果模型能够答对,说明这个问题设计得还不够严谨,需要重新修改。经过这样的筛选,最终的1014个问题都必须同时依赖音视频信息才能解答。
三、令人意外的测试结果揭示AI的真实水平
当研究团队开始测试各种AI模型时,结果令人既惊讶又深思。即使是被认为最先进的商业AI模型,在面对长视频理解任务时也表现出了明显的局限性。
Gemini 3 Pro作为目前最强的商业AI模型之一,在这个测试中的准确率达到65.8%,这个成绩虽然是所有模型中最高的,但距离人类水平仍有不小差距。更令人担忧的是,当问题难度提升到高等级时,即使是Gemini 3 Pro的准确率也下降到了45%左右。
开源AI模型的表现更是让人瞠目结舌。大部分开源模型的准确率都徘徊在35%以下,考虑到这是四选一的多选题,25%是纯粹随机猜测的概率,这意味着许多开源模型的实际理解能力可能还不如随机选择。
研究团队进一步分析发现,AI模型在不同类型的问题上表现差异很大。在音乐感知和精确计数方面,几乎所有模型都表现糟糕。这就像让一个人在嘈杂的环境中辨别特定的音乐类型,或者在快速移动的画面中准确数出物体数量一样困难。
特别有趣的是,研究团队还测试了AI模型在处理不同类型音频时的表现。结果显示,当涉及到语音内容时,AI模型的表现相对较好;但当需要理解音乐或环境声音时,性能急剧下降。这说明现有的AI模型在音频理解方面还有很强的语言依赖性,无法很好地处理非语言音频信息。
四、深入剖析AI失败的根本原因
为了更好地理解AI模型为什么在长视频理解上表现不佳,研究团队深入分析了153个错误案例,就像医生诊断病情一样仔细解剖每个失败的原因。
感知错误占据了失误原因的最大比例,达到34%。这些错误被进一步分为视觉感知错误和听觉感知错误。在视觉方面,AI模型经常在数数、空间推理和细节识别上出错,就像一个近视的人试图看清远处的标牌一样模糊不清。在听觉方面,AI模型对于细微的音频特征如音色、情感语调等缺乏敏感性,经常忽略这些对人类来说很明显的音频线索。
时间定位错误占19.6%,这反映了AI模型在长时间序列中定位特定事件的困难。想象一下,如果有人问你一部90分钟电影中某个特定场景出现的时间,你需要在脑海中快速检索整部电影的内容。对AI来说,这个任务更加困难,因为它需要同时处理大量的音视频信息并保持时间线的连贯性。
跨模态语义鸿沟问题占19%,这是一个特别有趣的现象。AI模型经常能够分别理解视频中的画面和声音,但无法将两者有机结合起来。就像一个人能够分别看懂图画和听懂音乐,却无法理解音画结合所表达的完整含义一样。
推理错误占23.5%,即使AI模型成功感知到了所有必要的信息,也经常在逻辑推理环节出错。这包括数学计算错误、空间关系判断失误以及因果逻辑推理问题。
五、探索解决方案和未来发展方向
面对这些挑战,研究团队也提出了一些有价值的解决方向。他们发现,当为AI模型提供音频的文字转录时,某些开源模型的表现有了显著提升。这就像给一个外国人提供翻译帮助,能够更好地理解内容。但这也暴露了一个问题:现有的AI模型可能过度依赖文字信息,而无法真正理解原始的音频信号。
研究团队还发现,音频信息对于完整理解视频内容至关重要。当他们移除音频信息,仅让AI处理视频画面时,即使是专门为长视频理解优化的模型,性能也大幅下降。这说明真正的音视频理解需要两种模态的深度融合,而不是简单的拼接。
在处理超长视频序列方面,现有的技术解决方案主要集中在视频压缩和关键帧选择上,但音频处理的优化方法相对较少。音频信号具有严格的时序连续性,不像视频可以通过抽取关键帧来压缩信息。这为未来的技术发展指出了一个重要方向:如何在保持音频信息完整性的同时,提高处理效率。
研究团队通过对比实验发现,即使是最先进的商业AI模型,在利用音频转录文本时表现也优于直接处理原始音频。这表明原始音频中包含的非语言信息(如情感语调、音乐特征、环境音等)对于完整理解视频内容是必要的,但现有模型还无法有效利用这些信息。
六、这项研究对AI发展的深远意义
这项研究的价值远不止于揭示了当前AI模型的局限性。它为AI领域的未来发展提供了重要的方向指引。
首先,这个基准测试填补了长时间音视频理解评估的空白。就像马拉松比赛对于评估长跑运动员的真实能力一样,这个基准为评估AI的实际应用能力提供了更贴近现实的测试环境。
其次,研究结果揭示了跨模态理解的复杂性。真正的智能不是简单地将不同感官信息相加,而是要像人类一样将视觉、听觉信息融合成统一的理解。这为AI架构设计提出了新的挑战和要求。
此外,这项研究还凸显了时序建模在AI系统中的重要性。在长时间序列中保持信息的连贯性和相关性,是构建真正智能系统的关键能力之一。
研究团队的发现还表明,当前的AI训练方法可能需要重新思考。大多数AI模型在短片段上训练得很好,但在长序列处理上却表现不佳,这说明我们需要开发新的训练策略和架构设计。
七、普通人也能从中获得的启示
虽然这是一项高度技术性的研究,但它的意义并不局限于AI研究领域。对于普通人来说,这项研究揭示了一些有趣的现象。
当我们与AI助手互动时,可能会发现它们在处理复杂、多步骤的任务时容易出错。现在我们知道了原因:这些AI模型在长时间信息整合和跨模态理解方面还存在根本性限制。
这也解释了为什么现在的AI视频分析工具通常只能处理短片段,而无法对完整的电影或讲座进行深度分析。当我们期望AI帮助我们总结会议录音或分析教学视频时,需要理解这些技术限制。
同时,这项研究也让我们更加欣赏人类认知能力的复杂性和精妙之处。我们能够毫不费力地观看一部两小时的电影,理解复杂的情节发展,感受音乐带来的情感变化,这些对AI来说仍然是巨大的挑战。
说到底,这项研究就像是给AI系统进行了一次全面的"体检",结果显示它们在处理真实世界复杂任务方面还有很长的路要走。虽然AI在某些特定任务上已经超越了人类,但在需要长时间注意力、跨模态理解和复杂推理的任务上,它们仍然需要大幅改进。
这个发现既不应该让我们过度悲观,也不应该让我们盲目乐观。相反,它为AI技术的未来发展指明了清晰的方向,也提醒我们在使用AI工具时要了解它们的能力边界。随着这个基准测试的发布,相信会有更多研究团队投入到解决这些挑战中,最终推动AI技术向更加智能、更加实用的方向发展。
对于那些对这项突破性研究感兴趣的读者,可以通过论文编号arXiv:2603.19217v1查找完整的研究报告,深入了解技术细节和实验数据。
Q&A
Q1:LVOmniBench测试基准与现有的AI视频理解测试有什么不同?
A:LVOmniBench专门针对长时间音视频理解设计,平均视频长度超过34分钟,是现有基准的6倍以上。它不仅要求AI理解画面,还必须同时处理音频信息,更接近真实世界的应用场景。现有大多数测试只关注10秒到5分钟的短片段,无法反映AI在处理完整视频内容时的真实能力。
Q2:为什么连最先进的AI模型在长视频理解上表现都不好?
A:主要原因包括四个方面:感知错误占34%,AI在视觉计数和音频细节识别上困难;时间定位错误占19.6%,难以在长时间序列中准确定位事件;跨模态理解鸿沟占19%,无法有效融合音视频信息;推理错误占23.5%,在逻辑推理和空间关系判断上出错。这些问题在短视频中不明显,但在长视频中被放大。
Q3:这个研究对普通用户使用AI产品有什么启示?
A:这项研究解释了为什么现在的AI助手在处理长视频分析、会议总结等复杂任务时容易出错。用户应该理解当前AI的能力边界,在使用相关功能时适当降低期望值,同时可以通过将长任务分解为短片段来获得更好的效果。随着技术进步,这些限制会逐步改善。
好文章,需要你的鼓励
加州大学洛杉矶分校等机构联合推出的Unify-Agent突破了传统AI图像生成的知识局限,通过整合"思考-搜索-整理-绘制"四步工作流程,让AI画师具备主动查找资料的能力。该系统在FactIP基准测试中相关性指标提升61%,特别擅长处理需要准确世界知识的长尾内容和文化特色图像生成任务。
中科院团队开发的FlowPIE系统首次将动态文献探索与创意进化相结合,突破传统AI科学创意生成的同质化局限。该系统通过流引导蒙特卡洛树搜索实现文献检索与创意生成的紧密耦合,并采用类生物进化机制持续优化创意质量。实验显示,FlowPIE在新颖性、可行性等维度显著超越现有方法,展现出强大的跨领域泛化能力,为AI辅助科研开辟了新路径。
阿里巴巴DAMO研究院推出Lingshu-Cell虚拟细胞建模系统,采用掩码离散扩散模型技术,能够精确模拟和预测细胞在基因编辑、药物刺激等干预下的反应。该系统在国际虚拟细胞挑战赛中表现出色,为个性化医疗和药物开发开辟了全新路径,标志着数字生物学时代的到来。
上海AI实验室联合多所高校发布GEMS技术,通过智能团队协作机制让60亿参数的小模型在图像生成上超越顶级商业模型。该系统包含循环优化、记忆管理和技能库三大核心,采用多轮迭代和专业技能匹配,在主流测试中提升14分以上,为资源受限环境下的高质量AI应用提供新方案。