这项由意大利特伦托大学(UNITN)、中国哈尔滨工业大学(HIT)、北京大学(PKU)、中国科学院信息工程研究所(IIE, CAS)、中国科学院大学(UCAS)、北京航空航天大学(BUAA)、南京理工大学(NJUST)和南开大学(NKU)多所高校联合完成的研究,于2025年5月在arXiv上发布(arXiv:2505.22810v1),目前正在同行评审中。该论文由Zhoufaran Yang、Yan Shu(共同第一作者)等多位研究者共同完成,由Nicu Sebe教授领导。有兴趣深入了解的读者可以通过论文的GitHub仓库(https://github.com/shuyansy/VidText)获取更多信息。
视频中的文本信息究竟有多重要?想象一下,当你看一部外语电影时,字幕帮你理解对话;当你在陌生城市导航时,路标指引你的方向;当你观看体育比赛时,计分板让你了解比赛进程。视频中的文本元素不仅仅是装饰,它们承载着丰富的语义信息,对整体视频理解和局部人类行为推理至关重要。
然而,现有的视频理解基准测试大多关注主要事件、人物动作和人际关系,而忽略了视频文本这一重要元素。另一方面,专注于文字识别(OCR)的基准测试则局限于静态图像,无法捕捉文本与动态视觉上下文之间的交互。这就像我们有了识别静态路标的能力,却无法理解这些路标在行车过程中如何引导我们的旅程。
为了填补这一研究空白,研究团队提出了VidText,这是一个专为视频文本理解设计的全面评估基准。VidText就像是为大型多模态模型(LMMs)设计的一套全面考试,测试它们在识别和理解视频中文本信息的能力。这个基准不仅仅关注"视频中有什么文字",还深入探究"这些文字与视频内容有什么关系",以及"文字如何帮助我们理解视频中发生的事件"。
VidText的创新之处在于它提供了三大关键特性:首先,它涵盖了广泛的现实场景并支持多语言内容,包括英语、中文、韩语、日语和德语,确保模型能在不同语言和文化背景下正常工作。其次,它引入了一个分层评估框架,包括视频级、片段级和实例级任务,使我们能够评估模型在全局总结和局部检索方面的能力。最后,它还引入了一系列配对的感知推理任务,从视觉文本感知到文本与视觉信息之间的跨模态推理,全方位测试模型的理解能力。
研究团队对18个最先进的大型多模态模型(LMMs)进行了广泛实验,结果显示当前模型在大多数任务上表现不佳,有很大的改进空间。尽管Gemini 1.5 Pro在所有模型中表现最佳,但其平均得分仅达到46.8%,远低于人类表现水平的89.5%。进一步分析表明,模型内在因素(如输入分辨率、OCR能力)和外部因素(如辅助信息使用和思维链推理策略)都会影响模型性能。
让我们一起深入探索这个全新的视频文本理解世界,了解为什么它如此重要,以及它将如何推动多模态人工智能在动态环境中的发展。
一、视频文本理解的挑战与重要性
想象一下,你正在观看一场足球比赛的视频直播。屏幕上不仅有球员的动作,还有比分显示、球员姓名、战术分析等各种文字信息。这些文本不仅仅是贴在视频上的标签,它们与视频内容紧密相连,共同构成了完整的视觉叙事。比如,当比分从0:0变成1:0时,这个文本变化往往伴随着某个球员进球的动作,两者之间存在时间和因果关系。
传统的视频理解基准测试,如NExT-QA、MVBench和MovieChat-1K等,大多关注视频中的主要事件和人物动作,很少考虑文本信息。而专注于文本识别的基准测试,如BovText和RoadText1k,则主要处理静态图像,无法捕捉文本在动态视频中的变化和意义。这就像我们有了认识单词的能力,却无法理解这些单词在句子和段落中如何构建意义。
与静态图像相比,理解视频中的动态文本及其与不断变化的视觉上下文的交互要复杂得多。这不仅需要在实例级别进行精细定位,还需要在片段级别进行时间跟踪和发现,以及在视频级别进行整体理解。此外,视频文本出现在各种场景中,并跨越多种语言,这进一步增加了识别和推理的复杂性。
VidText基准的独特之处在于它不仅测试模型"看到了什么文字",还测试模型能否理解"这些文字为什么出现在那里"以及"它们与视频中的人物和事件有什么关系"。例如,一个商店橱窗上的"大减价"标志可能解释了为什么人们聚集在那里,这一点仅从视觉线索可能并不明显。
二、VidText数据集的构建与特点
为了创建一个全面的视频文本理解基准,研究团队采取了精心设计的数据收集和注释策略,确保数据集的多样性、质量和代表性。
VidText数据集包含939个高质量视频,涵盖27个精细类别,这些视频来源广泛,包括现有数据集如BOVText、RoadText-1K等,以及从YouTube等公共平台收集的长形式视频。为了确保视频质量,研究团队使用了Gomatching等工具评估文本密度,并过滤掉模糊、有水印或低分辨率的视频。所有视频都有至少3分钟的持续时间,确保有足够的时间内容进行分析。
在内容分布上,VidText涵盖了六大类视频场景:娱乐、知识、生活记录、自我中心视角、媒体和体育,每一类又细分为多个子类别。例如,体育类别包括足球、篮球、拳击等具体运动。这种多样性确保了模型能在各种真实场景中测试其文本理解能力。
在语言多样性方面,VidText支持英语、中文、韩语、日语和德语,反映了真实世界视频文本的多语言性质。视频持续时间也呈现多样分布:约33.3%的视频在0-30秒之间,50.4%在30-60秒之间,剩余的则是较长视频,最长超过30分钟。这种时长分布确保了模型能在短视频和长视频上都接受测试。
注释过程采用自下而上的策略,构建多粒度注释,包括实例级、片段级和视频级信息。首先,注释者会在整个视频中跟踪至少三个清晰的视觉文本实例。对于每个实例,他们进行逐帧精细注释,直到文本消失,生成包含边界框、转录和唯一跟踪ID的注释序列。
其次,根据视频时长将视频分割成多个时间段(短视频每5秒一段,长视频每20秒一段)。对于每个时间段,记录视觉文本的存在情况,包括时间跨度和相关转录。
第三,注释者执行视频级注释,记录整个视频中出现的所有不同转录。对于中文,以文本行为基本注释单位,而对于其他语言,则以单词为单位进行注释。
除了文本感知注释外,研究团队还设计了一个以视频文本为中心的思维链(Chain-of-Thought,CoT)注释流程,用于推理任务。这一流程首先使用自适应采样策略提取关键帧,然后利用视觉语言模型Aria生成高质量的帧级描述,捕捉帧内和帧间的上下文信息。基于这些描述和OCR转录,人类注释者设计问答对,聚焦于视觉文本与周围视觉内容之间的语义或因果关系。
为确保问答对质量,研究团队执行了两个后验验证原则:一是遮盖视觉文本,验证问题是否仅使用视觉内容就能回答;二是遮盖视觉帧,检查问题是否仅使用文本信息就能回答。这确保了问答对确实需要模型同时理解文本和视觉信息。
三、VidText的任务体系与评估框架
VidText基准不是简单地测试模型能否识别视频中的文字,而是构建了一个层次化的任务体系,从基础的文本识别到复杂的语义推理,全面评估模型的视频文本理解能力。
基于详细的感知和推理注释,研究团队定义了8个层次化任务,分为视频级、片段级和实例级三个粒度,每个粒度又包含感知和推理两个维度:
第一组任务是整体OCR(HolisticOCR)和整体推理(HolisticReasoning)。整体OCR要求模型识别整个视频中出现的所有视觉文本,去除重复条目,并按时间顺序排序。研究者使用F1分数评估这一任务,基于实例级精确度和召回率计算。整体推理则评估模型通过整合识别的文本信息与全局语义上下文来理解视频整体主题的能力。这个任务被设计为多标签选择问题,模型需要从七个候选选项中选择三个正确答案,性能通过top-3准确率衡量。
第二组任务是局部OCR(LocalOCR)和局部推理(LocalReasoning)。与整体任务不同,局部任务关注模型在用户指定视频段内发现和解释视觉文本的能力。局部OCR要求识别给定段内出现的所有视觉文本,使用实例级匹配的F1分数评估。局部推理评估模型从文本推断局部语义含义或意图的能力,设计为多项选择题,通过答案准确率衡量性能。
第三组任务是文本定位(TextLocalization)和时间因果推理(TemporalCausalReasoning)。类似于时间定位任务,文本定位要求模型准确预测特定文本在视频中出现的时间间隔,使用基于地面真相时间跨度的平均交并比(mIoU)评估。相应的推理任务——时间因果推理,超越了定位,评估模型是否能推断识别文本与后续多模态事件或动作之间的因果关系。标准评估采用多项选择形式,以准确率作为性能指标。
第四组任务是文本跟踪(TextTracking)和空间推理(SpatialReasoning)。给定目标文本实例,文本跟踪要求模型预测其在视频中首次和最后出现时的空间边界框位置。空间推理扩展了这一任务,要求模型在指定时间戳推断文本实例与周围视觉元素之间的空间关系。为了实现与LMMs的标准化评估,这两个任务都被格式化为多项选择题。
这一层次化的任务体系使VidText能够评估模型在感知和推理两个层次上处理不同粒度视频文本的能力,从整体视频主题理解到精细的时空文本交互。通过将感知任务与对应的推理任务配对,VidText建立了一个从视觉文本感知到跨模态推理的全面框架,涵盖多级理解能力。
四、大型多模态模型的表现与挑战
研究团队对18个最先进的大型多模态模型(LMMs)进行了全面评估,包括专有模型(如Gemini系列和GPT系列)和开源模型(如VideoLLaMA 3、InternVL 2.5等)。评估采用零样本方式进行,即模型在没有任何任务特定微调的情况下直接应用于VidText任务。
总体结果显示,即使是最先进的模型在视频文本理解方面仍面临重大挑战。Gemini 1.5 Pro在所有模型中表现最佳,但其平均得分仅为46.8%,与人类表现水平(89.5%)相差甚远。大多数模型在多粒度任务上表现不佳,特别是在需要精确视觉文本识别和跨模态推理的任务上。
专有模型通常比开源模型表现更好,这可能得益于它们更大的模型规模和更丰富的训练数据。然而,一些开源模型在特定任务上表现出令人惊讶的强劲结果。例如,VideoLLaMA 3在时间因果推理和空间推理任务上取得了最高性能,这表明针对视频理解的架构设计可能比简单的模型规模更重要。
在多粒度任务中,视频级和实例级任务比片段级任务更具挑战性,这一现象在感知和推理设置中都存在。研究者推测这是由于当前LMMs在两方面能力有限:视频级任务需要全局信息聚合,而实例级任务需要精细检索和定位,这两者都是现有模型的弱点。
对于视频级和实例级任务,感知和推理的性能显示出强相关性,而在片段级任务中,两者相对独立。这可能是因为某些片段级感知任务,如文本定位,需要基于精细视觉线索的准确时间定位。然而,相应的推理任务,如时间推理,通常可以使用稀疏采样帧中的局部视觉线索解决,使模型能够绕过对精确感知输出的需求。
此外,研究发现,增加LLM的规模对推理任务的性能提升比对感知任务更显著。这表明视频文本感知不能仅通过模型规模有效改进,还需要谨慎的架构设计、专门的训练数据和其他任务特定考虑因素。
为了进一步探索影响视频文本理解的关键因素,研究团队进行了一系列消融研究。首先,他们验证了VidText的多粒度设计的有效性。对于整体任务,随机提取50%的视频时长作为一个片段,评估整体推理性能;对于片段级和实例级任务,基于原始任务注释选择关键片段。结果表明,片段级和实例级任务从基于片段的评估中显著受益,因为关键帧提供了集中的视觉文本信息。相比之下,整体推理性能下降,因为任务需要全局信息聚合,而这在只使用部分片段时会丢失。
其次,研究团队通过在不同随机比例下选择性地遮蔽视觉文本区域或周围视频内容,验证了视频文本和多模态上下文联合推理的必要性。结果显示,所有推理任务的性能随着遮蔽比例的增加而一致下降,证实了文本和视觉线索对VidText任务设计下的推理都至关重要。
五、关键影响因素与未来改进方向
通过深入的消融研究,研究团队揭示了影响视频文本理解性能的几个关键因素,包括模型内在因素和外部因素。
在模型内在因素方面,首先是输入分辨率的影响。研究者使用两个支持可调输入大小的代表性模型——Oryx-1.5和InternVL2.5进行测试。结果表明,增加分辨率显著提高了视频文本理解性能,特别是对于InternVL2.5,其输入图像被分成子块,更高的分辨率允许更好地保留文本细节。
其次是OCR能力的作用。研究者参考了各模型在标准OCR基准测试(如OCRBench)上的表现,发现模型的视频文本理解性能通常与其基础OCR准确率一致。这表明强大的基础文本识别能力是处理视频文本的先决条件。
最后是LLM骨干网络的选择。比较不同LLM骨干网络的结果显示,某些架构(如Qwen2.5)在多语言场景中表现更强,通常优于基于LLaMA的变体。这些观察共同表明,视频文本理解受输入保真度、OCR能力和语言建模能力的综合影响。
在外部因素方面,研究团队首先探讨了辅助信息是否能增强视频文本理解,特别是对推理任务。他们考虑了音频转录和视频文本(如字幕或OCR输出)两种模态,将它们转换为文本序列并附加到原始查询作为上下文字幕。实验表明,这两种来源都对性能有积极贡献。视频文本在需要长程上下文的全局任务中提供更强的增益,而音频转录对局部任务更有益,可能是因为它们与短期动作或事件的对齐。
其次,研究者提出了一种以视频文本为中心的思维链(CoT)推理策略,将复杂的推理过程分解为结构化的子步骤。具体来说,视频被均匀分割成多个片段。对于每个片段,模型被提示执行三个步骤:(1)发现所有可见文本,(2)生成对片段的详细描述,以及(3)推断是否有视觉文本与描述在语义上相关,并相应地回答推理问题。这种基于CoT的提示策略在所有推理任务上都带来了一致的改进,突显了测试时推理增强对视频语言模型的潜力。
这些发现为未来视频文本理解模型的发展提供了有价值的指导。它们表明,提高性能不仅需要增加模型规模,还需要改进输入处理(如更高分辨率)、增强OCR能力、整合辅助模态信息,以及采用更结构化的推理策略。
六、VidText的意义与未来展望
VidText基准的提出填补了现有视频理解基准中的重要空白。与现有基准相比,VidText具有更全面的评估能力,包括更广泛的场景覆盖、多语言支持、多粒度任务和成对的感知-推理框架。这使得研究者能够更全面地评估模型在视频文本理解方面的能力,并识别需要改进的关键领域。
实验结果揭示了当前大型多模态模型在视频文本理解方面的局限性,为未来研究提供了明确方向。尽管最先进的模型已经能够处理基本的视频文本任务,但它们在需要精确文本定位、跟踪和跨模态推理的复杂任务上仍然表现不佳。
未来研究可能需要关注几个关键方向:首先,开发能更好地处理高分辨率输入的架构,以捕捉视频中的细粒度文本细节;其次,增强模型的OCR能力,特别是在多语言和动态场景中;第三,设计更有效的多模态融合机制,能够整合视觉、文本和音频信息;最后,探索更结构化的推理框架,使模型能够逐步分解复杂的视频文本理解任务。
VidText不仅为现有视频理解基准提供了有价值的补充,还为OCR和多模态推理社区提供了新的见解。它展示了视频文本理解是连接视觉感知和语义推理的重要桥梁,对于构建能在动态环境中进行多模态推理的人工智能系统至关重要。
随着视频内容在互联网和社交媒体上的不断增长,理解视频中的文本及其与视觉上下文的交互变得越来越重要。VidText基准为评估和改进这一关键能力提供了一个全面的框架,推动了视频理解技术的发展。
总之,VidText代表了视频文本理解研究的一个重要里程碑,它不仅揭示了当前模型的局限性,还为未来的进步铺平了道路。通过提供一个标准化的评估框架,VidText将促进更强大、更全面的视频理解系统的发展,最终使人工智能能够更好地理解和解释我们日常生活中丰富的多模态内容。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。