微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 阿里达摩院推出VideoLLaMA3:让AI同时"看懂"图像和视频的革命性突破

阿里达摩院推出VideoLLaMA3:让AI同时"看懂"图像和视频的革命性突破

2025-09-18 11:11
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-18 11:11 科技行者

这项由阿里巴巴达摩院和湖畔实验室研究团队共同完成的重要研究发表于2025年6月,论文题为《VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding》。研究团队包括张博强、李可汗、程泽森、胡志强、袁宇乾等多位研究人员,他们在多模态人工智能领域取得了重要进展。有兴趣深入了解的读者可以通过项目仓库https://github.com/DAMO-NLP-SG/VideoLLaMA3访问完整的技术细节和代码实现。

想象一下,如果有一个助手不仅能像人类一样理解静态的图片,还能准确把握视频中不断变化的情节内容,那会是什么样的体验?这就是达摩院研究团队致力解决的核心问题。在当今这个视觉信息爆炸的时代,我们每天都要处理大量的图片和视频内容,从社交媒体的短视频到工作中的文档图表,从在线教育的课程视频到医疗诊断的影像资料。然而,现有的AI系统往往在处理这些视觉内容时存在明显的短板——要么擅长分析静态图片,要么专攻视频理解,很难做到两者兼顾。

这种局限性就像是培养了两个专门的翻译官,一个只会翻译书面文件,另一个只会处理对话录音,但在实际工作中,我们经常需要同时处理包含文字、图片和视频的复合材料。为了解决这个问题,研究团队开发了VideoLLaMA3,这是一个能够同时理解图像和视频的先进AI模型。

VideoLLaMA3的创新之处在于采用了"以视觉为中心"的设计理念。这个理念包含两个层面的含义:训练方法以视觉为中心,以及框架设计以视觉为中心。研究团队发现了一个关键洞察——高质量的图像-文本数据对于图像和视频理解都至关重要。这就好比学习语言时,掌握好基础的词汇和语法对于理解简单句子和复杂文章都同样重要。

传统的做法是分别收集大量的视频-文本数据集来训练视频理解模型,但这种方法面临着数据质量不高、标注困难等挑战。研究团队另辟蹊径,将重点放在构建大规模、高质量的图像-文本数据集上。这种策略的巧妙之处在于,视频本质上就是由一系列时间上相关的图像组成的,因此强化图像理解能力自然能够提升视频理解性能。这就像是通过练好书法基本功,不仅能写出漂亮的单个字,也能创作出优美的书法作品一样。

**一、创新训练流程:从基础到高级的四阶段学习法**

VideoLLaMA3的训练过程就像是培养一个多才多艺学生的完整教育历程,分为四个递进的学习阶段,每个阶段都有明确的学习目标和训练重点。

第一阶段是"视觉编码器适应"阶段,这个阶段使用了1557万条数据进行训练。在这个阶段,模型学会了处理不同分辨率的图像输入,就像是让一个学生学会阅读不同大小、不同字体的文字材料一样。训练数据主要包括场景图像、文档图像和场景文本图像。场景图像帮助模型理解日常生活中的各种场景,文档图像让模型学会处理正式的文字材料,而场景文本图像则训练模型识别现实环境中的文字信息,比如路标、商店招牌等。

第二阶段是"视觉-语言对齐"阶段,使用了2197万条高质量数据。这个阶段的目标是建立视觉信息和语言描述之间的深度连接。研究团队精心准备了多种类型的数据:详细描述的场景图像让模型学会用丰富的语言描述所看到的内容;文档和图表数据包含了大量的解释性文本,帮助模型理解复杂的信息呈现方式;细粒度的图像-文本数据带有边界框标注,提升了模型的空间推理能力。为了保持模型的语言能力,训练数据中还包含了少量纯文本数据。在这个阶段,模型的所有参数都参与训练,确保视觉理解和语言处理能力能够充分融合。

第三阶段是"多任务微调"阶段,使用了1905万条数据。这个阶段将模型训练成能够处理各种下游任务的多面手。训练数据涵盖了图像-文本问答、文档理解、图表分析、OCR识别、目标定位、多图像理解等多个领域。有趣的是,研究团队发现在这个阶段引入通用视频字幕数据不仅为视频理解打下了基础,还意外地提升了图像理解性能。这就像是学习绘画时,练习素描不仅提高了素描技巧,也改善了色彩绘画的能力。

第四阶段是"视频中心微调"阶段,使用了571万条数据进行最终的专门训练。这个阶段专注于增强模型的视频理解和视频问答能力。训练数据包括通用视频、流媒体视频、带有时间定位标注的视频,以及图像和文本数据以防止能力退化。这个阶段还引入了流媒体视频理解功能,让模型能够处理实时视频内容并进行多轮对话。

**二、核心技术创新:灵活视觉处理的两大法宝**

VideoLLaMA3在技术框架上实现了两个重要创新,这两个创新就像是为模型装备了两件强大的工具,让它能够更灵活、更高效地处理各种视觉输入。

第一个创新是"任意分辨率视觉标记化"技术。传统的视觉模型就像是只会看固定尺寸照片的老式相机,无论输入什么样的图像,都要先压缩或拉伸到固定的尺寸,这个过程中难免会丢失一些重要信息。VideoLLaMA3采用的新方法就像是配备了可变焦镜头的现代相机,能够根据输入图像的实际尺寸动态调整处理方式。

具体来说,研究团队将传统视觉编码器中的固定位置编码替换为旋转位置编码(RoPE),这使得模型能够处理任意分辨率的图像输入。经过专门的微调训练,模型获得了处理高分辨率图像和异常长宽比图像的能力,同时最大限度地减少了信息损失。这种设计特别适合处理现实世界中各种尺寸和比例的图像,从手机拍摄的竖屏照片到宽幅的全景图,都能得到妥善处理。

第二个创新是"差分帧剪枝器"技术,专门用于视频处理的优化。视频理解的一个主要挑战是计算量巨大——一个几分钟的视频可能包含数千帧图像,如果对每一帧都进行完整处理,计算成本会非常高。差分帧剪枝器的工作原理就像是一个智能的视频编辑助手,它会比较相邻帧之间的差异,如果两帧内容几乎相同,就会选择性地跳过一些冗余信息。

这个技术首先在像素空间计算连续帧之间的1-范数距离,然后移除距离小于预设阈值的冗余图像块。研究团队将默认阈值设置为0.1,这个设置能够在保持视频内容完整性的同时显著减少计算量。这种方法的优势是双重的:一方面让视频的视觉表示更加紧凑和精确,使模型能够更好地关注视频中的动态变化部分;另一方面大幅降低了训练和推理时的计算需求,提高了实际应用的可行性。

**三、高质量数据构建:VL3-Syn7M数据集的精心打造**

为了支撑VideoLLaMA3的训练,研究团队构建了一个名为VL3-Syn7M的高质量图像重新标注数据集。这个数据集的构建过程就像是精心策划一场大型展览,需要从海量的原始材料中精选出最优质的展品,然后为每件展品撰写详细而准确的说明文字。

整个数据构建流程包含五个精心设计的步骤。首先是长宽比过滤,研究团队从COYO-700M数据集中筛选出长宽比合理的图像,剔除那些过于极端的长条形或宽条形图像。这一步骤确保了数据集包含的图像具有典型的长宽比例,避免在特征提取时产生偏差。

接下来是美学评分过滤,使用专门的美学评分模型对图像进行质量评估,排除视觉质量较差或构图不佳的图像。这就像是为画展挑选作品时,首先要确保每件作品都具有基本的艺术价值和视觉吸引力。

第三步是文本-图像相似度计算与粗糙标注。研究团队使用BLIP2模型为图像生成初始描述,然后利用CLIP模型计算文本和图像之间的相似度。那些相似度较低的图像被排除,因为它们往往包含难以简洁描述的复杂内容。这个过程确保了剩余图像都是可以被准确描述和理解的。

第四步是视觉特征聚类,使用CLIP视觉模型提取图像特征,并应用K近邻算法进行聚类分析。这种方法能够识别视觉特征空间中的聚类中心,然后从每个聚类中选择固定数量的图像。这种做法确保了数据集的多样性,同时维持了语义类别的平衡分布,提高了模型的泛化能力。

最后一步是图像重新标注,这是整个过程中最关键的环节。研究团队使用InternVL2-8B模型生成简短标注,使用InternVL2-26B模型生成详细标注。这两种类型的标注在训练的不同阶段发挥不同作用:简短标注(VL3-Syn7M-short)用于早期训练阶段,帮助模型学习基本的视觉-语言对应关系;详细标注(VL3-Syn7M-detailed)用于后期训练,提供丰富的描述信息以提升模型的表达能力。

通过这个严格的清洗和重新标注过程,研究团队最终创建了包含700万图像-标注对的VL3-Syn7M数据集。这个数据集为VideoLLaMA3的训练提供了高质量、多样化的图像和标注,成为模型取得优异性能的重要基础。

**四、全面性能评估:在图像和视频理解领域的卓越表现**

VideoLLaMA3在各项评测中展现出了令人印象深刻的性能表现,就像是一位在多个学科都表现优异的全才学生,不仅在擅长的领域表现出色,在具有挑战性的任务中也能脱颖而出。

在图像理解方面,VideoLLaMA3接受了多个维度的严格测试。在文档、图表和场景文字理解任务中,模型展现出了强大的文字识别和理解能力。以2B参数版本为例,在ChartQA图表问答任务中获得了79.8分的成绩,显著超越了同等规模的其他模型;在DocVQA文档问答测试中达到了91.9分,在InfoVQA信息图表问答中取得69.4分,在OCRBench光学字符识别基准测试中获得779分。这些成绩表明VideoLLaMA3不仅能够准确识别图像中的文字内容,还能深度理解文字所承载的语义信息。

在数学推理能力测试中,VideoLLaMA3更是展现出了突破性的性能提升。在MathVista数学视觉推理测试中,2B版本获得了59.2分,比之前的最佳方法提高了7.9个百分点;7B版本更是达到了67.1分,比同类模型高出6.5个百分点。在MathVision测试中,7B版本取得了26.2分的成绩,大幅超越了其他方法。这种在数学推理方面的显著提升说明模型不仅具备了基础的视觉识别能力,还发展出了复杂的逻辑推理能力。

在多图像理解任务中,VideoLLaMA3同样表现优秀。在MMMU-Pro测试中,2B版本获得28.6分,7B版本达到33.6分;在MMMU评估中,2B版本取得45.3分,显示出了处理多个图像间复杂关系的能力。在通用知识问答方面,模型在RealWorldQA真实世界问答中表现突出,2B版本获得67.3分,7B版本达到72.7分,这表明模型能够将视觉信息与现实世界的知识有效结合。

在视频理解领域,VideoLLaMA3的表现同样令人瞩目。在通用视频理解任务中,2B版本在VideoMME无字幕测试中获得59.6分,在有字幕测试中达到63.4分;在长视频理解的MLVU测试中取得65.4分,在时间推理的TempCompass测试中获得63.4分。7B版本的表现更加出色,在多项视频理解基准测试中都取得了最佳成绩。

特别值得注意的是,VideoLLaMA3在长视频理解方面展现出了独特的优势。模型能够处理长达数小时的视频内容,准确理解视频中的事件发展和人物关系变化。在流媒体视频理解任务中,模型展现出了实时处理能力,能够在视频播放过程中进行多轮对话和问答。在时间定位任务中,模型能够准确识别特定事件在视频中发生的具体时间段,这对于视频检索和分析应用具有重要价值。

**五、技术细节与实现:精密工程的完美体现**

VideoLLaMA3的技术实现体现了研究团队在系统工程方面的深厚功底,每个技术细节都经过了精心设计和反复优化。模型架构由四个核心组件组成:视觉编码器负责提取视觉特征,视频压缩器用于减少视频标记数量,投影器负责特征对齐,大语言模型负责最终的理解和生成。

视觉编码器采用预训练的SigLIP模型进行初始化,这个选择基于研究团队进行的详细比较实验。他们对比了CLIP、DFN和SigLIP三种不同的视觉编码器,发现SigLIP在处理包含文字的细粒度理解任务中表现最佳,特别适合VideoLLaMA3的应用需求。为了支持动态分辨率处理,研究团队对SigLIP进行了适应性改造,使其能够处理各种尺寸和长宽比的输入图像。

在训练策略方面,不同阶段采用了不同的学习率设置和优化策略。在视觉编码器适应阶段,只有视觉编码器和投影器参与训练,其学习率分别设置为1.0×10^-5和1.0×10^-3。在后续阶段,大语言模型、投影器和视觉编码器的学习率分别设置为1.0×10^-5、1.0×10^-5和2.0×10^-6,这种精细的学习率控制确保了各组件能够协调优化。

为了控制计算复杂度,研究团队实施了多项优化策略。差分帧剪枝器在多任务微调和视频中心微调阶段被激活,丢弃阈值设置为0.1。为了进一步限制上下文长度,视频的视觉标记在经过视觉编码器处理后还要经过2倍的双线性插值空间降采样。这些技术细节的精心设计确保了模型在保持高性能的同时具有实用性。

在数据处理方面,视频加载采用FFmpeg以每秒1帧的速度进行采样,如果总帧数超过180帧,则进行均匀二次采样。这种处理方式能够适应大多数时长在3分钟以内的视频内容。最大标记长度设置为16384,其中视觉标记的最大长度为10240,这种配置在保证处理能力的同时控制了内存使用。

**六、实际应用案例:从理论到实践的完美转化**

为了展示VideoLLaMA3的实际应用效果,研究团队提供了多个生动的使用案例,这些案例就像是模型能力的最佳展示窗口,让人们直观地看到先进技术如何解决现实问题。

在图表图像理解方面,VideoLLaMA3展现出了专业分析师般的洞察力。当面对一张股票走势图时,模型不仅能够准确识别价格波动模式,还能提供投资建议。它会指出股票表现出高波动性和潜在风险,建议投资者保持谨慎,进行充分研究并考虑投资组合多样化以降低风险。面对多个模型性能比较图表时,模型能够准确识别出表现最强的模型和最优化的模型,展现出对复杂数据可视化内容的深度理解能力。

在文档和OCR处理方面,模型展现出了精准的文字识别和内容理解能力。当处理一张设计海报时,模型不仅能够准确识别所有文字内容,还能从设计角度提出改进建议,指出视觉层次不够清晰、信息不够完整、色彩搭配可以更加鲜明等问题,并提供具体的优化方案。在处理学术文档时,模型能够准确解析复杂的技术文本,从左到右、从上到下按照正确的阅读顺序提取所有文字内容。

在多图像理解任务中,VideoLLaMA3展现出了卓越的跨图像分析能力。当比较两种不同鸟类的图像时,模型能够准确描述它们的外观差异。在处理长篇文档查找任务时,模型不是简单地进行文字识别,而是真正理解内容并定位到相关信息,这种能力远远超越了基础的OCR功能。在理解连环画故事时,模型能够根据前面的情节发展,合理推断出故事的结局,展现出了叙事理解和逻辑推理能力。

在视频理解方面,VideoLLaMA3的表现更加出色。它能够识别视频中不寻常的场景,比如熊在餐桌前享用寿司这样的超现实情境。在描述复杂场景时,模型能够准确识别空间布局和物体位置关系,详细描述后院、露台、室内空间的布局和装饰情况。在处理动态内容时,模型能够准确跟踪变化过程,比如识别键盘按键消失的顺序,或者描述气泡独角兽的动作。

在长视频理解和时间定位任务中,模型展现出了专业级的分析能力。它能够处理长达数分钟的旅游宣传片,准确描述其中展现的各种俄罗斯风光和文化元素。在时间定位任务中,模型能够精确识别特定动作发生的时间段,比如准确识别出男子倒可乐的动作发生在23.1秒到36.8秒之间。在视频-图像联合理解任务中,模型能够准确判断视频内容和静态图像之间是否存在关联性。

**七、技术影响与未来展望:开启多模态AI新时代**

VideoLLaMA3的发布标志着多模态人工智能领域的一个重要里程碑,它不仅在技术性能上实现了显著突破,更重要的是为整个行业的发展指明了新的方向。这项研究的影响就像是在静水中投下的石子,产生的涟漪效应将在多个领域中逐渐显现。

在教育领域,VideoLLaMA3能够成为智能教学助手,同时处理教材中的图片、图表和教学视频,为学生提供更加丰富和准确的解释。它能够分析复杂的科学图表,解释历史文档,理解数学公式的视觉表示,甚至分析教学视频中的实验过程,为个性化学习提供强有力的支持。

在医疗健康领域,这种同时理解静态医学影像和动态检查视频的能力具有巨大潜力。模型能够分析X光片、CT扫描图像,同时理解手术视频或康复训练视频中的动作序列,为医生提供更加全面的诊断辅助信息。

在内容创作和媒体行业,VideoLLaMA3能够自动生成视频和图像的详细描述,协助内容审核,甚至参与创意构思过程。它能够理解广告图片的设计意图,分析宣传视频的叙事结构,为创作者提供专业的反馈和建议。

在智能客服和用户支持领域,模型能够同时理解用户提供的截图、产品图片和演示视频,提供更加精准和有用的帮助。无论用户遇到的是静态界面问题还是动态操作困难,模型都能给出针对性的解决方案。

研究团队在论文中也坦诚地讨论了当前技术的局限性和未来的改进方向。他们指出,虽然利用大规模图像-文本数据集取得了显著效果,但视频-文本数据的质量和多样性仍然是一个制约因素。视频数据往往存在标注质量较低、多样性有限的问题,这可能影响模型在不同视频领域和类型中的泛化能力。

另一个重要挑战是实时处理能力。当前的模型架构可能还不够优化,无法满足自动驾驶和实时视频分析等需要即时响应的应用需求。处理高分辨率和长时间视频输入时的计算开销仍然会影响实时性能表现。

在多模态扩展方面,虽然VideoLLaMA3在图像和视频理解方面表现出色,但它向其他模态(如音频或语音数据)的扩展能力还有待探索。整合更多数据类型需要在架构和训练方法上进行重大创新,这既是挑战也是机遇。

面向未来,研究团队提出了几个重要的发展方向。首先是投资创建和策划更高质量、更多样化的视频-文本数据集,这些数据集需要包含更细致的时间和上下文信息标注,以显著提升模型的时间理解能力和跨领域泛化性能。

其次是优化模型架构以实现实时推理,通过减少延迟和提升处理速度,使模型能够满足需要即时响应的应用需求。这包括模型加速、并行处理和高效标记化策略等技术创新。

第三是扩展到更多模态,将VideoLLaMA3扩展到音频、语音和传感器数据等领域,创建对多模态输入有更全面理解的系统。这种统一的架构研究对于实现真正的多模态智能至关重要。

最后是实施更高级的训练后技术,包括大规模强化学习技术的应用。通过人类反馈强化学习和其他基于强化学习的方法,可以进一步优化VideoLLaMA3的性能,使其输出更好地符合人类偏好和任务特定要求。将这些技术扩展到多模态数据的复杂性将进一步提升模型的整体多模态智能水平。

说到底,VideoLLaMA3代表的不仅仅是一个技术产品,更是人工智能向着更加智能、更加实用方向发展的重要步伐。它证明了通过精心设计的训练策略和创新的技术架构,我们能够创造出真正理解复杂视觉世界的AI系统。随着技术的不断完善和应用场景的不断扩展,这类多模态AI模型将成为我们日常生活和工作中不可或缺的智能助手,帮助我们更好地理解和处理这个充满视觉信息的世界。

Q&A

Q1:VideoLLaMA3相比之前的模型有什么特别之处?

A:VideoLLaMA3最大的特点是采用了"以视觉为中心"的设计理念,不像传统方法那样分别训练图像和视频理解能力,而是通过高质量的图像-文本数据来同时提升图像和视频理解性能。它还引入了任意分辨率视觉标记化和差分帧剪枝器两项关键技术,能够灵活处理各种尺寸的图像和高效压缩视频内容。

Q2:VideoLLaMA3的训练分为哪几个阶段,每个阶段学什么?

A:训练分为四个递进阶段:首先是视觉编码器适应阶段,学会处理不同分辨率的图像;然后是视觉-语言对齐阶段,建立视觉和语言的深度连接;接着是多任务微调阶段,训练处理各种下游任务;最后是视频中心微调阶段,专门强化视频理解能力。每个阶段都有专门的数据配比和训练策略。

Q3:VideoLLaMA3在实际应用中能做什么?

A:VideoLLaMA3能够同时理解图像和视频内容,在多个领域都有广泛应用。比如在教育中可以分析教材图片和教学视频,在医疗中可以处理医学影像和手术视频,在内容创作中可以理解广告图片和宣传视频,在客服中可以同时处理用户提供的截图和演示视频,提供更精准的帮助和解答。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-