微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 从看图说话到看视频聊天:Salesforce带来史上最强多模态理解新突破

从看图说话到看视频聊天:Salesforce带来史上最强多模态理解新突破

2025-07-11 09:52
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-11 09:52 科技行者

这项由Salesforce研究院联合加州大学圣芭芭拉分校、滑铁卢大学以及清华大学的研究团队完成的重要研究发表于2025年7月,研究论文可通过arXiv:2507.04590获取。研究团队提出了VLM2Vec-V2这一突破性的多模态嵌入模型,并构建了全新的MMEB-V2评估基准。这项研究首次实现了对文本、图片、视频和可视化文档的统一理解和处理,为人工智能在多媒体内容理解方面带来了重大进展。

人工智能理解多媒体内容就像人类学习语言一样复杂。当婴儿开始认识世界时,他们不仅要学会理解文字,还要学会看懂图片,理解视频中的动作,甚至读懂各种文档。然而现有的人工智能模型大多只擅长其中一两种能力,就好比有些人擅长阅读文字,有些人善于看图,但很少有人能同时精通所有这些技能。

研究团队发现了一个关键问题:目前的多模态人工智能模型主要专注于理解静态的自然图片,比如风景照片或者日常生活场景,但对于视频和各种格式的文档却力不从心。这就像一个只会看静态图片的人突然要去看电影或者阅读复杂的图表文档一样困难。在现实生活中,我们需要处理的视觉信息远比静态图片丰富得多,包括动态的视频内容、结构化的文档、演示文稿等等。

为了解决这个问题,研究团队开发了VLM2Vec-V2模型。这个模型的工作原理可以用学习多种语言的过程来类比。就像一个语言天才能够同时掌握中文、英文、法文和日文,并且能够在这些语言之间自由切换和翻译一样,VLM2Vec-V2能够同时理解文本、图片、视频和文档这四种不同的"语言",并且能够在它们之间建立联系。

同时,研究团队还创建了MMEB-V2这个全新的评估体系。如果说现有的评估标准就像只考察学生阅读理解能力的单一考试,那么MMEB-V2就像是一个全面的综合能力测试,不仅要考察阅读理解,还要测试看图说话、视频分析、文档理解等多方面的能力。这个评估体系包含了78个不同的任务,覆盖了9个主要的能力类别,确保能够全面检验人工智能模型的多媒体理解能力。

一、突破传统局限:从单一模态到全方位理解

传统的多模态人工智能模型就像专门学科的专家,每个人只精通自己的领域。比如有专门的图片识别专家,有专门的文本理解专家,还有专门的视频分析专家,但是让他们合作处理复杂的多媒体任务时,就会出现各种协调问题。

现有的评估数据集也存在类似的问题。它们主要关注的是像MSCOCO、Flickr这样的自然图片数据集,这些数据集就像是一个只收录风景照和生活照的相册,虽然涵盖了很多美丽的图片,但是缺少了现实世界中更丰富的视觉内容类型。现实生活中,我们每天都要处理各种类型的视觉信息:观看YouTube视频、阅读PDF文档、浏览网页、查看演示文稿等等。

VLM2Vec-V2的出现就像是培养了一个全能型的人才。这个模型基于Qwen2-VL架构,选择这个架构的原因很有趣,就像选择一个有良好基础的学生来培养多项技能一样。Qwen2-VL具有几个关键特性:它能够处理不同分辨率的输入内容,就像一个视力很好的人能够同时看清远处的大屏幕和近处的小字;它还具有多模态旋转位置编码技术,这就像给模型装上了一个精准的定位系统,能够理解内容在空间和时间上的关系;最重要的是,它采用了统一的架构来处理2D图片和3D视频,就像用同一套思维框架来理解静态画面和动态影像。

二、创新的统一表示学习:让不同媒体说同一种语言

VLM2Vec-V2的核心创新在于它的统一表示学习方法,这个过程就像是教会不同国家的人说同一种世界语。在现实世界中,文本、图片、视频和文档虽然形式不同,但它们都承载着信息,VLM2Vec-V2要做的就是找到一种通用的"翻译方法",让计算机能够用同一套"语言"来理解这些不同形式的内容。

这个统一表示的过程采用了对比学习的方法。可以把这个过程想象成学习配对游戏:给定一段文字描述和一个视频片段,模型需要判断它们是否在讲同一件事情。通过大量这样的配对练习,模型逐渐学会了如何在不同媒体之间建立联系。比如,当模型看到"一只猫在追球"这段文字时,它需要能够从众多视频中准确找出真正展示猫咪追球的那个视频。

为了实现这个目标,研究团队设计了一套巧妙的数据格式化方法。每个训练样本都被重新包装成指令-查询的形式,就像给每个学习任务都配上了详细的说明书。比如,对于视频检索任务,指令可能是"找到包含以下视觉内容的视频",然后跟上具体的查询内容。这种设计让模型能够理解不同任务的具体要求,从而做出更准确的判断。

模型的训练过程采用了InfoNCE损失函数,这个技术名词听起来很复杂,但实际原理很简单。就像是在玩一个"找不同"的游戏:给模型展示一个正确的配对(比如一段文字和匹配的图片),同时给出很多错误的配对作为干扰项,模型需要学会从众多选项中挑出正确的那一个。通过反复练习这样的游戏,模型的判断能力逐渐提高。

三、数据采样的艺术:平衡不同来源的训练营养

训练VLM2Vec-V2就像是为一个成长中的孩子制定营养均衡的饮食计划。不同类型的数据就像不同的营养成分,需要合理搭配才能确保模型健康成长。研究团队设计了一套精心的数据采样策略来解决这个问题。

首先是批量混合策略,这就像是在每顿饭中都要包含蛋白质、碳水化合物和维生素一样。研究团队建立了一个采样权重表,规定从不同数据集中抽取样本的概率,确保模型在训练过程中能够接触到各种类型的任务,不会因为某一类数据过多而产生偏好。

更有趣的是交错子批次策略。传统的训练方法就像是让学生连续几个小时只学数学,然后连续几个小时只学语文,这样容易造成学习疲劳和知识偏向。而交错子批次策略则像是让学生在一堂课中轮流学习不同科目:先学一点数学,再学一点语文,然后学一点英语,这样既保持了学习的新鲜感,又确保了各科目的均衡发展。

具体来说,研究团队将一个大的训练批次分成若干个小的子批次,每个子批次内的样本来自同一个数据源,这样增加了对比学习的难度(因为相似的样本更难区分),但多个子批次交错在一起又保持了训练的多样性。这种策略在实验中被证明能够显著提升模型的性能,特别是在视觉文档和视频任务上。

四、MMEB-V2:史上最全面的多模态理解考试

如果说训练模型是教育过程,那么评估就是考试。MMEB-V2可以说是迄今为止最全面的多模态人工智能"高考",它不仅要考察模型的基础能力,还要测试其在各种复杂场景下的应用能力。

这个评估体系的设计理念就像是设计一个全能运动员的选拔赛。不仅要测试跑步、跳跃这些基础运动能力,还要考察游泳、球类运动、体操等各种专项技能。MMEB-V2包含了78个不同的任务,分为9个主要类别,每个类别都对应着现实世界中的重要应用场景。

在视频理解方面,MMEB-V2设计了五个不同的测试环节。视频检索任务就像是在一个巨大的视频库中找到特定内容,模型需要根据文字描述准确定位相关视频。时刻检索则更加精细,要求模型不仅找到正确的视频,还要定位到视频中的特定时间段,就像在一部两小时的电影中找到某个特定的5分钟片段。视频分类任务考察的是模型对视频内容的理解能力,需要判断视频展示的是什么活动或场景。视频问答则测试模型的推理能力,要求它根据视频内容回答相关问题。

在视觉文档理解方面,MMEB-V2涵盖了现代工作和学习中最常见的文档类型。这包括学术论文、技术报告、演示文稿、图表、表格等各种形式的文档。模型需要能够理解这些文档的结构和内容,并根据用户的查询找到相关信息。这就像是测试一个人是否能够快速阅读和理解各种工作文件的能力。

评估过程中使用的指标也很有针对性。对于大多数任务,研究团队使用Hit@1作为主要评估指标,这意味着模型的第一个答案必须是正确的,就像考试中的选择题一样,没有第二次机会。对于文档检索任务,则使用NDCG@5指标,这个指标不仅关注准确性,还关注结果的排序质量,就像搜索引擎需要把最相关的结果排在前面一样。

五、实验结果:全面领先的性能表现

当VLM2Vec-V2接受MMEB-V2的全面测试时,其表现可以用"全面领先"来形容。在78个不同的测试任务中,VLM2Vec-V2获得了58.0的总体平均分,这个成绩明显超过了所有对比的基线模型。

更令人印象深刻的是,VLM2Vec-V2虽然只有20亿个参数(相对较小),但在图像任务上的表现却能够匹敌拥有70亿参数的大型模型。这就像是一个轻量级拳击手在重量级比赛中获得了优秀成绩,充分说明了模型设计的优越性。

在具体的任务类别上,VLM2Vec-V2在图像相关任务中表现出色,平均得分64.9,在图像分类、视觉问答、图像检索和视觉定位等各个子任务上都取得了竞争性的结果。特别值得注意的是,在一些具有挑战性的数据集上,比如ImageNet-A(对抗样本)和ImageNet-R(真实世界变体),VLM2Vec-V2都表现出了良好的鲁棒性。

在视频理解任务上,虽然VLM2Vec-V2的训练数据中视频内容相对较少,但仍然取得了34.6的平均分,这在视频分类、视频问答、视频检索和时刻检索等各个子任务上都体现了模型的通用性。这就像一个主要学习静态图片的学生在动态视频理解考试中也能取得不错的成绩,说明了模型良好的知识迁移能力。

在视觉文档理解方面,VLM2Vec-V2取得了65.4的平均分,虽然仍然落后于专门为文档检索设计的ColPali模型,但相比其他通用模型已经有了显著提升。这个结果说明统一的多模态训练确实能够提升模型在各个领域的表现,而不需要为每个特定任务单独设计模型。

六、深入分析:模态组合的科学艺术

为了更深入地理解不同类型数据对模型性能的影响,研究团队进行了系统的消融实验。这些实验就像是营养学研究中分析不同食物成分对健康影响的实验一样,通过控制变量来找出最优的"配方"。

研究团队分别训练了只使用单一模态数据的模型、使用两种模态组合的模型,以及使用全部三种模态的模型。结果显示,在单一模态训练中,使用图像数据训练的模型获得了最高的平均性能,这可能是因为图像数据的质量和数量都比较优秀。

更有趣的发现是,当组合不同模态的数据时,性能并不是简单的叠加关系。图像加视频的组合在图像任务上略微优于图像加文档的组合,但在文档任务上则相反。而当三种模态全部结合时,模型在视觉文档任务上获得了最佳性能,总体平均分也达到了最高。

这个结果告诉我们,多模态学习中存在着微妙的相互促进关系。就像学习音乐的人往往在数学方面也表现出色一样,训练模型理解不同类型的视觉内容能够相互促进,提升整体的理解能力。

研究团队还测试了不同的子批次大小对训练效果的影响。结果显示,适中的子批次大小(64)在图像任务上表现最佳,而较大的子批次大小对视频和文档任务更有利。这个发现为未来的多模态模型训练提供了重要的参考依据。

在模型设置方面,研究团队发现LoRA rank为16时模型性能最佳,过大或过小的rank都会影响性能。同时,随着训练步数的增加,所有三个模态的性能都在持续提升,特别是视觉文档和视频任务,这暗示着更长时间的训练可能会带来进一步的性能提升。

七、技术创新的深层机制

VLM2Vec-V2的成功不是偶然的,而是多项技术创新协同作用的结果。其中最核心的创新是统一的多模态数据格式化方法。这种方法就像是发明了一种通用的"翻译器",能够将不同形式的输入转换成模型能够理解的统一格式。

具体来说,研究团队为每种输入类型设计了特殊的标记符号。图像输入使用<|image_pad|>标记,视频输入使用<|video_pad|>标记,这些标记就像是告诉模型"接下来的内容是什么类型"的路标。同时,每个训练样本都被包装成指令-查询的形式,指令部分告诉模型要完成什么任务,查询部分提供具体的输入内容。

另一个重要创新是基于温度缩放的余弦相似度计算。这个技术听起来复杂,但原理很直观。就像调节空调温度一样,通过调节"温度"参数,模型可以控制其判断的"敏感度"。温度较低时,模型会做出更加confident的判断;温度较高时,模型的判断会更加平滑和保守。

在处理长视频和多页文档时,VLM2Vec-V2采用了统一的采样策略。对于视频,模型会均匀采样8帧来代表整个视频的内容;对于多页文档,模型会根据需要处理相关的页面。这种处理方式既保证了信息的完整性,又控制了计算复杂度。

八、现实应用的广阔前景

VLM2Vec-V2的技术突破为现实世界的应用开启了许多新的可能性。在教育领域,这个模型可以帮助开发更智能的学习辅助系统。学生可以上传任何形式的学习资料——无论是课本PDF、教学视频还是课堂照片,系统都能理解内容并回答相关问题。

在企业应用方面,VLM2Vec-V2可以极大地提升信息检索和知识管理的效率。员工可以通过自然语言描述来搜索公司内部的各种文档、演示文稿和培训视频,而不需要记住具体的文件名或关键词。这就像是拥有了一个能够理解各种材料的智能助手。

在内容创作和媒体行业,这项技术可以帮助自动化许多繁琐的工作。比如,自动为视频生成字幕和摘要,自动分类和标记媒体资产,或者根据文本描述找到合适的视觉素材。

在医疗健康领域,VLM2Vec-V2可以帮助处理多模态的医疗数据,包括医学影像、病历文档和患者记录视频,为医生提供更全面的诊断支持。

在法律和合规领域,模型可以帮助律师快速检索和分析大量的法律文档、证据材料和视频记录,提高工作效率和准确性。

九、面临的挑战与未来发展

尽管VLM2Vec-V2取得了显著的成果,但研究团队也坦率地指出了当前面临的挑战和限制。首先是在视频理解方面,由于训练数据相对有限,模型在一些复杂的视频推理任务上仍有提升空间。这就像是一个主要通过阅读学习的学生在观察和分析动态事物时还需要更多练习。

在视觉文档理解方面,虽然VLM2Vec-V2相比之前的通用模型有了很大提升,但仍然落后于专门为文档检索设计的模型。这说明在特定领域的专业化和通用化之间还需要找到更好的平衡点。

计算资源的需求也是一个现实的挑战。处理高分辨率的图像、长时间的视频和多页的文档需要大量的计算资源,这可能限制了模型在一些资源有限环境中的应用。

研究团队指出,未来的发展方向包括几个重要方面。首先是扩大训练数据的规模和多样性,特别是视频数据。其次是优化模型架构,在保持通用性的同时提升在特定任务上的性能。还有就是探索更高效的训练和推理方法,降低计算成本。

另一个重要的发展方向是增强模型的推理能力。目前的模型主要专注于内容匹配和检索,未来需要在理解基础上加强逻辑推理和常识推理能力,使其能够处理更复杂的多模态推理任务。

十、对人工智能发展的深远意义

VLM2Vec-V2的成功不仅仅是一个技术进步,更代表了人工智能发展的一个重要趋势:从专门化走向通用化。传统的人工智能系统往往需要为每个特定任务单独设计和训练模型,这就像是培养很多专门技能的专家。而VLM2Vec-V2展示了训练通用型"全才"的可能性。

这种通用化的趋势对整个人工智能领域具有深远的影响。首先,它大大降低了开发和部署人工智能系统的成本。过去需要分别开发图像理解、视频分析、文档处理等多个系统,现在一个统一的模型就能处理所有这些任务。

其次,通用化的模型具有更好的适应性和迁移能力。当面对新的任务或领域时,不需要从零开始训练,而是可以基于已有的通用能力快速适应。这就像是一个受过全面教育的人更容易学习新的技能。

从技术发展的角度来看,VLM2Vec-V2也为构建更高级的人工智能系统提供了重要的基础。多模态理解能力是通向人工通用智能的重要一步,因为真正的智能需要能够整合和理解来自不同感官的信息。

在评估标准方面,MMEB-V2的建立也为整个领域提供了重要的参考。一个全面、标准化的评估体系对于推动技术进步和比较不同方法的性能至关重要。这就像是为运动员建立了统一的比赛规则和评分标准。

说到底,VLM2Vec-V2的意义远超出了技术本身。它展示了人工智能正在向着更加智能、更加实用的方向发展。当我们能够用自然语言与计算机交流,让它理解我们周围的各种视觉信息时,人机交互将变得更加自然和高效。这不仅会改变我们的工作方式,也会影响我们的学习、娱乐和生活的方方面面。

归根结底,这项研究代表了人工智能技术向着真正理解和处理人类多样化信息需求方向迈出的重要一步。虽然距离完美的人工智能助手还有距离,但VLM2Vec-V2已经为我们展示了一个充满可能性的未来图景。对于那些对这项技术细节感兴趣的读者,完整的研究论文可以通过arXiv:2507.04590获取,其中包含了更详细的技术说明和实验数据。

Q&A

Q1:VLM2Vec-V2是什么?它能做什么? A:VLM2Vec-V2是Salesforce开发的多模态理解模型,它的核心能力是同时理解文本、图片、视频和各种文档。就像一个全能助手,它可以根据文字描述找视频,分析文档内容,回答关于图片的问题等,是首个真正统一处理这四种媒体类型的AI模型。

Q2:这个技术会不会很快应用到我们的日常生活中? A:很有可能。这种技术特别适合搜索引擎、教育平台、企业知识管理等场景。未来我们可能可以用自然语言搜索任何类型的内容,比如说"找个做蛋糕的视频"就能准确找到相关视频,或者上传学习资料让AI帮忙解答问题。

Q3:VLM2Vec-V2相比其他AI模型有什么优势? A:最大优势是"一个模型搞定所有媒体类型"。以前需要分别用不同的AI处理图片、视频、文档,现在一个VLM2Vec-V2就够了。而且它在保持通用性的同时,在各个专项任务上的表现都很出色,特别是只有20亿参数却能达到70亿参数模型的效果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-