微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

UNITE：东北大学和快手科技合作打造的通用多模态信息检索系统

多模态信息检索大型多模态模型对比学习

UNITE：东北大学和快手科技合作打造的通用多模态信息检索系统

作者：科技行者

2025-05-31 12:13

分享至：

东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能，并提出创新的模态感知掩码对比学习技术，有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合，在40多项测试中超越现有方法，即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异，而文本-文本和文本-图像对对指令遵循任务至关重要，为未来多模态系统研究提供了宝贵指南。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-31 12:13 • 科技行者

一个团队带来了视觉信息检索领域的重大突破！由东北大学孔帆恒、冯世、杨小翠、王大领与快手科技的张静源、刘亚辉、张宏志、田宇、Victoria W.、张富正和周国瑞共同完成的这项研究，发表于2025年5月的arXiv预印本（arXiv:2505.19650v2），为我们带来了名为UNITE的全新多模态信息检索框架。

让我们先来理解一下这项研究解决的是什么问题。想象你在社交媒体上看到一段有趣的视频，想找类似内容，或者你看到一张图片，想找与之相关的文字描述。这类需求被称为"多模态信息检索"（Multimodal Information Retrieval，简称MIR）。然而，当前的系统面临两大挑战：一是不同类型数据（如文字、图像、视频）之间存在天然的"模态差距"；二是不同模态之间的信息对齐十分复杂。虽然以前的研究已经发现这些问题，但还没有一个系统性的解决方案。

UNITE团队首次全面分析了模态特定数据属性如何影响下游任务表现，并提出了"模态感知掩码对比学习"（Modal-Aware Masked Contrastive Learning，简称MAMCL）技术，有效缓解了不同模态实例之间的竞争关系。简单来说，就像让不同语言的人在同一个会议室交流时，使用翻译耳机确保每个人都能正确理解彼此，而不会因语言差异产生误解。

研究结果令人振奋！UNITE在多个多模态检索基准测试中取得了最先进的成绩，超越现有方法达到显著优势。即使与参数规模更大的模型相比，UNITE也表现出色。例如，UNITE的7B参数版本在MMEB基准测试中达到了70.3%的准确率，超过了拥有26B参数的IDMR模型（69.2%）。在WebVid-CoVR测试中，UNITE 7B更是达到了72.5%的检索准确率，远高于现有最佳方法ECDE的60.1%。

这项研究不仅提升了多模态信息检索的性能，还为未来多模态系统研究提供了基础蓝图。无论你是研究人员还是对这一领域感兴趣的普通读者，都能从这项工作中获得对多模态系统更深入的理解。有兴趣深入了解的读者可以通过论文中提供的项目网站：https://friedrichor.github.io/projects/UNITE 获取更多信息。

二、多模态信息检索的挑战与UNITE的应对之道

多模态信息检索就像是一个能同时理解多种语言的翻译官，需要在文字、图像和视频等不同"语言"之间自如切换。然而，这些不同"语言"之间存在着巨大的差异，就像中文和英文有着不同的语法结构一样，文字和图像的表达方式也截然不同。

研究团队发现，当前的方法主要关注于双模态场景（如文本-图像或文本-视频检索），但随着社交媒体的发展，用户需求变得更加复杂，例如希望基于一段视频和一段文字描述来查找类似视频。这种复合模态的检索任务被称为"融合模态检索"，需要处理交错的多模态查询和候选项，对系统的要求更高。

现有的大型多模态模型（LMMs）虽然在多种视觉-语言任务上表现出色，但在检索任务方面仍有局限。例如，E5-V通过使用纯文本数据微调LLaVA-NeXT，展示了LMMs在多模态检索中的潜力；GME通过微调Qwen2-VL在多种图像-文本检索任务中取得领先成绩；InternVideo2则因其上亿视频-文本对的训练而在文本-视频检索中表现突出。然而，这些模型受限于其专注的特定模态，无法充分发挥LLMs在生成统一多模态嵌入方面的潜力。

尽管有研究探索了LMMs在MIR中的训练策略，包括模型架构、训练方法和数据集考量，但仍有关键问题未解决：最佳的数据组成和比例是什么？不同模态数据配置如何影响各种检索任务？研究团队通过实证调查发现，不适当的多模态数据组合或训练序列容易破坏多样化数据模态的和谐整合，导致模型错误理解不同类型信息之间的关系。

UNITE的创新之处在于，研究团队通过精心分析不同数据组成对检索结果的影响，努力在文本、图像和视频三种模态之间取得平衡。特别是，他们发现在检索适应阶段引入少量精细的视频-文本对可显著提升LMMs的精细检索性能。同时，他们提出的MAMCL方法能有效平衡不同模态实例间的竞争关系，提高表示学习的质量。

三、UNITE的技术架构与工作原理

UNITE的核心是一个能同时处理文本、图像、视频及其组合的统一框架。就像一个精通多国语言的翻译，它能将不同类型的信息转换为一种"通用语言"，使它们能够在同一空间中进行比较和匹配。

在技术层面，UNITE利用大型多模态模型（LMM）作为骨干，这些模型由三个关键组件组成：大型语言模型、视觉编码器和视觉投影器。这种架构设计使UNITE能够流畅地处理文本、图像、视频及其融合形式。当输入进入系统时，UNITE使用提示模板引导处理过程，例如：

``` \n\nSummarize above in one word: ```

其中``和``是视觉内容（图像、视频）和文本句子的占位符，``指定输入模态类型。比如，对于视频-文本输入，会使用以下提示：

```

UNITE的训练采用两阶段策略：检索适应和指令调优。在第一阶段，模型通过各种信息场景学习基本检索能力，适应不同检索任务的特性和要求。第二阶段通过MMEB等综合数据集进行指令调优，引入复杂的融合模态检索场景，实现更复杂和细致的检索理解。

UNITE的一大创新是提出的模态感知掩码对比学习（MAMCL）。传统多模态检索模型通常使用标准InfoNCE损失进行对比学习，这种方法忽略了不同模态组合在检索任务中的内在差异性。例如，仅从文本派生的嵌入和来自多模态源的嵌入通常在特征空间中显示出显著差异。在联合对比学习中，模型难以平衡来自不同模态的多样信息，导致无法充分捕捉每种模态的语义丰富性。

MAMCL通过引入模态感知约束来缓解各种目标模态实例之间的竞争关系。具体来说，它计算批次样本之间的相似性矩阵，但引入一个模态掩码矩阵，确保每个查询只考虑与其目标候选项具有相同模态的候选项。这就像在多语言派对中，确保说同一种语言的人首先互相交流，避免因语言障碍产生的误解。

四、UNITE的实验设计与研究成果

研究团队进行了全面的实验评估，覆盖了40多个不同的检索任务，包括粗粒度、细粒度和基于指令的检索，横跨文本、图像和视频。他们使用Qwen2-VL作为模型骨干，进行了2B和7B参数规模的实验。

在检索适应阶段，团队精心策划了一个多样化的700万实例数据集，涵盖四类：(1)文本-文本对，来自MSMARCO、NLI等数据集；(2)图像-文本对，来自CapsFusion、LAION-Art和MSCOCO；(3)视频-文本对，来自InternVid-10M-FLT；(4)细粒度视频-字幕对，来自Tarsier2-Recap-585K。指令调优阶段结合了MMEB和WebVid-CoVR作为训练集。

在细粒度检索任务上，UNITE展现了令人印象深刻的性能。在CaReBench上，UNITEbase 7B在CaRe-General和CaRe-Spatial任务中显著超越现有方法，这得益于在检索适应阶段纳入细粒度视频-字幕对，增强了LMMs的特征表示能力。虽然2B模型在一般和空间检索任务上优于所有基线，但在时间检索表现中等。扩展到7B后，模型在一般、空间和时间任务上都获得显著提升。值得注意的是，与2B模型相比，7B模型在时间检索上获得最大相对提升（如15.7%和10.8%），表明更大规模的模型在处理视频时间方面的任务时更有优势。

在基于指令的检索任务上，UNITEinstruct 2B在WebVid-CoVR-Test上大幅超越现有模型，将模型规模扩展到7B后进一步提升优势。在MMEB基准测试中，UNITEinstruct超越了各种不同参数规模的现有模型，包括参数规模更大的模型（如mmE5 11B和IDMR 26B）和使用更广泛数据集训练的模型（如使用2600万图像-文本检索样本训练的MMRet）。

研究团队还进行了详细的消融研究，验证了MAMCL的有效性。结果显示，当将MMEB训练集集成到训练过程中时，在WebVid-CoVR上性能下降，证实了研究团队的假设：具有不同目标模态的样本之间可能发生跨模态干扰。MAMCL成功缓解了这些跨模态效应，特别是在分布内（IND）场景中带来显著改进，验证了其在训练分布对齐的场景中的有效性。

五、UNITE的数据组成分析与洞察

研究团队对训练数据组成进行了系统性调查，这是多模态检索领域一个尚未充分探索的重要问题。他们使用文本-文本（TT）、文本-图像（TI）和文本-视频（TV）数据集进行综合实验，评估不同数据组合对各种检索任务的影响。

一个令人惊讶的发现是，视频-文本对在通用跨模态检索中表现出色。TV-only训练模式在所有跨模态检索任务中始终优于其他配置。值得注意的是，在图像-文本检索任务中，仅使用TV数据的训练表现优于仅使用TI数据的训练。这一发现挑战了传统图像-文本研究中的既定发现，表明需要重新评估传统数据选择策略。

另一个重要发现是，文本-文本和文本-图像对对指令遵循任务至关重要。TT+TI训练总体上在指令检索任务中优于其他组合，包括在通用跨模态检索中表现出色的TV-only配置。这可归因于两个关键因素：(1)文本-文本对增强语言理解和逻辑推理能力，为复杂检索指令的解释建立坚实基础；(2)文本-图像对提供精确的多模态对齐信息，相较于视频内容能形成更专注的语义连接。

研究团队还探索了高效利用细粒度视频-字幕数据的策略。近期视频LMMs产生了强大的字幕模型和细粒度数据集，如LLaVA-Video-178K。CaRe研究表明，在检索适应前使用这些视频-字幕对微调LMMs可显著提升细粒度视频检索性能。但一个限制是，CaRe的检索适应阶段仅依赖文本-文本对。

为解决这个问题，研究团队进行了广泛实验，发现：(1)在检索适应过程中利用TV对比细粒度对齐带来更显著的性能提升；(2)在检索适应过程中独家使用细粒度视频-文本对会在CaReBench上带来显著提升，但会严重降低模型的粗粒度检索能力；(3)将细粒度TV对整合到通用TV数据中可实现平衡表现，使模型在粗粒度和细粒度视频-文本检索任务中都取得竞争性结果。

这些发现揭示了一个关键洞察：在检索适应阶段，直接整合细粒度视频-字幕对比实施独立的细粒度对齐阶段更有效。

六、UNITE的实际应用与未来展望

UNITE作为一个统一的多模态嵌入框架，为实际应用打开了广阔的可能性。想象一个社交媒体平台，用户可以通过文字描述、图像截图或短视频片段找到感兴趣的内容；或者一个电子商务平台，消费者可以通过产品图片和文字描述精确定位所需商品；甚至是一个教育平台，学生可以使用多种形式的查询找到相关的学习资源。

UNITE的一个显著优势是它能同时处理文本、图像、视频和它们的组合，这在许多实际场景中非常有价值。例如，当你看到一段视频中的风景，想找类似场景但具有特定天气条件的视频时，可以结合视频片段和文字描述（如"多云的"）作为查询条件。传统系统难以处理这种复合查询，而UNITE能够自然地理解和处理这种混合模态的信息需求。

研究团队在论文中承认，尽管UNITE在文本、图像和视频模态上表现出色，但将音频作为另一个潜在模态纳入考虑范围仍面临挑战。随着社交媒体的发展，音频内容变得越来越重要，平衡多种模态仍需要进一步研究。此外，虽然图像-文本检索已有全面的基准测试，但开发一个涵盖文本、图像、视频，甚至可能的音频模态的统一基准测试，代表着未来研究的重要方向。

UNITE提供的模态感知掩码对比学习（MAMCL）策略可作为一种通用方法，适用于任何扩展模态场景。这意味着随着新模态（如音频、触觉等）的引入，MAMCL可以帮助平衡不同模态间的关系，确保它们能和谐共存于同一表示空间。

研究团队的工作不仅提升了多模态信息检索的性能，还为未来多模态系统研究提供了基础蓝图。通过系统分析训练数据组成如何影响最终检索性能，他们揭示了以前在图像-文本和视频-文本检索场景中未得到充分探索的新见解。基于这些洞察，他们提出了数据组成和分配策略，并引入MAMCL来缓解跨实例竞争，同时保持文本、图像和视频之间的表示学习平衡。

七、结论：UNITE如何改变多模态信息检索的未来

归根结底，UNITE代表了多模态信息检索领域的一次重要突破。通过引入能够无缝整合文本、图像和视频模态的通用框架，这项研究为我们展示了未来信息检索系统的发展方向。

UNITE的成功在于其系统性地解决了两个核心挑战：数据策划和模态感知训练配置。研究团队通过详尽分析不同数据组成对检索性能的影响，发现了视频-文本对在跨模态检索中的优势，以及文本-文本与文本-图像对在指令遵循任务中的重要性。他们提出的MAMCL方法有效解决了不同模态实例间的竞争关系，使模型能够更好地理解和表示多种模态的信息。

实验结果令人信服地证明了UNITE的优越性。在40多个涵盖粗粒度、细粒度和基于指令的检索任务的测试中，UNITE取得了最先进的成绩，甚至超越了参数规模更大的模型。这不仅证明了UNITE技术方案的有效性，也表明了战略性模态策划和定制训练协议对稳健跨模态表示学习的关键作用。

对于普通用户来说，UNITE意味着更直观、更精确的信息检索体验。无论是寻找特定类型的内容，还是基于复杂条件进行查询，UNITE都能提供更好的结果。对于开发者和研究人员，UNITE提供了一个强大的框架和宝贵的见解，为构建下一代多模态系统铺平了道路。

尽管UNITE取得了显著成功，但仍有改进空间。例如，将音频纳入统一表示空间，以及为更广泛的模态组合开发更全面的基准测试，都是未来值得探索的方向。

总之，UNITE代表了多模态信息检索领域的一个重要里程碑，不仅提升了当前系统的性能，还为未来研究提供了坚实基础。随着技术的不断发展，我们可以期待像UNITE这样的系统在信息检索、内容推荐和人机交互等领域带来更多创新和改进。

对这项研究感兴趣的读者可以通过项目网站（https://friedrichor.github.io/projects/UNITE）了解更多详细信息，或查阅完整论文（arXiv:2505.19650v2）获取技术细节。

多模态信息检索大型多模态模型对比学习

分享至