微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当视觉和语言真正融合：北京大学与上海AI实验室打造FUSION模型

多模态AI视觉语言融合深度学习

当视觉和语言真正融合：北京大学与上海AI实验室打造FUSION模型

作者：科技行者

2025-07-14 09:50

分享至：

北京大学与上海AI实验室联合发布FUSION模型，通过创新的全模态整合技术，实现视觉和语言的深度融合。该模型仅用630个视觉令牌就超越了传统大型模型，在文本引导视觉编码、上下文感知解码等方面取得突破，代表了多模态AI发展的重要里程碑。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-14 09:50 • 科技行者

这项由北京大学的刘正、刘梦洁、陈景舟等研究者与上海AI实验室、南京大学合作完成的研究发表于2025年4月，论文标题为《FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding》。感兴趣的读者可以通过论文的GitHub页面（https://github.com/starriver030515/FUSION）获取代码、模型权重和数据集的完整信息。

近年来，人工智能在理解图像和文字方面取得了惊人进展，但一个关键问题始终困扰着研究者：如何让AI真正像人类一样同时理解视觉和语言信息？就像我们看到一张照片时，不仅能识别其中的物体，还能理解文字描述并进行深度思考一样。传统的多模态大语言模型就像是两个分别精通视觉和语言的专家在各自工作后才碰面交流，而人类的认知过程却是视觉和语言从一开始就紧密交织在一起的。

研究团队深受人类视觉感知机制的启发。科学研究表明，人类的视觉感知并非像相机那样被动地捕捉现实，而是一个受到语言和环境背景影响的主动解释过程。有趣的是，当人们在寻找某个特定物体之前先听到它的名字时，无论是发现速度还是准确率都会显著提升。这说明语言信息能够帮助大脑优先处理相关特征，指导视觉注意力的分配。

然而，目前的多模态大语言模型往往无法有效捕捉这种深度交互关系。传统模型通常是先用独立的视觉编码器处理图像信息，然后在语言模型解码阶段才将视觉特征作为静态信息融入。这种分离式处理方式导致视觉特征缺乏集中式编码，限制了与文本交互时可用的有效信息。即使一些最新研究通过动态分辨率编码或多重视觉编码器来增强图像细节和表示丰富度，但这些改进主要集中在增强视觉编码本身，忽略了实现有效视觉-语言融合所必需的深层双向交互。

针对这些挑战，研究团队提出了FUSION模型，这是一个实现视觉-语言表示完全整合的多模态大语言模型家族。FUSION的核心理念是在整个处理管道中实现深度、动态的交互，而不是仅仅在后期解码阶段进行表面融合。

一、文本引导的统一视觉编码：让文字为图像导航

FUSION的第一个创新是"文本引导的统一视觉编码"技术。传统模型处理图像时就像一个人闭着眼睛摸索房间，而FUSION则像是有人在旁边用语言指导："注意左边的桌子，那里有你要找的东西。"

具体而言，当模型接收到一张图像和相应的文本问题时，不是先独立处理图像再考虑文本，而是立即将文本信息投射到视觉特征空间中。这就像给视觉编码器配备了一个智能助手，时刻提醒它应该关注图像中的哪些部分。研究团队将文本嵌入映射到视觉特征空间，然后与视觉表示一起进行联合注意力计算，实现像素级别的深度整合。

为了确保文本和视觉特征之间的平衡交互，研究者采用了巧妙的策略：在编码器的前半部分层中，他们屏蔽了文本到视觉的注意力，确保低层视觉特征的完整性不被过早的文本信息干扰。这就像学习绘画时，先让学生观察物体的基本形状，然后再根据具体要求调整细节。

编码完成后，模型会分别聚合视觉和文本嵌入为早期和后期阶段表示，以捕获粗粒度和细粒度的多模态特征。最终的编码视觉和文本表示通过通道级连接获得，然后将视觉表示映射到大语言模型嵌入空间，实现与文本特征的直接交互。

二、上下文感知递归对齐解码：动态响应的智能对话

第二个核心创新是"上下文感知递归对齐解码"。传统方法就像是把所有视觉信息一次性展示给语言模型，而FUSION则建立了一个动态对话机制，根据问题的具体内容持续调整对视觉信息的关注点。

研究团队引入了一个创新概念：上下文感知的潜在令牌。这些令牌就像智能探测器，专门负责在解码过程中根据文本上下文的演变来递归地聚合视觉特征。当模型处理一个问题时，这些潜在令牌会根据当前的文本语境动态更新，确保在问题级别实现精细的语义整合。

为了提高计算效率并实现多模态特征的有效融合，团队采用了局部化窗口注意力机制。他们定义了一个潜在令牌网格，使用预定义的窗口大小来限制注意力操作的范围。为了减少文本引导编码的偏差并保持窗口注意力的有效性，研究者构建了辅助视觉表示，通过将原始图像分割为四个子图像，在没有文本条件的情况下分别编码每个子图像，然后将它们连接起来。

在解码过程中，给定一个文本问题，模型会确定该问题在令牌序列中结束的位置，提取该位置的隐藏状态表示。这个隐藏状态聚合了到当前位置的上下文信息，然后与每个潜在令牌连接，形成上下文感知的查询表示。通过这种递归和上下文感知的对齐策略，模型能够在视觉和文本模态之间实现动态增强的整合。

三、双监督语义映射损失：确保跨模态一致性

为了更好地指导特征映射并缓解模态差异，研究团队开发了"双监督语义映射损失"。这个技术就像是为两种不同语言之间的翻译建立了双向字典，确保信息在视觉和文本空间之间转换时不会丢失或扭曲。

该损失函数基于两个互补的变换：MLPv2t用于视觉到文本的变换，MLPt2v用于文本到视觉的变换。研究者巧妙地利用了经过视觉编码器处理的文本令牌（在视觉特征空间中的文本表示），通过MLPv2t映射后，其重建的文本表示应该与基于大语言模型的文本表示紧密对齐。

具体而言，对于MLPv2t的质量评估，研究者计算这两个特征表示之间基于余弦相似度的损失。类似地，他们使用图像在文本空间的表示来评估MLPt2v的有效性。理想的MLPt2v应该将文本空间中的图像表示转换回在视觉空间中与原始视觉特征紧密相似的表示。

除了监督特征空间映射损失外，他们还结合了基础的交叉熵损失。完整的训练目标将这些损失与平衡参数相结合，这种双监督方法明确地加强了视觉和文本表示之间的语义对应关系，显著提升了多模态整合的有效性和准确性。

四、语言驱动的QA数据集：以文本为中心的新范式

研究团队还提出了一种新颖的语言驱动方法来构建QA数据集，从根本上改变了传统的以视觉内容为中心的数据生成思路。这种方法优先考虑详细的文本描述，将文本作为指导图像生成和QA对创建的核心要素。

整个过程始于从大规模说明文档池中精心选择高质量说明文档。这些初始说明文档随后通过大语言模型进行丰富化处理，产生详细且细致入微的文本描述，捕捉各种视觉和上下文属性。这些丰富的描述既作为扩散模型的提示来生成与提供的文本语境紧密对齐的图像，同时也作为输入内容，再次利用大语言模型构建多样化的QA对，确保在多选题、多轮对话、基于推理的任务等方面的广泛覆盖。

为了解决生成模型固有的挑战，包括歧义、缺失和不一致性，研究团队实施了严格的多阶段过滤过程。这个过程包括四个主要阶段：说明文档过滤、描述过滤、图像生成过滤和QA对过滤。每个阶段都有明确定义的标准，确保用于后续训练步骤的数据质量和相关性。

通过将文本内容置于数据集构建过程的核心，这种语言驱动框架提供了一种可扩展、适应性强且稳健的方法来合成多样化和高质量的QA数据集，为视觉-语言对齐提供强有力的监督。

五、实验结果：小模型的大突破

研究团队构建了两个规模的FUSION模型：FUSION-3B和FUSION-8B，并在18个基准测试中进行了全面评估。实验结果令人惊喜：仅使用630个视觉令牌，FUSION就显著超越了现有方法的性能。

最引人注目的是，FUSION-3B在大多数基准测试中都超越了Cambrian-1 8B和Florence-VL 8B这些更大规模的模型。即使将视觉令牌数量限制到300个，FUSION-3B仍然能够保持95%的原始性能，与Florence-VL保持同等水平，这充分证明了全模态整合方法的有效性。

在与传统多模态大语言模型的对比中，研究团队通过可视化分析展示了FUSION在三个不同层面上实现的一致且逐步增强的跨模态对齐：像素级别、空间级别和问题级别。结果表明，FUSION在所有层面都实现了显著更强的对齐效果。

消融研究进一步证实了每个组件的重要性。文本引导统一视觉编码和双监督语义映射显著改善了通用多模态任务的性能。上下文感知递归对齐解码大幅提升了OCR准确性并有效减少了幻觉现象。当这些组件协同工作时，模型能够在超过一半的基准测试中超越LLaVA-NeXT，即使在相同配置且不使用动态分辨率的情况下也是如此。

六、技术实现：三阶段训练策略

FUSION采用了独特的三阶段训练框架，不同于传统的两阶段范式，确保视觉和语言模态之间的全面对齐和整合。

第一阶段是基础语义对齐阶段，使用大规模图像-说明文档数据集对视觉编码器进行预训练，在视觉和文本表示之间建立精确的语义对齐。第二阶段是上下文多模态融合阶段，与第一阶段不同，这个中间阶段结合了各种类型的QA数据以及图像-说明文档对。这个阶段旨在增强模型在广泛场景中对齐视觉和语言表示的适应性。第三阶段是视觉指令调优阶段，在这个阶段，模型接触各种视觉任务，使其能够有效回答下游视觉相关问题。

在主要结果中，研究团队在第一阶段使用了总计900万图像-说明文档对，在第二阶段和第三阶段使用了1200万指令数据（第二阶段500万，第三阶段700万）。在每个阶段，他们都解冻所有组件以确保全面优化和无缝整合。

七、模型架构：精心设计的融合机制

FUSION的架构设计体现了深度融合的理念。模型选择了两个强大的语言模型作为基础：Phi-3.5-mini-instruct和LLaMA3.1-8B-instruct。视觉编码器采用了SigLIP-SO400M-Patch14-384和最先进的SigLIP2-Giant-OPT-Patch16-384。通过利用强大的SigLIP2-Giant-OPT-Patch16-384，模型能够用更少的令牌实现卓越性能。

在文本引导统一视觉编码组件中，研究团队将支持的最大文本长度限制为256个令牌，超出部分会被截断以确保计算效率。在上下文感知递归对齐解码模块中，他们采用了固定的注意力窗口大小3，在性能和效率之间取得平衡。

特别值得注意的是，团队采用了动态令牌机制，使模型能够适应不同长度的视觉令牌序列。他们从集合{4, 16, 64, 144, 256}中随机采样每个批次的潜在令牌数量。实验表明，这种策略可以改善训练稳定性，同时保持表示有效性。

八、创新意义：重新定义多模态理解

FUSION的意义远不止于性能提升，它代表了多模态人工智能发展的一个重要转折点。通过实现真正的全模态整合，FUSION展示了一种更接近人类认知过程的AI系统设计理念。

传统模型往往将视觉和语言处理视为两个独立的任务，然后尝试在后期将结果合并。这种方法虽然在某些应用中取得了成功，但始终存在信息丢失和理解偏差的问题。FUSION通过从一开始就将视觉和语言信息深度交织，创造了一种更自然、更高效的多模态理解方式。

研究团队不仅提供了完整的代码、模型权重和数据集，还建立了一个可扩展的框架，为未来的多模态研究奠定了基础。这种开放性确保了研究成果能够推动整个学术界和工业界的进步。

更重要的是，FUSION证明了在多模态理解中，"少即是多"的哲学。通过更智能的整合策略，模型能够用更少的计算资源实现更好的性能，这对于多模态AI的实际应用具有重要意义。

说到底，FUSION不仅仅是一个新的模型，更是一种新的思维方式。它告诉我们，真正的智能不在于处理更多的数据，而在于更深入地理解和整合不同类型的信息。当我们的AI系统能够像人类一样自然地融合视觉和语言理解时，我们就离真正的通用人工智能又近了一步。对于普通人来说，这意味着未来的AI助手将能够更准确地理解我们的需求，无论是通过图像、文字还是两者的结合。感兴趣的读者可以通过论文的GitHub页面深入了解这项突破性研究的技术细节。

Q&A

Q1：FUSION模型与传统多模态模型有什么根本差异？ A：传统模型像是两个专家分别处理图像和文字后再交流，而FUSION从一开始就让视觉和语言信息深度交织，类似人类认知过程。它在整个处理过程中实现动态交互，而不是仅在最后阶段简单融合。

Q2：为什么FUSION能用更少的视觉令牌获得更好效果？ A：关键在于FUSION的智能整合策略。通过文本引导的视觉编码和上下文感知解码，模型能够更精准地关注重要信息，避免了传统方法的信息冗余和效率低下问题，实现了"少而精"的处理方式。

Q3：FUSION的语言驱动数据集构建方法有什么创新？ A：传统方法以图像为中心生成问答对，而FUSION反其道而行之，以高质量文本描述为核心，先用文本指导图像生成，再基于文本创建多样化问答。这种方法确保了数据的质量和多样性，为模型训练提供了更好的监督信号。

多模态AI视觉语言融合深度学习

分享至