2025年6月,来自图宾根大学AI中心的Christian Schlarmann、EPFL的Francesco Croce和Nicolas Flammarion,以及图宾根大学的Matthias Hein共同发表了一篇题为"FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens"的研究论文。这项研究旨在解决多模态嵌入的关键挑战,论文已发布在arXiv上(arXiv:2506.03096v1)。
一、研究背景:为什么我们需要更好的多模态理解方法?
想象一下,你和一位外国朋友在逛商场,你朋友不懂中文,指着一件衣服问:"这件衣服是什么颜色?"这时,你的大脑会同时处理两种信息——视觉信息(看到的衣服)和语言信息(听到的问题),然后回答:"蓝色"。这种同时处理多种模态信息的能力对人类来说非常自然,但对计算机来说却是一个巨大的挑战。
在人工智能领域,CLIP(对比语言-图像预训练)是一种非常流行的方法,它能够将文本和图像映射到同一个特征空间中,使计算机能够理解"猫"这个词与猫的图像之间的关系。但是,传统的CLIP模型有一个明显的局限性:它使用两个完全独立的编码器来分别处理文本和图像,就像两个专家各自独立工作而不互相交流一样。当我们需要同时理解图像和相关文本(例如前面提到的"这件衣服是什么颜色?"的问题)时,这种方法就显得不够理想了。
为了解决这个问题,研究人员通常会采用"后期融合"的方法——先让文本编码器和图像编码器各自独立工作,然后再用额外的模块将它们的输出合并起来。这就像两个专家各自完成报告后,再由第三个人来整合他们的结论。这种方法虽然有效,但存在效率低下的问题,而且可能会丢失一些重要的交互信息。
二、FuseLIP:一种创新的早期融合方法
图宾根大学和EPFL的研究团队提出了一种全新的方法——FuseLIP,它采用"早期融合"的策略,就像让两位专家从一开始就一起工作,共同分析问题。这种方法的核心创新点在于使用单一编码器同时处理图像和文本,而不是分别使用两个独立的编码器。
具体来说,FuseLIP的工作原理可以分为以下几个步骤:
首先,研究团队利用了最近在离散图像标记化(discrete image tokenization)领域的进展。你可以把这个过程想象成将图像转换为一种特殊的"图像语言"。就像我们可以将"猫"这个概念转换为字母"c"、"a"、"t"一样,FuseLIP使用的图像标记器(tokenizer)可以将图像转换为一系列离散的标记(tokens)。
这一步非常关键,因为它让图像和文本都转换成了同一种"语言"——离散标记的序列。这就像把两种不同的语言(如中文和英文)都翻译成了一种通用的语言(如世界语),使得后续的处理变得更加统一和高效。
接下来,这些来自图像和文本的标记被连接起来,形成一个统一的序列。图像标记在前,文本标记在后,中间使用特殊的开始和结束标记(、)来分隔不同的模态。如果输入中缺少某种模态(例如只有图像没有文本),则会省略缺失的模态。
最后,这个统一的标记序列被送入一个基于Transformer的编码器进行处理。由于图像和文本信息从一开始就被融合在一起,它们可以在编码的每一层相互交流和影响,这就是所谓的"早期融合"。最终的嵌入表示对应于标记的输出。
三、训练目标:结合对比学习和掩码建模
FuseLIP的训练过程也非常创新,它结合了两种不同的训练目标:对比损失(contrastive loss)和掩码多模态建模损失(masked multimodal modeling loss)。
对比损失类似于传统CLIP模型的训练方式,目的是让相关的图像-文本对在特征空间中靠近,而不相关的对则远离。具体来说,研究团队采用了SigLIP中的sigmoid损失函数,它比CLIP的原始对比损失表现更好。这个过程就像教会模型识别"这幅画中有一只猫"和实际含有猫的图像应该联系在一起,而与"这幅画中有一只狗"的描述应该区分开来。
掩码多模态建模损失则是一种自监督学习方法,类似于我们玩填字游戏。在训练过程中,随机遮挡(掩码)输入序列中的一些标记,然后让模型预测这些被遮挡的标记。这就像给模型一个句子"我喜欢吃___",然后让它猜测被遮挡的词是什么(比如"苹果")。
FuseLIP的一个重要优势是,由于使用了离散的图像标记,它可以非常自然地应用掩码建模损失,而不需要像FLAVA这样的方法那样使用额外的模块或计算开销。模型在训练时会同时使用这两种损失函数,以获得更好的性能。
四、数据集:单模态与多模态训练数据的创新组合
为了全面评估FuseLIP的性能,研究团队收集并创建了各种单模态和多模态数据集。
单模态数据是指图像-文本对的数据,不需要联合编码来自不同模态的输入。研究团队使用了CC3M和CC12M数据集,这两个数据集提供了高质量的图像和对应的描述文本。
然而,多模态数据(需要同时处理图像和文本输入的数据)相对较少。为了解决这个问题,研究团队开发了几种方法来从现有的单模态数据中生成多模态任务:
1. 文本引导的图像变换(TGIT):研究团队对CC3M和CC12M中的图像应用了各种变换(如随机裁剪、旋转、翻转、颜色调整等),并用文本描述这些变换。例如,一个样本可能包括原始图像、描述变换的文本(如"向左旋转45度")以及变换后的图像。这样的任务要求模型必须同时理解图像内容和文本指令,才能正确识别变换后的图像。
2. 从图像-文本数据集生成的视觉问答(VQA)数据:研究团队使用大型语言模型(Llama-3.1-8B-Instruct)将CC3M中的图像描述重写为问答对。例如,将"一只猫坐在沙发上"转换为问题"什么动物坐在沙发上?"和答案"猫"。
3. 视觉基因组(Visual Genome)中的VQA数据:研究团队使用了Visual Genome数据集中现有的VQA样本。
4. 视觉定位(Visual Grounding):利用Visual Genome中的区域描述,研究团队创建了VG-Crop数据集。给定一张图像和某个区域的文本描述,模型需要找到图像中对应的区域。
5. HQ-Edit:这个数据集包含合成生成的图像编辑。模型需要根据原始图像和编辑描述,找到正确编辑后的图像。
此外,研究团队还特别强调了"硬负样本"(hard negatives)在训练中的重要性。硬负样本是指与正样本非常相似但标签不同的样本,例如同一图像的不同变换版本,或者来自同一查询图像但描述不同区域的样本。这些硬负样本有助于模型学习更细微的区别,提高性能。
五、实验设置:模型架构与基线比较
研究团队训练了两个版本的FuseLIP模型:FuseLIP-S使用TiTok-S标记器和较小的Transformer编码器,而FuseLIP-B使用TiTok-B标记器和较大的Transformer编码器。
为了进行公平比较,研究团队还实现了两种基于后期融合的基线方法:
1. 分数融合(Score Fusion,SF):简单地将来自文本和图像编码器的单模态嵌入相加,得到多模态嵌入。这就像两个专家各自给出评分,然后简单地将这些评分相加得到最终结果。
2. MagicLens融合(Magic Lens Fusion,MLF):使用基于Transformer的模块来合并单模态嵌入向量。这相当于有一个专门的"翻译"专家,负责整合两位专家的意见。
所有模型都使用相同的数据集和训练策略,包括硬负样本和(对于FuseLIP)掩码建模损失。这确保了比较的公平性。
在训练资源方面,FuseLIP表现出明显的优势。由于图像标记器在训练过程中保持冻结状态,FuseLIP的可训练参数数量显著少于基线方法。例如,FuseLIP-B虽然总参数数量与B尺寸的基线相当,但可训练参数数量却与S尺寸的基线相当。这使得FuseLIP在训练时更快,需要的GPU内存也更少。
六、评估任务:全面测试多模态理解能力
为了全面评估模型的性能,研究团队设计了一系列多样化的任务:
1. 大规模多模态嵌入基准(MMEB):这个基准包含36个子任务,分为分类、视觉问答、检索和定位四类,涵盖多种模态。每个子任务包含1000个样本,模型需要从1000个候选项中选择正确答案。
2. 使用OpenImages的视觉定位(OI-Crop和OI-Pos):在OI-Crop任务中,模型需要根据物体名称(如"瓶子")从图像中选择正确的区域。候选项包括来自查询图像的五个其他物体区域和来自其他图像的五个相同物体区域。在OI-Pos任务中,模型需要根据左/右位置指令(如"右边的猫")从包含同一物体两次出现的图像中选择正确的区域。
3. VG-Crop:使用Visual Genome验证集中的1574个样本,测试模型在视觉定位任务上的性能。
4. CC3M-TGIT:使用CC3M-TGIT验证集测试模型在识别文本引导的图像变换方面的能力。对于不同的变换(如裁剪、旋转、翻转、颜色调整等),模型需要从一组候选图像中选择正确变换后的图像。
5. ImageNet:在完整的ImageNet-1k验证集上进行评估,使用OpenAI提示模板集合。
七、实验结果:早期融合的显著优势
研究结果非常令人鼓舞,FuseLIP-B在几乎所有任务上都取得了最好的结果,尤其是在多模态任务上。
在CC3M+多模态数据上训练时,FuseLIP-B在9个基准测试中的8个上表现最佳;在CC12M+多模态数据上训练时,FuseLIP-B在7个基准测试上表现最佳。值得注意的是,虽然FuseLIP-B的总参数数量与B尺寸的基线相当,但它的可训练参数数量显著更少。
特别引人注目的是FuseLIP在CC3M-TGIT任务上的出色表现。即使是较小的FuseLIP-S也比SigLIP-BMLF高出9-10个百分点,比SigLIP-BSF高出22-24个百分点。这一显著差异主要出现在需要识别裁剪、旋转或翻转后的正确图像的任务中。与基线方法不同,FuseLIP几乎可以完美地解决这些任务。
研究团队认为,这种性能差异源于任务的性质。这些任务依赖于捕捉视觉结构而非语义内容。单模态编码器往往提取语义信息,而在更深层次上可能会以牺牲视觉信息为代价。此外,这些任务需要同时关注图像和文本,不能仅依靠其中一种模态解决。后期融合模型可能无法获取解决任务所需的信息,而早期融合方法可以轻松学习这些关系。这一解释也能解释为什么FuseLIP在OI-Pos任务(需要区分同一物体的左右实例)上表现更好。
八、消融实验:硬负样本和掩码建模的重要性
为了更好地理解FuseLIP的各个组成部分的贡献,研究团队进行了一系列消融实验,重点关注硬负样本和掩码多模态建模损失的影响。
实验结果表明,不在批次中包含硬负样本会导致在VG-Crop、OI-Crop和特别是CC3M-TGIT任务上的性能大幅下降。例如,对于FuseLIP-B,在CC3M-TGIT上的准确率从94.3%下降到13.6%。这表明硬负样本对于学习这些多模态任务至关重要。有趣的是,添加硬负样本不会影响FuseLIP-B在其他任务上的性能,对较小的FuseLIP-S只有轻微的负面影响。
同样,掩码多模态建模损失也被证明是非常重要的。仅使用SigLIP损失(没有任何掩码)训练会导致在所有任务上的性能显著下降,特别是对于较大的FuseLIP-B模型。这表明掩码建模损失对于学习丰富的多模态表示非常有价值。
九、研究意义与展望
这项研究有几个重要的启示:
首先,研究表明可以使用单一编码器训练类似CLIP的模型(无论是在单模态还是多模态数据上),而不需要像标准CLIP模型那样使用单独的文本和图像编码器。这是一个概念上的突破,简化了模型架构。
其次,FuseLIP架构自然支持多模态嵌入,并能无缝集成对比和掩码建模目标。这大大简化了像FLAVA这样的训练设置,证明两种目标可以结合使用,而不需要单独的前向传递。此外,FuseLIP可以使用标准的训练方法实现稳定的训练。
第三,研究结果强调了早期融合在某些任务(如文本引导的图像变换)上显著优于后期融合的任务上。由于解决此类任务是全面多模态编码器的一部分,这表明早期融合对于多模态嵌入特别有前景。
最后,研究团队预计FuseLIP可以自然地扩展到新的应用,包括编码多个图像或交错的图像-文本输入。
总的来说,这项研究提供了一种新颖而有效的方法来解决多模态嵌入的挑战,开辟了未来研究的新方向。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。