微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

语言-图像对齐不需要联合训练文本编码器？伯克利大学研究发现固定LLM模型即可

视觉语言模型大型语言模型组合理解能力

语言-图像对齐不需要联合训练文本编码器？伯克利大学研究发现固定LLM模型即可

作者：科技行者

2025-06-09 14:34

分享至：

这篇论文由加州大学伯克利分校和香港大学的研究团队提出了LIFT方法，挑战了传统视觉语言模型需要同时训练文本和图像编码器的假设。研究发现，使用预训练的大型语言模型作为固定文本编码器，只训练图像编码器就能在多项任务上超越CLIP，特别是在理解空间位置、对象属性关联等组合信息方面。LIFT不仅提高了计算效率，还解决了CLIP在处理复杂语义关系和长文本描述时的短板，为视觉语言模型提供了一条更高效的发展路径。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 14:34 • 科技行者

在人工智能视觉语言模型的发展中，如何让计算机理解图像与文本之间的关系一直是一个核心挑战。2024年6月，来自加州大学伯克利分校和香港大学的研究团队在arXiv上发表了一篇题为《Language-Image Alignment with Fixed Text Encoders》（使用固定文本编码器的语言-图像对齐）的研究论文，对当前主流的视觉语言模型训练方法提出了质疑和创新。论文的主要作者包括Jingfeng Yang、Ziyang Wu、Yue Zhao和Yi Ma，他们的研究代码和模型已在GitHub上开源（https://github.com/Jingfeng0705/LIFT）。

一、CLIP模型的问题：昂贵且不够理解复杂关系

想象一下，你有一位朋友可以准确地把任何图片和文字描述配对起来。这位朋友是如何学会这项技能的？在人工智能领域，目前的主流方法就像是强迫两个初学者（一个负责理解图像，一个负责理解文本）从零开始一起学习，直到他们能够默契配合。这种方法被称为CLIP（Contrastive Language-Image Pre-training，对比语言-图像预训练），由OpenAI在2021年推出。

CLIP模型就像两个大脑同时学习：一个图像大脑和一个文本大脑，它们一起被训练来理解"这张图片和这段文字是否匹配"。这种方法虽然有效，但存在两个明显的问题：

首先，这种"双脑"同时训练非常昂贵。想象一下同时培训两位专家而不是一位，这需要大量的计算资源和训练数据。研究表明，CLIP模型需要极大的批处理大小和海量的训练样本才能达到良好效果。

其次，CLIP模型在理解复杂的组合信息方面表现不佳。比如，它难以准确理解文本中的词序（"猫追狗"和"狗追猫"是不同的）、图像中的空间位置关系（"苹果在盘子上"和"盘子在苹果上"是不同的）、对象与属性的关联（"红色的车和蓝色的房子"与"蓝色的车和红色的房子"是不同的）以及物体之间的关系。这就像是能认出画面中有"狗"和"球"，但分不清"狗在玩球"和"球在狗上面"的区别。

为什么会这样？研究人员认为，CLIP的训练方式鼓励模型采取"捷径策略"——它倾向于丢弃与组合信息相关的特征，只关注简单的对象识别。

二、LIFT：只训练一个大脑，让另一个专家来指导

伯克利大学的研究团队提出了一个有趣的问题：我们真的需要同时训练两个大脑吗？如果我们已经有了一个精通语言的专家（大型语言模型，LLM），为什么不直接让它来指导图像理解呢？

这就是他们提出的LIFT（Language-Image alignment with a Fixed Text encoder，使用固定文本编码器的语言-图像对齐）方法的核心思想。LIFT就像是让一位已经精通多国语言的翻译（LLM）来教导一位摄影师（图像编码器）理解照片的含义。具体来说：

1. 使用一个预先训练好并微调过的大型语言模型作为固定的文本编码器 2. 在训练开始前，用这个文本编码器预先处理所有文本描述，得到它们的语义表示 3. 只训练图像编码器，让它学习将图像映射到与对应文本描述相匹配的表示空间

这种方法有点像老师（LLM文本编码器）已经准备好了所有的答案（文本嵌入），学生（图像编码器）只需要学习如何将自己的理解（图像嵌入）与老师的答案对齐。

研究团队的核心假设是：大型语言模型已经具备足够好的文本理解能力，可以为视觉表示学习提供良好的指导，无需再从头训练文本编码器。

三、LIFT方法的技术细节：简单而高效

从技术角度看，LIFT采用了与CLIP相似的双编码器架构，但有一个关键区别：LIFT使用预训练的LLM（具体是NV-Embed-V2）作为固定的文本编码器，只训练图像编码器部分。

在训练流程上，LIFT首先离线计算所有训练文本的嵌入表示。具体来说，对于每段文本T，使用固定的文本编码器ftext生成其嵌入表示zT。然后，在实际训练过程中，LIFT只优化图像编码器fimg和投影头fhead，让它们学习将图像I映射到与对应文本嵌入相匹配的表示空间zI。

这种预计算文本嵌入的方法带来了显著的效率提升。数据显示，与CLIP相比，LIFT在处理短文本描述时可减少约25.5%的计算量（FLOPs），处理长文本描述时可减少约35.7%的计算量。内存使用方面，LIFT比CLIP分别节省了6.8%（短文本）和12.6%（长文本）。

更重要的是，当文本长度增加时，CLIP的计算复杂度呈平方增长O(n?)，而LIFT则保持恒定O(1)，因为文本编码是预先完成的。这使得LIFT特别适合处理长文本描述的情况。

四、实验结果：LIFT在多项任务上优于CLIP

研究团队进行了大量实验，使用ViT-B/16作为视觉骨干网络，在包含4亿文本-图像对的数据集上训练模型。每张图像有两种文本描述：一种是从网络抓取的短描述，另一种是由模型生成的长描述。为确保公平比较，LIFT和CLIP使用完全相同的超参数训练。

研究发现，LIFT在以下几个方面表现优异：

1. **组合理解能力**：在SugarCrepe基准测试的七个任务上，LIFT平均比CLIP高出6.8%的准确率。特别是在涉及属性添加、属性替换和关系替换的任务上，LIFT表现出显著优势。这表明LIFT能更好地理解对象与属性的关联以及对象间的关系。

例如，给定一张时钟挂在建筑物角落的图片，LIFT能正确选择"A large four sided clock hangs on the corner of the building"（一个大型四面钟挂在建筑物的角落），而CLIP错误地选择了"A large four sided clock leans against the corner of the building"（一个大型四面钟靠在建筑物的角落）。

2. **下游任务表现**：当作为LLaVA多模态大模型的视觉塔时，LIFT在六项下游任务中的五项上超过了CLIP。特别是在MMBench（英语和中文）测试中，LIFT表现出色，在属性推理、精细感知和关系推理等子任务上取得显著提升。

3. **零样本检索能力**：在ImageNet-1K分类和跨模态检索任务上，当训练在短文本描述上时，LIFT与CLIP表现相当；但当训练在长文本描述上时，LIFT在所有这些任务上平均领先CLIP 11.0%。

这些结果表明，LIFT不仅计算效率更高，而且在多种任务上表现更好，特别是在需要理解复杂组合信息的场景中。

五、为什么LIFT比CLIP更擅长处理长文本？

研究团队深入分析了为什么LIFT在长文本描述上比CLIP表现更好。他们发现了两个关键因素：

第一个因素是"逆效应"（inverse effect）。这种现象指的是CLIP在完整长度的合成文本描述上训练时会产生次优的零样本性能，但随着文本描述逐步截断，性能会有明显提升。这可能是因为合成文本描述（通常由微调过的视觉语言模型生成）具有同质的语法结构，这会扭曲原始文本分布并成为模型的"捷径特征"。

研究人员发现，CLIP的文本编码器在从头训练时容易被这种捷径特征误导。通过计算从Recap-DataComp-1B随机抽取的1000个文本描述的平均成对余弦相似度，他们发现CLIP的文本编码器过度强调语法相似性，对语法相似但语义不同的文本对给出较高的相似度分数（平均24.0）。相比之下，LIFT使用预训练在大规模数据上的LLM作为文本编码器，产生的嵌入空间对语法同质性更具鲁棒性，更专注于语义内容，对这类误导性文本对给出显著更低的相似度分数（平均19.0）。

第二个因素是文本编码器的表达能力。LIFT使用的NV-Embed-V2有70亿参数，而CLIP的文本编码器只有6300万参数。尽管LIFT的文本编码器规模更大，但由于使用离线嵌入，在处理长文本描述时仍比CLIP更高效。

六、什么样的LLM文本编码器适合LIFT？

研究团队还探讨了哪些设计选择能让LLM成为LIFT的有效文本编码器。他们测试了五种代表性的LLM：

1. 两种原始LLM：Mistral-7B-V0.1和Vicuna-7B-V0.1 2. 三种经过对比学习微调的LLM：SFR-Embed-Mistral、Linq-Embed-Mistral和NV-Embed-V2

实验结果显示，两种原始LLM的表现明显落后于微调后的模型。例如，在ImageNet-1K零样本分类任务上，它们平均准确率低22.8%。原始的Mistral-7B-V0.1在SugarCrepe的replace relation任务上甚至表现不如随机猜测。

这表明LLM并非天生就是有效的文本编码器，对比学习微调是必要的。另一方面，三种经过微调的模型表现相当，这表明句子结束标记就能准确编码输入文本，而NV-Embed-V2的额外潜在注意力层等高级嵌入提取机制可能不是必需的。

七、简化对比学习：余弦相似度损失也有效

研究团队还探讨了是否可以简化LIFT的训练目标。传统上，CLIP使用对比InfoNCE损失来避免模式崩溃（即无论输入如何，文本和图像编码器都输出相同的结果）。这种方法计算密集，FLOPs和内存消耗随批量大小B的平方增长O(B?)，同时还需要大批量以确保足够的负样本。

由于LIFT的文本嵌入空间是固定的，模式崩溃不再是问题。因此，研究人员尝试了一个简单的余弦相似度损失，它只计算正文本-图像对之间的相似度，不涉及负样本。这种简单损失的FLOPs和内存复杂度仅随批量大小线性增长O(B)，并且不依赖负样本，从而减轻了批量大小的限制。

实验表明，这种简单的余弦相似度损失在组合理解任务和LLaVA下游任务上表现与对比损失相当。特别是在长文本训练时，使用简单余弦相似度损失的LIFT在英文和中文MMBench上甚至优于其对比损失变体。然而，在零样本检索任务上，特别是在短网络抓取文本上训练时，它的表现明显下降。这可能是因为对比损失通过使用负样本鼓励更具判别性的表示，这对分类和检索任务有利。

八、LIFT的局限性与未来方向

尽管LIFT表现出色，研究人员也坦诚承认其局限性。LIFT在捕捉组合信息方面的能力仍然不完整，特别是在交换对象（swap object）和交换属性（swap attribute）任务上，相比其他SugarCrepe任务，准确率相对较低。研究人员认为这一局限可能源于对比学习目标仍然主要关注对齐低阶统计信息。应对这一挑战需要探索更精细的信息论度量来进行语言-图像对齐，这是未来工作的一个重要方向。

此外，由于计算资源限制，研究团队无法评估LIFT在超过12.8亿训练样本时的可扩展性。他们承认CLIP及其变体可能表现出更有利的扩展行为，因为它们联合训练文本和图像编码器，而LIFT保持其文本编码器冻结。先前研究表明，选择性解冻LLM的最后四层可以显著提高图像编码器的可扩展性，而不会产生过高的计算成本。如何在主流语言-图像对齐管道中高效微调LLM仍是未来工作的重要方向。

九、总结：文本编码器不必从零训练

归根结底，伯克利大学的这项研究挑战了视觉语言模型训练的核心假设——文本和图像编码器必须从头开始联合训练才能达到最佳的语言-图像对齐效果。LIFT证明，使用预训练的LLM作为固定文本编码器，只训练图像编码器就能达到甚至超越CLIP的效果，特别是在需要理解组合信息和处理长文本描述的场景中。

这种方法不仅大幅提高了计算效率，还在多项任务上取得了卓越表现。特别是，LIFT解决了CLIP在处理组合信息方面的短板，如空间位置、对象-属性关联和对象-对象关系的理解。

LIFT的成功启示我们，大型语言模型已经捕获了丰富的语言表示，可以有效指导视觉表示学习，而无需从头训练文本编码器。这种方法为视觉语言模型的发展提供了一条更高效、更有效的路径。

对于研究人员和工程师来说，LIFT提供了一种新的思路：利用现有的强大语言模型来指导其他模态的表示学习，而不是每次都从零开始。这种方法可能适用于更广泛的多模态学习场景，如音频-文本对齐、视频-文本对齐等。

对于普通用户来说，LIFT的进步意味着未来的AI系统将更好地理解图像中的复杂关系和细节，能够更准确地回答关于图像中"谁在做什么"、"什么在哪里"等问题，从而提供更自然、更智能的人机交互体验。

视觉语言模型大型语言模型组合理解能力

分享至