微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

un?CLIP：通过反转unCLIP来提升CLIP模型的视觉细节捕捉能力

人工智能计算机视觉CLIP模型改进

un?CLIP：通过反转unCLIP来提升CLIP模型的视觉细节捕捉能力

作者：科技行者

2025-06-04 17:13

分享至：

un?CLIP是一项创新研究，通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现，虽然CLIP在全局图像理解方面表现出色，但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力，同时保持与CLIP原始文本编码器的语义对齐。实验结果表明，un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法，为视觉-语言模型的发展提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-04 17:13 • 科技行者

在人工智能和计算机视觉领域，一种名为CLIP（对比语言-图像预训练）的模型近年来取得了巨大成功，成为了许多视觉和多模态任务的基础。然而，最近的研究表明，CLIP在区分图像中的细节差异方面存在不足，在密集预测和以视觉为中心的多模态任务上表现不佳。针对这一问题，来自中国科学院计算技术研究所和中国科学院大学的研究团队（李银琦、赵佳和、常虹、侯瑞兵、单世光、陈熙霖）提出了一种名为"un?CLIP"的创新方法，这一研究发表于2025年5月的arXiv预印本平台（arXiv:2505.24517v1）。

一、为什么我们需要改进CLIP？

想象一下，你有一个非常聪明的朋友，他能够大致判断出一张照片上有什么（"这是一只猫"、"这是一座山"），但当你问他更细节的问题时（"猫的眼睛是什么颜色？"、"山上有多少棵树？"），他就变得犹豫不决，无法给出准确答案。CLIP模型就像这个朋友——它擅长理解图像的整体含义，但在处理细节时就显得力不从心。

CLIP模型是由OpenAI团队在2021年开发的，它通过对互联网上数亿对图像-文本对进行训练，学会了将图像和文本映射到同一个"理解空间"中。这使得CLIP可以执行各种任务，如零样本图像分类（即识别训练中从未见过的类别）和跨模态检索（根据文本找图像，或根据图像找文本）。

然而，CLIP主要通过全局层面的图像-文本对比学习进行训练，这导致其图像编码器不太擅长捕捉视觉细节。这一局限性在密集视觉任务（如语义分割）和视觉中心的多模态任务中尤为明显。有些研究者尝试通过在推理时修改网络架构或部署额外的视觉自监督编码器来解决这个问题，但这些方法并没有从根本上解决CLIP捕捉视觉细节能力不足的问题。

还有一些研究者尝试通过训练具有更详细的视觉-文本监督的新CLIP变体来构建更细粒度的模型，例如区域-文本对齐。然而，收集高质量的区域-文本配对数据集在现实世界中比获取原始CLIP的图像-文本对更加困难，因为前者在网络上的数量有限，通常需要人工标注。此外，重新训练CLIP模型的成本很高，最好能避免。

因此，研究团队决定专注于从以视觉为中心的角度改进现有的CLIP模型，仅使用图像数据。

二、unCLIP：一个合适的改进框架

研究团队发现，一种特定类型的生成模型——unCLIP，为实现他们的目标提供了合适的框架。让我们来理解什么是unCLIP以及为什么它适合改进CLIP。

想象你正在玩一个"传话"游戏：一个人（CLIP图像编码器）看到一张图片，然后用几句话描述它给第二个人（unCLIP生成器），第二个人只能基于这些描述重新画出图片。如果第一个人的描述太过简略，遗漏了重要细节，第二个人画出的图片就会丢失许多原始图片中的信息。

unCLIP正是这样一个系统：它训练一个图像生成器，以CLIP图像嵌入（即CLIP看到图像后产生的"描述"）为条件来生成图像。换句话说，它反转了CLIP图像编码器的过程。这个编码-解码过程提供了一个工具，让我们可以观察CLIP忽略了图像的哪些特征。

更重要的是，这个编码-解码管道不仅可以用于观察CLIP的失败，还提供了一个适当的框架来以视觉为中心的方式改进CLIP。构建一个更细粒度的CLIP需要增强其图像编码器捕捉视觉细节的能力，同时保持图像-文本对齐属性。研究团队注意到，unCLIP框架非常适合实现这一目标，原因有二：

1. unCLIP是一个生成模型，学习图像数据的底层分布，这增强了它捕捉图像中复杂性和变化的能力。

2. unCLIP将预训练CLIP的图像嵌入作为其条件输入，这些嵌入与它们对应的CLIP文本嵌入对齐。

基于这两个特性，研究团队提出通过反转unCLIP图像生成器来微调CLIP编码器，从而将生成器丰富的视觉知识转移到编码器中，并利用unCLIP生成器输入空间与CLIP图像-文本嵌入空间的语言对齐特性。他们将这种方法命名为"un?CLIP"，因为它反转了unCLIP图像生成器。

三、un?CLIP：方法设计与实现

想象你正在教一个学生解数学题。最初，这个学生（CLIP）只能解决简单的问题，忽略了许多细节。现在，你找来一位擅长解释详细步骤的优秀家教（unCLIP），让这位家教反向引导学生，帮助学生学会注意每一个细节。这就是un?CLIP的核心思想。

### 目标与框架设计

un?CLIP的目标是最大化输入图像与CLIP图像编码器产生的嵌入之间的互信息，同时保持语言对齐约束。用更通俗的语言来说，就是让CLIP能够捕捉到尽可能多的图像细节，同时确保它仍然能够理解这些细节与语言描述的关系。

研究团队发现，这个目标等同于最大化一个条件概率：给定CLIP图像嵌入，生成原始图像的概率。恰好，预训练的unCLIP模型提供了一个合适的工具来估计这个概率，因为它正是接受CLIP图像嵌入作为输入，然后生成图像。

具体来说，un?CLIP的训练过程如下：

1. 首先，研究团队使用现有的预训练unCLIP模型作为他们框架的后端。这个模型已经学会了如何从CLIP图像嵌入生成逼真的图像。

2. 然后，他们保持unCLIP生成器的参数冻结（不更新），只更新CLIP图像编码器的参数。这样做是为了确保优化后的嵌入仍然接近unCLIP生成器的原始输入域，即原始CLIP图像-文本嵌入空间。

3. 训练目标是最小化一个扩散损失，这个损失与生成模型的似然（给定CLIP图像嵌入，生成原始图像的概率）直接相关。

通过这种方式，CLIP图像编码器学会了捕捉更多的视觉细节，因为它需要提供足够的信息给unCLIP生成器，使其能够准确地重建原始图像。同时，由于unCLIP生成器的输入空间与CLIP的原始嵌入空间对齐，这种改进不会破坏CLIP的语言对齐属性。

### 与现有方法的比较

研究团队将他们的方法与一个名为DIVA的先前工作进行了比较。DIVA也尝试使用预训练的生成模型来增强CLIP，但它使用的是一个预训练的文本到图像的生成模型，其输入空间与CLIP图像嵌入在嵌入维度和语义表示方面都不匹配。为了弥合这一差距，DIVA在CLIP图像编码器和生成模型之间插入了一个可训练的投影层。

相比之下，un?CLIP利用了unCLIP生成模型，这个模型的输入空间已经与CLIP图像嵌入对齐，从而实现了一个无投影层的框架，使CLIP编码器的增强过程更加无缝和有效。

四、实验设置与结果分析

### 实验设置

研究团队使用了几种预训练的CLIP和unCLIP模型进行实验：

1. 对于CLIP模型，他们使用了OpenAI CLIP ViT-L-14@224、OpenAI CLIP ViT-L-14@336、OpenCLIP ViT-H-14@224和SigLIP ViT-SO-14@384。

2. 对于unCLIP模型，他们使用了一个名为Stable unCLIP的开源实现，该实现提供了两个预训练模型，分别基于不同的CLIP图像嵌入。

un?CLIP在8块Nvidia-A100-40GB GPU上训练，全局批量大小为32，学习率为3e-7，使用AdamW优化器。为了公平比较，他们在CC3M数据集上训练un?CLIP一个周期，与DIVA保持一致，耗时约15至32小时（取决于不同的模型类型）。

### 评估任务与基准

研究团队在几个CLIP已被应用且需要更详细图像理解能力的任务上评估了他们的方法：

1. MMVP-VLM基准：这个基准包含9种视觉模式，每种由15对图像（共30张图像）和相应的文本描述组成。这些图像对是以对原始CLIP模型的对抗方式收集的，在CLIP特征空间中接近，但在视觉自监督模型（DINOv2）的特征空间中相距较远。

2. 密集视觉-语言推理评估：他们在开放词汇语义分割任务上评估了方法，这是一项像素级任务，因此更能评估CLIP模型捕捉细节的能力。

3. 多模态大型语言模型评估：他们评估了改进后的CLIP模型是否能增强以CLIP作为视觉编码器的多模态大型语言模型的性能，特别关注以视觉为中心的基准测试。

### 实验结果

1. **MMVP-VLM基准评估**：

un?CLIP在不同CLIP模型上取得了最佳的平均性能。值得注意的是，un?CLIP显著优于原始CLIP模型和之前的DIVA方法。这表明un?CLIP是一种通用且有效的方法，可以改进CLIP以区分图像中更详细的视觉差异。

例如，对于OpenAI ViT-L-14@224模型，原始CLIP的平均准确率为19.3%，而un?CLIP提高到了32.6%。对于SigLIP ViT-SO-14@384模型，un?CLIP将准确率从37.0%提高到了41.5%。

2. **密集视觉-语言推理评估**：

un?CLIP在不同数据集和分割方法上取得了最佳结果，显著改善了使用原始CLIP模型的性能。更值得注意的是，切换到改进后的模型可以进一步提高最先进的ClearCLIP方法的平均性能，提升约3.5个mIoU（平均交并比）。

例如，当使用OpenAI ViT-L-14@336作为CLIP主干时，在没有背景类的VOC20数据集上，原始CLIP的mIoU为11.7%，而un?CLIP提高到了17.3%。在使用ClearCLIP分割方法时，un?CLIP在VOC20上的性能从72.4%提高到了76.5%。

研究团队还提供了定性比较结果，展示了原始CLIP模型及其改进版本的分割效果。结果表明：

- 虽然使用原始模型时图像的整体语义被正确预测，但分割结果中存在许多局部噪声（错误预测）。这是因为原始CLIP模型是针对全局图像理解目标训练的，忽略了图像细节。

- DIVA的分割图与原始CLIP模型非常接近，表明DIVA的微调步骤相对保守，无法显著改善像素级任务的性能。

- 相比之下，un?CLIP消除了部分错误预测，结果变得更加平滑，表明un?CLIP是一种有效的上游微调方法，可以使CLIP模型更好地执行密集预测任务。

3. **多模态大型语言模型评估**：

研究团队评估了他们改进后的CLIP模型是否能增强以CLIP作为视觉编码器的多模态大型语言模型的性能。为了确保公平比较，他们采用了与DIVA和GenHancer相同的评估设置，使用LLaVA-1.5测试改进的CLIP，而不修改LLaVA的默认训练配置。

结果表明，un?CLIP改进的视觉细节捕捉能力也使多模态大型语言模型受益，导致性能提升，特别是在以视觉为中心的基准测试上。例如，在CV-Bench 2D基准测试中，使用原始CLIP的LLaVA-7B在ADE20K上的准确率为12.7%，而使用un?CLIP提高到了15.1%。在COCO上，性能从49.6%提高到了53.9%。

五、深入分析un?CLIP

研究团队对他们的方法进行了消融研究，以更好地理解un?CLIP的工作原理和各组件的贡献。

### 扩散损失作为诊断工具

研究团队使用扩散损失（定义在方法部分）作为衡量使用不同CLIP编码器时重建能力的指标。损失越低表示CLIP编码器在输入图像中捕捉了更多细节，从而产生更好的重建效果。

他们发现，具有较小损失的模型在识别任务上表现更好。这是因为扩散损失是生成模型似然的下界，与他们的微调目标（捕捉更多视觉细节）直接相关。值得注意的是，由于计算扩散损失不需要任务标签，它可以作为一个工具来预测使用默认设计时任务性能的趋势。

### 引入投影层的影响

研究团队调查了在他们的框架中引入投影层的影响。由于unCLIP的输入空间已经与CLIP图像嵌入对齐，引入投影层实际上并不需要，甚至可能破坏这种对齐。

他们的实验验证了这一点。当使用随机初始化的线性投影器时，由于插入的投影器改变了预训练CLIP-unCLIP模型中的数据流，它达到了比原始模型更高的损失，导致性能下降。即使将初始化修改为恒等权重矩阵，使其在微调开始时就像不存在一样，一旦投影器被更新，编码器输出与生成器输入之间的对齐就不再保持，可能会带走从生成器学到的部分知识，导致性能次优。

### 更新生成器的影响

研究团队在微调过程中将unCLIP生成器设置为冻结状态，以鼓励微调后的编码器的输出保持接近原始unCLIP的输入空间，即原始CLIP图像-文本嵌入空间。

他们检查了同时更新编码器和生成器的影响。结果表明，完全微调实现了最佳重建，因为有更多参数可以调整。然而，类似于上面讨论的可学习投影器的问题，更新生成器会导致微调后的编码器偏离原始嵌入空间，导致性能下降。在这种情况下，我们不能期望在观察到更好的重建时获得更好的识别性能。

### 可视化分析

研究团队对他们的默认方法和一些代表性的消融进行了可视化分析。具体来说，他们使用微调后的编码器对输入图像执行编码-解码管道，从而可视化图像的哪些特征被成功捕捉。

通过比较原始CLIP和un?CLIP生成的图像，可以看出微调后的un?CLIP成功捕捉了图像的主要模式，如第一个示例中的方向和第二个示例中的空间位置。更长时间的微调实现了更好的定性重建，这与图中的定量结果一致。

另一方面，更新生成器G实现了在视觉上可比或略好于默认方法的重建（例如，第2行中雪人的形状更好），但在这种情况下，更好的重建并不意味着更好的识别性能，正如前面段落中分析的那样。

六、结论与局限性

研究团队提出了一种基于图像的CLIP微调方法un?CLIP，以解决预训练CLIP模型在捕捉视觉细节方面不足的问题。通过反转一个生成模型，该模型将CLIP图像嵌入作为输入来生成图像，他们的方法使微调后的CLIP能够从强大的生成模型中获取知识，同时保持与其原始嵌入空间的对齐。

un?CLIP的方法简单而有效，基于一个关键发现：现有的unCLIP生成模型正好符合他们的目标。在需要视觉细节捕捉的图像和像素级任务上的广泛实验表明，通过将原始CLIP替换为他们微调后的模型，CLIP已应用的任务性能得到了显著提升，如开放词汇语义分割和以视觉为中心的多模态理解。

这项工作的一个潜在局限性是微调CLIP需要首先有一个预训练的unCLIP模型。幸运的是，社区已经提供了一些预训练的unCLIP模型，这些模型是基于广泛使用的CLIP主干构建的。但如果考虑训练unCLIP的计算成本，这种额外成本可能是可以接受的，因为改进基础模型CLIP是一项上游工作，可以使许多CLIP已应用的以视觉为中心的下游任务受益。

总的来说，un?CLIP为增强CLIP及类似的视觉-语言模型提供了一种新的视角，使它们能够更好地捕捉图像中的视觉细节，同时保持其跨模态对齐的能力。这项工作为未来改进视觉-语言模型的研究开辟了新的可能性。

人工智能计算机视觉CLIP模型改进

分享至