微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

双域稳健性：CLIP模型需要一个稳健的文本编码器

多模态模型对抗鲁棒性文本编码器

双域稳健性：CLIP模型需要一个稳健的文本编码器

作者：科技行者

2025-06-08 16:44

分享至：

这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题，提出了LEAF方法（Levenshtein高效对抗性微调）来增强文本编码器的稳健性。实验表明，LEAF显著提高了模型在面对文本扰动时的性能，在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时，LEAF显著提高了对抗噪声下的生成质量；在多模态检索任务中，它平均提高了10个百分点的召回率。此外，LEAF还增强了模型的可解释性，使文本嵌入的反演更加准确。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-08 16:44 • 科技行者

在当今人工智能发展迅速的时代，多模态模型因其同时处理文本和图像的能力而广受关注。其中，CLIP（Contrastive Language-Image Pretraining）模型以其简单而强大的设计成为众多视觉-语言任务的基础工具。这项由瑞士洛桑联邦理工学院（EPFL）的Elias Abad Rocamora、Yongtao Wu和Volkan Cevher，以及德国图宾根大学的Christian Schlarmann、Naman Deep Singh和Matthias Hein共同完成的研究，发表于2025年6月3日的arXiv预印本（arXiv:2506.03355v1 [cs.LG]），首次深入探讨了CLIP模型文本编码器的对抗鲁棒性问题。

想象一下，你在使用一个能同时理解图片和文字的AI系统。它看起来工作得很好，直到有人稍微改变了一张图片或一句话中的一个字符，突然间，这个系统就完全被"迷惑"了，给出了荒谬的回答。这就是对抗攻击的威力，而本研究正是致力于解决这个问题，特别是针对文本部分的对抗攻击。

在过去，研究人员已经开始关注如何让CLIP模型的图像编码器更加稳健，能够抵抗图像对抗攻击。然而，文本编码器的稳健性却一直被忽视。想象一下，如果一个恶意用户只是改变了"bear"（熊）这个词中的一个字母，变成了"beer"（啤酒），文本到图像生成模型可能就会生成完全不同的图像。这不仅是一个理论问题，更是一个实际的安全隐患，特别是对于那些集成了CLIP模型的下游应用，如文本到图像生成模型或大型视觉语言模型。

研究团队提出了一种名为LEAF（Levenshtein Efficient Adversarial Finetuning）的方法，这是一种高效的对抗性微调方法，专门针对文本域设计，并且能够扩展到大型CLIP模型。就像为房子增加防盗系统一样，LEAF能够显著提高CLIP模型在文本域面对对抗攻击时的零样本准确率，同时保持由稳健图像编码器提供的视觉性能。

当与文本到图像扩散模型（如Stable Diffusion）结合时，LEAF能够提高在对抗噪声下的生成质量。当在多模态检索任务中使用时，稳健的CLIP编码器能够提高对抗噪声下的召回率。更有趣的是，稳健的文本编码器还能促进通过直接优化从其嵌入中更好地重构输入文本，使模型更加可解释。

这项研究填补了CLIP模型稳健性研究的重要空白，为构建更安全、更可靠的多模态AI系统提供了关键技术。接下来，让我们深入了解这项研究的细节，看看研究团队是如何让CLIP模型在文字和图像两个领域都变得更加坚固的。

一、CLIP模型及其脆弱性：为什么我们需要稳健的文本编码器？

CLIP模型是一个将图像和文字映射到同一共享空间的强大工具，它由OpenAI在2021年推出。简单来说，CLIP就像是一个翻译官，能够将图片和文字翻译成同一种"语言"（即向量表示），这样我们就能比较它们的相似度。这种能力使CLIP成为多种多模态任务的基石，包括图文检索（根据文字找图片或根据图片找文字）、大型多模态模型（如能够理解图片并给出文字回应的AI）以及文本到图像生成模型（如根据文字描述生成图片的Stable Diffusion）。

然而，正如一栋漂亮的房子可能因为一个小小的漏洞而被闯入，CLIP模型也存在安全隐患。研究人员发现，对输入的微小扰动（无论是图像还是文本）都可能导致CLIP嵌入的显著偏移。想象一下，如果你只是改变了句子中的一个字母，比如将"A big burly grizzly bear"（一只大壮硕的灰熊）变成"A big burly grizzly beer"（一只大壮硕的灰熊啤酒？），CLIP可能会将这两个完全不同含义的句子映射到相似的空间，或者将原本应该相似的内容映射到完全不同的空间。

这种脆弱性不仅仅是理论上的问题。当CLIP被集成到下游任务中时，如文本到图像生成模型或大型视觉语言模型，这种脆弱性可能被恶意利用，导致模型产生意料之外的、甚至可能有害的输出。例如，一个恶意用户可能通过精心设计的文本扰动，诱导文本到图像生成模型生成不适当的内容，尽管用户的原始提示看起来完全无害。

在过去，研究人员主要关注如何提高CLIP图像编码器的稳健性。例如，Mao等人在2023年提出了TeCoA方法，通过对抗性微调使图像编码器对视觉对抗攻击更具鲁棒性。随后，Schlarmann等人在2024年提出了FARE方法，这是一种无监督的鲁棒性微调方法，旨在保留原始图像嵌入同时增强鲁棒性。这些方法使得集成CLIP的大型语言模型能够更好地抵抗视觉对抗攻击。

然而，CLIP的文本编码器稳健性却一直被忽视。这就像只给房子的正门安装了安全系统，却忽略了后门和窗户的安全。本研究正是填补了这一空白，提出了LEAF方法，这是第一个专门针对CLIP文本编码器的对抗性微调方法。

二、LEAF方法：如何打造稳健的文本编码器？

想象一下你正在训练一只狗识别各种命令，而不仅仅是精确的标准命令，还包括那些发音略有不同但意思相同的变体。LEAF方法就像是这样一种训练过程，它教会CLIP的文本编码器在面对微小的文本变化时保持稳定的理解。

LEAF的核心思想是受到Schlarmann等人2024年提出的FARE方法的启发。FARE方法旨在通过对抗性微调使图像编码器在面对扰动时产生接近原始图像嵌入的输出。类似地，LEAF方法针对文本编码器进行对抗性微调，使其在面对文本扰动时产生接近原始文本嵌入的输出。

具体来说，LEAF方法优化以下目标函数：

min_θ Σ_i max_{S'_i:dLev(S_i,S'_i)≤k∧S'_i∈C(S_i)} ||f_θCLIP(S_i) - f_θ(S'_i)||^2_2

这个看起来复杂的公式实际上描述了一个简单的想法：我们希望微调后的文本编码器f_θ在处理扰动后的文本S'_i时，产生的嵌入尽可能接近原始CLIP文本编码器f_θCLIP处理原始文本S_i时产生的嵌入。其中，dLev表示Levenshtein距离（衡量两个字符串之间的编辑距离），k是允许的最大扰动数量，C(S_i)是满足语义约束的句子集合。

为了实现这一目标，研究团队面临两个主要挑战：

首先，如何高效地生成对抗性文本扰动。在图像领域，研究人员通常使用投影梯度下降（PGD）生成对抗性扰动。然而，文本是离散的，无法直接应用梯度下降。此前的工作如Abad Rocamora等人2024年提出的Charmer方法可以生成有效的文本对抗样本，但计算成本高，特别是当句子长度增加时。

为解决这个问题，研究团队提出了LEAF的核心创新：一种可以在训练批次内并行化的攻击方法。与Charmer相比，LEAF将计算时间减少了一个数量级，同时几乎不损失性能。LEAF攻击的工作原理如下：

1. 首先，随机选择ρ个位置，将这些位置的字符替换为空格，然后选择损失最高的位置。 2. 然后，随机选择ρ个字符，将它们放在上一步选择的位置上，再次选择损失最高的字符作为最终扰动。

这种方法允许在每次前向传播中评估ρ×B个句子，其中B是批次大小。这大大加速了对抗性训练过程。

第二个挑战是确保生成的对抗性扰动保持语义一致性。为此，研究团队采用了Chanakya等人2024年提出的语义约束，即不允许扰动生成新的英语单词。例如，将"bear"（熊）改为"beer"（啤酒）会改变句子的语义，因此应该被禁止。这些约束对于文本到图像生成任务尤为重要，因为语义的微小变化可能导致生成完全不同的图像。

通过实验，研究团队确定了LEAF方法的最佳超参数：ρ=50（每次评估50个候选扰动），k=1（允许一个字符的扰动），并使用语义约束。这种配置在提高文本领域鲁棒性的同时，对图像领域的性能影响最小。

三、实验结果：LEAF在多种任务上的表现

研究团队对LEAF方法进行了全面的评估，探索了它在多种下游任务中的表现。实验使用了CLIP-ViT-L/14、OpenCLIP-ViT-H/14、OpenCLIP-ViT-g/14和OpenCLIP-ViT-bigG/14等多种CLIP模型。在视觉方面，他们将Schlarmann等人的FARE方法扩展到ViT-H/14和ViT-g/14模型。所有模型都在DataComp-small数据集的前80,000个样本上训练了30个周期。

### 零样本分类任务

首先，研究团队评估了LEAF方法在零样本分类任务上的表现。零样本分类是指模型能够在没有见过任何训练样本的情况下对新类别进行分类的能力。

在AG-News数据集上，使用LEAF微调的文本编码器将对抗性准确率从44.5%提高到了63.3%（在k=1，即允许一个字符变化的情况下）。同时，在ImageNet数据集上，结合FARE微调的图像编码器和LEAF微调的文本编码器，模型能够在两个域都保持较高的对抗性准确率。

更令人印象深刻的是，尽管LEAF方法只在k=1的情况下进行训练，但它能够泛化到更大的扰动。在k=5的情况下（允许5个字符的变化），LEAF微调的模型仍然保持了明显高于基线模型的性能。

### 文本到图像生成

接下来，研究团队将LEAF微调的文本编码器集成到Stable Diffusion（SD-1.5）和SDXL等文本到图像生成模型中。

实验结果表明，使用LEAF微调的文本编码器能够显著提高对抗噪声下的生成质量。例如，在MS-COCO数据集上，使用k=2的对抗性扰动时，LEAF微调的文本编码器生成的图像CLIPScore比原始模型高2.27分。视觉上，使用原始文本编码器的模型在面对文本扰动时可能生成完全不相关的图像（如将描述熊的文本生成足球运动员的图像），而LEAF微调的模型能够保持更好的语义一致性。

更有趣的是，尽管SafeCLIP专门设计用于避免生成NSFW内容，但在MS-COCO数据集的k=2和k=4扰动下，LEAF微调的文本编码器触发NSFW过滤器的频率甚至低于SafeCLIP。

### 文本-图像检索

CLIP模型常用于检索任务，如基于文本查找相关图像或基于图像查找相关文本。这些应用在数据集/内容过滤和NSFW检测等场景中尤为重要。

研究团队在MS-COCO数据集上评估了LEAF微调的模型在检索任务中的表现。结果显示，在k=2的对抗性扰动下，使用LEAF微调的文本编码器的模型比原始CLIP模型平均高出10个百分点的召回率。

视觉上，当输入查询受到对抗性扰动时，原始模型可能检索到完全不相关的图像，而稳健模型能够保持检索结果的语义相关性。例如，当"a gaggle of geese swim in a body of water"（一群鹅在水中游泳）被扰动为"a gaggle of geesexswim in a body of wa2er"时，原始模型检索到了与卡车和人物相关的图像，而稳健模型仍然能够检索到与鹅和水相关的图像。

### 文本嵌入反演

最后，研究团队探索了文本嵌入反演，即从文本嵌入重构原始文本的能力。这是一个重要的实验，因为它显示了模型的可解释性和语义保留能力。

研究人员从MS-COCO随机抽取100个标题，通过原始和稳健的文本编码器生成嵌入，然后尝试通过直接优化重构原始文本。结果显示，使用LEAF微调的文本编码器能够更好地保留语义信息，使得重构更加准确。例如，在ViT-L/14模型上，使用稳健文本编码器的单词召回率从34.4%提高到了46.4%。

这些结果表明，LEAF不仅提高了模型的对抗鲁棒性，还增强了其语义保留能力和可解释性。

四、LEAF的工作原理及优势

为了更好地理解LEAF的工作原理，我们可以将其比作一种"免疫训练"。就像人体通过接触弱化的病原体来建立免疫系统一样，LEAF通过让文本编码器接触各种可能的文本扰动来增强其鲁棒性。

LEAF方法的核心是一种高效的对抗性训练策略，它包含两个关键创新：

首先，LEAF采用了一种可并行化的文本攻击方法，大大提高了训练效率。传统的文本对抗攻击方法，如Charmer，需要评估与句子长度相关的大量扰动，这在批处理训练中效率低下。相比之下，LEAF只评估固定数量（ρ）的扰动，无论句子长度如何。这使得LEAF在训练时比最快的Charmer变体快10倍以上，同时几乎不损失性能。

其次，LEAF引入了语义约束，确保生成的对抗性扰动不会改变句子的原始含义。这一点对于下游任务如文本到图像生成尤为重要，因为语义的微小变化可能导致生成完全不同的图像。

LEAF的这些创新使其具有以下优势：

1. 高效性：LEAF比传统方法快一个数量级，使其能够扩展到大型CLIP模型。

2. 泛化能力：虽然LEAF只在k=1的扰动下训练，但它能够泛化到更大的扰动（如k=5），显示出良好的泛化能力。

3. 多任务适应性：LEAF微调的文本编码器可以无缝集成到多种下游任务中，如零样本分类、文本到图像生成和检索，显著提高这些任务在对抗环境下的性能。

4. 可解释性增强：LEAF不仅提高了模型的对抗鲁棒性，还增强了其语义保留能力和可解释性，使得从嵌入重构原始文本更加准确。

5. 与图像鲁棒性的互补性：LEAF与FARE等图像对抗性微调方法互补，共同构建了在两个域都具有鲁棒性的CLIP模型。

值得注意的是，LEAF方法的训练目标与FARE类似，旨在保留原始CLIP编码器的语义空间，同时增强对对抗扰动的鲁棒性。这使得LEAF微调的文本编码器可以直接替换现有系统中的原始编码器，而无需重新训练整个流水线。

五、研究意义与未来方向

这项研究的意义远超过技术创新，它为构建更安全、更可靠的多模态AI系统提供了关键技术。

首先，通过同时增强CLIP模型在文本和图像两个域的鲁棒性，研究团队打造了一个更全面的防御系统。这就像同时加固房子的所有入口，而不仅仅是前门。这种全面的防御对于依赖CLIP的关键应用，如内容过滤和NSFW检测，尤为重要，因为这些应用的失效可能导致严重后果。

其次，LEAF方法的高效性使其能够扩展到大型CLIP模型，这对于跟上AI快速发展的步伐至关重要。随着模型规模的不断增加，高效的对抗性训练方法变得越来越重要。

第三，LEAF方法在多种下游任务中的优越表现表明，它不仅是一种技术改进，还是一种能够在实际应用中产生实质性影响的方法。无论是提高文本到图像生成的质量，增强检索系统的可靠性，还是提升模型的可解释性，LEAF都展示了广泛的应用价值。

当然，这项研究也有一些限制。首先，虽然文本和图像编码器都经过了对抗性微调，但它们是独立训练的，可能仍然存在联合优化的对抗攻击。其次，研究主要关注字符级的鲁棒性，而没有研究词元级的鲁棒性，因为词元级攻击通常会改变句子的语义。此外，由于计算资源的限制，研究团队没有训练最大的图像编码器（OpenCLIP-ViT-bigG）或最新的EVA-CLIP模型。

未来的研究方向可能包括：

1. 探索文本和图像编码器的联合对抗性微调，以构建对联合攻击更加鲁棒的CLIP模型。

2. 在保持语义一致性的前提下，研究词元级的鲁棒性，可能需要更复杂的语义约束。

3. 将LEAF方法扩展到更大的模型和其他使用文本编码器的任务，如检索增强生成（RAG）。

4. 探索更高效的对抗性训练方法，进一步减少计算成本，使其能够应用于更广泛的场景。

总的来说，这项研究为构建更加稳健的多模态AI系统迈出了重要一步，为未来的研究和应用提供了宝贵的见解和工具。就像建筑师不仅关注建筑的美观，还关注其安全性和耐久性一样，AI研究人员也需要同时关注模型的性能和鲁棒性。LEAF方法就是这种平衡的一个绝佳例子，它在提高模型鲁棒性的同时，保持甚至增强了其在多种任务上的性能。

多模态模型对抗鲁棒性文本编码器

分享至