微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

视觉指令瓶颈调优：通过信息压缩提升多模态大语言模型的鲁棒性

多模态大语言模型信息瓶颈原理鲁棒性优化

视觉指令瓶颈调优：通过信息压缩提升多模态大语言模型的鲁棒性

作者：科技行者

2025-05-27 10:26

分享至：

这篇研究介绍了"视觉指令瓶颈调优"（Vittle）方法，该方法通过应用信息瓶颈原理，增强多模态大语言模型应对分布偏移的能力。研究不依赖增加数据量或模型规模，而是教会模型像人类一样进行"概念压缩"，在保留关键信息的同时丢弃冗余细节。在45个数据集的30种分布偏移场景中，Vittle显著提高了模型的鲁棒性，同时保持了标准任务上的出色表现，且几乎不增加推理时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 10:26 • 科技行者

威斯康星大学麦迪逊分校研究团队改变多模态大语言模型学习方式，显著提升其应对干扰的能力

2025年5月，威斯康星大学麦迪逊分校计算机科学系的Changdae Oh、Jiatong Li、Shawn Im和Yixuan Li教授团队在arXiv预印本平台发表了一篇创新研究论文《Visual Instruction Bottleneck Tuning》（视觉指令瓶颈调优，简称Vittle）。这项研究为解决多模态大语言模型在分布偏移情况下的性能下降问题提供了一种全新的解决方案。论文编号为arXiv:2505.13946v1。

想象一下，你正在使用一个非常聪明的AI助手，它既能看图片又能读文字。这个助手平时表现很好，但当图片有些模糊，或者你的问题中有几个拼写错误时，它突然就变得笨拙起来，给出完全错误的回答。这就是当前多模态大语言模型(MLLMs)面临的关键问题——它们在处理与训练数据略有不同的输入时表现得非常脆弱。

现有解决这一问题的方法通常依赖于两种途径：要么收集更多更多样化的训练数据（数据中心方法），要么增加模型的规模和复杂度（模型中心方法）。这两种方法都需要大量资源投入——无论是人力标注数据还是计算资源。

威斯康星大学麦迪逊分校的研究团队则从完全不同的角度思考这个问题。他们将目光转向了表示学习（representation learning）的视角，提出了一个基于信息瓶颈（Information Bottleneck，IB）原理的新方法。这就像是教会AI进行"概念压缩"——学习从海量感知信息中提炼出最关键、最本质的部分，同时丢弃无关的细节噪声。

人类智能之所以强大，很大程度上是因为我们能够将复杂的感官和认知输入压缩成简洁的抽象表示。通过优先保留显著特征并丢弃冗余信息，人类能够形成复杂数据实例的稳健原型表示，既能对低层次表面特征保持适当的不变性（对干扰有抵抗力），又能对高层次抽象特征保持敏感性（能识别关键差异）。可惜的是，当前的多模态大语言模型在这种不变性和敏感性之间的平衡上远远落后于人类。

论文的核心创新在于，研究团队将信息瓶颈原理应用于多模态大语言模型的指令调优过程。他们首先为MLLMs推导了信息瓶颈的变分下界，然后设计了一种名为"视觉指令瓶颈调优"（Vittle）的实用实现方法。

研究团队在45个数据集上对三种MLLMs进行了全面评估，包括30种分布偏移场景，涵盖开放式和封闭式问答以及物体幻觉检测任务。实验结果一致表明，Vittle通过追求"最小充分表示"的学习目标，显著提高了MLLM在分布偏移下的鲁棒性。

这项研究的意义在于，它找到了一种几乎不增加计算成本的方法，使多模态大语言模型能够更好地处理现实世界中的各种干扰和变化，从而提高其在实际应用中的可靠性和实用性。

为什么多模态大语言模型会受到干扰？

多模态大语言模型（MLLMs）已经成为AI领域的一项重大突破，它们将视觉编码器与大语言模型结合，能够同时处理图像和文本输入。这些模型通过被称为"视觉指令调优"的过程进行训练，使它们能够回答关于图像的问题或执行与图像相关的指令。尽管在标准基准测试上表现出色，甚至在某些任务上超越人类水平，但这些模型在面对分布偏移时存在严重的鲁棒性问题。

什么是分布偏移呢？想象你用一组干净、清晰的图片和完美无错的问题训练了一个AI系统。但在实际使用中，用户可能会上传略微模糊的照片，或者在提问时出现拼写错误。虽然对人类来说这些微小变化几乎不会影响理解，但对当前的MLLMs来说，这些细微变化可能导致它们表现大幅下降。

研究团队发现，这个问题的根源在于模型的内部表示空间结构。通过可视化分析，他们发现当输入受到扰动时（比如图像变模糊或文本出现拼写错误），模型会将这些扰动样本嵌入到与原始干净样本相距甚远的表示空间位置，尽管它们语义上完全等价。这种表示空间的分布偏移导致模型无法泛化到这些轻微变化的输入。

传统方法通常通过两种途径解决这个问题：一是收集更多更多样化的指令数据，二是增加底层模型的规模和表达能力。然而，这两种方法都需要消耗大量资源——要么是标注高质量数据的人力成本，要么是训练更大模型的计算成本。

研究团队提出了一个关键洞察：或许问题不在于数据量或模型大小不足，而是模型学习表示的方式有问题。他们将目光转向了信息瓶颈原理——这一原理最初由Tishby等人提出，用于衡量表示的质量。

信息瓶颈原理的核心思想是：一个好的表示应该同时满足两个条件：1）最大限度地保留与目标输出相关的信息；2）最小化从输入中保留的信息量。这听起来可能有些矛盾，但实际上非常符合人类认知的工作方式——我们会自动过滤掉无关的感知细节，只保留完成任务所必需的关键信息。

例如，当你看到一张模糊的狗的照片时，你的大脑会自动过滤掉模糊性这一表面特征，专注于识别"这是一只狗"这一关键信息。而当前的MLLMs却容易被这些表面特征干扰，无法提取出不变的语义概念。

研究团队基于这一洞察，设计了视觉指令瓶颈调优（Vittle）方法，旨在教会MLLMs像人类一样进行概念压缩，形成更加鲁棒的内部表示。

Vittle：如何设计信息瓶颈框架？

将信息瓶颈原理应用于多模态大语言模型面临几个独特的挑战。传统的信息瓶颈框架多用于小规模或分类设置，而将其整合到自回归多模态指令调优中非常复杂，因为这涉及到跨高维、序列化和异构模态的互信息建模。

研究团队首先回顾了信息瓶颈的基本原理。假设X是多模态输入查询（例如图像-文本对），Y是期望的输出，Z = f(X)是由MLLM编码器f(·)提取的中间表示。信息瓶颈原则旨在学习表示，使其与输出Y的互信息最大化，同时与输入X的互信息最小化。这可以表示为优化目标：

``` 最大化 IBf(X, Y) := I(Z, Y) - β·I(Z, X) ```

其中I(·,·)表示互信息，β是权衡系数。最小化I(Z, X)鼓励移除与输入模态相关的冗余或特定变化，而最大化I(Z, Y)确保表示保留预测期望输出所必需的任务相关信号。

这个原则非常适合稳健的指令调优，在这种情况下，多种多样的多模态输入需要在各种条件下映射到一致、有意义的输出。然而，由于互信息估计的难处理性以及自回归和多模态架构的复杂性，将信息瓶颈目标直接整合到MLLM训练中是非常具有挑战性的。

为了克服这些障碍，研究团队提出了一个针对MLLM的信息瓶颈目标的可处理变分界限。考虑到MLLMs的序列性质，他们将输入X = (Xv, Xt)和潜在表示Z = (Zv, Zt)分解为视觉和文本组件。然后，他们推导出I(Z, X)的上界：

``` I(Z, X) ≤ Exv[DKL(p(zv|xv)||r(zv))] + Exv,xt[DKL(p(zt|xv, xt)||r(zt))] ```

其中，p(zv|xv)和p(zt|xv, xt)是视觉和文本表示的后验分布，r(zv)和r(zt)是它们的变分先验近似。

同样，对于输出相关项I(Z, Y)，他们有下界：

``` I(Z, Y) ≥ Ex,y Ez|x[log q(y|z)] ```

其中q(y|z)是真实后验p(y|z)的变分近似，将由模型参数化。

结合I(Z, Y)的下界和I(Z, X)的上界，他们得到信息瓶颈目标的变分下界：

``` IB(X, Y) ≥ Ex,y Ez|x[log q(y|z)] - β(Exv[DKL(p(zv|xv)||r(zv))] + Exv,xt[DKL(p(zt|xv, xt)||r(zt))]) ```

使用数据上的蒙特卡洛近似，这个经验估计可以表示为：

``` Lβ = (1/N)∑? Ez|x?[log q(y?|z)] - β(DKL(p(zv|x?v)||r(zv)) + DKL(p(zt|x?v, x?t)||r(zt))) ```

为了实际计算这个信息瓶颈下界的经验估计，团队需要建模MLLM内部表示Z的后验分布p(zv|xv)和p(zt|xv, xt)，以及先验分布r(zv)和r(zt)。虽然原则上这些分布可以采取任意形式，但多变量高斯分布已被广泛应用于变分推理和概率嵌入文献中，因其数学易处理性和经验有效性。

研究团队遵循这一常见标准，将后验和先验设定为具有对角协方差的高斯分布，并详细阐述了它们的定义方式。

Vittle：具体如何实现？

研究团队设计的视觉指令瓶颈调优（Vittle）方法的核心是在LLM骨干网络中插入一个学习型瓶颈层。如下图所示，Vittle架构在LLM的中间层（通常是靠近模型顶部的25%位置）引入了两个瓶颈模块：一个用于视觉令牌，一个用于文本令牌。

这个瓶颈层由两个简单的多层感知器(MLP)块{gφv, gφt}组成，它们将每个d维令牌嵌入映射到后验高斯参数向量μ ∈ R?和σ? ∈ R??，分别用于视觉和语言模态。

具体来说，给定第l层的中间表示(zv, zt) = fθl(xv, xt)，Vittle定义：

``` p(zv|xv) = N(zv; μv, σ?v·I), p(zt|xv, xt) = N(zt; μt, σ?t·I) ```

其中[μv, σ?v] = gφv(fθl(xv))，[μt, σ?t] = gφt(fθl(xv, xt))，均值和方差参数沿MLP的输出维度拆分。这些MLP以与Transformer的前馈层相同的方式按位置应用，产生令牌级变分后验。

现在，可以通过zv ~ p(zv|xv)和zt ~ p(zt|xv, xt)从MLLM表示的后验分布采样。然后，为了在不变性和敏感性之间取得平衡，团队将原始表示z（瓶颈前）与其瓶颈对应项z插值为z = (1-α)z + αz。

这些表示被送入剩余层以计算输出的预测分布，即q(y|z) := fθl+(y|zv, zt)。虽然直接采样引入了不可微性，但他们可以使用重参数化技巧通过z = μ + σ ⊙ ε（其中ε ~ N(0, I)）启用梯度流，其中μ和σ是瓶颈MLP模块给定输入x的输出。

对于先验分布，团队考虑了两种实例化：

1. 固定标准高斯N(0, I)，它与输入无关并强制执行强各向同性（Vittle (F)） 2. 可学习高斯N(μψ, σ?ψ·I)，其中μψ和σ?ψ是跨样本共享的两个可学习向量（Vittle (L)）

每个先验以不同方式影响表示的形成——固定先验施加更强的正则化和鲁棒性，而可学习先验引入额外的灵活性，允许模型适应指令调优分布。

Vittle的完整架构如下工作：

1. 在LLM骨干网络之上放置一个特定层l 2. 瓶颈层gφ估计令牌嵌入的后验分布 3. 从这些后验中采样表示 4. 将采样表示与原始表示插值以平衡信息保留和压缩 5. 通过LLM的剩余层传递这些调整后的表示

在实践中，团队将β设置为0.1/d（其中d是LLM的隐藏维度），以相对于潜在维度的大小归一化KL正则化项。插值系数α按照余弦计划逐渐增加到0.5。在推理过程中，他们一致使用平均表示z = (z + z)/2。虽然视觉和文本令牌的目标层可能不同，但为简单起见，他们在7B大小LLM的32层中对两种模态都将l设置为24，即顶部25%层。

Vittle的理论基础

Vittle的学习目标有一个吸引人的理论解释，可以支持其在鲁棒性方面的改进。研究团队引入了一个最近提出的信息论度量——有效互信息差异（EMID），用于衡量MLLM在分布偏移下的鲁棒性，并展示了Vittle如何有助于改善EMID。

EMID的定义如下：设PΘ是一个参数为Θ的MLLM，给定输入指令X产生输出响应YΘ。对于联合分布PXY和QXY，PΘ在P和Q上的有效互信息差异定义为：

``` EMID(PXY, QXY; PΘ) := [I(PXYΘ) - I(PXY)] - [I(QXYΘ) - I(QXY)] ```

其中I(·)表示互信息，衡量输入指令和响应之间的相关性。EMID的值越高，表示MLLM PΘ在分布Q（测试数据）上与在分布P（训练数据）上相比性能下降越严重，因此我们希望实现较低的EMID值以确保鲁棒性。

研究团队推导出EMID的一个上界：

``` H[D 1/2 JS(PZv||QZv) + D 1/2 JS(PZt||QZt) + √ΔX|Z] + |H(PYΘ) - H(PY)| + |H(QYΘ) - H(QY)| ```

其中H和D 1/2 JS分别表示熵和詹森-香农散度(JSD)的平方根，ΔX|Z是一个与混合分布M = (P+Q)/2相关的项，H := maxx∈X[H(QY|x) + H(PYΘ)]。

Vittle通过最大化IB的变分下界来工作，该下界包含两部分：(1)最小化标准负对数似然项（表示期望风险），和(2)最小化KLD项以强制后验分布接近先验分布。

通过追求(1)，MLLM PΘ寻求最小化期望风险并减少其输出熵H(PYΘ)和H(QYΘ)。此外，它还通过促使所有后验样本靠近预定义的先验，减少表示分布PZ和QZ之间的JSD。

总之，减少的熵和JSD项导致更低的EMID，这意味着Vittle试图在训练和评估分布上实现最小的有效互信息差异，同时适应训练集内分布。

研究团队通过实验证明，Vittle确实在分布偏移下减少了JSD和EMID，并在第4节中展示，Vittle的良好理论性质转化为在30个分布偏移场景下的一致鲁棒性增益，同时保持训练分布内的任务性能。

实验设置与结果

为了全面评估Vittle的性能，研究团队在多种多模态基准测试上进行了广泛的实验，以评估其在分布偏移下的鲁棒性和泛化能力。实验跨越30个分布偏移，覆盖各种形式的扰动（在视觉和语言中）和长尾分布。

研究团队主要采用LLaVA-v1.5作为基线MLLM，该模型使用CLIP ViT-L/14-336px作为视觉编码器，Vicuna-v1.5-7B作为LLM，以及两层MLP作为投影器。他们遵循LLaVA的标准两阶段训练，复制第一阶段以进行图像-文本对齐，配置和数据集（LLaVA-pretrain-558k）与LLaVA-v1.5相同。然后，在LLaVA-mix-665k上应用Vittle目标。为了验证可扩展性和广泛适用性，他们还考虑了LLaVA-v1.5-13B和Prism-7B。

研究团队评估了三种代表性任务：

1. 开放式问答：使用LLaVA-Bench-COCO (LB-COCO)作为干净和典型数据集，LLaVA-Bench in-the-wild、LLaVA-Bench-Wilder和WildVision-Bench作为长尾数据集。然后，他们在LB-COCO样本上应用27种图像和文本扰动，产生28个扰动LB-COCO变体。

2. 物体幻觉检测：采用POPE作为干净和典型数据集，然后生成9个带有视觉扰动的POPE变体。

3. 封闭式问答：采用四个代表性数据集：ScienceQA、MMMU、MME和MMStar。

总的来说，实验涉及45个数据集（31个开放式、10个物体幻觉检测和4个封闭式任务）。

在物体幻觉检测任务中，Vittle在POPE的9个视觉扰动变体上始终优于标准目标，平均相对提升约1%。有趣的是，Vittle即使在干净的POPE上也优于基线，这表明Vittle的信息控制防止依赖单一模态的部分特征，这是幻觉的常见来源。

在开放式问答任务上，Vittle在各种扰动数据集上显著提高了性能，尤其是在文本扰动和联合扰动上。在两种Vittle变体中，Vittle (F)在扰动下展示出比Vittle (L)更好的泛化能力，表明保守的零中心各向同性先验分布在处理各种微妙的输入扰动方面的好处。

研究团队还通过评估不同扰动严重程度的模型来进一步探索Vittle的鲁棒性。结果显示，Vittle在不同程度的扰动下总体上实现了更好的性能，在严重扰动下性能优势更为明显。

在长尾分布上，Vittle也表现优异，尤其是Vittle (L)，它在LLaVA-Bench in-the-wild、LLaVA-Bench-Wilder和WildVision-Bench上取得了更好的结果。研究团队推测，可学习先验IB指导模型在保持对低级噪声的不变性的同时，学习对高级抽象更好的敏感性，这是通过允许额外的灵活性来塑造数据驱动的先验，从而在需要深入理解不规则查询的任务上产生更好的性能。

在封闭式问答任务上，Vittle展示了与标准方法相当的性能，这表明Vittle不仅可用于提高模型在分布偏移下的鲁棒性，还可作为通用学习目标使用。

与其他学习方法相比，研究发现Vittle优于基于权重空间压缩的方法（如LoRA和权重衰减）以及基于信息最大化的指令调优方法（如ROSS和LIT）。这表明直接在权重空间上的正则化不能保证适应性和分布偏移鲁棒性之间的良好平衡，而从Vittle的设计原则相反的信息最大化方法虽然在物体幻觉检测任务上有效，但在开放式问答任务上表现不佳。

最后，研究团队对Vittle进行了定性和表示分析。他们观察到，虽然LLaVA-v1.5在干净样本上产生合理的响应，但在扰动下响应的质量和内容会有很大变化。相比之下，Vittle保持了响应的一致性。在表示分析方面，Vittle减少了干净样本和语义上等效的扰动样本之间的表示差距，使它们在表示空间中更紧密地嵌入。关于计算成本，虽然Vittle增加了训练时间（比基线多20%），但其推理时间与原始模型几乎相同，这是考虑到鲁棒性显著提高的合理开销。

结论

威斯康星大学麦迪逊分校的研究团队在多模态大语言模型（MLLMs）指令调优背景下首次探索了信息瓶颈原理的应用，以提高模型在分布偏移下的鲁棒性。他们提出的视觉指令瓶颈调优（Vittle）方法不是简单地增加数据量或模型规模，而是通过改变模型内部表示的学习方式来提高鲁棒性。

Vittle的核心思想是引导模型学习"最小充分表示"——即只保留产生有效响应所必需的信息，同时丢弃其他冗余或输入特定的细节。这种方法模仿人类认知过程中的概念压缩能力，使模型能够在面对各种输入变化时保持稳健的性能。

研究团队在30种不同类型的分布偏移场景下的大规模实验证明，Vittle不仅显著提高了模型的鲁棒性，还在标准基准测试上保持了强大的性能。这表明，通过在表示学习中寻求不变性和敏感性之间的良好平衡，可以构建更可靠、更实用的人工智能系统。

值得注意的是，Vittle的实现非常轻量级，在LLM骨干网络中仅添加少量参数（约1.5%），几乎不增加推理时间，使其成为一种高效的解决方案，适用于实际应用场景。

这项研究为构建更鲁棒的多模态大语言模型开辟了新的方向，表明信息理论原则可以有效指导这些复杂系统的设计和优化。未来的工作可能会探索将Vittle与其他鲁棒性增强技术结合，以及将其应用于更广泛的模型架构和任务领域。

随着MLLMs继续融入我们的日常生活和关键应用，像Vittle这样的方法将变得越来越重要，确保这些系统能够可靠地处理现实世界中不可避免的输入变化和噪声。

多模态大语言模型信息瓶颈原理鲁棒性优化

分享至