这项由南洋理工大学S-Lab的Penghao Wu和Ziwei Liu与SenseTime Research的Lewei Lu共同完成的研究,发表于2025年5月21日的第42届国际机器学习会议(ICML 2025)上,论文编号为arXiv:2505.15816v1。本研究为解决大型多模态模型中视觉计算冗余问题提供了创新解决方案。
一、研究背景:大型多模态模型的"视觉负担"
想象一下,你有一位才华横溢的朋友,他既精通文学又擅长绘画,但每次分析一幅画作时,他都要花费大量时间反复审视画面的每个细节,即使许多细节对理解整幅画作并无太大帮助。这就像当今的大型多模态模型(LMM)面临的问题——它们在处理图像时效率低下,耗费大量计算资源。
当前主流的大型多模态模型,如LLaVA系列,采用了一种直接但计算密集的架构:先用预训练的视觉编码器提取图像特征,然后通过轻量级投影模块将这些特征转换为语言模型能理解的形式,最后由大型语言模型(LLM)同时处理视觉和文本信息。这种结构虽然简单有效,但面临一个严重的计算挑战:视觉信息通常以大量"视觉token"的形式呈现,远超文本token的数量。由于注意力机制的计算复杂度与序列长度成平方关系,这个问题在处理高分辨率图像时尤为严重,一张图像可能产生数千个视觉token。而当模型需要处理视频或多张图像时,情况更为复杂。
针对这一问题,研究界提出了各种token减少方法,试图通过剪枝或合并冗余的视觉token来提高效率。但这些方法面临一个根本问题:它们可能会丢失关键的视觉细节信息。想象一下,在分析一份密集文档图像时,删减任何视觉token都可能导致重要信息的丢失。而且,这些方法通常依赖于问题引导的token选择,难以适应多轮对话中可能出现的新问题,也难以应对复杂或间接的问题。
二、计算层面冗余:一个被忽视的优化维度
南洋理工大学的研究团队提出了一个全新视角:与其减少视觉token的数量(这可能导致信息丢失),不如探索视觉token在计算过程中的冗余。他们注意到一个关键问题:既然视觉token来自预训练的视觉编码器,已经具有高度语义信息,那么是否有必要在语言模型中对它们执行所有繁重的计算操作(如自注意力和前馈网络)?
这就像一位经验丰富的厨师已经把食材处理好了,是否还需要另一位厨师再次对这些食材进行同样复杂的处理?研究团队怀疑,在大型多模态模型中可能存在着计算层面的冗余,如果能够识别并减少这种冗余,就可以在不损失信息的情况下显著提高模型效率。
为验证这一假设,研究团队设计了一系列探索性实验。他们训练了基于不同大型语言模型的LLaVA-Next结构,包括Vicuna1.5-7B/13B、LLama3-8B、Qwen2-7B、Phi3-3B和InternLM2.5-7B。在推理过程中,他们尝试遮蔽视觉token之间的注意力计算,即禁用token间交互,并在语言模型的不同层应用这种遮蔽。
实验结果令人惊讶:当视觉注意力从模型的中间或后部层开始被遮蔽时,模型性能几乎不受影响,甚至有所提升。不同的语言模型表现出不同程度的冗余,但总体趋势一致:在模型的中后部分,视觉token之间的注意力计算存在明显冗余。
进一步的实验表明,通过微调,模型可以适应视觉注意力被跳过的情况,性能降低的影响可以被缓解。然而,仅跳过注意力操作带来的计算节省有限,因为繁重的前馈网络仍在处理所有视觉token。这促使研究团队探索更激进的方案:是否可能同时跳过视觉token上的注意力和前馈网络操作?
三、逐步挤出计算冗余:从发现到解决
研究团队随后尝试用轻量级的多层感知机(MLP)替代视觉token上的注意力操作和前馈网络。这相当于用一个简易的小型处理器取代复杂的大型处理器,专门处理那些不需要复杂计算的视觉信息。实验结果表明,这种方法显著降低了计算量,同时在模型后部层(如第16层之后)应用时,性能甚至有所提升。
这一有趣的性能提升来源于新添加的轻量级MLP引入了视觉特定的处理模块,使模型能更好地处理视觉信息而不干扰原始语言模型的知识。最终的性能可以理解为轻量级模块带来的性能提升减去跳过原始繁重操作导致的性能下降。
基于这些发现,研究团队提出了一个更优的解决方案:ProxyV(代理视觉)算法。这个算法的核心思想是引入一小组"代理视觉token",代替原始视觉token参与计算密集型操作,然后通过轻量级模块引导原始token的更新。
具体来说,ProxyV算法的工作流程如下:首先对原始N×N视觉token进行下采样,得到一个缩略版本(M×M,其中M=N/r,r是下采样因子)作为代理token。在语言模型解码器层中,代理视觉token和文本token作为查询,而键和值则包括代理视觉token、原始视觉token和文本token。注意力操作后,只有代理token和文本token通过前馈网络处理。这样,代理token就替代了原始token参与计算密集型操作,显著降低了计算成本。
当代理token通过这些操作获取有用信息后,每个代理token引导与其空间对应的r×r原始视觉token通过一个轻量级的引导更新模块进行更新。这个模块首先对原始和代理token进行下投影,然后将每个原始token与其对应的代理token连接起来,通过一个轻量级的两层MLP处理来更新原始token。通过这种设计,解码器层中的重要信息能够有效地传递给原始视觉token,而不需要原始token参与繁重的计算。
四、ProxyV的突出性能:效率与精度的双赢
研究团队在多种大型语言模型上验证了ProxyV的有效性。实验表明,从模型中间层开始应用ProxyV可以在不损失性能的情况下实现中等程度的效率提升(性能保持在100%-101%之间)。而从模型中后部分开始应用则可以在较小的效率提升下获得显著的性能改进(性能提升到101%-102%)。
以Vicuna1.5-7B为例,从第12层开始应用ProxyV可以将性能提升到原始模型的101%,同时将预填充阶段的计算量和时间分别减少了46%和41%。从第16层开始应用则可以将性能提升到102.4%,同时计算量和时间分别减少36%和31%。
为了进一步验证ProxyV相比token减少方法的优势,研究团队将其与两种最先进的token减少方法VisionZip和PyramidDrop进行了比较。他们发现,虽然这些方法在选定的基准测试上几乎没有性能下降,但在需要精细视觉理解的场景中,如文档解析任务和视觉定位基准RefCOCO上,它们表现明显较差,凸显了视觉信息丢失的问题。相比之下,ProxyV保留了所有视觉信息,在这些任务上表现更好。
研究团队还提供了一些定性实例,展示了token减少方法在需要提取密集或结构化视觉信息,或图像包含密集信息和视觉细节时的失败案例,而ProxyV则能成功保留所有视觉信息并提取重要的视觉细节。
五、超越空间约束:非空间ProxyV变体
研究团队的目标是减少计算层面的冗余,这在理论上与token减少方法(专注于token层面冗余)是正交的。这引发了一个问题:是否可以将ProxyV与这些token减少方法结合起来?
主要挑战在于,原始的ProxyV算法依赖于视觉token的2D空间结构来生成代理token并在引导更新模块中建立对应关系。然而,应用token减少方法后,视觉token的空间结构不再保留,使得集成变得困难。
为解决这个问题,研究团队提出了一个非空间变体的ProxyV算法,去除了对空间先验的依赖,使其能够灵活地与token减少方法或非空间视觉特征结合。具体来说,他们初始化一组可学习的嵌入作为查询,通过注意力操作从原始视觉token中提取信息来生成代理token。在引导更新过程中,他们重用注意力逻辑矩阵,但转置并应用softmax,将代理token的信息分配给所有原始视觉token。
实验表明,这种非空间变体达到了与原始ProxyV相似的性能,而将其与VisionZip结合则实现了更高的效率提升,同时保持性能。
六、实验细节与广泛验证
为了全面验证ProxyV的有效性,研究团队在各种实验设置下进行了测试。他们采用了广泛使用的两阶段训练流程:第一阶段使用ShareGPT4V的120万张图像进行多模态投影器和新添加的视觉特定模块的预训练;第二阶段使用LLava-Next的77.9万条指令调优数据进行微调,并在此阶段解冻语言模型。
对于图像编码,他们采用AnyRes策略,每张图像最多使用5个网格,包括缩略图。每个分辨率为336×336的网格由CLIP-ViT-L-336px编码为24×24的图像特征,然后通过两层MLP投影器进行投影,并按栅格顺序在每个网格内展平,类似于UniRes策略。
在ProxyV实现中,他们选择下采样因子r=4,使576个原始视觉token压缩为36个代理视觉token,每个代理token对应16个原始token。对于非空间ProxyV版本,可学习查询的数量与空间版本相同。引导更新MLP模块中的隐藏维度设置为语言模型隐藏维度的1/4。每层新添加的引导更新模块的参数数量为14.68M(Vicuna1.5-7B情况下)。
为了全面评估,他们不仅在需要精细视觉理解的基准上进行了测试(如DocVQA、ChartQA、InfoVQA、OCRBench和TextVQA),还在广泛的通用多模态基准上进行了验证,包括MMBench、SEED-Bench、RefCOCO、MMStar、GQA、MME、MMMU、POPE、ScienceQA、AI2D和RealWorldQA等。
结果表明,ProxyV在各种基准上都表现出色,尤其是在需要精细视觉理解的任务上。它不仅保持了原始模型的性能,还在许多情况下实现了性能提升,同时显著降低了计算成本。
七、研究贡献与未来展望
这项研究的主要贡献可以总结为三点:首先,系统性地研究了大型多模态模型中视觉token的计算层面冗余,探索了逐步减少这种冗余的方法;其次,提出了ProxyV,一种通过代理token减轻原始视觉token计算负担的创新设计,在确保性能的同时有效降低了计算量;最后,通过在不同语言模型上的广泛验证证明了ProxyV的有效性,并通过提出非空间变体展示了其灵活性,可与token减少方法结合以进一步提高效率。
这项研究为解决大型多模态模型的计算效率问题提供了一个新的思路:不是减少token数量(可能导致信息丢失),而是减少每个token的计算负担。这种方法保留了所有视觉信息,确保了模型在需要精细视觉理解的任务上的性能,同时显著提高了计算效率。
未来的研究方向可能包括在引导更新模块中引入局部注意力层或卷积层,以进一步促进每个局部窗口中的精细token间交互,以及探索ProxyV在视频和多图像处理中的应用,这些场景中视觉token序列更长,计算效率的提升可能更为显著。
总的来说,ProxyV代表了一种平衡计算效率和性能的有效方法,为大型多模态模型的实际应用提供了重要支持。随着视觉内容处理需求的增长,这种能够保留完整视觉信息同时提高效率的方法将变得越来越重要。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。