在2025年4月,伊利诺伊大学香槟分校的王振海龙、Salesforce研究院的Senthil Purushwalkam等研究者共同发表了一篇创新性论文《DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs》。该论文发布在arXiv预印本平台(arXiv:2504.17040v1),为视觉语言模型(VLMs)的效率提升提供了一种全新方法。有兴趣深入了解的读者可以通过https://mikewangwzhl.github.io/dymu访问项目页面获取更多信息。
视觉语言模型的"瓶颈"问题
想象你使用一个强大的AI助手来理解图片。这个AI需要将图片转换成大量的"视觉令牌"(visual tokens),就像将图片切成小块进行处理。目前的主流视觉语言模型面临一个严重问题:无论图片内容多么简单或复杂,它们总是使用固定数量的视觉令牌来表示每张图片。
这就好比你在描述不同复杂度的图片时,总是使用相同数量的词语 - 无论是描述一个简单的白色背景上的小圆点,还是描述一个繁忙的城市街景,你都被要求必须使用exactly 576个词。这显然不合理且效率低下!
研究团队通过一个生动的例子说明了这一问题:当使用CLIP(一种流行的视觉编码器)处理图片时,无论是处理一张几乎空白的简单图片,还是处理包含建筑物、车辆和人物的复杂场景,它都会生成完全相同数量(576个)的视觉令牌。这与文本处理形成鲜明对比 - 在文本中,你需要的词语数量自然会随内容复杂度增加而增加。
特别对于高分辨率图片,这个问题更加严重。例如,LLaVA-OneVision这样的最新模型在处理1280×960分辨率的图片时,会生成多达9477个视觉令牌,而配对的文本查询通常只有约24个令牌。这意味着模型在处理一张高分辨率图片时,耗费的计算资源相当于处理400-500个句子!
DYMU:让视觉令牌数量与图片复杂度匹配
DYMU(Dynamic Merging and Virtual Unmerging)是研究团队提出的解决方案,它包含两个关键组件:
动态令牌合并 (Dynamic Token Merging, DToMe):这部分技术能够根据图片的复杂度动态调整视觉令牌的数量。简单的图片使用较少的令牌,复杂的图片保留更多的令牌。这就像是一个聪明的编辑,知道何时应该用简洁的语言,何时需要详细描述。
虚拟令牌解合 (Virtual Token Unmerging, VTU):这部分技术让大型语言模型能够高效处理这些变长的视觉令牌序列,同时保持与原始模型相同的性能。它巧妙地模拟了完整令牌序列的注意力动态,让模型"以为"它仍在处理完整长度的序列。
最关键的是,DYMU完全不需要额外的训练!这意味着它可以直接应用于现有的视觉语言模型,无需昂贵的再训练过程。这对于那些没有公开完整训练数据和方法的主流VLM模型尤为重要。
DYMU如何工作?
动态令牌合并:智能压缩图片信息
动态令牌合并的工作原理类似于一名熟练的编辑,知道哪些相似的内容可以合并简化。假设你正在描述一片蓝天,你不需要反复说"这里是蓝色,那里也是蓝色...",而是可以简单地说"天空是蓝色的"。
具体来说,DToMe在每个视觉转换器(ViT)层中动态合并相似的令牌:
识别冗余令牌:首先,系统将令牌分成两组,计算令牌之间的相似度。
基于阈值合并令牌:根据预先计算的相似度阈值,决定哪些令牌应该合并。
跟踪合并位置:系统会记录哪些令牌被合并,以确保信息正确传递。
关键的创新在于,这个合并过程是动态的 - 图片内容越简单,合并的令牌就越多。研究团队通过批量处理大量图片来确定合适的合并阈值,使得平均而言,每张图片会根据其复杂度动态决定保留多少令牌。
虚拟令牌解合:让模型兼容变长输入
然而,仅仅压缩视觉令牌是不够的。大型语言模型通常期望固定长度的输入。这就像一位厨师习惯了使用特定数量的配料,突然给他不同数量的材料会让他无所适从。
虚拟令牌解合解决了这个问题:
重建注意力矩阵:它巧妙地利用旋转位置编码(RoPE)的线性特性,有效地模拟完整序列的注意力动态。
高效计算:该方法避免了显式展开令牌序列,大大降低了计算开销。
序列重合并:处理完成后,输出会被重新合并,以便后续层继续高效处理。
这个过程可以类比为:虽然我们只给厨师提供了精简的配料,但我们设计了一种特殊的菜谱,让他能像使用完整配料一样烹饪出相同品质的菜肴。
DYMU的实际效果如何?
研究团队在多个视觉语言模型和多种视觉理解任务上评估了DYMU的性能。结果令人印象深刻:
显著提升效率:与原始模型相比,DYMU可以减少32%-85%的视觉令牌数量,同时保持相当的性能。
自适应优势:相比固定长度压缩方法,DYMU在复杂图片上表现更好,因为它为复杂图片分配了更多的令牌。
广泛兼容性:DYMU成功应用于多种不同的VLM架构、视觉编码器和训练策略。
特别值得一提的是,当应用于最新的AnyRes模型(能够处理任意分辨率图片的模型)时,DYMU表现依然出色。在LLaVA-OneVision模型上,DYMU-ov-low版本仅使用约14%的原始令牌数量,就达到了基准模型96.5%的性能。
视觉令牌数量与图片复杂度的关联
研究人员进行了一项有趣的实验,分析DYMU分配的令牌数量与图片复杂度的关系。他们使用JPEG压缩率作为图片复杂度的衡量标准(复杂图片通常需要更大的JPEG文件大小)。
结果显示,DYMU分配的令牌数量与图片复杂度之间存在强烈相关性:简单图片获得较少的令牌(有些仅需8-10个),而复杂场景则获得更多令牌(最多可达85个)。这正是我们期望的自然行为!
更重要的是,当与固定长度令牌削减方法(如ToMe)相比,DYMU在复杂图片上表现明显更好,因为它能够为复杂内容分配更多的计算资源。
可控的视觉令牌长度:更大的灵活性
DYMU的一个额外优势是它提供了对令牌成本的更大控制权。这与现有系统(如GPT-4o)形成鲜明对比,后者对每张图片收取固定的令牌费用,仅基于分辨率而非内容复杂度。
研究团队展示了如何将DYMU与其他视觉工具结合使用,进一步提高效率:
背景移除:移除不相关的背景后,DYMU可以将令牌数量从1295减少到451,同时保持准确性。
OCR(文字识别):专注于图片中的文字区域,令牌数量从3645减少到259。
对象检测:仅关注相关对象,令牌数量从11664减少到710。
这种灵活性使DYMU特别适合资源受限的应用场景,用户可以根据实际需求和可用资源调整处理策略。
虚拟令牌解合的重要性
研究团队还专门评估了虚拟令牌解合(VTU)组件的重要性。结果显示,当在不使用VTU的情况下直接将减少的令牌输入到语言模型时,性能会显著下降。
在9个基准测试中,VTU在8个测试中显著提升了性能,证明了它在保持模型兼容性方面的重要作用。VTU通过高效重建完整注意力矩阵,使得模型能够正确处理减少后的令牌序列。
总结:更高效的视觉语言模型之路
DYMU代表了视觉语言模型效率提升的一个重要突破。它巧妙地解决了当前VLM中固定长度视觉表示的内在低效问题,引入了一种动态适应图片内容复杂度的解决方案。
其主要优势包括:
完全无需训练:可以直接应用于现有模型,无需昂贵的再训练过程
自适应令牌分配:简单图片使用较少令牌,复杂图片保留更多令牌
广泛兼容性:适用于各种VLM架构,包括最新的AnyRes模型
卓越的性能-效率权衡:减少高达85%的令牌数量,同时保持相当性能
灵活控制:允许与其他视觉工具结合,进一步优化效率
对于普通用户,这项研究意味着未来的视觉人工智能可能会运行得更快、更节能,同时保持高质量的理解能力。对于资源受限的设备(如移动设备或嵌入式系统),这种效率提升尤为重要。
随着视觉语言模型在日常应用中的普及,DYMU这样的技术创新将帮助降低运行成本,提高响应速度,并使先进的AI视觉理解能力更广泛地可用。
研究团队提到,未来工作方向包括改进DYMU在空间敏感任务(如文本识别和空间推理)上的表现,以及探索将DYMU扩展到视频领域,减少时间上的冗余。这些方向将进一步推动视觉语言模型向更高效、更实用的方向发展。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。