微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

谷歌与马克斯·普朗克研究所联手：让AI"看图说话"既快又准，视觉压缩技术迎来新突破

视觉语言模型视觉令牌压缩弹性推理

谷歌与马克斯·普朗克研究所联手：让AI"看图说话"既快又准，视觉压缩技术迎来新突破

作者：科技行者

2026-06-08 12:46

分享至：

谷歌与马克斯·普朗克研究所提出PARCEL方案，通过让"空间锚点令牌"负责整体布局、"语义探索查询令牌"负责精细细节的分工机制，在27个视觉语言基准测试上超越现有弹性压缩方案，实现一次训练、多算力灵活部署。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 12:46 • 科技行者

这项由谷歌与马克斯·普朗克信息研究所、慕尼黑工业大学联合完成的研究发表于2026年5月，论文编号为arXiv:2605.30126v1，有兴趣深入了解的读者可通过该编号查询完整论文。

当你拿着手机拍下一张照片，然后问AI"这张照片里有什么"，AI要在极短的时间内理解整张图片，同时生成流畅的回答。这个过程听起来轻而易举，但背后涉及一个巨大的计算难题——AI每次"看图"，都要把整张图片切成数百甚至数千个小块，然后逐一处理。处理的小块越多，计算量就越大，耗电量也越惊人。对于一段视频来说，这个问题更加严峻，因为视频是由一帧帧图片组成的，每一帧都要单独处理。

研究团队面对的核心问题就在这里：能不能在不损失太多理解能力的前提下，大幅减少AI需要处理的图像信息量？这就像是问一个厨师：能不能只看食材的代表性样本，而不是亲自检查每一颗米粒，就能做出一道好菜？

这项研究给出的答案，是一套名为PARCEL的全新视觉信息压缩方案。它不是简单地"少看一点图"，而是将看图的任务分工合作——让一部分信息专门负责记住"图的大体布局"，另一部分信息则专门去挖掘"图里藏着的细节"。这套分工机制，让AI在大幅减少计算量的同时，依然能保持相当高的理解精度。

一、为什么AI"看图"这么费算力？

要理解这套新方案的价值，得先搞清楚AI是怎么处理图片的。现代大型视觉语言模型（简单理解为：能同时处理图片和文字的AI系统）的工作方式，大致上可以用"切图拼积木"来描述。

AI在拿到一张图片后，不会把它当作一个整体来理解，而是把图片切成许多小方块，每个小方块被转换成一个"图像令牌"（可以理解为一段描述该小方块内容的数字编码）。然后，AI将所有这些令牌和用户输入的文字一起放进一个叫做Transformer的处理器里，Transformer负责分析所有令牌之间的关系，最终生成回答。

麻烦就出在Transformer这里。它在分析令牌关系时，计算量和令牌数量的平方成正比——也就是说，令牌数量翻倍，计算量会变成原来的四倍。一张普通图片可能产生256个令牌，一段16帧的视频则可能产生4096个令牌。这种规模的计算，对于手机、平板等资源有限的设备来说，几乎是不可能实时完成的。

正因如此，研究者们一直在探索"视觉令牌压缩"的方法——在送进Transformer之前，先把令牌数量降下来。理想的目标是"弹性压缩"：训练一个模型，让它能根据当前设备的算力，灵活地决定用多少令牌。这样一来，同一个模型在高端服务器上可以用256个令牌获得最高精度，在老款手机上用16个令牌也能给出基本靠谱的答案，真正实现"一次训练，随处部署"。

二、现有方案的两个死穴

在PARCEL出现之前，已有两种主流的弹性压缩方案，但各自都有明显的短板。

第一种方案叫做"空间池化压缩"，代表作是M3（Matryoshka多模态模型）。这种方法的思路就像是把一张高清照片连续缩小：原来256个方块，先合并成64个，再合并成16个，每次合并就是把相邻的小方块取平均值合并成一个大方块。这个过程在数学上叫做"平均池化"，优点是保留了图片的空间位置信息——合并后的每个令牌依然知道自己对应的是图片的哪个区域。

然而，平均池化就像是把音乐的高音部分统统抹掉——它天然地过滤掉了图像中的细节信息。图片里精细的文字、复杂的图表线条、小物体的边缘，这些信息在多次平均后都会变得模糊。在数字信号处理领域，这种现象有个专业名称叫"频谱混叠"，简单说就是本来应该被过滤掉的高频信息（细节），以一种扭曲的形态混入了低频信息（整体布局），导致最终结果既丢失了细节，又引入了噪声。这让M3在处理图表问题、文档阅读等需要精细识别的任务时表现欠佳。

第二种方案叫做"查询令牌重采样"，代表作是MQT（Matryoshka查询变换器）。这种方法完全不同——它不依赖图片的空间网格，而是引入一组"可学习的查询令牌"。这些查询令牌就像一群经过训练的侦察员，它们通过"交叉注意力"机制去查阅原始的图像信息，将重要内容摘取出来浓缩成数量更少的令牌。通过一种叫做"嵌套随机失活"的训练技巧，这些查询令牌被训练成能在不同令牌数量下都正常工作。

MQT的灵活性很强，但它有一个根本性的弱点：查询令牌是"非空间"的，它们不对应图片的任何固定位置。这就像是让侦察员把所有发现写成一份综合报告，却不标注每条信息来自地图上的哪个坐标。当AI需要回答"图片左边的物体是什么"或者需要精确定位图片中某个区域时，MQT的查询令牌就显得束手无策了。实验数据也印证了这一点：在测试AI空间定位能力的RefCOCO基准测试中，MQT的表现明显不如保留空间信息的方案。

可以看到，这两种方案的缺点恰好互补：M3保留了空间位置但丢失了细节，MQT保留了灵活性但丢失了空间关系。这就是研究团队面对的核心矛盾。

三、PARCEL的"分工合作"哲学

PARCEL的设计思想，可以用一个建筑施工的比喻来理解。建筑师在设计一栋楼时，会同时用到两种图纸：一张是整体平面图，显示每个房间的位置和大小（这对应空间布局）；另一张是局部详图，展示门窗、线路、装饰等细节（这对应精细内容）。PARCEL的做法，就是明确让不同的信息载体各司其职——一部分令牌专门充当"平面图"，另一部分令牌专门充当"局部详图"。

具体来说，PARCEL分两个层次来处理图像信息。

第一个层次是"空间锚点令牌"。这部分令牌通过空间平均池化产生，就像把图片粗粒度地缩小——在较高压缩比时缩成4×4的网格（16个令牌），在较低压缩比时缩成8×8的网格（64个令牌）。这些令牌的职责很单纯：记住图片的整体空间布局，哪里有什么颜色块，大体上是什么结构。研究团队的频谱分析证实，经过这种设计后，PARCEL的空间锚点令牌在低频段（代表整体布局的信息）的聚集程度远高于M3，说明它确实更干净地完成了"低频守卫"的职责。

第二个层次是"语义探索者查询令牌"。这部分令牌才是PARCEL真正的创新所在。和MQT的查询令牌不同，PARCEL的查询令牌在去"查阅"原始图像信息之前，必须先经历一个被称为"池化感知查询重采样"（PCQR）的准备步骤。

这个准备步骤是这样运作的：查询令牌首先和空间锚点令牌放在一起，进行一次"自注意力"交互。自注意力的作用是让这两类令牌互相了解对方的内容——锚点令牌告诉查询令牌"我已经负责了哪些空间区域的整体布局"，查询令牌因此知道哪些内容是锚点令牌没有覆盖到的细节。经过这番"碰头会"之后，查询令牌带着对整体布局的了解，再去原始高清图像中提取互补信息，重点关注那些被平均池化忽略掉的精细内容。

这个设计的精妙之处在于：查询令牌不需要从零开始猜测"我应该关注什么"，它们已经知道锚点令牌已经覆盖了什么，所以可以更有针对性地去找"空缺"。就像两个分工合作的侦探——一个已经绘制了犯罪现场的整体地图，另一个拿着地图去现场寻找地图上没有记录的微小线索。这种协作让二者的工作不重叠、不冲突，最大化地利用有限的令牌数量。

四、如何在不同算力下灵活切换？

PARCEL还需要解决一个实际问题：在不同的设备或不同的需求下，可用的令牌数量是变化的。研究团队设计了一套"预算感知分段路由"策略来应对这一挑战。

当可用令牌非常少（16到63个之间）时，系统采用4×4的空间锚点网格（16个令牌），剩余的令牌全部分配给查询令牌。比如，总预算是16个令牌时，全部用作空间锚点，没有额外的查询令牌；总预算是32个令牌时，16个作为空间锚点，另外16个作为查询令牌。

当可用令牌较多（64到256个之间）时，系统切换到8×8的空间锚点网格（64个令牌），剩余的令牌分配给查询令牌。比如，总预算是256个令牌时，64个作为空间锚点，另外192个作为查询令牌，这些查询令牌可以深入挖掘图像的大量精细细节。

查询令牌的数量弹性，通过"嵌套随机失活"技术来实现。在训练过程中，系统会随机截断查询令牌序列的长度，强迫排在前面的查询令牌学会在令牌数量有限时承担最重要的信息摘取任务。这样训练出来的查询令牌形成一个有优先级的序列——编号越小的查询令牌，携带的信息越重要，无论最终使用多少个令牌，只需从头截取所需数量即可，不需要重新训练。

五、实验数据：效果到底如何？

研究团队在27个视觉语言理解基准测试上对PARCEL进行了全面评估，涵盖视频理解、图像空间定位、精细文字/图表识别、以及通用问答等多个类别。所有比较的基础模型都是PaliGemma-2 3B，这是一个由谷歌开发的视觉语言模型，包含约20亿参数的Gemma-2语言解码器和SigLIP视觉编码器。未压缩的原始模型被称为"Vanilla PG2"，作为性能上限参考。

评估指标用"性能保留率"来衡量——也就是压缩后的模型相对于未压缩模型，能保留多少百分比的性能。以256个令牌为例，PARCEL在图像任务上保留了95.1%的原始性能，在视频任务上保留了98.0%，均高于M3（图像91.1%，视频92.9%）和MQT（图像93.3%，视频94.4%）。即便压缩到仅16个令牌的极端情况下，PARCEL在图像任务保留86.8%、视频任务保留95.0%，也都优于对比方案。

在空间定位能力的专项测试中，PARCEL的优势最为明显。RefCOCO测试系列专门检验AI能否根据语言描述准确定位图片中的特定区域，这正是MQT最薄弱的环节。在256个令牌的预算下，PARCEL在RefCOCO全套测试的平均保留率达到90.6%，比MQT高出4.2个百分点，比M3高出8.9个百分点。即便是在只有16个令牌的极端压缩下，PARCEL（80.5%）也明显优于MQT（79.0%）和M3（74.2%）。

在图表和文档识别测试中，PARCEL同样表现出色。以ChartQA（图表问答）为例，在64个令牌的预算下，PARCEL比M3高出约4.7分，比MQT高出约2.9分。这说明PARCEL的语义探索者查询令牌确实成功地补充了空间池化所丢失的精细信息。

在视频理解测试中，以ActivityNet-CAP（视频内容描述）为例，在256个令牌下，PARCEL得分41.5分，而M3仅36.1分、MQT为37.2分，差距相当显著。

六、频谱分析揭示的内在机制

研究团队不仅做了性能对比，还深入分析了为什么PARCEL能有这样的效果。他们用一种叫做"径向功率谱分析"的数学工具，检测了不同压缩方案产生的令牌在频率维度上的特性。

这个分析的通俗理解是：图像中的信息可以分为"低频成分"（对应图像的大体形状、颜色块、整体结构）和"高频成分"（对应图像中的细节、边缘、文字笔画等）。理想的分工方案应该让空间锚点令牌专注于低频成分，让查询令牌专注于高频成分。

分析结果显示，PARCEL的空间池化令牌的低频能量集中程度明显高于M3的空间池化令牌，说明PARCEL的设计让池化令牌更纯粹地担当"低频锚点"的角色。与此同时，PARCEL的查询令牌在高频段的能量也明显高于MQT的查询令牌，说明查询令牌确实在池化令牌的引导下成功专注于挖掘高频细节。这种频谱上的分工，从理论上验证了PARCEL设计哲学的有效性。

七、消融实验：每个设计选择都有必要吗？

研究团队还通过"消融实验"来验证各个设计选择的必要性——也就是逐个去掉某个设计，看性能会下降多少。

关于预算路由策略，实验证明动态调整空间锚点网格大小是必要的。如果固定使用4×4锚点（16个令牌）不管总预算有多少，在256个令牌的预算下性能只有90.2%，远低于完整PARCEL的95.6%。这说明在有更多预算可用时，扩大空间锚点范围（升级到8×8网格）确实有助于提升性能。

关于池化感知查询重采样机制，实验对比了三种变体：让查询令牌直接与视觉编码器的原始输出交叉注意（无池化感知），让查询令牌先与池化令牌交叉注意再与原始视觉特征交叉注意（双重交叉注意），以及PARCEL的实际方案（池化令牌与查询令牌先做自注意力，再让查询令牌与原始视觉特征交叉注意）。实验结果显示，PARCEL的完整方案在256个令牌下达到95.6%，略优于双重交叉注意（95.4%）和无池化感知版本（95.2%）。虽然差距不大，但方向一致——池化感知确实对查询令牌的信息摘取有正向引导作用。

关于计算量公平性，研究团队还做了一个重要的对照实验：给M3和MQT各添加与PARCEL相当的额外自注意力模块，使其参数量与PARCEL大致相当，然后再比较性能。结果显示，扩大参数量并不能根本上弥补M3和MQT的结构性缺陷——增强版MQT在256个令牌下只有93.3%，增强版M3只有92.2%，都仍然低于PARCEL的95.6%。这说明PARCEL的性能提升来自设计理念本身，而不是单纯来自参数量的增加。

八、高分辨率和计算效率

研究团队还在448×448高分辨率设置下进行了额外测试。在高分辨率下，图像被切成32×32=1024个原始令牌，PARCEL通过引入第三个空间锚点尺寸（16×16网格，256个令牌）来适配这一设置。高分辨率实验结果显示，PARCEL在1024、256、64个令牌预算下的平均性能保留率分别为98.2%、98.2%、95.4%，均优于M3（96.0%、95.4%、93.4%）和MQT（95.4%、95.8%、93.5%）。

在计算效率方面，PARCEL引入的PCQR模块非常轻量，相对于视觉编码器和语言解码器这两个庞大组件，连接器部分的额外计算量微乎其微。以16个令牌为例，PARCEL的总体计算量约为1.0TFLOP（万亿次浮点运算），KV缓存（语言模型在推理时存储中间结果所需的内存）约为15MB；以256个令牌为例，计算量约为2.0TFLOP，KV缓存约为39MB。与未压缩模型相比，256个令牌预算依然能带来显著的计算节省，尤其是在16帧视频输入时，KV缓存可以从远超1000MB的量级压缩到423MB。

说到底，PARCEL这项研究干的事情，用一句话概括就是：让AI在用更少算力看图时，既记得住"哪里有什么"，又不会漏掉"藏在细节里的关键信息"。

这对普通用户意味着什么？在实际应用层面，这类技术让视觉语言AI变得更加普惠。以前需要顶级服务器才能运行的图文理解能力，有望逐渐来到中低端设备上，甚至在没有稳定网络的离线场景下也能流畅运行。医疗影像分析、无障碍辅助、实时翻译等对普通人生活影响深远的应用，都可能因此受益。

当然，这项研究也有其局限性。PARCEL目前依赖工程师预先设定令牌预算，而不能根据图片内容的复杂程度自动判断"这张图需要多少令牌"。对于一张白色背景上只有一个苹果的简单图片，256个令牌明显是浪费；而对于一份密密麻麻的财务报表，16个令牌又远远不够。开发一套能自适应调整预算的系统，是研究团队提出的未来改进方向之一。

此外，这项研究基于PaliGemma-2这一特定模型架构进行，在其他架构上是否同样有效，还需要更多验证。感兴趣的读者可以通过论文编号arXiv:2605.30126查阅完整的技术细节和实验数据。

Q&A

Q1：视觉语言模型中的"视觉令牌压缩"是什么意思？

A：视觉令牌压缩指的是在AI处理图片时，把图片切成的大量小方块（令牌）数量压缩减少，从而降低计算量。因为AI的计算量和令牌数量的平方成正比，令牌数量减半意味着计算量降低到原来的四分之一。PARCEL方案的特点是让不同令牌各司其职，一部分记住图的整体布局，另一部分负责挖掘精细细节，在压缩的同时尽量保留两类信息。

Q2：PARCEL和M3、MQT相比优势体现在哪些具体任务上？

A：PARCEL在两类任务上优势最突出。一是图像空间定位任务，比如RefCOCO测试（根据语言描述定位图片中特定物体），这类任务需要保留精确的空间位置信息，PARCEL因为有空间锚点令牌而优于查询令牌方案MQT；二是精细识别任务，比如ChartQA图表问答和DocVQA文档问答，这类任务需要识别细节，PARCEL因为有语义探索者查询令牌而优于空间池化方案M3。

Q3：PARCEL技术目前处于什么阶段，普通用户能用到吗？

A：PARCEL目前是学术研究阶段的成果，在谷歌开发的PaliGemma-2模型上进行了验证。普通用户目前无法直接使用这一技术，但这类视觉令牌压缩研究通常是工业界大模型产品优化的重要基础。随着相关技术逐步成熟，未来的AI助手、手机端AI应用等有望受益于这类高效压缩方案，在低算力设备上提供更流畅的图文理解体验。

视觉语言模型视觉令牌压缩弹性推理

分享至