
这项由浙江大学、复旦大学、上海创新研究院、西湖大学及JD.COM联合开展的研究,以预印本形式于2026年5月21日发布在arXiv平台,论文编号为arXiv:2605.22777。有兴趣深入了解的读者可以通过该编号查询完整论文。
当你用AI生成一张图片时,幕后发生了一件有趣的事:AI并不是直接"画"出像素点,而是先把图片压缩成一种抽象的"密码",再把这串密码解码还原成图像。这个压缩和还原的过程,就像把一本书摘要化再重新扩写——抓住了精髓,却可能丢失了某些细节。研究团队发现,现有的AI图像生成系统恰恰卡在这个环节上,而他们提出的DecQ框架,给出了一个出人意料的精妙解法。
一、一台相机的两种灵魂:为什么画质与创意难以兼得
要理解这个问题,可以把整个AI图像生成系统比作一套"摄影翻译工作室"。工作室里有两位核心员工:一位叫"编码员",负责把原始图片翻译成抽象语言;另一位叫"解码员",负责把这套抽象语言还原成图像。而现在流行的做法,是直接请来一位已经经过多年专业训练的"语言大师"来担任编码员——这位大师就是所谓的视觉基础模型(Vision Foundation Model,简称VFM),代表人物比如DINOv2。
这位语言大师在描述一张猫的照片时,会精准地说出"这是一只橘色的波斯猫,姿态慵懒,背景是木质地板"——这种高度概括的能力让AI在创作新图像时能快速抓住主题,生成速度是传统方法的数倍,质量也更高。这套以VFM为编码器、配上专门训练的解码器的系统,就被称为表征自编码器(Representation Autoencoder,简称RAE)。
然而问题也随之而来。这位语言大师平时的工作是理解图像含义,而不是精确记录每一根毛发的颜色和走向。他的训练目标是"不管猫的姿势怎么变、光线怎么打,都要认出这是同一只猫",这种训练让他擅长归纳,却对颜色细微差异、纹理质感这类"像素级细节"不够敏感。结果就是,当解码员试图根据这份抽象描述还原图像时,原本鲜亮的背景颜色变得模糊,毛茸茸的质感消失,书上的文字也变得歪扭难认。
研究团队做了一组直观的对比实验来量化这个问题。他们用同一套生成架构测试了四种不同的策略:直接冻结VFM不动(原始RAE方案)、直接对VFM进行微调、在微调时加入蒸馏约束、以及在冻结VFM的同时拼接额外的底层信息。实验数据揭示了一个清晰的两难困境:凡是能提升图像还原质量的方案,生成新图像的质量都会明显下降;凡是生成效果好的,图像还原质量又会打折扣。
以直接微调VFM为例:图像还原精度大幅提升,rFID(衡量还原质量的指标,越低越好)从0.67降至0.15,PSNR(像素级还原准确度)从19.61 dB飙升至33.83 dB——这些数字意味着还原出来的图像几乎和原图一模一样。但随之而来的代价是生成FID(衡量新图像质量的指标)从6.05暴涨至57.81,生成质量惨不忍睹,精准度(Precision)从0.80跌到0.40。原因在于微调打乱了VFM精心构建的语义空间,就像把一位经验丰富的翻译逼着去当打字员,反而毁掉了他最核心的语言理解能力。
加入蒸馏约束的方案稍好一些,但也只是稍稍缓解了矛盾,并未从根本上解决问题。拼接额外底层特征的方案同样如此——还原质量有所改善,但生成质量依然大幅倒退。研究团队面对这组数据,意识到关键不在于如何在两者之间折中,而在于找到一种方式,让这两种能力真正共存,而不是此消彼长。
二、"便利贴"的妙用:DecQ框架如何两全其美
研究团队给出的解决方案可以用一个办公室场景来理解。那位语言大师(VFM)保持不变,继续用他擅长的方式描述图像的宏观语义。但现在,工作室引入了一组"细节记录员"——这就是DecQ中的核心创新,被称为"细节凝聚查询"(Detail-Condensing Queries,简称DecQ的名字来源)。
这些细节记录员的工作方式非常聪明:他们并不参与语言大师的主流工作,而是悄悄站在旁边,在大师处理图像的不同阶段偷偷记录那些被忽视的细节。更关键的是,他们只是"记录",绝不干预大师的工作流程。大师说什么,就说什么;记录员补充的只是旁注,而不是修改正文。这种单向信息流动的设计,确保了VFM的语义空间完全不受影响。
从技术角度来看,这些"细节记录员"是一组数量极少的可学习查询向量(默认只有8个),它们通过一种叫做"交叉注意力"的机制,从VFM处理图像的中间阶段提取信息。这个机制可以理解为:记录员带着问题去翻看大师在不同处理阶段留下的草稿,从中找出那些关于颜色、纹理的细节线索,然后把这些线索整理成自己的笔记。整个提取过程由一个叫"凝聚器"(Condenser)的小模块完成,每个凝聚器包含一个交叉注意力单元和一个前馈网络,结构轻巧,计算开销极小。
具体来说,这8个查询向量依次在VFM的第0、3、6、9层进行信息提取,每次提取都以当前的查询状态为起点,从对应层的补丁特征中汲取新信息,然后更新查询状态,传递给下一个凝聚器。经过这一轮轮的信息积累,最终这8个查询向量浓缩了VFM在整个处理过程中逐渐丢失的底层视觉细节,成为256个主流语义补丁标记的有力补充。
在解码阶段,这8个细节查询向量与原来的256个语义补丁标记一起被送入解码器。两者在解码器的自注意力机制中互相交流,查询向量把记录的细节信息"透露"给补丁标记,帮助解码器更准确地还原图像。最终的图像预测只使用补丁标记,但查询向量在整个解码过程中始终作为辅助参与,提供关键的底层视觉线索。
整套额外装置的计算开销出奇地低:相比原始RAE,凝聚器增加了1.44 GFLOPs的计算量,扩展后的解码序列增加了3.58 GFLOPs,加起来只多出5.0 GFLOPs,相当于基线计算量的3.9%。额外参数方面,4个凝聚器共增加约29.3M参数,占基线501.9M参数量的5.8%。这意味着,只花很小的代价,就可能获得显著的质量提升。
三、深浅有别:VFM不同层次的秘密
在设计DecQ框架的过程中,研究团队发现了一个引人深思的现象,值得单独介绍。VFM处理图像时,就像一位画家从底层草稿逐步细化到成品:浅层(早期处理阶段)保留着大量原始的颜色、边缘、纹理信息,深层(晚期处理阶段)则越来越抽象,充满了高层语义信息。
当凝聚器只接入浅层(第0到3层)时,提取出的细节信息对图像还原帮助极大,rFID从0.67降到0.42,PSNR提升至23.47 dB,但生成FID反而从6.05微涨至6.35——也就是说,新图像的生成质量略有下降。这说明浅层信息虽然丰富了底层视觉细节,但并不能直接转化为更好的生成能力,甚至可能引入一些对生成模型有干扰的低层噪声。
反过来,当凝聚器只接入深层(第8到11层)时,生成FID大幅改善至5.09,IS(初始得分,衡量生成图像多样性和真实感)从146.6提升至156.1,但图像还原质量相对较弱,PSNR仅达到20.72 dB。深层特征更接近语义抽象,对生成模型有正向帮助,但对底层细节的记录能力有限。
这一发现揭示了一个层次依赖的权衡关系:浅层利于还原,深层利于生成,而两者都接入才能同时获益。研究团队最终选择的稀疏策略——在第0、3、6、9层各接入一个凝聚器——在两者之间取得了最佳平衡,还原和生成同步提升,同时计算开销也维持在最低水平。相比之下,在所有12层都接入凝聚器虽然性能相近,但参数量暴增至86.1M,是稀疏策略的三倍,实际收益却相当有限。
四、查询数量的学问:8个恰到好处
研究团队对查询数量进行了系统性的消融实验,结果展示了一条有趣的规律。随着查询数量从2增加到4、8、16,图像还原质量单调递增:PSNR分别为20.89、21.33、22.76、24.41 dB,这符合直觉——查询越多,记录的细节就越丰富。
然而在生成质量上,规律却并非如此简单。FID(越低越好)先从6.05下降到5.94(2个查询)、5.22(4个查询)、4.74(8个查询),随后在16个查询时又回升至6.43。这个倒U形曲线说明,适量的细节补充对生成模型有益,但过多的细节反而会给生成模型带来额外的预测负担,引入冗余的低层信息,干扰语义建模。
更有意思的是,无论查询数量怎么变,额外参数量始终保持在29.3M不变。这是因为参数量主要由凝聚器的数量决定(固定为4个),而不是查询向量本身。因此,选择8个查询在获得最佳生成效果的同时,还原质量也远超原始RAE,只需要略高的3.9%计算开销,是性价比最优的配置。
五、生成阶段的协同:让查询向量也"参与创作"
DecQ最富创意的设计,来自于生成阶段对查询向量的处理方式。传统的RAE在生成新图像时,扩散模型只负责从随机噪声中逐步生成256个语义补丁标记,然后交给解码器。DecQ则进一步扩展了这个过程:扩散模型同时生成264个标记(256个补丁标记加上8个查询标记),两者从高斯噪声出发,共同经历去噪过程,最终一起被解码器解码成图像。
这种设计背后有一个微妙的逻辑:如果扩散模型在训练时知道它需要同时生成这8个细节标记,那么它在生成补丁标记时也会"心中有数",倾向于生成那些更容易被解码成高质量图像的标记——因为解码时需要和查询标记配合。这有点像让一个作家同时负责写正文和配图说明,正文的遣词造句会因为要与配图呼应而更加精准,而不是单独写正文然后硬凑一个配图。
研究团队还专门设计了一个对比实验来验证这一推断:他们创建了一个"DecQ(RAE解码器)"版本,使用DecQ的分词器来训练扩散模型,但在推理时丢弃生成的查询标记,只用生成的补丁标记和原始RAE的解码器进行图像解码。结果非常有力:这个版本的FID为1.99,明显优于原始RAE的2.16,尽管解码时完全没有用到查询标记。这证明,仅仅是训练过程中引入查询目标,就已经让扩散模型学会了生成更高质量的补丁标记。而完整版DecQ的FID进一步降至1.80,说明在解码时实际使用查询标记还能带来额外增益。
这个发现让人联想到另一项相关研究(REG)的思路——后者通过让扩散模型同时预测一个VFM类别标记来提升生成质量——只不过DecQ的查询标记携带的是细粒度视觉细节,而非全局类别语义。两者殊途同归,都说明了"额外的生成目标"对扩散模型的质量有正面的约束作用。
在流量匹配训练目标的设计上,研究团队对补丁标记损失和查询标记损失分别计算均方误差,然后加权求和。由于训练时对两类标记都施加了相同方差的噪声,权重系数默认设为1,两者等量齐观。
六、实验数据:用数字说话
研究团队在ImageNet 256×256分类条件图像生成任务上进行了全面评测,结果极具说服力。
在图像还原方面,DecQ的rFID为0.47,明显优于原始RAE的0.69,也优于同类VFM基方法RPiAE(0.50)和FAE(0.68)。PSNR从RAE的19.13 dB提升至22.76 dB,SSIM从0.49提升至0.63。视觉上,DecQ还原的图像在背景颜色准确性、文字内容清晰度和细粒度纹理保留上均有显著改善。对比之下,传统VAE方法(如SD-VAE)的PSNR高达26.90 dB,这是因为它们的编码器直接以像素级重建为优化目标,但其语义空间的质量远不及VFM,导致生成能力受限。
在图像生成方面,DecQ的表现更为亮眼。在不使用引导的情况下,80个训练轮次时FID达到1.80,800轮次后降至1.41;使用AutoGuidance引导技术后,800轮次的FID进一步降至1.05。对比来看,原始RAE在800轮次时的无引导FID为1.51,使用引导后为1.13,DecQ在两个指标上均实现了超越。与传统VAE方法相比,优势更为突出:SiT在1400轮次时FID为8.61,REPA在800轮次时为5.90,而DecQ仅需80轮次就已经超越了这些方法的终态性能。
收敛速度方面,DecQ展现出3.3倍的加速优势。具体来说,DecQ在240轮次时的FID为1.51,与RAE在800轮次时的性能持平,意味着相同的生成质量只需三分之一的训练时间。这对实际应用来说意义重大,因为大规模图像生成模型的训练往往需要消耗大量计算资源,训练时间压缩到原来的三分之一,相当于直接节省了三分之二的计算成本。
在IS、精准度和召回率等辅助指标上,DecQ在800轮次时的IS高达251.9(有引导时为259.6),高于RAE的242.9(有引导时为262.6),精准度和召回率也保持在与RAE相当甚至略优的水平。
七、令牌的两种"个性":查询与补丁的互补关系
为了进一步理解查询标记和补丁标记各自编码了什么信息,研究团队做了一个直观的聚类可视化实验。他们随机选取一张锚定图像,然后分别用查询标记特征和补丁标记特征在图像库中搜索最近邻图像,看看两种检索方式会找到哪些"相似图像"。
结果非常清晰:以查询标记为基础检索到的图像,与锚定图像在视觉外观上高度相似——背景颜色相同、整体色调一致、纹理风格接近——但主体对象可能完全不同。以一张站在草地上的鸟为锚定图,查询标记的近邻可能包括一只站在同样绿色草地上的狗。相比之下,以补丁标记为基础检索到的图像,则与锚定图像在语义内容上高度相似——都是鸟、都有相似的姿态和种类——但背景颜色和纹理可能各不相同。
这个实验结果为DecQ的设计哲学提供了直接的感性依据:查询标记像是一位"色彩师",专注于记录画面的视觉风格和底层外观;补丁标记像是一位"内容编辑",专注于记录画面的主题和语义结构。两者合作,才能让解码器既"知道画什么",也"知道怎么画"。
八、跨模型泛化:在SigLIP2上的验证
为了确认DecQ的效果不是特定于DINOv2这一种VFM,研究团队还用另一种主流视觉语言模型SigLIP2-B进行了对比实验。SigLIP2是专为视觉语言对齐设计的模型,与DINOv2在训练目标上有根本性的不同。
实验结果显示,基于SigLIP2的原始RAE在还原质量(PSNR 19.92 dB)和生成质量(FID 11.10)上均弱于基于DINOv2的版本,说明SigLIP2的语义空间对于图像生成任务而言不如DINOv2优越。然而,引入DecQ框架后,SigLIP2版本的PSNR从19.92提升至22.07 dB,rFID从0.73降至0.57,生成FID从11.10降至10.09,改善幅度与DINOv2版本相仿。这证明DecQ的设计具有良好的通用性,无论底层VFM是哪种架构,都能从中受益。
这项研究的局限性也值得诚实面对。实验主要在ImageNet 256×256分辨率下进行,更高分辨率(如512×512及以上)下的表现尚未系统验证。更高分辨率意味着更丰富的细节信息,查询数量和凝聚器位置的最优配置可能需要重新调整。此外,DecQ目前只在DINOv2和SigLIP2两种VFM上进行了测试,更多架构家族的验证仍有待开展。研究团队也指出,当查询数量或凝聚器密度增加时,计算开销会随之上升,未来可能需要探索自适应查询分配或更高效的凝聚器设计来进一步优化。
归根结底,DecQ这项研究解决的是一个看似简单却长期困扰研究者的矛盾:如何让AI图像系统在"看懂画什么"和"画得像原图"这两件事上同时做好。研究团队没有选择在两者之间求妥协,而是用一个极其轻量的设计——8个查询向量加4个凝聚器模块,仅多出3.9%的计算量——打通了这个看似非此即彼的死局。查询向量从VFM的内部草稿中偷取那些即将被丢弃的细节线索,既不打扰主流的语义编码,又在解码和生成时提供了宝贵的辅助信息。
这对普通用户意味着什么?在实际AI图像生成应用中,DecQ这类技术的成熟将直接改善生成图像的色彩准确性和纹理精细度,特别是在图像编辑场景中——比如改变某人的服装颜色却保留背景,或者修复老照片中的细节——这些对底层视觉信息高度敏感的任务,将因为更好的编解码系统而受益。与此同时,3.3倍的训练加速意味着AI图像生成能力的迭代周期可以显著压缩,让更先进的模型更快到达用户手中。
对这项研究感兴趣的读者,可以通过arXiv编号2605.22777查阅完整论文,也可以在GitHub仓库Tianhang-Wang/DecQ找到相关的代码和实验细节。
Q&A
Q1:DecQ框架是如何在不修改VFM参数的情况下提升图像还原质量的?
A:DecQ通过引入8个可学习的查询向量,利用交叉注意力机制从冻结VFM的中间层提取底层视觉细节(如颜色和纹理),并将这些细节注入解码器。由于信息流是单向的——从补丁特征流向查询向量,而不是反向干预——VFM的参数和语义空间完全不受影响,解码器却能获得额外的细粒度信息辅助。
Q2:为什么DecQ的生成速度比RAE快3.3倍?
A:DecQ通过在生成训练中同时预测查询标记和补丁标记,给扩散模型增加了一个额外的优化目标,这使模型在生成补丁标记时更倾向于产生高质量、易解码的结果。相当于给扩散模型安排了更明确的"练习题",让它更快学会高质量生成,因此在240个训练轮次时就能达到RAE需要800轮次才能达到的FID水平。
Q3:DecQ框架中查询数量设为8个的原因是什么?
A:实验表明,随着查询数量增加,图像还原质量单调提升,但生成质量呈现先升后降的倒U形曲线。8个查询时生成FID最低(4.74),16个查询时反而回升至6.43,说明过多的细节信息会干扰生成模型的语义建模。因此8个查询是在还原质量和生成质量之间取得最佳平衡的配置,同时额外计算开销也只有3.9%。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。