微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北京大学联合美团、清华大学、IGDL：图像AI不再"只看最后一眼"，多层特征融合让视觉理解更完整

图像生成多层特征融合新型算法

北京大学联合美团、清华大学、IGDL：图像AI不再"只看最后一眼"，多层特征融合让视觉理解更完整

作者：科技行者

2026-05-18 16:36

分享至：

北京大学等联合提出DRoRAE，通过融合视觉编码器全部中间层特征，将图像重建rFID从0.57降至0.29，并发现视觉编码的对数线性扩展规律。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-18 16:36 • 科技行者

这项由北京大学、美团、清华大学与IGDL联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.10780v2，有兴趣深入了解的读者可通过该编号查询完整论文。

一个有趣的问题摆在我们面前：当AI"看"一张图片的时候，它到底看了什么？

你也许没想过，今天大多数负责"读图"的AI系统，其实只看了最后一眼就下结论了。就好像一个厨师花了整整三十分钟做一道菜——翻炒、调味、摆盘，每一步都留下了食材的不同状态和味道——最后只拍了一张成品照片，然后把前面所有过程的照片统统扔掉。这样做当然能看出菜品的整体面貌，但早期那些细节——食材的纹理、颜色的层次、边缘的形态——就这样永远丢失了。

这篇论文的研究团队发现，这正是当前主流AI图像系统存在的一个系统性缺陷。他们提出了一种名为DRoRAE（深度路由表示自编码器）的轻量级解决方案，通过融合图像编码过程中每一个中间阶段的信息，让AI不再只看最后一眼，而是把整个"烹饪过程"的信息综合起来，得到一个比任何单一阶段都更丰富、更完整的图像表示。结果相当可观：在标准的ImageNet-256测试中，图像重建质量的核心指标rFID从0.57大幅下降到了0.29，图像生成质量也随之改善。

一、图像AI的"视觉盲区"：为什么最后一层不够用

要理解这个问题，先要弄清楚现代AI是怎么处理图像的。

当一张图片被送进AI的"眼睛"时，它会经历一系列的处理阶段，就像流水线上的工序。早期阶段，AI注意到的是图片里的低级细节——颜色的过渡、边缘的走向、纹理的重复规律，比如一条鱼鳞片的排列或者一块毛衣的针织花纹。随着信息层层传递，越到后期，AI的关注点越来越抽象——这不再是一片橙色，而是"一只正在跳跃的猫"；这不再是一组白色弧线，而是"鸟的翅膀"。

这个从具体到抽象的过程，在专业上叫做"视觉特征的层次化提取"。每经过一层处理，AI就会在原有信息的基础上叠加新的语义理解，同时那些低级的细节信息就会被逐渐稀释。科学家们通过分析发现，到了处理流程的最后一层，虽然那些细节信息并没有完全消失，但它们已经被反复叠加的高层语义覆盖，只以极其微弱的"残留"形式存在。

而问题恰恰在于：所有现有的、基于预训练视觉模型的图像编码系统，都只取最后一层的输出作为图像的"代表"送去下游任务。早期那些保留着丰富细节信息的中间层？全都丢掉了。

这就好比你要向别人描述一座城市，你旅行了整个月，每天都拍了照片记录不同的街道、建筑细节、市集风情，但最后你只拿出最后一天拍的那张鸟瞰全景图来做介绍。全景图当然气势宏大，能让人感受到城市的整体格局，但那些充满生活气息的街头巷尾细节，就再也找不回来了。

二、三个核心难题：为什么"多看几眼"不是那么简单的事

既然问题清楚了，解决思路听起来也很直接：既然中间层有价值，那就把它们也利用起来呗。把所有层的信息拼在一起，不就比只用最后一层更好吗？

实际上，这里有三个关键障碍让事情变得复杂。

第一个障碍是"内容差异太大"。不同层的信息，就像是用完全不同单位计量的数据——第一层谈的是像素级别的颜色梯度，第十层谈的是物体类别。直接把它们拼在一起，就像把摄氏度和米/秒加在一起求平均，结果毫无意义。更麻烦的是，并非所有区域都同等需要浅层信息：一片蓝天对纹理细节的需求远低于一片豹纹图案。所以，融合的方式必须能够"因地制宜"，根据图片不同位置的内容灵活调整各层的权重。

第二个障碍是"生成兼容性"。在这类系统里，图像编码器和图像解码器（负责把AI理解的表示还原成可视图像的那部分）是配套训练的。解码器已经学会了如何把一种特定分布的信号还原成图片。如果你突然改变了送给它的信号的分布（比如把多层融合后的信息直接送进去），解码器就会懵掉——它会努力解码，但产生的图像可能乱七八糟。更麻烦的是，后续负责生成图片的扩散模型（一种AI图像生成技术）也需要在这个编码空间里学习生成，如果信号的分布变了，扩散模型的学习就会失败，生成质量反而下降，即便重建质量有所提升也没用。

第三个障碍是"主动抑制的需求"。有时候，某些层的信息不仅没有帮助，反而会引入噪声和干扰。一个好的融合系统不仅需要能"选择性地采纳"某些层，还需要能"主动压制"某些不合适的层——这比简单的加权平均要复杂得多。

三、DRoRAE的解法：像调音台一样精准控制每一层信号

研究团队给出的解决方案，可以用一张调音台来理解。一台专业调音台，有多个音轨，每个音轨有独立的音量旋钮，还可以把旋钮往负方向拧来主动消除某个频段的声音。你不是简单地把所有乐器的声音叠加，而是精心调整每个音轨的贡献，甚至用相位消除来去掉某些不想要的共鸣，最终混出一个和谐完美的版本。

DRoRAE的工作原理与此非常相似，分三个主要步骤完成。

首先是"专家翻译"。对于视觉处理流程中的每一层（研究中使用的DINOv2-B模型共有12层），系统配备了一个专属的小型神经网络，负责把那一层的特有"语言"翻译成统一的表达格式。这就像让一个法文翻译、一个德文翻译和一个中文翻译，分别把各自语言的文本翻译成英文，让后续处理有一个统一的基础。每个翻译器都用同样的标准化方式处理输入和输出，确保不同层的信号不会因为量纲差异而互相干扰。

接下来是"能量约束路由"。一个专门的路由网络会观察图片每个位置（具体来说是16×16的空间网格，每个格子对应原图的一块区域）的全部12层信号，然后为每个位置输出12个权重，分别对应12层的贡献比例。与传统的"软择一"方式（使用softmax归一化，确保权重之和为1且都是正数）不同，这里的权重可以是负数，意味着路由器可以主动压制某层的信息。权重的归一化方式也不是简单求和，而是用权重向量的L2范数（可以理解为权重的"总体强度"）来除，确保输出信号的能量保持稳定，不会因为某一层权重特别大而让信号"爆炸"。

最后是"增量修正"。得到融合后的多层信号后，系统并不是直接用它替换原来只使用最后一层得到的信号，而是把融合信号当作一个"修正量"，以β=0.2的比例叠加到原信号上。用公式来表达就是：最终信号 = 原信号 + 0.2 × (融合信号 - 原信号)。这样，最终信号有80%来自原来的最后一层输出，保持了解码器已经学会的信号特征；只有20%是来自多层融合的新鲜信息注入。这个设计极其重要：它确保了信号分布的改变是温和而可控的，解码器和下游生成模型都不会因为信号突变而崩溃。

四、三阶段训练：如何让新成员"无缝融入"老团队

解决了架构问题之后，如何训练这个系统同样大有讲究。研究团队设计了一个三阶段的解耦训练策略，就像一家公司引进新业务时的平稳过渡方案。

第一阶段是"打好基础"。这个阶段完全按照原来的方式训练：冻结编码器，只训练解码器，让解码器学会如何把最后一层的信号还原成高质量图像。训练使用的是三种联合损失：L1像素重建损失（对应"像素级别的还原准确度"）、LPIPS感知损失（对应"人类视觉上的相似性"）以及GAN对抗损失（对应"生成图像是否足够真实，能骗过判别器"）。这一阶段结束后，系统已经有了一个成熟的解码器，能够很好地从最后一层信号重建图像。

第二阶段是"新成员上岗，前辈不动"。此时编码器和第一阶段训练好的解码器全部冻结，只训练那个轻量级的融合模块（约2900万个参数）。冻结的解码器在这里起到了一个非常聪明的作用：它充当了一个隐式的"约束器"。融合模块输出的信号必须让解码器能够解码得好，这就迫使融合模块不能自由地改变信号分布。经过这一阶段，融合模块学会了如何从多层信息中提取有用的互补信号，同时保持整体分布的稳定，rFID从0.57降到了0.47。

第三阶段是"师徒共同进化"。融合模块的参数冻结，解码器再次解冻，继续训练。这一次，解码器面对的是已经被融合模块丰富化的信号，它需要重新调整自己，学会充分利用这些更丰富的信息。由于第二阶段已经把融合信号的分布稳定在了一个合理的范围内，解码器的调整并不剧烈，可以平稳地提升能力。经过这一阶段，rFID进一步从0.47降到了0.29，PSNR（信噪比，衡量像素级别的还原精度）从18.8提升到24.32，LPIPS（感知相似度，越低越好）从0.256降到0.134，SSIM（结构相似度，越高越好）从0.483升到0.701。

如果跳过第二阶段，直接同时训练融合模块和解码器，会发生什么？实验结果显示，融合模块会自由地改变信号分布，向着对重建有利但解码器从未见过的方向漂移。重建指标可能短暂看起来不错，但当后续的扩散模型来学习生成这些信号时，训练损失高达0.79（而正常情况下约为0.47），图像生成能力严重下降。这就好比强迫一个只学过普通话的口译员立刻处理一份方言稿件——他会手足无措，产出的内容也会漏洞百出。

五、实验结果：从像素到故事，全方位验证改进

研究团队在三个不同的任务上验证了DRoRAE的效果。

图像重建方面，使用ImageNet-1K的128万张图片训练，在5万张验证图片上评估。如前所述，四个主要指标均有显著提升。从直观对比图来看，DRoRAE重建的图像在鱼鳞纹理、针织图案、数字表盘上的细节、以及婴儿皮肤的细腻感这类需要高频细节的区域，都明显优于原始RAE。频域分析进一步证实了这一点：把图像转换到频率域（类似于把声音分析成各个频率成分的叠加），RAE重建的图像在中高频段（对应细节和纹理）有明显的能量损失，而DRoRAE的损失要小得多。

类别条件图像生成方面，研究团队用一个名为DiTDH-XL的扩散模型（8.39亿参数，训练80轮）在不同编码器对应的潜在空间里学习生成图像，唯一变量就是使用哪个编码器。结果显示，使用AutoGuidance技术后，DRoRAE对应的生成FID（衡量生成图像分布与真实图像分布的差距，越小越好）从1.74降到1.65，优于原始RAE。

文本到图像生成方面，研究团队在一个名为Bagel的多模态框架（使用Qwen2.5-0.5B语言模型作为骨干，约10亿参数总量）上进行测试，训练数据集为CC12M-LLaVA-Next（约1200万图文对）。评估使用GenEval基准，这个基准从六个维度考察AI生成图像的能力：单个物体的准确生成、两个物体的同时生成、数量计数、颜色属性、空间位置关系和颜色归因。DRoRAE整体得分0.60，相比RAE的0.56有所提升，证明多层融合带来的表示改善能够迁移到文本驱动的生成场景。

六、一条意外发现的"规律"：视觉编码器也有扩展法则

研究团队在调整融合模块的规模时，发现了一个令人兴奋的规律性现象。

他们分两个维度做了系统性的规模实验。一是固定融合层数为12层，改变每个专家网络的内部维度（从128维到6144维，对应参数量从约250万到约1.13亿），发现rFID随参数量的对数呈线性下降，R?=0.86，拟合得非常好。这意味着每次把参数量翻10倍，rFID的改善量都差不多是固定的。二是固定专家维度为3072，从只融合最深的1层逐步扩展到融合全部12层，发现rFID整体趋势持续下降，R?=0.49，虽然有波动但方向明确，且12层时仍无饱和迹象。

把这两个维度的数据放到一张图上，以总参数量为横轴，rFID为纵轴，两组数据点都落在同一条对数线性曲线上，R?=0.59。这说明无论是增加单层处理能力还是纳入更多层的信息，对重建质量的提升效果是统一可预测的。

这个发现有一个重要的参照背景：自然语言处理领域早已发现，增大词汇表（文本编码的"丰富度"）会带来对数线性的性能提升。如今，研究团队在视觉编码领域找到了一个类比物——"表示丰富度"（由融合层数和每层处理能力共同决定）同样遵循可预测的扩展规律。这意味着视觉编码器的质量不只是靠更大的模型来提升，还可以通过增加"多层融合的丰富度"这个维度来系统性地改进，而且改进的幅度是可以提前预测的。

七、路由器的"内心世界"：AI自发学会了什么策略

研究团队还花了功夫去分析融合模块内部的路由器究竟学到了什么样的策略。

可视化16×16路由权重图（每个格子的颜色代表那个位置对应层被采纳的程度，红色代表正权重即采纳，蓝色代表负权重即压制）后，发现了三个非常有趣的自发涌现行为。

第一层（最浅层）的路由权重在图片中呈现出与图像梯度（即边缘和纹理密集的区域）高度相关的空间分布：纹理丰富的区域权重偏正，平坦均匀的区域权重偏小或接近零。这表明路由器自发学会了"在需要细节的地方才调用浅层信息"，完全符合物理直觉。

第六层和第八层则呈现出一种令人惊讶的"互补对"现象：第六层在前景物体区域权重为强负（蓝色），第八层在几乎相同的位置权重为强正（红色）。两层的路由图相互"镜像"。由于每层都有独立的专家网络处理，这相当于路由器在说："第六层对前景的表示对我来说不好用，第八层对前景的表示更合适，我用第八层的替代第六层的。"这是一种自动学习的特征替换机制，完全没有被显式设计，是路由器自发发现的。

深层（第十到第十二层）的权重则比较均匀，空间选择性较低，整体偏正值，表明最深层的高层语义信息被比较均匀地采纳。

此外，把融合后的信号与原始最后一层信号做PCA可视化（一种把高维信息降维成可视图像的技术）对比，发现两者在视觉上有明显差异：最后一层信号的PCA图呈现大块的语义区域（比如整个动物身体是一种颜色，背景是另一种颜色），而融合信号的PCA图则呈现出更精细的多尺度空间结构。研究团队还测量了两者的余弦相似度，平均约为-0.22，接近完全正交——这说明融合信号确实携带了与最后一层信号互补而非冗余的信息，是一个在高维空间中指向完全不同方向的向量，真正做到了"取长补短"。

说到底，这项研究做的事情，用一句话概括就是：让AI看图时不要只看最后结果，把整个处理过程中留下的信息也综合利用起来。这听起来朴素，但解决起来需要应对信号尺度不统一、分布兼容性被破坏、以及如何平稳训练这一系列问题。研究团队给出的方案——专家翻译+能量约束路由+增量修正+三阶段解耦训练——每一个设计选择都有其针对具体障碍的合理性，消融实验也逐一证实了各个组件的必要性。

更值得关注的是那个扩展规律的发现。它意味着这不是一个"用完就扔"的技巧，而是一个可以持续投入、持续收益的改进方向。未来无论是换用更大的编码器（比如DINOv2-L或更大的模型，拥有更多层和更大容量），还是在现有编码器上投入更多融合资源，都可以预期到可量化的收益。研究团队目前的实验基于DINOv2-B（12层），将这套方法扩展到更大的编码器，以及扩展到视频编码，是他们指出的下一步方向。

对于普通用户来说，这项研究的意义在于：你使用的AI图像生成工具（无论是从文字生成图片还是对图片进行编辑和重建）将来可以做得更精细、更真实，尤其是在那些对细节要求高的场合——比如识别照片里的文字、生成带有特定纹理材质的图像、或者精确还原人物面部的细节。想进一步了解技术细节，可通过arXiv:2605.10780v2查阅原论文。

Q&A

Q1：DRoRAE和普通图像编码器相比有什么实质性区别？

A：普通的基于预训练视觉模型的图像编码器只提取最后一层的特征，而DRoRAE通过一个轻量级融合模块（约2900万参数）把所有12层的中间特征都整合起来。最后一层主要保留高层语义信息，而浅层保留了大量纹理、边缘等细节信息。DRoRAE通过能量约束路由和增量修正，把这些互补信息融入最终的图像表示，从而在图像重建和生成质量上都有明显提升。

Q2：DRoRAE的三阶段训练为什么不能合并成一阶段完成？

A：不能合并的核心原因在于"生成兼容性"。如果跳过第二阶段（只训练融合模块、同时冻结解码器）直接联合训练，融合模块会自由改变输出信号的分布，向着对当前解码器有利但偏离原始特征空间的方向漂移。虽然重建可能暂时改善，但后续扩散模型在这个被改变的空间里训练时损失会高出近一倍，图像生成能力严重下降。第二阶段的冻结解码器充当了一个分布约束器，迫使融合模块在不破坏原始信号分布的前提下学习互补信息。

Q3：表示丰富度的扩展法则在实际应用中意味着什么？

A：这个扩展法则（R?=0.86）的实际意义是：增加融合模块的参数量（无论是扩大每层专家的容量还是纳入更多层）可以带来可预测的、对数线性的图像重建质量提升，不会出现投入越多收益越来越少直至消失的情况。这类似于大语言模型里词汇表大小与训练损失的关系，为视觉编码器的质量提升提供了一个可量化、可规划的改进维度，研究者可以通过调整参数规模来预测和达到目标质量水平。

图像生成多层特征融合新型算法

分享至