微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上交大团队提出ViT-Up：让AI"看清细节"的视觉变换器特征超分辨率新方案

视觉变换器特征上采样隐式神经表示

上交大团队提出ViT-Up：让AI"看清细节"的视觉变换器特征超分辨率新方案

作者：科技行者

2026-06-23 09:18

分享至：

上交大提出ViT-Up，通过逐层查询视觉变换器骨干模型的中间隐藏状态，以坐标条件隐式解码方式将低分辨率特征上采样到任意分辨率，在分割、深度估计和语义对应任务上全面超越现有方法。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-23 09:18 • 科技行者

这项由上海交通大学研究团队完成的工作于2026年6月以预印本形式发布，论文编号为arXiv:2606.14024，有兴趣深入了解的读者可通过该编号查询完整论文。

当你把一张模糊的老照片放大时，会发现越放越糊——细节不是凭空出现的，它们要么本来就有，要么就消失了。现代AI视觉系统面临着一个相似的困境：它们最强大的"眼睛"天生只能看到粗粒度的画面，而很多任务却要求像素级别的精准判断。这篇论文要解决的，正是这个看似矛盾的难题。

一、那双模糊的眼睛：视觉变换器的"先天近视"

要理解这项研究解决的问题，可以把当前最先进的视觉AI模型（视觉变换器，英文缩写ViT）比作一个学识渊博的专家，他有着极其深刻的语义理解能力，但他看世界时戴着一副分辨率很低的眼镜。具体来说，这类模型处理一张448×448像素的图片时，会先把图片切割成一个个小方块（每块16×16像素），再把每个方块压缩成一个"特征令牌"。最终，整张图片只剩下28×28个特征令牌——相当于原本的25万像素被压缩成了784个格子。

这种压缩对于理解"图片里有什么"非常够用，甚至因为迫使模型更关注全局语义而效果更好。但当AI需要回答"图片里每一个像素属于什么？"（即语义分割任务）或者"每个像素离镜头有多远？"（即深度估计任务）时，784个格子远远不够用——就像用一张印着28×28格子的地图来导航一座需要精确到街道门牌号的城市，误差难以避免。

一个简单的解法是让模型在更大的图片上工作，生成更多格子。但研究者发现，把图片分辨率急剧提高之后，原本训练好的模型会"不认识"这么密集的输入，特征质量反而下降——就像那位专家原本戴着600度的眼镜，你突然给他换成1200度，他反而什么都看不清了。

另一个解法是在模型后面专门设计一个"解码器"来从粗粒度特征中还原出密集预测结果。但这类解码器是针对特定任务训练的，换一个任务就得重新训练，失去了"一次训练、到处可用"的灵活性——而这恰恰是这类大型基础视觉模型最宝贵的能力。

正因如此，近年来涌现出一批"特征上采样器"：这些工具专门负责把粗粒度的特征格子变密，变成高分辨率的特征图，且不针对任何特定下游任务。研究者把它们称为"任务无关的特征上采样器"。JAFAR、AnyUp、UPLiFT、NAF都是其中的代表性工作。而这篇论文提出的ViT-Up，正是在这条赛道上的一次新尝试——而且从实验结果来看，它跑得相当漂亮。

二、旧方案的通病：漂亮外表下藏着的"概念串台"

现有方法中有一类非常流行的策略，叫做"图像引导上采样"。它的核心思路是：模型的特征图分辨率低，但原始图片的分辨率高。高分辨率的图片里包含清晰的边缘、纹理和结构信息，把这些信息作为"指引"，就能让特征图变得更清晰锐利。

这个思路听起来很合理，效果看起来也很好——生成的高分辨率特征图视觉上非常锐利，细节丰富。但上交大的研究团队在仔细分析后发现了一个严重的问题：视觉上的锐利并不等于语义上的准确。

研究者把这个现象称为"特征泄漏"（feature leakage）。设想你站在一个蔬菜市场，货架上的绿色标签旁边摆着一堆深绿色的蔬菜，标签和蔬菜颜色相近、视觉上挨得很近。图像引导的上采样器在处理这种情况时，会把标签的特征和蔬菜的特征混在一起——因为它的"引导者"（一个浅层图像编码器）只看到了颜色相似、位置相邻，却没有足够的语义理解能力区分"这是一个商品标签"和"这是一颗西兰花"。

问题的根源在于：这些方法使用的图像引导编码器非常浅，层数少、容量小，它具有高分辨率，却缺乏真正的语义判断力。而真正具备语义判断力的，恰恰就是那个被压缩成28×28格子的ViT骨干模型本身。换句话说，旧方法用了一个能力不足的"助手"来引导上采样，而那个真正懂语义的"专家"的内部知识却没有被充分利用。

ViT-Up的核心洞察就在这里：与其引入一个外部的、浅层的图像编码器作为引导，不如直接从ViT骨干模型自身的内部中间层提取信息。这个想法说起来简单，但实现起来需要一套精心设计的机制。

三、ViT-Up的核心思路：从内部一层层"问"出细节

ViT骨干模型在处理图片时，并不是直接从输入跳到输出——它经历了一层又一层的变换，每一层都在对图片信息进行加工和重组。研究者发现，这个层层加工的过程具有一种天然的层次结构：浅层保留了更多精细的空间和结构信息，深层则逐渐把这些信息整合成更抽象、更全局的语义表示。

ViT-Up的设计思路就是顺着这个层次结构，一层一层地"问"骨干模型：在你的浅层，这个坐标位置附近有什么空间细节？在你的中层，这里的特征开始呈现什么语义？在你的深层，这里最终代表的是什么概念？通过这种逐层询问和精炼的过程，最终得到任意坐标处的高分辨率特征。

用一个具体的比喻来理解：你正在绘制一张城市地图，手头只有低分辨率的卫星图（对应ViT的最终特征）。旧方法是找来一个能看到高分辨率街景的助手（外部图像编码器），让助手告诉你每条街道的细节，但这个助手并不真正理解城市的功能分区（语义）。ViT-Up则是直接去问设计这座城市的规划师（ViT骨干模型自身），先问他画草图时留下的早期规划图（浅层特征），再问他添加功能分区时的中期方案（中层特征），最后结合他的终稿（深层特征），逐步还原出任意位置的完整信息——因为规划师自己最清楚这座城市的每个角落。

在技术实现上，ViT-Up对任意一个查询坐标的处理分为三个核心步骤，依次串联。

首先是"初始查询嵌入"的生成。ViT骨干模型的第一层是一个"图块嵌入层"，它把图片的每个16×16小块转换成一个特征向量。ViT-Up把这个嵌入层单独拿出来，在更高的分辨率（224×224的格子）下运行，生成一个高分辨率的初始特征网格，然后通过双线性插值在查询坐标处采样，得到初始查询表示。这一步的妙处在于复用了骨干模型自己的嵌入权重，让初始查询天然地与骨干模型的特征空间对齐，避免了"外来者"在语义空间里找不到北的问题。

其次是"ViT-Up块"的逐层精炼。ViT-Up包含T个处理块（主配置中T等于6），每个块对应骨干模型的某一层（每隔一层取一次，对应第2、4、6、8、10、12层）。每个处理块接收上一块的输出、查询坐标，以及对应骨干层的28×28低分辨率隐藏状态，产生更新后的查询表示。每个处理块内部包含两个关键组件，它们分工合作，缺一不可。其中一个是"跨窗口交叉注意力"机制：查询向量可以关注28×28特征图中自己"窗口"内的所有令牌，通过注意力权重把相关令牌的信息融合进来。为了让注意力机制理解查询坐标与令牌中心坐标之间的相对位置关系，研究者使用了二维旋转位置编码（RoPE），这能帮助模型在连续坐标空间中精确感知"我在哪里，哪些令牌与我相关"。

然而，跨窗口注意力本质上是对多个令牌特征的加权平均，它容易把令牌内部的精细细节"模糊掉"。为此，研究者设计了第二个组件——"FeatX特征提取器"，专门负责恢复"次令牌级别"的细节。FeatX的工作原理是：找到查询坐标最近邻的那个令牌，计算查询坐标相对于该令牌中心的偏移量（比如"我在这个令牌的右上角四分之一处"），用正弦位置编码把这个偏移量表示出来，再用一个小型MLP预测FiLM条件化参数（γ和β）。有了这两个参数，就可以对最近邻令牌的特征进行空间位置相关的调制，让同一个令牌对不同位置的查询给出不同的响应——这有点像用放大镜查看令牌内部的精细结构，不同角度下看到的细节不同。调制后的令牌特征再经过一个MLP，提取出该查询位置特有的次令牌信息。

两个组件的输出与过渡MLP的输出相加，再经过一个残差融合MLP，得到这一块的输出查询表示，送入下一块继续精炼。整个过程类似于一个侦探在多个证人（骨干模型各层）那里逐一核实证词，每次都结合大局（注意力机制）和局部线索（FeatX），逐步逼近关于该位置的完整真相。

最后，经过T块精炼后的最终查询表示，经过一个带LayerNorm的单层MLP加上线性投影，输出最终的特征向量。

四、轻量微调的骨干适配：给专家配一副新眼镜

为了让骨干模型的内部特征更好地支持高分辨率查询，但又不完全重训练整个模型，研究者使用了LoRA（低秩适配）技术对骨干模型进行轻量级微调。LoRA的原理是在原有的线性变换矩阵旁边并联一个低秩矩阵乘积，训练时只更新这个低秩补丁，而不动原始权重。具体配置是秩r等于16、缩放系数α等于32、适配器随机失活率为0.05，应用于骨干模型的图块嵌入层以及每个注意力块的Q、K、V、输出投影矩阵。这相当于给那位专家配了一副可调节的新眼镜，让他在保留原有知识的前提下更适合回答新的高分辨率问题。

五、聪明的训练策略：用"缩放教学"避开高分辨率的陷阱

如何训练这样一个系统？这里有一个根本性的难题：要得到高分辨率的监督信号，就需要在高分辨率下运行ViT骨干模型，但这正是代价高昂或容易劣化的操作。

研究团队设计了一套精妙的"师生蒸馏"训练策略来绕过这个难题。"教师"是冻结的原始骨干模型，以224×224、448×448、896×896三种分辨率处理同一张训练图片，分别得到14×14、28×28、56×56三种分辨率的特征图作为监督目标。这三种分辨率虽然都比极高分辨率要小，但它们的组合覆盖了足够宽的尺度范围，而且骨干模型在这些分辨率下还能保持健康的特征质量。

"学生"（带LoRA适配的骨干模型加上ViT-Up）则接受一张经过缩放处理的图片：先把训练图片随机缩小（缩放比例从0.1到1.0均匀采样），然后把缩小后的图片粘贴到一张448×448的黑色画布上。然后在粘贴图片的可见区域上密集采样一个56×56的查询坐标网格，让ViT-Up在这些坐标上预测特征。

这个设计的巧妙之处在于：学生看到的是一张降分辨率的图片，而被要求预测的目标是来自教师在多个分辨率下运行得到的特征。为了把学生的56×56预测与教师的14×14和28×28特征对齐，只需对学生的输出做平均池化（把相邻格子的特征取平均）就能得到对应粗粒度目标。这种多尺度监督迫使学生在不同粒度上都要对齐教师的特征，从而学到尺度一致的、高保真的上采样能力。

损失函数由三部分组成，相互互补。归一化L2损失确保预测特征向量在每个通道的数值分布上与教师对齐；余弦距离损失确保预测特征的方向（角度对齐）与教师一致；KL散度关系损失则是更高层次的约束，它计算同一图片内所有预测特征之间的成对相似度矩阵，并让这个矩阵的分布尽量接近教师特征的成对相似度矩阵——这保证了预测特征的"内部关系结构"（谁和谁相似、谁和谁不同）与教师特征保持一致。三个损失的权重在主配置中均设为1。

训练数据沿用ImageNet-1K，批量大小24，初始学习率0.0002，余弦退火调度，训练一个轮次（epoch）。

六、与众多方法的正面较量：数字说话

研究团队把ViT-Up与四个代表性的先进上采样方法展开了系统对比：JAFAR、AnyUp、NAF和UPLiFT，以及简单的双线性插值基线。所有实验以DINOv3作为骨干模型，这是一个比早期DINOv2具有更干净中间特征的现代视觉基础模型。

在语义分割的线性探测实验中，统一使用448×448输入分辨率，在冻结的上采样特征上训练一个轻量级线性预测头。结果是：在COCO数据集上，ViT-Up达到64.09 mIoU，比最好的基线方法高出0.23；在VOC数据集上达到87.47 mIoU，提升1.63；在ADE20K上达到44.73 mIoU，提升0.49；在Cityscapes上达到65.41 mIoU，提升2.07。Cityscapes数据集以大量行人、电线杆、交通标志等细小结构著称，这里最大的提升恰恰说明ViT-Up在精细空间结构的保留上有明显优势。在深度估计上，ViT-Up将δ1指标从62.17提升至62.72（提升0.55），将RMSE从61.15降至59.82（减少1.33），同样全面领先。

在语义对应关系的评测上，差距更加显著。研究者使用SPair-71k数据集，它要求模型在不同图片中找到语义上对应的关键点（比如甲图中鸟的尾巴对应乙图中同一只鸟的尾巴）。ViT-Up在PCK@0.10（容差为图片边长10%时的正确率）上达到55.44，比最好的基线高出4.17个点；在更严格的PCK@0.05上达到39.07，提升5.11；在最严格的PCK@0.01上达到7.30，提升3.47。特别值得关注的是，在PCK@0.01这个精度下，ViT-Up几乎是双线性插值的两倍——3.83对比7.30——说明它恢复的密集特征保留了非常精细的部件级语义结构，而不仅仅是粗粒度的类别信息。相比之下，JAFAR和AnyUp在这个指标上甚至比双线性插值还差（1.89和1.97 vs 3.83），说明图像引导上采样在精细语义对应任务上会主动破坏特征质量。几何对应关系评测（NAVI数据集）上，ViT-Up同样取得所有阈值下的最好结果，虽然提升幅度较小（0.25到0.50），但表明几何特征同样得到了保留。

为了进一步验证"特征忠实性"，研究者还做了一个严苛的"冻结头"测试：先在骨干模型的原始低分辨率特征（28×28）上训练好预测头，然后冻结预测头，直接在各上采样方法的输出上评估，看谁的特征更符合骨干模型的原始特征空间。在VOC和Cityscapes上，ViT-Up在冻结头条件下的表现甚至超过了竞争方法在微调头条件下的表现——这意味着ViT-Up不只是让特征"更锐利"，而是真正保留了骨干模型的语义组织结构。

七、更大骨干模型下的惊喜：能力越强，优势越大

研究者还把ViT-Up扩展到了更大的DINOv3-B骨干（相比DINOv3-S+，特征维度翻倍），通过等比例放大ViT-Up的内部维度来适配。结果显示，骨干越大，ViT-Up相对于竞争方法的优势越明显。在Cityscapes上，ViT-Up相对于NAF的优势从2.07扩大到3.36 mIoU。在SPair-71k的PCK@0.10上，优势从4.17暴增至8.09——而NAF在使用更大骨干时性能甚至有所下降（从48.68降至47.19），因为骨干变大后ViT特征中编码了更多精细的次令牌信息，而NAF的图像引导机制无法恢复这些信息，其外部图像编码器的能力完全没有随骨干升级而升级。ViT-Up则恰恰相反，骨干的中间层越丰富，它能够提取的信息就越多。

八、解剖每个设计选择：哪个零件最关键？

研究者对ViT-Up的各个组件进行了系统的消融实验，所有消融在ImageNet上训练20k次迭代，使用冻结头分割和SPair-71k作为评估指标。

去掉跨窗口交叉注意力是破坏性最大的操作：Cityscapes冻结头mIoU从63.38骤降至60.44，SPair-71k PCK@0.10从54.90降至51.29。这表明交叉注意力对语义上下文的整合是不可或缺的。去掉FeatX则导致冻结头分割更明显下降（62.99 vs 63.38），但有趣的是在SPair-71k PCK@0.10上反而略有提升（55.24 vs 54.90）——研究者的解释是，融合了次令牌细节的特征在粗粒度对应上可能因为引入了额外的局部变化而略有干扰，但在严格阈值下（PCK@0.01：6.24 vs 6.42）完整模型仍然更好，说明FeatX对精细对应至关重要。定性可视化清楚地展示了这两者的互补性：去掉FeatX后特征保持空间一致但失去纹理细节（如海星臂端的纹理消失）；去掉交叉注意力则保留了局部细节但出现明显的像素化方块伪影。两者结合才能得到既连贯又精细的特征图。

去掉LoRA或KL散度损失的影响相对较小，但两者对SPair-71k性能都有轻微负面影响。去掉输出解码器MLP或过渡MLP也都会带来一定损失，其中解码器的缺失在Cityscapes上尤为明显，表明这个简单的线性变换有助于模型在输出前对特征通道进行更好的组织。

在精炼层数的消融中，从1层到12层的提升非常显著：Cityscapes mIoU从61.47提升至63.42（提升1.95），VOC提升0.82，SPair-71k PCK@0.10提升2.90，PCK@0.05提升4.56，PCK@0.01提升2.47。层数越多，精细空间结构的恢复越准确，这验证了"逐层精炼"这一核心设计理念的价值。主配置选择6层是在精度与计算效率之间的平衡点。

在输出分辨率的消融中，从28×28到448×448的提升同样显著，但大部分增益在112×112时已经实现，从112×112到448×448的增量相对有限（Cityscapes除外，在这里全分辨率依然有额外的0.27 mIoU提升）。这意味着ViT-Up在以较低输出分辨率（112×112）运行时，已经能够超过所有全分辨率的竞争方法——在效率和质量之间提供了灵活的权衡空间。

九、运行效率：一个有趣的权衡空间

ViT-Up有24.9M参数，远多于竞争方法（NAF约0.7M，UpLiFT约0.8M），但参数量在这里是一个误导性的指标——密集特征上采样的显存瓶颈在于中间激活值而非权重存储。

ViT-Up有一个特别有用的性质：所有输出查询在给定骨干特征的条件下彼此独立，因此可以分块处理。用112×112的块大小处理448×448的查询时，峰值显存为503.7 MiB，是所有比较方法中最低的，同时运行时间62.6ms与JAFAR（52.9ms）和AnyUp（59.8ms）相当，比UpLiFT（10.1ms）慢但UpLiFT使用了专门的编译优化且在其最优递归对齐分辨率下测试。更重要的是，在112×112输出分辨率下，ViT-Up只需14.2ms（显存503.7 MiB），此时性能已经超过所有竞争方法的最高分辨率结果。这个分块推理的特性也使得在单张RTX 5090上以批量24训练成为可能。

十、局限与未来方向：这双新眼睛的边界

任何特征上采样方法都受限于骨干模型本身编码了多少信息——不在骨干隐藏状态中的细节，无法从上采样中凭空恢复。ViT-Up通过利用中间层而不仅仅是最终层，已经大幅缓解了这一信息瓶颈，但它终究无法超越骨干模型的信息上限。研究者指出，使用56×56分辨率（而非28×28）的骨干特征作为输入，在保持合理计算量的同时能提供更多空间信息，是一个切实可行的改进方向。

另一个局限是与具体骨干模型的耦合性。ViT-Up中的过渡MLP需要学习特定骨干各层之间的转换关系，FeatX需要学习如何从该骨干的中间表示中提取次令牌信息，这些都依赖于骨干模型内部特征的组织方式，使得ViT-Up需要针对每个骨干单独训练。研究者认为这一成本可以接受，因为训练完成后ViT-Up可以跨任务、跨数据集复用，是一次性的固定成本。

更长远的方向是把ViT-Up与骨干模型联合训练：当前骨干模型并不是为"支持连续高分辨率坐标查询"而优化的，它们的中间层可能丢失了对高分辨率重建有用的局部细节。如果在训练骨干时也加入高分辨率重建损失，骨干的内部表示就能更好地支持ViT-Up的工作，从而进一步释放性能上限。当前的LoRA适配是这个方向上的一步，但还不够彻底。

此外，研究者还在附录中讨论了DINOv2和DINOv3之间的一个关键区别：DINOv2的特征中存在明显的位置相关伪影和空间泄漏，而基于图像引导的上采样方法恰好能通过注入高分辨率图像信息来"顺手"抑制这些伪影，因此在DINOv2上的优势更加明显。ViT-Up的目标是忠实重建骨干特征，自然不会主动去除这些伪影，在DINOv2的线性分割评测上略逊于最好的图像引导方法。但在语义对应任务上，即使是DINOv2，ViT-Up也仍然是最强的，说明对应关系需要的是特征的几何保真性，而不是视觉上的"清洁度"。DINOv3使用旋转位置编码（RoPE），特征本身更干净，让忠实重建成为更主流的需求，ViT-Up在DINOv3上的全面优势也因此更为突出。

说到底，ViT-Up做的是一件看起来简单但执行精妙的事：与其找外人来猜测一个大师的内心（用浅层图像编码器来引导骨干特征上采样），不如直接倾听大师讲述自己的思考过程（从骨干的中间层逐层提取信息）。实验结果表明，这种"直接对话"的方式在语义忠实性和精细空间结构的保留上都有明显优势，尤其是当骨干模型越来越强大、中间层越来越信息丰富时，这种直接利用内部知识的策略优势愈发明显。

如果你对这项研究的技术细节感兴趣，可以通过arXiv编号2606.14024查阅完整论文，代码和预训练模型也已在论文中提供的代码仓库公开发布。

Q&A

Q1：ViT-Up为什么比图像引导上采样方法更能保留语义特征？

A：图像引导上采样依赖一个浅层图像编码器来"引导"特征密集化，这个编码器分辨率高但语义理解能力弱，容易把视觉相似但语义不同的区域特征混在一起。ViT-Up则直接从骨干模型的中间层逐层提取信息，不引入外部语义能力不足的辅助编码器，所以上采样出的特征与骨干原始语义空间高度一致，语义泄漏现象大幅减少。

Q2：ViT-Up训练时没有真正的高分辨率特征标注，是怎么解决监督信号的问题的？

A：研究者设计了一套师生蒸馏策略：让冻结的骨干模型分别在224×224、448×448、896×896三种分辨率下处理同一张图片，得到三种粒度的特征图作为教师目标；学生模型接收缩小后的图片，被要求预测与教师对齐的密集特征。通过对学生输出做平均池化来匹配不同粒度目标，实现了多尺度监督，无需超高分辨率推理。

Q3：ViT-Up在计算资源消耗上是否比其他方法大很多？

A：ViT-Up参数量约24.9M，比竞争方法大约30倍，但密集上采样的显存瓶颈主要来自中间激活而非参数。ViT-Up支持查询分块处理，用112×112的块大小在448×448输出分辨率下峰值显存仅503.7 MiB，是所测方法中最低的；运行时间约62.6ms，与JAFAR和AnyUp相当。若只需112×112输出分辨率，ViT-Up只需14.2ms即可超过所有竞争方法的全分辨率性能。

视觉变换器特征上采样隐式神经表示

分享至