微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

蒙特利尔大学AI研究所：用"翻译"代替"重建"，让图像生成模型又快又准

图像生成扩散模型表征学习

蒙特利尔大学AI研究所：用"翻译"代替"重建"，让图像生成模型又快又准

作者：科技行者

2026-05-28 13:45

分享至：

RiT提出在DINOv2语义特征空间中用x预测训练普通扩散变换器，配合标准化和维度感知噪声调度，以676M参数达到FID 1.14，5步即可生成高质量图像。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-28 13:45 • 科技行者

这项研究来自蒙特利尔魁北克人工智能研究所（Mila）、蒙特利尔大学与荷兰乌得勒支大学的联合团队，预印本于2026年5月21日发布在arXiv平台，编号为arXiv:2605.21981。感兴趣的读者可通过该编号在arXiv上查阅完整原文。

一、从"画画"到"翻译"：一个关于图像生成的新视角

要理解这篇研究，先从一个生活场景出发。假设你是一位速记员，需要把一段嘈杂录音还原成清晰文字。通常有两种思路：第一种是每听到一个音节就猜测整段话的走向，边猜边写；第二种是先记住整段话的意思，然后直接把"意思"写成文字。第一种方法每一步都在摸索，第二种方法则目标明确——你的笔从一开始就知道最终要写什么。

现代AI图像生成模型的核心工作方式，有点像第一种速记员。它们从一团随机噪点出发，每走一步就猜"下一步应该往哪个方向走"，最终一点一点把噪点"流动"成一张清晰图片。这种方法叫做"流匹配"（flow matching），而每一步的指引信号叫做"速度"（velocity）——就像给速记员提示"再往左一点、再往右一点"。

Mila的研究团队发现，如果换一种策略——不是每步都猜"方向"，而是直接猜"目标是什么"——在特定条件下会好得多。这种直接预测最终结果的方式叫做"x预测"（x-prediction）。关键在于，这个策略要配合一种特殊的"工作空间"才能发挥最大威力。这个工作空间，就是由DINOv2提供的"语义特征空间"。

团队把这套方案叫做RiT（Representation Image Transformer，表征图像变换器）。在ImageNet 256×256的标准测评上，RiT取得了FID 1.45（无引导）和1.14（有引导）的成绩，比参数量更多的对比模型还要好，而且只需5步就能生成质量不错的图像，完全不需要额外的"蒸馏"或"一致性训练"这类昂贵手段。

二、工作空间的选择，比你想象中重要得多

在解释RiT本身之前，有必要先理解研究团队花了大量篇幅回答的一个问题：到底在什么样的"空间"里做图像生成，会更容易？

把图像生成比作雕塑。你可以在一大块原始泥土里雕（像素空间），也可以先把泥土压成砖坯再雕（像VAE压缩后的潜空间），还可以先把泥土的"结构蓝图"画出来再雕（像DINOv2这样的语义特征空间）。三种工作空间各有特点，选哪种直接影响雕刻的难易程度。

研究团队系统地比较了三种空间：原始像素（3×256×256，约20万维）、SD-VAE压缩特征（4×32×32，约4000维，这是Stable Diffusion常用的）、以及DINOv2语义特征（768×16×16，同样约20万维）。他们从四个维度来衡量哪种空间"对生成任务更友好"。

第一个维度叫"内在维度"，可以理解为这堆数据实际上有多少个真正独立的变化方向。就算你的数据是20万维的，真实变化可能只有几十个方向——就像一张脸可以用"眼睛大小、鼻子高低、嘴巴宽窄"等几十个参数来描述，而不是逐个像素描述。研究团队用一种叫TwoNN的工具估算发现，像素空间和DINOv2特征空间的内在维度几乎相同，都约为33。这说明两个空间里的数据"本质复杂程度"是差不多的，任何差异都不来自数据的根本复杂性，而来自数据如何被"安置"在空间里。

第二个维度叫"有效秩"（effective rank），可以理解为数据在各个方向上的分布均不均匀。若数据只在少数几个方向上变化，就像一根细针；若在所有方向上都均匀变化，就像一个球。由于生成模型的"起点"——随机噪声——本身就像一个球，数据分布越像球，从噪声到数据的路就越短、越均匀。像素空间的有效秩只有45，SD-VAE是98，而DINOv2高达327，是像素的7.3倍。这意味着DINOv2的数据分布更像球，生成模型从噪声出发走的路更短、每个方向的路长更接近。

第三个维度叫"边际高斯性"，听起来复杂，实际上就是问：每个单独维度的数据分布像不像正态分布（也就是常见的"钟形曲线"）？随机噪声本身就是正态分布，所以数据越接近正态分布，从噪声到数据的"搬运"越顺畅。用一个指标"超额峰度"来衡量，0表示完美正态，偏离越大越难处理。DINOv2有98.7%的维度其超额峰度绝对值低于0.5，而像素空间没有任何一个维度达到这个标准。SD-VAE居中，有74.2%的维度满足该条件。

第四个维度叫"流形插值误差"。如果生成路径上经过的中间点恰好也在"合理数据"的范围内，生成模型就不需要处理"不合理中间状态"的情况。研究团队做了一个实验：在像素空间和DINOv2空间里各取两张图，画一条从A到B的直线，然后看这条线上的中间点能不能被正常"解读"。像素插值产生了"鬼影"——两张图重叠的模糊幻象；而DINOv2插值产生的是语义上的平滑过渡，比如一只猫逐渐变成一只狗，中间是一只介于两者之间的动物。定量上，像素插值的误差是DINOv2的1.7倍。

这四个维度一起说明：DINOv2空间的数据分布更接近起点（随机噪声），路更短、更好走、中途不会踩到"坑"。而SD-VAE虽然比像素空间好，但始终比DINOv2差，这表明优势来自DINOv2的自监督学习训练方式，而非单纯的"压缩数据"。

三、DINOv2的一个小麻烦，以及更聪明的解法

DINOv2虽然有诸多优势，却也带来了一个特殊问题。由于DINOv2内部用了一种叫LayerNorm的归一化操作，每个特征向量的长度都被固定在一个特定值附近（约等于维度数的平方根）。这就像所有的"语义向量"都被要求住在一个球壳上，不能随便跑到球的内部或外部。

生成模型工作时，中间状态是数据和噪声的混合，这个混合物会跑到球壳以外的地方——而DINOv2的编码器从来没有产生过这样的点，所以模型在这些"不合法"的中间状态上容易困惑。之前的研究者把这个问题叫做"几何干扰"，并提出了两种复杂的解决方案：要么给模型加一个特制的"宽头部"（DDT头）来专门处理这种速度预测；要么把整个输运路径换成在球面上的黎曼流形匹配（Riemannian Flow Matching），用SLERP曲线代替直线路径。

研究团队选择了一条更简单的路：改变预测目标。与其让模型预测"每一步往哪走"（速度），不如让模型直接预测"最终目标在哪"（x预测）。这样一来，无论中间状态在哪里，模型的输出永远指向"合法的数据点"，彻底绕开了中间状态不合法的问题。正如一位导航员，不管你现在在荒野还是在高速上，他总是直接告诉你"终点是北京"，而不是"现在往左转一百米"。

这种x预测本身并不是全新发明，但之前主要用在像素空间（JiT模型就是这样做的）。RiT的贡献在于揭示了为什么x预测配合DINOv2特征能表现得格外好：因为DINOv2的近高斯分布和接近各向同性的特性，使得"猜测最终目标"这件事变得更容易——目标分布规整，猜测起来自然更准。

实验数据也印证了这一点。在相同架构、相同编码器、相同噪声调度的条件下，x预测在训练80、200、400个周期时的FID分别是2.63、1.89、1.70，而速度预测（v-prediction）分别是3.17、2.11、1.86，x预测始终领先。

四、RiT的完整配方：三个缺一不可的成分

RiT不只是简单地把x预测用在DINOv2上，还有两个额外的关键设计，实验证明每个都是不可或缺的。

第一个成分是"逐元素标准化"。DINOv2的LayerNorm让每个单独的向量长度固定，但不同通道之间的方差差异可以高达100倍以上。如果不处理这种差异，训练会直接发散——在整个训练过程中，FID始终停在300以上，相当于模型完全没有在学习。解决方案是在训练前对每个通道做标准化，让均值为0、方差为1。这一步不是锦上添花，而是训练能正常运行的前提。

第二个成分是"维度感知噪声调度"。一般的图像生成用像素空间，每个像素只有3个颜色维度。而DINOv2每个token有384个维度，噪声叠加时的"体量"比像素大得多。就像往一个大游泳池里倒颜料和往一个小水桶里倒颜料，达到"同样浑浊程度"需要的颜料量差异巨大。如果沿用像素空间的噪声调度，模型会在高噪声阶段训练不足。

研究团队引入了"维度相关时间偏移"——根据token维度d调整噪声时间表，令偏移系数s约等于4.9（具体公式为s=√(h×w×d/4096)，其中h和w是特征图的高和宽）。这把训练时的中位噪声强度向更高噪声区间推移，从原先约0.31推到约0.17，信噪比降低了约5倍。这一改变带来了接近2倍的FID提升（从3.17降到1.44，800个训练周期）。

第三个成分是"CLS-patch联合建模"。DINOv2在提取特征时，除了每个小图块（patch）对应的局部特征，还会产生一个全局的"CLS"向量，可以理解为整张图的语义摘要。传统的VAE空间里没有这样的摘要向量，但DINOv2空间天然就有。研究团队把这个CLS向量也纳入扩散过程，让它和patch特征一起"加噪、去噪"，通过自注意力机制在全局和局部之间双向交流。

具体来说，CLS向量在早期层帮助收集整体场景信息，在中间层整合物体与背景的关系，在后期层把精细化的全局信息广播回每个patch。实验显示，加入CLS建模后FID从1.63降到1.44（800周期），提升明显。此外，训练时CLS和patch的噪声采用独立采样，而推理时则让CLS初始噪声等于patch噪声的空间平均（"耦合噪声"），这一小改动能进一步带来不足0.1的FID提升。

五、训练更快，推理更少步，结果更好

RiT的实际效果在多个维度上都超过了已有方案。

在收敛速度上，和RAE-XL（DINOv2-Small，676M参数，速度预测，没有x预测和其他改进）直接对比，RiT在每个训练周期都领先。更具体地说，RiT在100个训练周期时就达到了RAE-XL（DINOv2-Large）花720个周期才达到的效果，速度快7倍；在200个周期时就达到了RAE-XL（DINOv2-Small）800个周期的效果，速度快4倍。

在推理效率上，使用Heun求解器（一种精度更高的数值积分方法，类似于做估算时多验算一步），只需5步就能在有引导的情况下达到FID 2.0，10步达到FID 1.25，25步就已经接近50步的最终收敛值（1.46对比1.44）。这种少步生成不依赖任何蒸馏或一致性训练——是模型本身的特性决定的。

研究团队还从物理上验证了这一点：他们比较了RiT和JiT-H（像素空间版本）的"ODE截断误差"，即用少步数求解时的近似误差。在步数从2增加到50的过程中，RiT的误差下降了12.9倍，而JiT只下降了3.6倍，差距是3.6倍的衰减斜率差异。换句话说，DINOv2空间里的"速度场"更平滑，用数值方法积分时误差消得更快，所以少步也能达到好效果。

在采样调度策略上，研究团队还对比了六种不同的时间节点分配方式。当步数充足（50步以上）时，所有非均匀调度都能收敛到接近的FID（无引导约1.44，有引导约1.14）。当步数很少时，EDM调度、power-2调度和时间偏移调度这三种"把更多步骤分配到高噪声阶段"的策略，5步FID约2.4，比均匀分配（5步FID 12.7）好5倍。这验证了高噪声阶段的速度场变化最快、需要最多计算资源的判断。

六、和其他方案的横向对比

在ImageNet 256×256的综合排行上，RiT-XL的表现相当突出。

与像素空间的方法相比，RiT不加引导的FID（1.45）已经低于所有像素空间方法加引导后的FID，包括PixelDiT-XL（有引导1.61）、JiT-G（有引导1.82）、MDTv2-XL（有引导1.58）。这说明语义特征空间本身捕获了如此丰富的信息，分类引导（CFG）对提升质量的作用相比像素空间大幅降低。

与基于DINOv2的方法相比，RiT的无引导FID（1.45）优于DiTDH-XL（1.51）、FAE-DINOv2-G（1.48）和RAE-XL（1.87），有引导FID（1.14）也优于DiTDH-XL（1.28）、FAE（1.29）和REPA-XL（1.29）。

特别值得注意的是和DiTDH-XL的比较：DiTDH-XL使用了839M参数，包含专门设计的DDT宽头部，使用DINOv2-Base（d=768）编码器；而RiT只有676M参数（少19%），没有特殊头部，使用的是最小的DINOv2-Small（d=384）编码器，结果却更好。

和FAE的比较也很有意思。FAE对DINOv2-G（最大变体，d=1536）的编码器进行了联合微调，把它的特征压缩到d=32的紧凑潜空间，是从编码器侧对问题进行改造；RiT则完全冻结编码器，从解码器侧的训练策略上下手。两种思路是互补关系，将来可以结合。

七、消融实验揭示的每一块砖都不可少

研究团队做了非常系统的消融实验，逐一拆除每个设计，验证其必要性。

去掉逐元素标准化：训练直接发散，FID始终在300以上，训练无效。这不是性能下降，是完全失效。

换回像素空间的logit正态噪声调度（不使用维度感知时间偏移）：800个周期的FID从1.44升到3.17，差距接近2倍。

去掉CLS建模：FID从1.44升到1.63，提升约13%。

把x预测换回速度预测（其他不变）：在各个训练周期均有约10%的FID下降（如400周期时从1.67升到2.11）。

换用DINOv2-Base代替Small：FID从1.44升到1.56。这个结果乍看反直觉——更大的编码器反而更差？研究团队的解释是：Base编码器的特征维度是768，是Small的两倍，但内在维度（约33）几乎相同，这意味着模型需要在一个更高维的空间里预测同样复杂度的目标，难度更大，而没有对应的信息增益来补偿。

这些实验清楚地表明，RiT的四个设计要素（x预测、标准化、噪声调度、CLS建模）构成了一个完整的"配方"，缺少任何一个都会带来显著的性能下降。

说到底，这篇研究的核心贡献可以用一句话概括：找到了一个天然适合"直接预测目标"的工作空间，从而让一个普普通通的Transformer用简单的训练策略就超越了专门定制的复杂架构。这对整个图像生成领域的启示是，与其在模型结构上大做文章，不如先认真研究数据空间的几何性质——数据的分布形态，有时候比模型大小更决定最终效果。

对于普通人来说，这项研究的意义在于：以后用AI生成图片可能会更快、更省电、生成质量更高。那种"按一下按钮等10秒才出图"的体验，在这类研究的推动下，将越来越快地变成"按一下就出来"。同时，由于DINOv2同时适用于图像识别和图像生成，未来的AI系统也许可以用同一套特征空间同时理解和创作图像，这对构建更统一、更高效的视觉AI系统有重要意义。

感兴趣的读者可以在arXiv上搜索编号2605.21981查阅完整原文，也可以在论文提供的代码库中亲自体验这套系统。

Q&A

Q1：RiT与普通扩散模型相比，为什么生成速度更快？

A：RiT在DINOv2语义特征空间里工作，这个空间的数据分布更接近随机噪声的分布（高有效秩、近高斯分布），导致从噪声到图像的"路"更短、更平滑。ODE截断误差衰减速度是像素空间方法的3.6倍，所以只需5至10步Heun求解就能达到其他方法需要50步以上才能达到的图像质量，且不需要任何蒸馏训练。

Q2：DINOv2特征空间相比SD-VAE空间的优势从哪里来？

A：实验显示SD-VAE在四个几何指标（有效秩、协方差条件数、边际高斯性、流形插值误差）上始终介于像素空间和DINOv2之间。这说明优势不是来自"压缩数据"这件事本身，而是来自DINOv2的自监督学习训练目标——它让特征在各方向分布更均匀、更接近正态分布，自然更适合流匹配。

Q3：x预测和速度预测（v-prediction）在数学上等价，为什么实际效果会有差异？

A：两种方式作为损失函数确实等价（x预测损失乘以(1-t)^(-2)就变成速度损失），但网络实际拟合的函数不同。速度预测要求网络输出依赖中间状态zt（在DINOv2中会跑到"球壳外的非法区域"），且在t趋近1时发散；x预测的目标z0始终在数据流形上，不依赖中间状态，回归更稳定，因此实际训练效果更好。

图像生成扩散模型表征学习

分享至