微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 蒙特利尔大学AI研究所:用"翻译"代替"重建",让图像生成模型又快又准

蒙特利尔大学AI研究所:用"翻译"代替"重建",让图像生成模型又快又准

2026-05-28 13:45
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-28 13:45 科技行者

这项研究来自蒙特利尔魁北克人工智能研究所(Mila)、蒙特利尔大学与荷兰乌得勒支大学的联合团队,预印本于2026年5月21日发布在arXiv平台,编号为arXiv:2605.21981。感兴趣的读者可通过该编号在arXiv上查阅完整原文。

一、从"画画"到"翻译":一个关于图像生成的新视角

要理解这篇研究,先从一个生活场景出发。假设你是一位速记员,需要把一段嘈杂录音还原成清晰文字。通常有两种思路:第一种是每听到一个音节就猜测整段话的走向,边猜边写;第二种是先记住整段话的意思,然后直接把"意思"写成文字。第一种方法每一步都在摸索,第二种方法则目标明确——你的笔从一开始就知道最终要写什么。

现代AI图像生成模型的核心工作方式,有点像第一种速记员。它们从一团随机噪点出发,每走一步就猜"下一步应该往哪个方向走",最终一点一点把噪点"流动"成一张清晰图片。这种方法叫做"流匹配"(flow matching),而每一步的指引信号叫做"速度"(velocity)——就像给速记员提示"再往左一点、再往右一点"。

Mila的研究团队发现,如果换一种策略——不是每步都猜"方向",而是直接猜"目标是什么"——在特定条件下会好得多。这种直接预测最终结果的方式叫做"x预测"(x-prediction)。关键在于,这个策略要配合一种特殊的"工作空间"才能发挥最大威力。这个工作空间,就是由DINOv2提供的"语义特征空间"。

团队把这套方案叫做RiT(Representation Image Transformer,表征图像变换器)。在ImageNet 256×256的标准测评上,RiT取得了FID 1.45(无引导)和1.14(有引导)的成绩,比参数量更多的对比模型还要好,而且只需5步就能生成质量不错的图像,完全不需要额外的"蒸馏"或"一致性训练"这类昂贵手段。

二、工作空间的选择,比你想象中重要得多

在解释RiT本身之前,有必要先理解研究团队花了大量篇幅回答的一个问题:到底在什么样的"空间"里做图像生成,会更容易?

把图像生成比作雕塑。你可以在一大块原始泥土里雕(像素空间),也可以先把泥土压成砖坯再雕(像VAE压缩后的潜空间),还可以先把泥土的"结构蓝图"画出来再雕(像DINOv2这样的语义特征空间)。三种工作空间各有特点,选哪种直接影响雕刻的难易程度。

研究团队系统地比较了三种空间:原始像素(3×256×256,约20万维)、SD-VAE压缩特征(4×32×32,约4000维,这是Stable Diffusion常用的)、以及DINOv2语义特征(768×16×16,同样约20万维)。他们从四个维度来衡量哪种空间"对生成任务更友好"。

第一个维度叫"内在维度",可以理解为这堆数据实际上有多少个真正独立的变化方向。就算你的数据是20万维的,真实变化可能只有几十个方向——就像一张脸可以用"眼睛大小、鼻子高低、嘴巴宽窄"等几十个参数来描述,而不是逐个像素描述。研究团队用一种叫TwoNN的工具估算发现,像素空间和DINOv2特征空间的内在维度几乎相同,都约为33。这说明两个空间里的数据"本质复杂程度"是差不多的,任何差异都不来自数据的根本复杂性,而来自数据如何被"安置"在空间里。

第二个维度叫"有效秩"(effective rank),可以理解为数据在各个方向上的分布均不均匀。若数据只在少数几个方向上变化,就像一根细针;若在所有方向上都均匀变化,就像一个球。由于生成模型的"起点"——随机噪声——本身就像一个球,数据分布越像球,从噪声到数据的路就越短、越均匀。像素空间的有效秩只有45,SD-VAE是98,而DINOv2高达327,是像素的7.3倍。这意味着DINOv2的数据分布更像球,生成模型从噪声出发走的路更短、每个方向的路长更接近。

第三个维度叫"边际高斯性",听起来复杂,实际上就是问:每个单独维度的数据分布像不像正态分布(也就是常见的"钟形曲线")?随机噪声本身就是正态分布,所以数据越接近正态分布,从噪声到数据的"搬运"越顺畅。用一个指标"超额峰度"来衡量,0表示完美正态,偏离越大越难处理。DINOv2有98.7%的维度其超额峰度绝对值低于0.5,而像素空间没有任何一个维度达到这个标准。SD-VAE居中,有74.2%的维度满足该条件。

第四个维度叫"流形插值误差"。如果生成路径上经过的中间点恰好也在"合理数据"的范围内,生成模型就不需要处理"不合理中间状态"的情况。研究团队做了一个实验:在像素空间和DINOv2空间里各取两张图,画一条从A到B的直线,然后看这条线上的中间点能不能被正常"解读"。像素插值产生了"鬼影"——两张图重叠的模糊幻象;而DINOv2插值产生的是语义上的平滑过渡,比如一只猫逐渐变成一只狗,中间是一只介于两者之间的动物。定量上,像素插值的误差是DINOv2的1.7倍。

这四个维度一起说明:DINOv2空间的数据分布更接近起点(随机噪声),路更短、更好走、中途不会踩到"坑"。而SD-VAE虽然比像素空间好,但始终比DINOv2差,这表明优势来自DINOv2的自监督学习训练方式,而非单纯的"压缩数据"。

三、DINOv2的一个小麻烦,以及更聪明的解法

DINOv2虽然有诸多优势,却也带来了一个特殊问题。由于DINOv2内部用了一种叫LayerNorm的归一化操作,每个特征向量的长度都被固定在一个特定值附近(约等于维度数的平方根)。这就像所有的"语义向量"都被要求住在一个球壳上,不能随便跑到球的内部或外部。

生成模型工作时,中间状态是数据和噪声的混合,这个混合物会跑到球壳以外的地方——而DINOv2的编码器从来没有产生过这样的点,所以模型在这些"不合法"的中间状态上容易困惑。之前的研究者把这个问题叫做"几何干扰",并提出了两种复杂的解决方案:要么给模型加一个特制的"宽头部"(DDT头)来专门处理这种速度预测;要么把整个输运路径换成在球面上的黎曼流形匹配(Riemannian Flow Matching),用SLERP曲线代替直线路径。

研究团队选择了一条更简单的路:改变预测目标。与其让模型预测"每一步往哪走"(速度),不如让模型直接预测"最终目标在哪"(x预测)。这样一来,无论中间状态在哪里,模型的输出永远指向"合法的数据点",彻底绕开了中间状态不合法的问题。正如一位导航员,不管你现在在荒野还是在高速上,他总是直接告诉你"终点是北京",而不是"现在往左转一百米"。

这种x预测本身并不是全新发明,但之前主要用在像素空间(JiT模型就是这样做的)。RiT的贡献在于揭示了为什么x预测配合DINOv2特征能表现得格外好:因为DINOv2的近高斯分布和接近各向同性的特性,使得"猜测最终目标"这件事变得更容易——目标分布规整,猜测起来自然更准。

实验数据也印证了这一点。在相同架构、相同编码器、相同噪声调度的条件下,x预测在训练80、200、400个周期时的FID分别是2.63、1.89、1.70,而速度预测(v-prediction)分别是3.17、2.11、1.86,x预测始终领先。

四、RiT的完整配方:三个缺一不可的成分

RiT不只是简单地把x预测用在DINOv2上,还有两个额外的关键设计,实验证明每个都是不可或缺的。

第一个成分是"逐元素标准化"。DINOv2的LayerNorm让每个单独的向量长度固定,但不同通道之间的方差差异可以高达100倍以上。如果不处理这种差异,训练会直接发散——在整个训练过程中,FID始终停在300以上,相当于模型完全没有在学习。解决方案是在训练前对每个通道做标准化,让均值为0、方差为1。这一步不是锦上添花,而是训练能正常运行的前提。

第二个成分是"维度感知噪声调度"。一般的图像生成用像素空间,每个像素只有3个颜色维度。而DINOv2每个token有384个维度,噪声叠加时的"体量"比像素大得多。就像往一个大游泳池里倒颜料和往一个小水桶里倒颜料,达到"同样浑浊程度"需要的颜料量差异巨大。如果沿用像素空间的噪声调度,模型会在高噪声阶段训练不足。

研究团队引入了"维度相关时间偏移"——根据token维度d调整噪声时间表,令偏移系数s约等于4.9(具体公式为s=√(h×w×d/4096),其中h和w是特征图的高和宽)。这把训练时的中位噪声强度向更高噪声区间推移,从原先约0.31推到约0.17,信噪比降低了约5倍。这一改变带来了接近2倍的FID提升(从3.17降到1.44,800个训练周期)。

第三个成分是"CLS-patch联合建模"。DINOv2在提取特征时,除了每个小图块(patch)对应的局部特征,还会产生一个全局的"CLS"向量,可以理解为整张图的语义摘要。传统的VAE空间里没有这样的摘要向量,但DINOv2空间天然就有。研究团队把这个CLS向量也纳入扩散过程,让它和patch特征一起"加噪、去噪",通过自注意力机制在全局和局部之间双向交流。

具体来说,CLS向量在早期层帮助收集整体场景信息,在中间层整合物体与背景的关系,在后期层把精细化的全局信息广播回每个patch。实验显示,加入CLS建模后FID从1.63降到1.44(800周期),提升明显。此外,训练时CLS和patch的噪声采用独立采样,而推理时则让CLS初始噪声等于patch噪声的空间平均("耦合噪声"),这一小改动能进一步带来不足0.1的FID提升。

五、训练更快,推理更少步,结果更好

RiT的实际效果在多个维度上都超过了已有方案。

在收敛速度上,和RAE-XL(DINOv2-Small,676M参数,速度预测,没有x预测和其他改进)直接对比,RiT在每个训练周期都领先。更具体地说,RiT在100个训练周期时就达到了RAE-XL(DINOv2-Large)花720个周期才达到的效果,速度快7倍;在200个周期时就达到了RAE-XL(DINOv2-Small)800个周期的效果,速度快4倍。

在推理效率上,使用Heun求解器(一种精度更高的数值积分方法,类似于做估算时多验算一步),只需5步就能在有引导的情况下达到FID 2.0,10步达到FID 1.25,25步就已经接近50步的最终收敛值(1.46对比1.44)。这种少步生成不依赖任何蒸馏或一致性训练——是模型本身的特性决定的。

研究团队还从物理上验证了这一点:他们比较了RiT和JiT-H(像素空间版本)的"ODE截断误差",即用少步数求解时的近似误差。在步数从2增加到50的过程中,RiT的误差下降了12.9倍,而JiT只下降了3.6倍,差距是3.6倍的衰减斜率差异。换句话说,DINOv2空间里的"速度场"更平滑,用数值方法积分时误差消得更快,所以少步也能达到好效果。

在采样调度策略上,研究团队还对比了六种不同的时间节点分配方式。当步数充足(50步以上)时,所有非均匀调度都能收敛到接近的FID(无引导约1.44,有引导约1.14)。当步数很少时,EDM调度、power-2调度和时间偏移调度这三种"把更多步骤分配到高噪声阶段"的策略,5步FID约2.4,比均匀分配(5步FID 12.7)好5倍。这验证了高噪声阶段的速度场变化最快、需要最多计算资源的判断。

六、和其他方案的横向对比

在ImageNet 256×256的综合排行上,RiT-XL的表现相当突出。

与像素空间的方法相比,RiT不加引导的FID(1.45)已经低于所有像素空间方法加引导后的FID,包括PixelDiT-XL(有引导1.61)、JiT-G(有引导1.82)、MDTv2-XL(有引导1.58)。这说明语义特征空间本身捕获了如此丰富的信息,分类引导(CFG)对提升质量的作用相比像素空间大幅降低。

与基于DINOv2的方法相比,RiT的无引导FID(1.45)优于DiTDH-XL(1.51)、FAE-DINOv2-G(1.48)和RAE-XL(1.87),有引导FID(1.14)也优于DiTDH-XL(1.28)、FAE(1.29)和REPA-XL(1.29)。

特别值得注意的是和DiTDH-XL的比较:DiTDH-XL使用了839M参数,包含专门设计的DDT宽头部,使用DINOv2-Base(d=768)编码器;而RiT只有676M参数(少19%),没有特殊头部,使用的是最小的DINOv2-Small(d=384)编码器,结果却更好。

和FAE的比较也很有意思。FAE对DINOv2-G(最大变体,d=1536)的编码器进行了联合微调,把它的特征压缩到d=32的紧凑潜空间,是从编码器侧对问题进行改造;RiT则完全冻结编码器,从解码器侧的训练策略上下手。两种思路是互补关系,将来可以结合。

七、消融实验揭示的每一块砖都不可少

研究团队做了非常系统的消融实验,逐一拆除每个设计,验证其必要性。

去掉逐元素标准化:训练直接发散,FID始终在300以上,训练无效。这不是性能下降,是完全失效。

换回像素空间的logit正态噪声调度(不使用维度感知时间偏移):800个周期的FID从1.44升到3.17,差距接近2倍。

去掉CLS建模:FID从1.44升到1.63,提升约13%。

把x预测换回速度预测(其他不变):在各个训练周期均有约10%的FID下降(如400周期时从1.67升到2.11)。

换用DINOv2-Base代替Small:FID从1.44升到1.56。这个结果乍看反直觉——更大的编码器反而更差?研究团队的解释是:Base编码器的特征维度是768,是Small的两倍,但内在维度(约33)几乎相同,这意味着模型需要在一个更高维的空间里预测同样复杂度的目标,难度更大,而没有对应的信息增益来补偿。

这些实验清楚地表明,RiT的四个设计要素(x预测、标准化、噪声调度、CLS建模)构成了一个完整的"配方",缺少任何一个都会带来显著的性能下降。

说到底,这篇研究的核心贡献可以用一句话概括:找到了一个天然适合"直接预测目标"的工作空间,从而让一个普普通通的Transformer用简单的训练策略就超越了专门定制的复杂架构。这对整个图像生成领域的启示是,与其在模型结构上大做文章,不如先认真研究数据空间的几何性质——数据的分布形态,有时候比模型大小更决定最终效果。

对于普通人来说,这项研究的意义在于:以后用AI生成图片可能会更快、更省电、生成质量更高。那种"按一下按钮等10秒才出图"的体验,在这类研究的推动下,将越来越快地变成"按一下就出来"。同时,由于DINOv2同时适用于图像识别和图像生成,未来的AI系统也许可以用同一套特征空间同时理解和创作图像,这对构建更统一、更高效的视觉AI系统有重要意义。

感兴趣的读者可以在arXiv上搜索编号2605.21981查阅完整原文,也可以在论文提供的代码库中亲自体验这套系统。

Q&A

Q1:RiT与普通扩散模型相比,为什么生成速度更快?

A:RiT在DINOv2语义特征空间里工作,这个空间的数据分布更接近随机噪声的分布(高有效秩、近高斯分布),导致从噪声到图像的"路"更短、更平滑。ODE截断误差衰减速度是像素空间方法的3.6倍,所以只需5至10步Heun求解就能达到其他方法需要50步以上才能达到的图像质量,且不需要任何蒸馏训练。

Q2:DINOv2特征空间相比SD-VAE空间的优势从哪里来?

A:实验显示SD-VAE在四个几何指标(有效秩、协方差条件数、边际高斯性、流形插值误差)上始终介于像素空间和DINOv2之间。这说明优势不是来自"压缩数据"这件事本身,而是来自DINOv2的自监督学习训练目标——它让特征在各方向分布更均匀、更接近正态分布,自然更适合流匹配。

Q3:x预测和速度预测(v-prediction)在数学上等价,为什么实际效果会有差异?

A:两种方式作为损失函数确实等价(x预测损失乘以(1-t)^(-2)就变成速度损失),但网络实际拟合的函数不同。速度预测要求网络输出依赖中间状态zt(在DINOv2中会跑到"球壳外的非法区域"),且在t趋近1时发散;x预测的目标z0始终在数据流形上,不依赖中间状态,回归更稳定,因此实际训练效果更好。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-