微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 西湖大学等机构联合研究:AI画图终于学会了"先画骨架再填细节",图像生成质量大幅跃升

西湖大学等机构联合研究:AI画图终于学会了"先画骨架再填细节",图像生成质量大幅跃升

2026-06-01 10:46
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-01 10:46 科技行者

这项由上海创新研究院、西湖大学、浙江大学、复旦大学、京东及中国科学院大学联合完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.26089,感兴趣的读者可通过该编号查询完整论文。

一位画家在描绘一只苹果时,通常不会从左上角的某个像素点开始一格一格往右画,而是先勾勒出苹果的整体圆形轮廓和大致的红色调,接着描绘出苹果柄和表面的纹理,最后才点上那几粒细小的黄色斑点。这种从整体到局部、从粗糙到精细的创作方式,是人类绘画的自然直觉。

然而,目前绝大多数人工智能图像生成系统的工作方式与此完全相反。它们习惯于将一张图片切割成成千上万个小方块,然后像拼接地砖一样,从左到右、从上到下,一块一块地生成。这种"扫地机器人式"的生成方式,就好像让一个画家用格尺把画布分成256个小方格,然后规定他必须严格按照从第一格到第二百五十六格的顺序填色,既不允许跳跃,也不允许回头修改。

这种做法带来了两个长期困扰研究者的根本性问题。来自上述多所机构的研究团队提出了一套全新的解决方案,他们将其称为"通道化向量量化"(CVQ)和"通道化自回归生成"(CAR)。简单来说,他们让AI不再按空间位置画图,而是按"视觉信息层次"画图——先画出决定整体色调和形状的那一层,再逐步叠加决定纹理和细节的那一层,正如专业画家的工作方式。

一、AI图像生成的两块"绊脚石"

要理解这项研究解决了什么问题,先要了解现有AI图像系统是怎么运作的,以及它们卡在了哪里。

现有的AI图像生成系统,在生成图片之前,通常需要先把图片"压缩编码"成一串数字代码,就像把一首歌曲压缩成MP3文件一样。这个压缩编码的过程,专业上叫做"向量量化"。具体来说,系统会有一本"码书",里面记录着几千到几万个"标准图案块",每当系统遇到一小块图像区域,就在码书里找一个最相似的标准块来替代,记下对应的编号。这样,一张图片就变成了一串数字编号,后续的AI生成器只需要预测这串编号的顺序,就能"画出"图片。

第一个绊脚石叫做"码书崩溃"。码书里明明有16384个标准块,但实际上,系统训练完之后,可能只有几百个标准块会被频繁使用,其余99%都形同虚设。这就好比一家拥有1万6千种食材的餐厅,厨师每天只用那200种最常见的食材做菜,其余的全在仓库里慢慢腐烂。码书利用率这么低,导致图片的细节信息大量丢失,重建出来的图片模糊失真。

研究团队通过仔细分析找到了原因:相邻的图像小方块之间存在大量重复和相似性。打个比方,一张草地照片里,密密麻麻的草叶图案几乎是重复的,这导致大量的小方块编码都指向了码书里的同一个标准块,其他标准块自然无人问津,久而久之就被"饿死"了。

第二个绊脚石叫做"空间顺序错配"。大语言模型(就是ChatGPT那类系统)之所以能生成流畅的文章,是因为语言本身就是天然的一维序列——字和字之间有自然的前后逻辑,"今天天气很好"这句话里,每个字都依赖前面的字。但图像是二维的,它没有天然的"从哪里开始读"的方向。现有系统强行把二维图像拼成一维序列(比如从左上角到右下角逐行扫描),就好像把一张地图裁成细长条首尾相接——方块们被迫排成一队,但它们之间原本的空间关系已经被彻底打乱了。在这种扭曲的顺序下训练AI,效果自然大打折扣。

二、换个角度切图:通道化向量量化的核心思路

解决问题的关键在于一个看似简单的想法:不再按"位置"切图,改为按"通道"切图。

要理解这个概念,先要明白"通道"是什么。当一张图片被神经网络编码之后,它会变成一个三维数据块,可以把它想成一叠透明胶片。每一张胶片对应一个"通道",记录着图像某一种特定的视觉信息。早期的通道记录的是图像的大致形状和主要颜色,后期的通道记录的是细微纹理和精细结构。把所有胶片叠在一起,就还原出完整的图像。

研究团队对神经网络的编码器做了一个实验:他们把一张树叶图片编码后,单独"抹掉"某一个通道,然后观察图片如何变化。结果发现,抹掉某个特定通道后,图片中叶片的颜色全部消失了;抹掉另一个通道,叶柄不见了;抹掉第三个通道,表面纹理模糊了。这说明不同的通道确实各司其职,分别掌管不同层次的视觉信息。

传统的做法是把这叠胶片竖着切——每次取一个位置点(比如坐标(3,5)处)上所有胶片叠加的那一小列,作为一个编码单位。CVQ的做法是横着切——每次取完整的一张胶片,也就是整个通道,作为一个编码单位。

这一横一竖的区别,解决了前面说的两个问题。对于码书崩溃问题:一张胶片(通道)代表的是整张图在某个维度上的全局信息,不同图片的同一个通道往往差异很大——比如一张苹果图和一张猫咪图,它们的"颜色分布通道"就截然不同——因此不同图片会用到码书中不同的标准块,码书利用率自然大幅提升。对于顺序问题:通道本身就是按信息层次自然排列的,从粗到细,这种顺序对AI学习来说是有意义的,不需要强行扭曲。

具体的技术实现上,CVQ让码书里的每一个标准块都不再是一个小方块,而是一整张"通道胶片",尺寸为h×w×1(高×宽×1层)。量化时,系统找到与当前通道最相似的标准胶片,记下对应的编号。256个通道就得到256个编号,一张图片就被编码为256个数字的序列。

实验结果证实了这个想法的有效性。研究团队用t-SNE可视化工具(一种把高维数据投影到二维平面、方便肉眼观察的技术)对比了两种方法的编码分布:按位置切的小方块编码,来自两张不同图片的编码点在图上混杂交织,难以区分;而按通道切的胶片编码,来自两张不同图片的编码点则明显分成两团,界限清晰。更直观的是码书利用率的对比:传统方法训练到后期,码书里真正被用到的标准块越来越少,最终萎缩成一小片;CVQ从头到尾都保持着近乎100%的码书利用率,几乎每一个标准块都在发挥作用。

三、训练细节:让通道学会"先画重要的"

通道本身并没有固定的先后顺序——神经网络随机初始化时,第1个通道记录什么、第128个通道记录什么,都是偶然的。为了让AI学会"先画整体再画细节",研究团队引入了一个叫做"嵌套通道丢弃"的训练技巧。

这个技巧的思路类似于训练一个演讲者做"即兴演讲"。假设你要演讲5分钟,教练随机打断你说"好,现在只剩1分钟了",你必须立刻调整,把最重要的内容说完。久而久之,你自然会把最核心的内容放在前面说。嵌套通道丢弃也是这样:训练时,系统随机决定"只保留前k个通道",迫使解码器仅凭前k个通道就重建出尽量好的图片。这样训练下来,神经网络为了减少损失,会自然地把最重要的全局信息压缩进前几个通道,把细节信息留给后面的通道。

训练时还有一个小挑战:当只保留很少的通道时,图片信息极为稀疏,传统的对抗损失(用来提升图片真实感的一种训练方式)会不稳定,产生奇怪的伪像。研究团队为此设计了一个自适应权重函数:保留通道数很少时,对抗损失的权重接近于零;随着保留通道数增加,权重平滑上升至正常水平。这种渐进式的训练策略保证了稳定收敛。

实验表明,嵌套通道丢弃对重建质量几乎没有负面影响(重建FID、SSIM、PSNR指标基本持平),但对生成质量有显著的提升效果:在GenEval评分上提升了0.12分,在DPG评分上提升了9.38分。这说明引入有意义的通道顺序,能大幅帮助AI更好地完成从文字描述到图像生成的任务。

四、从重建质量看CVQ的实力

研究团队在ImageNet-1K数据集(一个包含100万张图片、1000个类别的标准图像数据集)上对CVQ进行了系统评测,对比了多种现有的向量量化方法。评测指标包括重建FID(越低越好,衡量生成图像与真实图像的整体差异)、SSIM(越高越好,衡量图像结构相似性)和PSNR(越高越好,衡量像素级重建精度)。

在"256个编码"的设置下,传统的VQGAN方法码书利用率仅有4.5%,重建FID为4.84。CVQ在同等码书大小(16384个标准块)下,码书利用率达到100%,重建FID降至2.60,SSIM提升至0.565,PSNR达到20.94。与需要借助预训练CLIP模型初始化码书的VQGAN-LC方法(FID为3.01)和需要引入额外可学习基底的SimVQ方法(FID为2.63)相比,CVQ不需要任何额外模块或复杂初始化,就能达到同等甚至更好的效果。

在"1024个编码"的更高精度设置下,CVQ的优势更为突出。传统VQGAN在这个设置下码书利用率仅剩2.8%,重建FID为1.32。CVQ同样保持100%利用率,重建FID大幅降至0.88,PSNR飙升至25.02 dB,远超曾被视为该领域标杆的MoVQ方法(FID为1.05)和VQGAN-LC方法(FID为1.29)。

码书规模扩展实验更能说明CVQ的优势。随着码书大小从1024增加到65536,传统VQ的码书利用率从20.3%骤降到1.1%,重建质量几乎停滞不前。CVQ则在65536大小的码书下仍保持96.1%的高利用率,重建FID从3.64降至2.32,相比同等条件的传统VQ实现了52%的提升幅度。这说明CVQ有能力充分利用更大的码书来承载更丰富的视觉信息,具备良好的规模扩展性。

五、通道的渐进式重建:视觉层次的量化证明

研究团队还做了一组直观实验:依次只使用前32、64、96、128……直至256个通道来重建图片,观察重建质量如何变化。

结果呈现出清晰的"先粗后细"规律。仅用前32个通道时,重建FID高达30.24,PSNR仅16.96——图片只有模糊的大致轮廓和主色调。随着通道增加,图像质量急剧改善:64个通道时FID降至11.84,128个通道时降至4.05,此时图片的主体对象和基本结构已经清晰可辨。从128通道到256通道,FID的改善速度明显放缓(从4.05降至2.63),但SSIM和PSNR仍在稳步上升,说明后期通道主要负责补充精细纹理和局部细节,而非重塑整体结构。

这组数据从定量角度证实了CVQ的核心设计理念:通道序列确实编码了从全局到局部、从粗到细的视觉信息层次。

六、通道化自回归生成:CAR系统的工作方式

有了CVQ这套"通道化编码"体系,研究团队进一步构建了完整的图像生成系统CAR(通道化自回归生成)。

CAR的工作逻辑与大语言模型生成文章的逻辑完全相同,只是把"预测下一个词"改成了"预测下一个通道"。系统接收文字描述(比如"一张苹果的照片"),然后依次生成第1个通道的编号、第2个通道的编号……直到第256个通道的编号,最后由解码器把这256个通道的编号还原成完整的图片。

CAR建立在预训练的Qwen3语言模型(一个来自阿里云的强大开源大模型)基础上,分别使用了4B参数量和8B参数量的版本。训练分两个阶段进行:第一阶段只训练一个中间连接层(MLP投影器),让语言模型能够理解通道编码的格式,此阶段语言模型本体保持冻结不动;第二阶段则对所有参数进行端到端的全面优化。整个训练过程使用了约8000万张文图对,数据来源涵盖ImageNet-21K、LAION-Aesthetics-12M、CC12M等公开数据集以及一个内部精选数据集。

七、文生图性能对比:在强手如云中脱颖而出

研究团队在两个标准评测基准上测试了CAR的文生图能力:GenEval评分(衡量生成图片与文字描述的语义吻合度,满分1.0)和DPG评分(衡量对复杂描述的遵循程度,满分100)。

在同类型的单向自回归生成方法中(即与CAR采用相同的"从左到右逐步预测"范式),CAR的表现相当亮眼。4B参数量的CAR在GenEval上得到0.75分,DPG总体得分83.82分,已经超越了参数量更大的NextStep-1(14B参数,DPG为85.28分的方法,该方法用了连续token)和Emu3(8B参数,GenEval仅0.66分)。进一步扩展到8B参数量后,CAR在GenEval上达到0.79分,DPG总体得分升至86.72分,细分项目中两个物体识别得分高达0.92,位置关系得分0.66,颜色属性得分0.66。

与那些使用"双向注意力"或混合策略的方法(如VAR家族的Infinity和InfinityStar)相比,CAR也毫不逊色。这两类方法在技术上更为复杂,允许模型在生成时"前后参照",而CAR始终保持最简洁的单向预测范式。在MJHQ-30K数据集上,CAR的FID分数为6.42,优于多个同类方法。

值得一提的是,在GenEval的细分评分中,"两个物体同时存在"这一项CAR 8B得到了0.92的高分,"位置关系"得到0.66,这两项恰恰是语言与视觉对齐中最具挑战性的部分,说明CVQ的通道化表示对语义理解有一定的促进作用。

八、与其他1D代词化方法的比较

与CVQ目标相近的,还有一批也致力于将图像压缩为一维序列的研究工作,比如TiTok、SpectralAR、FlexTok等。这些方法通常通过引入额外的"可学习查询"模块(让神经网络学会把图像特征汇聚成一维序列)或使用扩散模型作为解码器来实现一维化。

CVQ与它们的根本区别在于:CVQ的一维结构来自量化过程本身,不需要任何额外的架构模块。这就像同样是把一捆柴火装进一根管子,有人专门设计了一个压缩机来强行塞进去,而CVQ是选了一种天然就适合管状排列的柴火。

在标准VQGAN训练配置下,CVQ(重建FID 2.60)明显优于同等配置的TiTok-256(重建FID 3.84)。在更强的TA-TiTok训练配置下,CVQ(重建FID 1.29)依然优于TiTok-256(重建FID 1.51),SSIM和PSNR也更高。FlexTok虽然能达到1.45的FID,但它使用了扩散模型作为解码器,引入了额外的生成模型作为重建依赖,系统复杂度更高。

九、可变分辨率扩展:CVQ的进一步潜力

研究团队还展示了CVQ扩展到不同分辨率的可行性。基础实验固定在256×256分辨率,但通过在量化前后加入轻量级的"重采样模块"(用可学习的查询向量来处理任意尺寸的特征图),CVQ可以在保持通道数固定的情况下,处理512×512乃至1024×1024的输入。

对于传统的空间方块量化方法,分辨率翻倍意味着token数量变为四倍(256→1024→4096),计算量随之急剧膨胀。CVQ则不同:无论分辨率如何变化,生成阶段的序列长度始终是256个通道token,推理成本几乎不随分辨率增加。更高的分辨率只是让每个通道token所携带的空间细节更丰富,而非增加token的数量。

实验数据显示,CVQ在512分辨率下的重建FID为0.96,仍远低于同条件下传统VQ的2.05。在分配相同token数量(1024个)的情况下,CVQ在512分辨率下达到FID 0.96、PSNR 24.55,同等条件传统VQ仅能达到FID 2.05、PSNR 22.01。

说到底,CVQ和CAR这套方案的本质贡献,是重新思考了一个看似基础却影响深远的问题:一张图片应该被分成怎样的"最小单位"来处理。从"空间小方块"到"信息通道层",这一改变既符合人类感知图像的直觉(我们确实会先看整体再看细节),也意外地解决了困扰向量量化领域多年的码书崩溃难题,还顺带让图像自回归生成获得了一个自然而然的一维序列结构。

这项研究最有趣的地方或许在于:最简单的改变,往往解决最顽固的问题。研究团队没有堆砌复杂模块,没有引入额外参数,只是换了个切图的角度,就让整个系统从码书利用率到最终生成质量都得到了全面提升。后续研究可以考虑将CVQ与SimVQ、IBQ等其他量化改进方法结合,进一步挖掘通道化表示的潜力;也可以将通道化思路延伸到视频领域,因为视频在时间维度上同样存在类似的信息层次结构。对于感兴趣的读者,完整的技术细节和实验数据可通过论文编号arXiv:2605.26089查阅原文。

Q&A

Q1:CVQ中"通道"和传统的RGB通道是一回事吗?

A:不完全一样。RGB通道是图像本身的红绿蓝三个颜色分量,只有3个。CVQ中的"通道"指的是神经网络编码器处理图像后产生的特征图通道,通常有256个,每个通道捕捉图像某一层次的视觉信息,比如整体色调、边缘轮廓或细微纹理,与RGB的概念不同。

Q2:CVQ码书利用率为什么能达到100%?

A:因为CVQ按通道而非按空间位置切分图像。不同图片的同一个通道(比如"颜色分布层")差异很大,苹果图和猫咪图的这一层截然不同,所以不同图片会对应码书中不同的标准块。传统方法中大量相邻小方块纹理相似,都抢着用同一个标准块,导致其他标准块闲置。CVQ从根源上分散了这种"扎堆"现象。

Q3:CAR生成图片比传统方法慢还是快?

A:在标准分辨率下速度相当,但在高分辨率场景下CAR有明显优势。传统方法生成1024×1024的图片需要处理4096个token,而CAR始终只处理256个通道token,推理成本几乎不随分辨率增加,适合高分辨率图像生成的应用场景。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-