微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

西湖大学等机构联合研究：AI画图终于学会了"先画骨架再填细节"，图像生成质量大幅跃升

图像生成向量量化通道化自回归

西湖大学等机构联合研究：AI画图终于学会了"先画骨架再填细节"，图像生成质量大幅跃升

作者：科技行者

2026-06-01 10:46

分享至：

西湖大学等机构提出CVQ，将图像量化方式从"空间方块"改为"信息通道"，码书利用率提升至100%，重建FID降至0.88，生成评分大幅提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-01 10:46 • 科技行者

这项由上海创新研究院、西湖大学、浙江大学、复旦大学、京东及中国科学院大学联合完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.26089，感兴趣的读者可通过该编号查询完整论文。

一位画家在描绘一只苹果时，通常不会从左上角的某个像素点开始一格一格往右画，而是先勾勒出苹果的整体圆形轮廓和大致的红色调，接着描绘出苹果柄和表面的纹理，最后才点上那几粒细小的黄色斑点。这种从整体到局部、从粗糙到精细的创作方式，是人类绘画的自然直觉。

然而，目前绝大多数人工智能图像生成系统的工作方式与此完全相反。它们习惯于将一张图片切割成成千上万个小方块，然后像拼接地砖一样，从左到右、从上到下，一块一块地生成。这种"扫地机器人式"的生成方式，就好像让一个画家用格尺把画布分成256个小方格，然后规定他必须严格按照从第一格到第二百五十六格的顺序填色，既不允许跳跃，也不允许回头修改。

这种做法带来了两个长期困扰研究者的根本性问题。来自上述多所机构的研究团队提出了一套全新的解决方案，他们将其称为"通道化向量量化"（CVQ）和"通道化自回归生成"（CAR）。简单来说，他们让AI不再按空间位置画图，而是按"视觉信息层次"画图——先画出决定整体色调和形状的那一层，再逐步叠加决定纹理和细节的那一层，正如专业画家的工作方式。

一、AI图像生成的两块"绊脚石"

要理解这项研究解决了什么问题，先要了解现有AI图像系统是怎么运作的，以及它们卡在了哪里。

现有的AI图像生成系统，在生成图片之前，通常需要先把图片"压缩编码"成一串数字代码，就像把一首歌曲压缩成MP3文件一样。这个压缩编码的过程，专业上叫做"向量量化"。具体来说，系统会有一本"码书"，里面记录着几千到几万个"标准图案块"，每当系统遇到一小块图像区域，就在码书里找一个最相似的标准块来替代，记下对应的编号。这样，一张图片就变成了一串数字编号，后续的AI生成器只需要预测这串编号的顺序，就能"画出"图片。

第一个绊脚石叫做"码书崩溃"。码书里明明有16384个标准块，但实际上，系统训练完之后，可能只有几百个标准块会被频繁使用，其余99%都形同虚设。这就好比一家拥有1万6千种食材的餐厅，厨师每天只用那200种最常见的食材做菜，其余的全在仓库里慢慢腐烂。码书利用率这么低，导致图片的细节信息大量丢失，重建出来的图片模糊失真。

研究团队通过仔细分析找到了原因：相邻的图像小方块之间存在大量重复和相似性。打个比方，一张草地照片里，密密麻麻的草叶图案几乎是重复的，这导致大量的小方块编码都指向了码书里的同一个标准块，其他标准块自然无人问津，久而久之就被"饿死"了。

第二个绊脚石叫做"空间顺序错配"。大语言模型（就是ChatGPT那类系统）之所以能生成流畅的文章，是因为语言本身就是天然的一维序列——字和字之间有自然的前后逻辑，"今天天气很好"这句话里，每个字都依赖前面的字。但图像是二维的，它没有天然的"从哪里开始读"的方向。现有系统强行把二维图像拼成一维序列（比如从左上角到右下角逐行扫描），就好像把一张地图裁成细长条首尾相接——方块们被迫排成一队，但它们之间原本的空间关系已经被彻底打乱了。在这种扭曲的顺序下训练AI，效果自然大打折扣。

二、换个角度切图：通道化向量量化的核心思路

解决问题的关键在于一个看似简单的想法：不再按"位置"切图，改为按"通道"切图。

要理解这个概念，先要明白"通道"是什么。当一张图片被神经网络编码之后，它会变成一个三维数据块，可以把它想成一叠透明胶片。每一张胶片对应一个"通道"，记录着图像某一种特定的视觉信息。早期的通道记录的是图像的大致形状和主要颜色，后期的通道记录的是细微纹理和精细结构。把所有胶片叠在一起，就还原出完整的图像。

研究团队对神经网络的编码器做了一个实验：他们把一张树叶图片编码后，单独"抹掉"某一个通道，然后观察图片如何变化。结果发现，抹掉某个特定通道后，图片中叶片的颜色全部消失了；抹掉另一个通道，叶柄不见了；抹掉第三个通道，表面纹理模糊了。这说明不同的通道确实各司其职，分别掌管不同层次的视觉信息。

传统的做法是把这叠胶片竖着切——每次取一个位置点（比如坐标(3,5)处）上所有胶片叠加的那一小列，作为一个编码单位。CVQ的做法是横着切——每次取完整的一张胶片，也就是整个通道，作为一个编码单位。

这一横一竖的区别，解决了前面说的两个问题。对于码书崩溃问题：一张胶片（通道）代表的是整张图在某个维度上的全局信息，不同图片的同一个通道往往差异很大——比如一张苹果图和一张猫咪图，它们的"颜色分布通道"就截然不同——因此不同图片会用到码书中不同的标准块，码书利用率自然大幅提升。对于顺序问题：通道本身就是按信息层次自然排列的，从粗到细，这种顺序对AI学习来说是有意义的，不需要强行扭曲。

具体的技术实现上，CVQ让码书里的每一个标准块都不再是一个小方块，而是一整张"通道胶片"，尺寸为h×w×1（高×宽×1层）。量化时，系统找到与当前通道最相似的标准胶片，记下对应的编号。256个通道就得到256个编号，一张图片就被编码为256个数字的序列。

实验结果证实了这个想法的有效性。研究团队用t-SNE可视化工具（一种把高维数据投影到二维平面、方便肉眼观察的技术）对比了两种方法的编码分布：按位置切的小方块编码，来自两张不同图片的编码点在图上混杂交织，难以区分；而按通道切的胶片编码，来自两张不同图片的编码点则明显分成两团，界限清晰。更直观的是码书利用率的对比：传统方法训练到后期，码书里真正被用到的标准块越来越少，最终萎缩成一小片；CVQ从头到尾都保持着近乎100%的码书利用率，几乎每一个标准块都在发挥作用。

三、训练细节：让通道学会"先画重要的"

通道本身并没有固定的先后顺序——神经网络随机初始化时，第1个通道记录什么、第128个通道记录什么，都是偶然的。为了让AI学会"先画整体再画细节"，研究团队引入了一个叫做"嵌套通道丢弃"的训练技巧。

这个技巧的思路类似于训练一个演讲者做"即兴演讲"。假设你要演讲5分钟，教练随机打断你说"好，现在只剩1分钟了"，你必须立刻调整，把最重要的内容说完。久而久之，你自然会把最核心的内容放在前面说。嵌套通道丢弃也是这样：训练时，系统随机决定"只保留前k个通道"，迫使解码器仅凭前k个通道就重建出尽量好的图片。这样训练下来，神经网络为了减少损失，会自然地把最重要的全局信息压缩进前几个通道，把细节信息留给后面的通道。

训练时还有一个小挑战：当只保留很少的通道时，图片信息极为稀疏，传统的对抗损失（用来提升图片真实感的一种训练方式）会不稳定，产生奇怪的伪像。研究团队为此设计了一个自适应权重函数：保留通道数很少时，对抗损失的权重接近于零；随着保留通道数增加，权重平滑上升至正常水平。这种渐进式的训练策略保证了稳定收敛。

实验表明，嵌套通道丢弃对重建质量几乎没有负面影响（重建FID、SSIM、PSNR指标基本持平），但对生成质量有显著的提升效果：在GenEval评分上提升了0.12分，在DPG评分上提升了9.38分。这说明引入有意义的通道顺序，能大幅帮助AI更好地完成从文字描述到图像生成的任务。

四、从重建质量看CVQ的实力

研究团队在ImageNet-1K数据集（一个包含100万张图片、1000个类别的标准图像数据集）上对CVQ进行了系统评测，对比了多种现有的向量量化方法。评测指标包括重建FID（越低越好，衡量生成图像与真实图像的整体差异）、SSIM（越高越好，衡量图像结构相似性）和PSNR（越高越好，衡量像素级重建精度）。

在"256个编码"的设置下，传统的VQGAN方法码书利用率仅有4.5%，重建FID为4.84。CVQ在同等码书大小（16384个标准块）下，码书利用率达到100%，重建FID降至2.60，SSIM提升至0.565，PSNR达到20.94。与需要借助预训练CLIP模型初始化码书的VQGAN-LC方法（FID为3.01）和需要引入额外可学习基底的SimVQ方法（FID为2.63）相比，CVQ不需要任何额外模块或复杂初始化，就能达到同等甚至更好的效果。

在"1024个编码"的更高精度设置下，CVQ的优势更为突出。传统VQGAN在这个设置下码书利用率仅剩2.8%，重建FID为1.32。CVQ同样保持100%利用率，重建FID大幅降至0.88，PSNR飙升至25.02 dB，远超曾被视为该领域标杆的MoVQ方法（FID为1.05）和VQGAN-LC方法（FID为1.29）。

码书规模扩展实验更能说明CVQ的优势。随着码书大小从1024增加到65536，传统VQ的码书利用率从20.3%骤降到1.1%，重建质量几乎停滞不前。CVQ则在65536大小的码书下仍保持96.1%的高利用率，重建FID从3.64降至2.32，相比同等条件的传统VQ实现了52%的提升幅度。这说明CVQ有能力充分利用更大的码书来承载更丰富的视觉信息，具备良好的规模扩展性。

五、通道的渐进式重建：视觉层次的量化证明

研究团队还做了一组直观实验：依次只使用前32、64、96、128……直至256个通道来重建图片，观察重建质量如何变化。

结果呈现出清晰的"先粗后细"规律。仅用前32个通道时，重建FID高达30.24，PSNR仅16.96——图片只有模糊的大致轮廓和主色调。随着通道增加，图像质量急剧改善：64个通道时FID降至11.84，128个通道时降至4.05，此时图片的主体对象和基本结构已经清晰可辨。从128通道到256通道，FID的改善速度明显放缓（从4.05降至2.63），但SSIM和PSNR仍在稳步上升，说明后期通道主要负责补充精细纹理和局部细节，而非重塑整体结构。

这组数据从定量角度证实了CVQ的核心设计理念：通道序列确实编码了从全局到局部、从粗到细的视觉信息层次。

六、通道化自回归生成：CAR系统的工作方式

有了CVQ这套"通道化编码"体系，研究团队进一步构建了完整的图像生成系统CAR（通道化自回归生成）。

CAR的工作逻辑与大语言模型生成文章的逻辑完全相同，只是把"预测下一个词"改成了"预测下一个通道"。系统接收文字描述（比如"一张苹果的照片"），然后依次生成第1个通道的编号、第2个通道的编号……直到第256个通道的编号，最后由解码器把这256个通道的编号还原成完整的图片。

CAR建立在预训练的Qwen3语言模型（一个来自阿里云的强大开源大模型）基础上，分别使用了4B参数量和8B参数量的版本。训练分两个阶段进行：第一阶段只训练一个中间连接层（MLP投影器），让语言模型能够理解通道编码的格式，此阶段语言模型本体保持冻结不动；第二阶段则对所有参数进行端到端的全面优化。整个训练过程使用了约8000万张文图对，数据来源涵盖ImageNet-21K、LAION-Aesthetics-12M、CC12M等公开数据集以及一个内部精选数据集。

七、文生图性能对比：在强手如云中脱颖而出

研究团队在两个标准评测基准上测试了CAR的文生图能力：GenEval评分（衡量生成图片与文字描述的语义吻合度，满分1.0）和DPG评分（衡量对复杂描述的遵循程度，满分100）。

在同类型的单向自回归生成方法中（即与CAR采用相同的"从左到右逐步预测"范式），CAR的表现相当亮眼。4B参数量的CAR在GenEval上得到0.75分，DPG总体得分83.82分，已经超越了参数量更大的NextStep-1（14B参数，DPG为85.28分的方法，该方法用了连续token）和Emu3（8B参数，GenEval仅0.66分）。进一步扩展到8B参数量后，CAR在GenEval上达到0.79分，DPG总体得分升至86.72分，细分项目中两个物体识别得分高达0.92，位置关系得分0.66，颜色属性得分0.66。

与那些使用"双向注意力"或混合策略的方法（如VAR家族的Infinity和InfinityStar）相比，CAR也毫不逊色。这两类方法在技术上更为复杂，允许模型在生成时"前后参照"，而CAR始终保持最简洁的单向预测范式。在MJHQ-30K数据集上，CAR的FID分数为6.42，优于多个同类方法。

值得一提的是，在GenEval的细分评分中，"两个物体同时存在"这一项CAR 8B得到了0.92的高分，"位置关系"得到0.66，这两项恰恰是语言与视觉对齐中最具挑战性的部分，说明CVQ的通道化表示对语义理解有一定的促进作用。

八、与其他1D代词化方法的比较

与CVQ目标相近的，还有一批也致力于将图像压缩为一维序列的研究工作，比如TiTok、SpectralAR、FlexTok等。这些方法通常通过引入额外的"可学习查询"模块（让神经网络学会把图像特征汇聚成一维序列）或使用扩散模型作为解码器来实现一维化。

CVQ与它们的根本区别在于：CVQ的一维结构来自量化过程本身，不需要任何额外的架构模块。这就像同样是把一捆柴火装进一根管子，有人专门设计了一个压缩机来强行塞进去，而CVQ是选了一种天然就适合管状排列的柴火。

在标准VQGAN训练配置下，CVQ（重建FID 2.60）明显优于同等配置的TiTok-256（重建FID 3.84）。在更强的TA-TiTok训练配置下，CVQ（重建FID 1.29）依然优于TiTok-256（重建FID 1.51），SSIM和PSNR也更高。FlexTok虽然能达到1.45的FID，但它使用了扩散模型作为解码器，引入了额外的生成模型作为重建依赖，系统复杂度更高。

九、可变分辨率扩展：CVQ的进一步潜力

研究团队还展示了CVQ扩展到不同分辨率的可行性。基础实验固定在256×256分辨率，但通过在量化前后加入轻量级的"重采样模块"（用可学习的查询向量来处理任意尺寸的特征图），CVQ可以在保持通道数固定的情况下，处理512×512乃至1024×1024的输入。

对于传统的空间方块量化方法，分辨率翻倍意味着token数量变为四倍（256→1024→4096），计算量随之急剧膨胀。CVQ则不同：无论分辨率如何变化，生成阶段的序列长度始终是256个通道token，推理成本几乎不随分辨率增加。更高的分辨率只是让每个通道token所携带的空间细节更丰富，而非增加token的数量。

实验数据显示，CVQ在512分辨率下的重建FID为0.96，仍远低于同条件下传统VQ的2.05。在分配相同token数量（1024个）的情况下，CVQ在512分辨率下达到FID 0.96、PSNR 24.55，同等条件传统VQ仅能达到FID 2.05、PSNR 22.01。

说到底，CVQ和CAR这套方案的本质贡献，是重新思考了一个看似基础却影响深远的问题：一张图片应该被分成怎样的"最小单位"来处理。从"空间小方块"到"信息通道层"，这一改变既符合人类感知图像的直觉（我们确实会先看整体再看细节），也意外地解决了困扰向量量化领域多年的码书崩溃难题，还顺带让图像自回归生成获得了一个自然而然的一维序列结构。

这项研究最有趣的地方或许在于：最简单的改变，往往解决最顽固的问题。研究团队没有堆砌复杂模块，没有引入额外参数，只是换了个切图的角度，就让整个系统从码书利用率到最终生成质量都得到了全面提升。后续研究可以考虑将CVQ与SimVQ、IBQ等其他量化改进方法结合，进一步挖掘通道化表示的潜力；也可以将通道化思路延伸到视频领域，因为视频在时间维度上同样存在类似的信息层次结构。对于感兴趣的读者，完整的技术细节和实验数据可通过论文编号arXiv:2605.26089查阅原文。

Q&A

Q1：CVQ中"通道"和传统的RGB通道是一回事吗？

A：不完全一样。RGB通道是图像本身的红绿蓝三个颜色分量，只有3个。CVQ中的"通道"指的是神经网络编码器处理图像后产生的特征图通道，通常有256个，每个通道捕捉图像某一层次的视觉信息，比如整体色调、边缘轮廓或细微纹理，与RGB的概念不同。

Q2：CVQ码书利用率为什么能达到100%？

A：因为CVQ按通道而非按空间位置切分图像。不同图片的同一个通道（比如"颜色分布层"）差异很大，苹果图和猫咪图的这一层截然不同，所以不同图片会对应码书中不同的标准块。传统方法中大量相邻小方块纹理相似，都抢着用同一个标准块，导致其他标准块闲置。CVQ从根源上分散了这种"扎堆"现象。

Q3：CAR生成图片比传统方法慢还是快？

A：在标准分辨率下速度相当，但在高分辨率场景下CAR有明显优势。传统方法生成1024×1024的图片需要处理4096个token，而CAR始终只处理256个通道token，推理成本几乎不随分辨率增加，适合高分辨率图像生成的应用场景。

图像生成向量量化通道化自回归

分享至