微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

字节跳动发布GRN：像人类画家一样"边画边改"的AI图像生成新范式

人工智能图像生成新型算法

字节跳动发布GRN：像人类画家一样"边画边改"的AI图像生成新范式

作者：科技行者

2026-04-22 15:16

分享至：

这项由字节跳动发布的研究（arXiv:2604.13030）提出了生成式精化网络（GRN），一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新：层级二进制量化（HBQ）通过多轮二分逼近实现近乎无损的离散图像编码，以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错，从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度，GRN在ImageNet图像重建（rFID 0.56）和生成（gFID 1.81）上均创下新纪录，并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-22 15:16 • 科技行者

这项由字节跳动研究团队完成的研究以预印本形式发布于2026年4月，论文编号为arXiv:2604.13030，有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

每当我们谈到AI生成图片或视频，大多数人脑海中浮现的场景是：机器从一团噪点出发，一步步"去噪"，最终呈现出一幅清晰的画面。这就是目前最流行的扩散模型的工作方式，就像把一张被雨水打湿模糊的照片，一遍遍擦干，直到图像清晰。这套方法确实强大，但有一个根本性的问题——不管你画的是一只简单的猫，还是一幅复杂的城市夜景，机器都要花同样多的时间和计算力去"擦照片"，完全不分轻重缓急。

另一条技术路线叫做自回归模型，它的灵感来自大语言模型（比如ChatGPT）。这类模型会像写文章一样，一个字一个字地预测图像的每个小块，听起来很聪明，但它有一个致命弱点：一旦某个块写错了，后面的内容全部在错误的基础上继续叠加，就像在一张已经画歪的草稿上继续描绘，越画越错，却没有办法回头修改。

字节跳动的研究团队注意到了这两条路线各自的短板，并提出了一套全新的框架——生成式精化网络（Generative Refinement Networks，简称GRN）。这套方法的核心理念来自一个朴素的观察：人类画家是怎么画画的？他们不会一笔定终稿，而是先勾勒轮廓，再逐步细化，随时可以擦掉不满意的地方重画。GRN就是在模仿这种"边画边改、全局打磨"的创作方式，同时还能根据画面内容的复杂程度，自动决定要花多少时间和精力来完成这幅作品。

在ImageNet这个图像生成领域最权威的测试台上，GRN创下了图像重建分数0.56（rFID）和图像生成质量1.81（gFID）的双项新纪录，超越了包括扩散模型和其他自回归模型在内的众多方法。研究团队还将这套框架扩展到了文本生成图像（最高支持1024×1024分辨率）和文本生成视频（支持480p、2到10秒的动态视频），在同等参数规模下均取得了领先表现。

---

一、AI画画的两条老路，各有各的烦恼

要理解GRN为什么重要，先得明白现有方法卡在哪里。

扩散模型的工作原理，本质上像是反向播放一段"把画搅乱"的视频。训练时，系统学习如何把一张清晰的图片逐渐加入噪声直到变成一团杂乱；生成时，系统从这团杂乱出发，反向走完这段路，还原出一张新图像。整个过程需要走固定的步数，比如50步或者100步，不多也不少。无论你要生成的是一张纯色背景上的苹果，还是一个充满人物、建筑、光影的复杂场景，计算机都得走完这固定的步数，没有任何节省的余地。更关键的是，扩散模型的训练目标是最小化图像像素上的误差，它并不像语言模型那样能给每个预测结果赋予一个"我有多少把握"的概率值，因此它天然不知道什么时候该"少走几步"、什么时候该"多花力气"。

自回归模型则借鉴了ChatGPT"预测下一个词"的思路，把图像切成一个个小块，依次预测每一块应该长什么样子。这种方法有一个天然的优点：每一步预测都带有概率，模型"知道"自己对某个块有多少把握，这为自适应计算提供了可能。然而，这条路有一道几乎无法绕过的坎——图像需要先被压缩成离散的"图块编码"（就像把连续的色彩画面转成一组有限的数字代码），这个压缩过程本身就会损失细节；更麻烦的是，预测是严格按顺序进行的，前面的块一旦确定就无法更改，哪怕后来发现它画错了，也只能将错就错地在错误基础上继续。

一些改进方案尝试用"先遮住再猜"的方式（类似完形填空）来并行预测多个块，比如MaskGIT这样的模型。但这类方法依然有一个核心局限：高置信度的块一旦确定下来，就再也不能被修改。整个过程中从来没有一个"通盘审视、全面修正"的机会，错误只能一路积累，无从纠偏。

---

二、把图像压缩做到"几乎无损"——层级二进制量化的原理

在正式介绍GRN的生成机制之前，有必要先理解团队为图像"编码"方式所做的革新，因为这是整个框架能够高质量运作的基础。

通常，AI生成模型在处理图像之前，会先用一个称为"变分自编码器"（VAE）的工具，把高分辨率图像压缩成一个紧凑的数学表示（称为"潜在空间"）。这个压缩后的表示可以是连续的数值（就像一个精确的小数，比如3.14159...），也可以是离散的整数代码（就像把颜色四舍五入为一个有限颜色板上的编号）。连续表示精度高但不适合直接做"语言模型式"的逐步预测；离散代码适合预测，但压缩时会损失细节。

字节跳动的团队引入了一种叫做"层级二进制量化"（Hierarchical Binary Quantization，简称HBQ）的方法，巧妙地在两者之间找到了一条新路。

可以用一个猜数字游戏来理解HBQ的原理。假设你心里想着一个0到1之间的小数，比如0.73。规则是每次你只能告诉我"大还是小"，然后我来缩小猜测范围。第一次，我猜0.5，你说"大"，所以我知道答案在0.5到1之间；第二次，我猜0.75，你说"小"，所以答案在0.5到0.75之间；第三次，我猜0.625，你说"大"，范围缩小到0.625到0.75……每次猜测，我需要记录的只有你的回答："大"（用1表示）或"小"（用0表示）。经过足够多轮的"大/小"问答，我就能把这个小数猜得无比精确，误差以指数速度缩小。

HBQ就是把这个游戏应用在图像编码的每一个数值上。VAE输出的每个连续数值，经过多轮"大/小"的二进制判断，被转换成一串01序列。轮数越多，编码越精确：4轮之后，误差上界不超过原始范围的6.25%；8轮之后，误差已经可以忽略不计，与不做量化的连续表示几乎一致。研究团队用一幅艾菲尔铁塔蛋糕的图像直观展示了这一点：仅用1轮量化时图像模糊粗糙，但随着轮数增加，图像越来越接近原图，到第4轮时已经非常清晰，而这整个过程中，编码所需的"通道数"（可以理解为存储每个位置信息需要的数字个数）完全没有增加。

这一点很关键，因为其他一些试图缩小离散编码与连续编码质量差距的方法（比如Infinity、BitDance），通常是靠大幅扩展编码维度来实现的，这就像为了记录更精确的颜色，把调色板从256色扩展到百万色。维度扩展固然有效，但会直接导致生成模型需要处理更长的序列，训练更慢，模型更大。HBQ则通过更聪明的量化策略，在不扩展通道数的前提下实现了精度的大幅提升。

在实际测试中，仅使用4轮HBQ的图像专用编码器，在ImageNet 256×256的图像重建测试中取得了0.56的rFID分数，显著优于业界广泛使用的SD-VAE（0.87）、LlamaGen所用的离散编码器（2.19）以及Open-MAGVIT2（1.17），甚至超过了RAE这一专门为高质量重建设计的连续编码器（0.62）。对于视频编码，使用8轮HBQ的版本可以达到与同类最优连续编码器（Wan 2.1）几乎相同的重建质量，但压缩率是后者的4倍以上。

---

三、像画家一样"边画边改"——GRN的核心生成机制

有了高质量的离散编码工具，GRN的生成框架才能在坚实的基础上运作。

GRN的生成过程，从一张完全随机的"乱码图"开始。把这张乱码图想象成一张空白画布上随机撒了一把五彩碎片，什么都看不出来。GRN的任务就是把这堆碎片逐步整理成一幅完整的画。

每一步，GRN会做三件事：第一，观察当前画布的状态（哪些位置已经有了相对可靠的预测结果，哪些还是乱码）；第二，基于当前状态，对所有位置同时做出一次完整的预测，给出它认为整张画应该长什么样子；第三，随机挑选一部分新预测的结果"落笔"到画布上（替换掉原来那里的内容，无论那里之前是乱码还是上一步的预测），同时把剩余位置重新设为随机乱码，等待下一轮。

这个过程有三种操作被自然地统一在一起：对空白处"落笔填充"，对已有内容"精化改进"，以及对不合适的内容"擦除重来"。随着迭代步数增加，画布上可靠预测覆盖的比例从0%逐步上升到100%，乱码区域越来越少，最终整张画收敛到一个完整清晰的状态。

这与传统自回归模型最根本的区别在于：在GRN的框架里，没有任何一个位置的预测是"永久锁定"的。每一步，模型都在重新审视整张画，如果之前某个位置的预测在积累了更多上下文信息之后显得不合适，它完全可以在下一步被"擦掉重画"。这就像一位画家不会在草图阶段就用永久记号笔落笔，而是一直用铅笔，随时准备修改，直到整体效果令人满意才最终定稿。

在训练阶段，GRN会接受一种特殊的"残缺输入"：把真实图像的一部分位置替换成随机乱码，然后要求模型预测出完整的真实图像。替换比例在每次训练中随机变化，从几乎全部都是乱码，到几乎全部都是真实值，覆盖各种场景。通过这种训练方式，模型学会了在"部分信息可靠、部分信息是噪声"的混合状态下，准确辨别哪些输入值得信赖、哪些需要忽略，并在此基础上给出高质量预测。

研究团队还验证了一个关键发现：在生成时，随机选择哪些预测结果被保留，比基于置信度选择更有效。如果总是优先保留"模型最有把握"的那些预测，会导致输入的分布与训练时学到的分布不匹配，生成质量反而大幅下降（FID从3.63跌至10.64）。这是因为模型训练时接触的输入是随机分布的，而高置信度选择会造成输入在空间上"扎堆"，破坏了模型赖以正常运作的基本假设。

---

四、聪明地分配计算力——根据复杂度自动调整步数

GRN解决的第二个大问题，是如何根据生成内容的难度自动分配计算资源。

在生成过程中，GRN的每一步都会给出一个概率分布，表明它对每个位置的预测有多大把握。把这些把握程度汇总起来，就得到一个叫做"熵"（entropy）的指标——熵越低，说明模型越自信、内容越简单；熵越高，说明模型越迷茫、内容越复杂。

GRN利用这个熵值来动态决定还需要走多少步。对于一张只有蓝天白云的简单图像，模型很快就会表现出高度自信（低熵），GRN因此可以在较少的步数内完成生成，节省大量计算；对于一张充满细节的复杂城市夜景，模型的熵值会持续较高，GRN就会自动安排更多步数来细细打磨。

实验中，研究团队将最大步数设为50、最小步数设为20，对6.3万张图像进行了生成。结果显示，超过62.7%的图像在不到50步时就达到了令人满意的质量，大约200张图像甚至只用了最少的20步。与固定50步生成所有图像相比，这种自适应方案仅带来了极小的质量损失（FID从3.6微增至3.8），却显著减少了简单图像的计算开销。

这种策略在文本生成图像任务中同样适用，研究团队将最小步数设为10。他们展示了同一批提示词在10步、30步和50步下生成的对比结果，可以清晰看到：对于内容简单的提示，10步的结果已经相当不错；对于需要精确细节的复杂场景，50步的额外打磨才能完全体现出优势。

---

五、两种预测方式：预测"编号"还是预测"二进制位"

GRN支持两种不同的预测目标，这两种方式代表了不同的技术权衡。

第一种叫GRNind：把每个位置的HBQ编码结果合并成一个整数编号（比如4轮量化后每个通道有16种可能，就预测0到15之间的哪个数字），有点像在一个有16色的色板上选颜色。第二种叫GRNbit：直接逐位预测每个二进制值（每次只在0和1之间选一个），颗粒度更细，但每个位独立预测，不同位之间没有显式的联动关系。

在比较简单的图像分类条件生成（C2I）任务上，两种方式的表现几乎相当，小规模模型（GRN-B，1.3亿参数）下预测编号略好，大规模模型（GRN-L，4.58亿参数）下预测二进制位略胜。但在更复杂的文本生成视频任务上，预测二进制位的方式明显产生了更少的视觉瑕疵。研究团队分析认为，这是因为预测编号时，相近的编号（如7和8）在数值上很接近，但它们代表的视觉内容可能完全不同，容易出现"编号混淆"导致画面失真；而预测二进制位时，每一位的含义更清晰，监督信号也更直接。至于"独立预测每一位会不会忽视位与位之间的关联"这个传统顾虑，GRN的全局精化机制在多轮迭代中自然地处理了这种依赖关系，因此实际上并没有造成明显的质量损失。

此外，研究团队还比较了"预测绝对值"与"预测差值"两种策略。前者直接预测目标编码是什么，后者预测当前编码需要做哪些改动（翻转哪些二进制位）。实验结果清晰地表明，预测绝对值的方式在生成结构稳定性方面明显更好，预测差值的方式生成的图像有时会出现结构性错乱。

---

六、实验结果：新纪录是怎么炼成的

在图像生成的标准测试场景——ImageNet 256×256的类别条件图像生成任务上，GRN以四种规模（1.3亿、4.58亿、9.52亿和20亿参数）参与了与当前最先进方法的全面对比。

规模最小的GRN-B（1.3亿参数）以3.56的FID分数超越了参数量接近两倍的MaskGIT（2.27亿参数，FID 6.18），效率优势非常突出。规模最大的GRN-G（20亿参数）取得了1.81的FID，超越了同等规模的扩散模型DiT-XL/2（2.27）、流匹配模型SiT-XL/2（2.06），以及同样是20亿参数的VAR-d30（1.92），也超越了更大规模的自回归模型LlamaGen-XXL（14亿参数，FID 2.34）。

研究团队还做了一个颇具说服力的对照实验，直接比较GRN的"全局精化"机制与MaskGIT风格的"掩码填充"机制。两者使用完全相同的模型权重和解码参数，唯一区别是生成时已确定的块是否可以被修改。结果令人印象深刻：掩码填充方式的FID直接崩到185.62，生成的图像几乎是无意义的噪声；即使专门为掩码填充方式调整解码参数（提高CFG强度、降低温度），最好也只能达到18.13的FID，与GRN精化机制的3.63相比差距悬殊。这个实验直接证明，允许"事后修改"的全局精化机制，才是这套框架能够正常工作的根本所在。

在文本生成图像任务上，GRN使用20亿参数、基于约8000万图像数据训练，在GenEval基准测试上取得了0.76的综合分数。这一成绩在同等参数规模的方法中处于领先位置，显著超越了同为20亿参数的SD3 Medium（0.62）和Infinity（0.71）。与更大规模方法（如HiDream的170亿参数、Qwen-Image的200亿参数）相比，GRN以更小的体量取得了有竞争力的表现，差距主要来自规模而非方法本身的局限。

在文本生成视频任务上，GRN使用20亿参数，在VBench综合评分上取得了82.99分，超越了5倍参数规模的CogVideoX-5B（81.61）、同为离散方法的URSA（82.40），以及自回归模型Nova、Emu3和Lumos-1。与拥有80亿参数的InfinityStar（83.74）相比略低，研究团队认为这一差距完全可以通过扩展模型规模来弥合。

---

七、这套框架的局限与未来

研究团队坦诚地指出了GRN目前存在的一些不足。由于计算资源的限制，GRN尚未被训练到与当前最顶尖视觉生成模型（如Sora、Wan 2.1等）同等的规模，因此整体质量上限尚未得到充分验证。在视频生成方面，GRN在包含人物的场景中表现较好，但在生成具有丰富视觉细节的自然场景或非人物主导的内容时，有时会出现细节不够丰富或局部失真的问题，研究团队认为这主要与训练数据的分布不均衡有关，通过调整数据配比和扩大模型规模可以改善。

在未来的研究方向上，研究团队特别提到了一个很有潜力的想法：将"步数蒸馏"技术引入GRN。这类技术的作用类似于培训一位效率极高的学徒——原本需要50步才能完成的精化过程，通过蒸馏可以压缩成更少的步数，同时不损失太多质量。由于GRN的自适应步数机制天然兼容这种蒸馏方式，两者结合有望进一步降低生成成本。

研究团队还指出，GRN作为一个完全基于离散文本式 token 的自回归框架，与现有大语言模型的整合非常自然。如果把文字 token 和图像/视频 token 放在同一个模型里统一训练，有望在一个模型内同时实现多模态理解和生成能力，这是目前业界非常关注的一个研究方向。从这个角度来看，GRN可能成为目前主流的Transfusion架构（把语言模型和扩散模型混合在一起的方法）的有力竞争者。

说到底，GRN做的事情用一句话可以概括：它教会了AI按照人类画家的直觉来工作——不是机械地从噪点走到清晰，也不是一笔一画地按顺序落笔，而是像真正有经验的创作者那样，在整体与局部之间反复打磨，随时纠错，直到整幅作品达到令人满意的状态。这种思路能否在更大的模型和更多样的任务上持续奏效，将会是未来研究中值得关注的核心问题。有兴趣深入研究细节的读者，可通过arXiv编号2604.13030找到完整论文，包括所有算法伪代码和更多消融实验结果。

---

Q&A

Q1：GRN的"全局精化机制"和MaskGIT这类掩码生成模型有什么本质区别？

A：MaskGIT在每一轮生成中，高置信度的token一旦被确定就永久固定，后续步骤只填充剩余空白位置，无法修改已有预测。GRN则完全不同，每一步都会对所有位置重新预测，随机选择哪些位置更新，已有内容随时可能被擦掉重画。正是这种"没有任何位置永久锁定"的机制，让模型能在积累更多上下文后纠正早期错误。实验显示，相同模型权重下，掩码生成方式的FID高达185.62，而GRN精化机制仅为3.63。

Q2：层级二进制量化（HBQ）相比传统离散编码方法有什么优势？

A：传统离散编码（如VQ-VAE、FSQ等）把连续特征直接对应到一个有限的码本条目，压缩时会丢失大量细节。HBQ用多轮"大/小"二分判断来逼近连续值，每增加一轮，误差上界就缩小一半，误差随轮数呈指数级下降。关键在于，这种精度提升完全不需要增加特征通道数，避免了其他高精度离散编码器通常带来的模型变大、训练变慢的副作用。4轮HBQ在图像重建上就达到了0.56的rFID，8轮则可与不做量化的连续编码器性能持平。

Q3：GRN的自适应步数机制是怎么判断一张图需要多少步生成的？

A：GRN在每一步生成时，会计算当前预测结果的"熵值"——这个值反映模型对整张图每个位置的把握程度。熵低说明模型非常自信，内容相对简单，可以快速收敛；熵高说明内容复杂或存在较大不确定性，需要更多步骤来打磨。系统根据熵值动态调整后续步数，在设定的最小步数（如20步）和最大步数（如50步）之间灵活分配。实验显示，超过62.7%的图像不需要走完50步，有效减少了简单内容的计算浪费。

人工智能图像生成新型算法

分享至