
这项由字节跳动研究团队完成的研究以预印本形式发布于2026年4月,论文编号为arXiv:2604.13030,有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。
每当我们谈到AI生成图片或视频,大多数人脑海中浮现的场景是:机器从一团噪点出发,一步步"去噪",最终呈现出一幅清晰的画面。这就是目前最流行的扩散模型的工作方式,就像把一张被雨水打湿模糊的照片,一遍遍擦干,直到图像清晰。这套方法确实强大,但有一个根本性的问题——不管你画的是一只简单的猫,还是一幅复杂的城市夜景,机器都要花同样多的时间和计算力去"擦照片",完全不分轻重缓急。
另一条技术路线叫做自回归模型,它的灵感来自大语言模型(比如ChatGPT)。这类模型会像写文章一样,一个字一个字地预测图像的每个小块,听起来很聪明,但它有一个致命弱点:一旦某个块写错了,后面的内容全部在错误的基础上继续叠加,就像在一张已经画歪的草稿上继续描绘,越画越错,却没有办法回头修改。
字节跳动的研究团队注意到了这两条路线各自的短板,并提出了一套全新的框架——生成式精化网络(Generative Refinement Networks,简称GRN)。这套方法的核心理念来自一个朴素的观察:人类画家是怎么画画的?他们不会一笔定终稿,而是先勾勒轮廓,再逐步细化,随时可以擦掉不满意的地方重画。GRN就是在模仿这种"边画边改、全局打磨"的创作方式,同时还能根据画面内容的复杂程度,自动决定要花多少时间和精力来完成这幅作品。
在ImageNet这个图像生成领域最权威的测试台上,GRN创下了图像重建分数0.56(rFID)和图像生成质量1.81(gFID)的双项新纪录,超越了包括扩散模型和其他自回归模型在内的众多方法。研究团队还将这套框架扩展到了文本生成图像(最高支持1024×1024分辨率)和文本生成视频(支持480p、2到10秒的动态视频),在同等参数规模下均取得了领先表现。
---
一、AI画画的两条老路,各有各的烦恼
要理解GRN为什么重要,先得明白现有方法卡在哪里。
扩散模型的工作原理,本质上像是反向播放一段"把画搅乱"的视频。训练时,系统学习如何把一张清晰的图片逐渐加入噪声直到变成一团杂乱;生成时,系统从这团杂乱出发,反向走完这段路,还原出一张新图像。整个过程需要走固定的步数,比如50步或者100步,不多也不少。无论你要生成的是一张纯色背景上的苹果,还是一个充满人物、建筑、光影的复杂场景,计算机都得走完这固定的步数,没有任何节省的余地。更关键的是,扩散模型的训练目标是最小化图像像素上的误差,它并不像语言模型那样能给每个预测结果赋予一个"我有多少把握"的概率值,因此它天然不知道什么时候该"少走几步"、什么时候该"多花力气"。
自回归模型则借鉴了ChatGPT"预测下一个词"的思路,把图像切成一个个小块,依次预测每一块应该长什么样子。这种方法有一个天然的优点:每一步预测都带有概率,模型"知道"自己对某个块有多少把握,这为自适应计算提供了可能。然而,这条路有一道几乎无法绕过的坎——图像需要先被压缩成离散的"图块编码"(就像把连续的色彩画面转成一组有限的数字代码),这个压缩过程本身就会损失细节;更麻烦的是,预测是严格按顺序进行的,前面的块一旦确定就无法更改,哪怕后来发现它画错了,也只能将错就错地在错误基础上继续。
一些改进方案尝试用"先遮住再猜"的方式(类似完形填空)来并行预测多个块,比如MaskGIT这样的模型。但这类方法依然有一个核心局限:高置信度的块一旦确定下来,就再也不能被修改。整个过程中从来没有一个"通盘审视、全面修正"的机会,错误只能一路积累,无从纠偏。
---
二、把图像压缩做到"几乎无损"——层级二进制量化的原理
在正式介绍GRN的生成机制之前,有必要先理解团队为图像"编码"方式所做的革新,因为这是整个框架能够高质量运作的基础。
通常,AI生成模型在处理图像之前,会先用一个称为"变分自编码器"(VAE)的工具,把高分辨率图像压缩成一个紧凑的数学表示(称为"潜在空间")。这个压缩后的表示可以是连续的数值(就像一个精确的小数,比如3.14159...),也可以是离散的整数代码(就像把颜色四舍五入为一个有限颜色板上的编号)。连续表示精度高但不适合直接做"语言模型式"的逐步预测;离散代码适合预测,但压缩时会损失细节。
字节跳动的团队引入了一种叫做"层级二进制量化"(Hierarchical Binary Quantization,简称HBQ)的方法,巧妙地在两者之间找到了一条新路。
可以用一个猜数字游戏来理解HBQ的原理。假设你心里想着一个0到1之间的小数,比如0.73。规则是每次你只能告诉我"大还是小",然后我来缩小猜测范围。第一次,我猜0.5,你说"大",所以我知道答案在0.5到1之间;第二次,我猜0.75,你说"小",所以答案在0.5到0.75之间;第三次,我猜0.625,你说"大",范围缩小到0.625到0.75……每次猜测,我需要记录的只有你的回答:"大"(用1表示)或"小"(用0表示)。经过足够多轮的"大/小"问答,我就能把这个小数猜得无比精确,误差以指数速度缩小。
HBQ就是把这个游戏应用在图像编码的每一个数值上。VAE输出的每个连续数值,经过多轮"大/小"的二进制判断,被转换成一串01序列。轮数越多,编码越精确:4轮之后,误差上界不超过原始范围的6.25%;8轮之后,误差已经可以忽略不计,与不做量化的连续表示几乎一致。研究团队用一幅艾菲尔铁塔蛋糕的图像直观展示了这一点:仅用1轮量化时图像模糊粗糙,但随着轮数增加,图像越来越接近原图,到第4轮时已经非常清晰,而这整个过程中,编码所需的"通道数"(可以理解为存储每个位置信息需要的数字个数)完全没有增加。
这一点很关键,因为其他一些试图缩小离散编码与连续编码质量差距的方法(比如Infinity、BitDance),通常是靠大幅扩展编码维度来实现的,这就像为了记录更精确的颜色,把调色板从256色扩展到百万色。维度扩展固然有效,但会直接导致生成模型需要处理更长的序列,训练更慢,模型更大。HBQ则通过更聪明的量化策略,在不扩展通道数的前提下实现了精度的大幅提升。
在实际测试中,仅使用4轮HBQ的图像专用编码器,在ImageNet 256×256的图像重建测试中取得了0.56的rFID分数,显著优于业界广泛使用的SD-VAE(0.87)、LlamaGen所用的离散编码器(2.19)以及Open-MAGVIT2(1.17),甚至超过了RAE这一专门为高质量重建设计的连续编码器(0.62)。对于视频编码,使用8轮HBQ的版本可以达到与同类最优连续编码器(Wan 2.1)几乎相同的重建质量,但压缩率是后者的4倍以上。
---
三、像画家一样"边画边改"——GRN的核心生成机制
有了高质量的离散编码工具,GRN的生成框架才能在坚实的基础上运作。
GRN的生成过程,从一张完全随机的"乱码图"开始。把这张乱码图想象成一张空白画布上随机撒了一把五彩碎片,什么都看不出来。GRN的任务就是把这堆碎片逐步整理成一幅完整的画。
每一步,GRN会做三件事:第一,观察当前画布的状态(哪些位置已经有了相对可靠的预测结果,哪些还是乱码);第二,基于当前状态,对所有位置同时做出一次完整的预测,给出它认为整张画应该长什么样子;第三,随机挑选一部分新预测的结果"落笔"到画布上(替换掉原来那里的内容,无论那里之前是乱码还是上一步的预测),同时把剩余位置重新设为随机乱码,等待下一轮。
这个过程有三种操作被自然地统一在一起:对空白处"落笔填充",对已有内容"精化改进",以及对不合适的内容"擦除重来"。随着迭代步数增加,画布上可靠预测覆盖的比例从0%逐步上升到100%,乱码区域越来越少,最终整张画收敛到一个完整清晰的状态。
这与传统自回归模型最根本的区别在于:在GRN的框架里,没有任何一个位置的预测是"永久锁定"的。每一步,模型都在重新审视整张画,如果之前某个位置的预测在积累了更多上下文信息之后显得不合适,它完全可以在下一步被"擦掉重画"。这就像一位画家不会在草图阶段就用永久记号笔落笔,而是一直用铅笔,随时准备修改,直到整体效果令人满意才最终定稿。
在训练阶段,GRN会接受一种特殊的"残缺输入":把真实图像的一部分位置替换成随机乱码,然后要求模型预测出完整的真实图像。替换比例在每次训练中随机变化,从几乎全部都是乱码,到几乎全部都是真实值,覆盖各种场景。通过这种训练方式,模型学会了在"部分信息可靠、部分信息是噪声"的混合状态下,准确辨别哪些输入值得信赖、哪些需要忽略,并在此基础上给出高质量预测。
研究团队还验证了一个关键发现:在生成时,随机选择哪些预测结果被保留,比基于置信度选择更有效。如果总是优先保留"模型最有把握"的那些预测,会导致输入的分布与训练时学到的分布不匹配,生成质量反而大幅下降(FID从3.63跌至10.64)。这是因为模型训练时接触的输入是随机分布的,而高置信度选择会造成输入在空间上"扎堆",破坏了模型赖以正常运作的基本假设。
---
四、聪明地分配计算力——根据复杂度自动调整步数
GRN解决的第二个大问题,是如何根据生成内容的难度自动分配计算资源。
在生成过程中,GRN的每一步都会给出一个概率分布,表明它对每个位置的预测有多大把握。把这些把握程度汇总起来,就得到一个叫做"熵"(entropy)的指标——熵越低,说明模型越自信、内容越简单;熵越高,说明模型越迷茫、内容越复杂。
GRN利用这个熵值来动态决定还需要走多少步。对于一张只有蓝天白云的简单图像,模型很快就会表现出高度自信(低熵),GRN因此可以在较少的步数内完成生成,节省大量计算;对于一张充满细节的复杂城市夜景,模型的熵值会持续较高,GRN就会自动安排更多步数来细细打磨。
实验中,研究团队将最大步数设为50、最小步数设为20,对6.3万张图像进行了生成。结果显示,超过62.7%的图像在不到50步时就达到了令人满意的质量,大约200张图像甚至只用了最少的20步。与固定50步生成所有图像相比,这种自适应方案仅带来了极小的质量损失(FID从3.6微增至3.8),却显著减少了简单图像的计算开销。
这种策略在文本生成图像任务中同样适用,研究团队将最小步数设为10。他们展示了同一批提示词在10步、30步和50步下生成的对比结果,可以清晰看到:对于内容简单的提示,10步的结果已经相当不错;对于需要精确细节的复杂场景,50步的额外打磨才能完全体现出优势。
---
五、两种预测方式:预测"编号"还是预测"二进制位"
GRN支持两种不同的预测目标,这两种方式代表了不同的技术权衡。
第一种叫GRNind:把每个位置的HBQ编码结果合并成一个整数编号(比如4轮量化后每个通道有16种可能,就预测0到15之间的哪个数字),有点像在一个有16色的色板上选颜色。第二种叫GRNbit:直接逐位预测每个二进制值(每次只在0和1之间选一个),颗粒度更细,但每个位独立预测,不同位之间没有显式的联动关系。
在比较简单的图像分类条件生成(C2I)任务上,两种方式的表现几乎相当,小规模模型(GRN-B,1.3亿参数)下预测编号略好,大规模模型(GRN-L,4.58亿参数)下预测二进制位略胜。但在更复杂的文本生成视频任务上,预测二进制位的方式明显产生了更少的视觉瑕疵。研究团队分析认为,这是因为预测编号时,相近的编号(如7和8)在数值上很接近,但它们代表的视觉内容可能完全不同,容易出现"编号混淆"导致画面失真;而预测二进制位时,每一位的含义更清晰,监督信号也更直接。至于"独立预测每一位会不会忽视位与位之间的关联"这个传统顾虑,GRN的全局精化机制在多轮迭代中自然地处理了这种依赖关系,因此实际上并没有造成明显的质量损失。
此外,研究团队还比较了"预测绝对值"与"预测差值"两种策略。前者直接预测目标编码是什么,后者预测当前编码需要做哪些改动(翻转哪些二进制位)。实验结果清晰地表明,预测绝对值的方式在生成结构稳定性方面明显更好,预测差值的方式生成的图像有时会出现结构性错乱。
---
六、实验结果:新纪录是怎么炼成的
在图像生成的标准测试场景——ImageNet 256×256的类别条件图像生成任务上,GRN以四种规模(1.3亿、4.58亿、9.52亿和20亿参数)参与了与当前最先进方法的全面对比。
规模最小的GRN-B(1.3亿参数)以3.56的FID分数超越了参数量接近两倍的MaskGIT(2.27亿参数,FID 6.18),效率优势非常突出。规模最大的GRN-G(20亿参数)取得了1.81的FID,超越了同等规模的扩散模型DiT-XL/2(2.27)、流匹配模型SiT-XL/2(2.06),以及同样是20亿参数的VAR-d30(1.92),也超越了更大规模的自回归模型LlamaGen-XXL(14亿参数,FID 2.34)。
研究团队还做了一个颇具说服力的对照实验,直接比较GRN的"全局精化"机制与MaskGIT风格的"掩码填充"机制。两者使用完全相同的模型权重和解码参数,唯一区别是生成时已确定的块是否可以被修改。结果令人印象深刻:掩码填充方式的FID直接崩到185.62,生成的图像几乎是无意义的噪声;即使专门为掩码填充方式调整解码参数(提高CFG强度、降低温度),最好也只能达到18.13的FID,与GRN精化机制的3.63相比差距悬殊。这个实验直接证明,允许"事后修改"的全局精化机制,才是这套框架能够正常工作的根本所在。
在文本生成图像任务上,GRN使用20亿参数、基于约8000万图像数据训练,在GenEval基准测试上取得了0.76的综合分数。这一成绩在同等参数规模的方法中处于领先位置,显著超越了同为20亿参数的SD3 Medium(0.62)和Infinity(0.71)。与更大规模方法(如HiDream的170亿参数、Qwen-Image的200亿参数)相比,GRN以更小的体量取得了有竞争力的表现,差距主要来自规模而非方法本身的局限。
在文本生成视频任务上,GRN使用20亿参数,在VBench综合评分上取得了82.99分,超越了5倍参数规模的CogVideoX-5B(81.61)、同为离散方法的URSA(82.40),以及自回归模型Nova、Emu3和Lumos-1。与拥有80亿参数的InfinityStar(83.74)相比略低,研究团队认为这一差距完全可以通过扩展模型规模来弥合。
---
七、这套框架的局限与未来
研究团队坦诚地指出了GRN目前存在的一些不足。由于计算资源的限制,GRN尚未被训练到与当前最顶尖视觉生成模型(如Sora、Wan 2.1等)同等的规模,因此整体质量上限尚未得到充分验证。在视频生成方面,GRN在包含人物的场景中表现较好,但在生成具有丰富视觉细节的自然场景或非人物主导的内容时,有时会出现细节不够丰富或局部失真的问题,研究团队认为这主要与训练数据的分布不均衡有关,通过调整数据配比和扩大模型规模可以改善。
在未来的研究方向上,研究团队特别提到了一个很有潜力的想法:将"步数蒸馏"技术引入GRN。这类技术的作用类似于培训一位效率极高的学徒——原本需要50步才能完成的精化过程,通过蒸馏可以压缩成更少的步数,同时不损失太多质量。由于GRN的自适应步数机制天然兼容这种蒸馏方式,两者结合有望进一步降低生成成本。
研究团队还指出,GRN作为一个完全基于离散文本式 token 的自回归框架,与现有大语言模型的整合非常自然。如果把文字 token 和图像/视频 token 放在同一个模型里统一训练,有望在一个模型内同时实现多模态理解和生成能力,这是目前业界非常关注的一个研究方向。从这个角度来看,GRN可能成为目前主流的Transfusion架构(把语言模型和扩散模型混合在一起的方法)的有力竞争者。
说到底,GRN做的事情用一句话可以概括:它教会了AI按照人类画家的直觉来工作——不是机械地从噪点走到清晰,也不是一笔一画地按顺序落笔,而是像真正有经验的创作者那样,在整体与局部之间反复打磨,随时纠错,直到整幅作品达到令人满意的状态。这种思路能否在更大的模型和更多样的任务上持续奏效,将会是未来研究中值得关注的核心问题。有兴趣深入研究细节的读者,可通过arXiv编号2604.13030找到完整论文,包括所有算法伪代码和更多消融实验结果。
---
Q&A
Q1:GRN的"全局精化机制"和MaskGIT这类掩码生成模型有什么本质区别?
A:MaskGIT在每一轮生成中,高置信度的token一旦被确定就永久固定,后续步骤只填充剩余空白位置,无法修改已有预测。GRN则完全不同,每一步都会对所有位置重新预测,随机选择哪些位置更新,已有内容随时可能被擦掉重画。正是这种"没有任何位置永久锁定"的机制,让模型能在积累更多上下文后纠正早期错误。实验显示,相同模型权重下,掩码生成方式的FID高达185.62,而GRN精化机制仅为3.63。
Q2:层级二进制量化(HBQ)相比传统离散编码方法有什么优势?
A:传统离散编码(如VQ-VAE、FSQ等)把连续特征直接对应到一个有限的码本条目,压缩时会丢失大量细节。HBQ用多轮"大/小"二分判断来逼近连续值,每增加一轮,误差上界就缩小一半,误差随轮数呈指数级下降。关键在于,这种精度提升完全不需要增加特征通道数,避免了其他高精度离散编码器通常带来的模型变大、训练变慢的副作用。4轮HBQ在图像重建上就达到了0.56的rFID,8轮则可与不做量化的连续编码器性能持平。
Q3:GRN的自适应步数机制是怎么判断一张图需要多少步生成的?
A:GRN在每一步生成时,会计算当前预测结果的"熵值"——这个值反映模型对整张图每个位置的把握程度。熵低说明模型非常自信,内容相对简单,可以快速收敛;熵高说明内容复杂或存在较大不确定性,需要更多步骤来打磨。系统根据熵值动态调整后续步数,在设定的最小步数(如20步)和最大步数(如50步)之间灵活分配。实验显示,超过62.7%的图像不需要走完50步,有效减少了简单内容的计算浪费。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这篇来自英伟达研究团队、发表于2026年4月(arXiv:2604.13010)的研究,提出了名为Lightning OPD的大模型训练新方法。研究发现了大模型两阶段训练中长期被忽视的"教师一致性"原则:当监督微调阶段和蒸馏训练阶段使用不同的老师模型时,会引入不可消除的梯度偏差,导致模型永远无法达到最优状态。Lightning OPD通过始终使用同一个老师模型,并提前预存老师评分,彻底消除了对实时老师服务器的依赖,在数学推理和代码生成任务上实现了4倍训练提速,同时性能持平甚至略超传统在线蒸馏方法。