微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

英伟达、港大与MIT联手：让AI绘画训练提速4.64倍的"侦察兵"策略

人工智能强化学习训练加速

英伟达、港大与MIT联手：让AI绘画训练提速4.64倍的"侦察兵"策略

作者：科技行者

2026-04-16 11:33

分享至：

这项由英伟达、香港大学与MIT联合发表于2026年4月的研究（arXiv:2604.06916），提出了名为Sol-RL的两阶段强化学习框架，专门用于提升AI文生图模型与人类审美偏好的对齐效率。核心思路是用FP4超低精度计算快速生成大量候选图像并完成排名筛选，再用BF16高精度对筛选出的最优对比样本重新生成并训练，将"探索"与"学习"彻底解耦。实验在SANA、FLUX.1、SD3.5-Large三款主流模型上验证，训练收敛速度最高提升4.64倍，同时保持与纯高精度方案几乎相同的最终图像质量。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-16 11:33 • 科技行者

这项由英伟达（NVIDIA）、香港大学与麻省理工学院（MIT）联合完成的研究，于2026年4月8日以预印本形式发布于arXiv平台，论文编号为arXiv:2604.06916。研究聚焦于一个在AI绘画领域日益紧迫的问题：如何让大型图像生成模型在"学习人类审美偏好"这件事上，既做得好、又做得快？

要理解这项研究解决的是什么问题，先要从"AI绘画模型为什么需要学习"说起。今天我们见到的那些能根据文字描述生成精美图片的AI模型——比如FLUX.1、SANA、Stable Diffusion 3.5——尽管已经相当惊艳，但它们并不天然懂得什么样的图片才是人类真正喜欢的。于是研究人员借助"强化学习"这套机制，让模型不断生成图片、获得评分、从反馈中改进，就像一个不断练习、不断收到评委打分的画手。

这套机制的核心是：每次练习时，模型不是只画一张图，而是画很多张（比如96张），然后挑出其中最好的和最差的来重点学习——因为对比最强烈的样本，才能给模型最清晰的"这样画对、那样画错"的信号。但问题随之而来：画96张图再筛选，意味着大量的计算都浪费在了那些最终被丢弃的"中等生"身上。对于动辄上百亿参数的大模型，这个浪费是相当可观的。

正是针对这一瓶颈，研究团队提出了名为Sol-RL（Speed-of-Light RL，光速强化学习）的两阶段训练框架，巧妙地借用了英伟达最新硬件（Blackwell架构GPU）所支持的FP4极低精度计算能力，在不牺牲最终训练质量的前提下，将整体训练速度提升了最高4.64倍。

---

一、为什么"画更多草稿再精选"是个好主意，但代价太高

强化学习的逻辑，有点像一个画画培训班的选拔机制。假设教练每周都要从一批学生作品中，挑出最出色和最失败的若干张，让大家对比学习。直觉上，班里人越多、作品越多样，这种对比学习的效果就越好——因为你更容易找到真正的"天花板"和"地板"，而不是一堆差不多的中等作品。

在AI绘画的强化学习中，道理完全相同。研究团队引用并验证了一个规律：当每次生成的候选图片数量（即"候选池"规模）从少到多扩展时，筛选出的最好与最差图片之间的差距会越来越大，给模型的学习信号也越来越清晰，最终的训练效果持续提升。用统计语言来说，当候选样本数N增加时，其中最大值与最小值之差的期望值大约随着√(2logN)增长——也就是说，候选池越大，极端样本越极端，学习信号越强。

然而，扩大候选池的代价是直接的：你必须先把这96张图都完整地画出来，才能评分、才能筛选。对于FLUX.1这样的12B（120亿）参数大模型而言，生成96张图所耗费的时间远远超过了后续真正用于"学习"的那24张图的时间。换句话说，训练的瓶颈不再是"学"，而是"画草稿"。研究团队在实验中发现，对于SD3.5-Large模型，光是生成96张候选图就需要451秒，而后续的模型参数更新只需要240秒。

面对这个困境，一个自然的想法是：用低精度计算来加速"画草稿"的过程。英伟达的Blackwell架构GPU支持一种叫做FP4（4位浮点数）的超低精度运算，其计算吞吐量是标准BF16（16位浮点数）的整整4倍。如果用FP4来画那96张草稿，速度理论上可以大幅提升。但问题在于，FP4精度极低，画出来的图在像素细节上与BF16版本有所偏差。研究团队发现，如果直接拿这些FP4生成的"模糊草稿"来让模型学习，模型会被迫去模仿这些失真的图像，结果训练效果大幅下降，甚至出现不稳定的情况。这就像让一个学生临摹一张被打了马赛克的名画，临摹技术不仅没提升，审美反而被带偏了。

---

二、关键发现：FP4草稿虽然"画得糊"，但"排名判断"是准的

就在这个两难困境中，研究团队找到了一个关键突破口：FP4生成的图像虽然在像素级别上与高精度版本有所差异，但它们所反映的"哪张图更好、哪张图更差"的相对排名，却与高精度版本高度一致。

这个观察背后有一个深刻的道理。在AI图像生成中，最终图片的大致内容和质量，在很大程度上是由最初随机生成的"噪声种子"决定的。同一个噪声种子，无论用高精度还是低精度来"绘制"，最终产出的图像在语义层面——比如画的是什么主题、构图是否合理、与文字描述的契合程度——会保持相当一致。FP4只是在局部细节上引入了一些微小偏差，就像同一张摄影底片冲洗出来的照片，高质量冲印和低质量冲印的内容是一样的，只是清晰度略有不同。

研究团队通过大量实验对这一点进行了严格验证。他们测量了FP4生成样本与BF16生成样本之间的奖励分数排名一致性，使用了肯德尔τ系数和斯皮尔曼ρ系数两种统计指标。结果相当惊人：平均斯皮尔曼ρ达到0.927，平均肯德尔τ达到0.798，远超"高度一致"的判断阈值（分别为0.80和0.70）。更关键的是，在筛选"前12名"和"后12名"这个最重要的任务上，FP4的命中率超过96%——也就是说，用FP4版本判断出的最好和最差样本，96%以上与用BF16判断的结果吻合。

这个发现就像是：你不需要把每幅候选画都用最贵的进口纸张和颜料精心完成，只需要先快速勾勒96张铅笔草图，就能准确判断哪些构图最好、哪些最差。真正需要精心完成的，只有那最终入选的24张。

---

三、Sol-RL的两阶段方案：侦察兵+精锐部队的分工

基于上述发现，Sol-RL构建了一个精妙的两阶段流程，可以用"侦察兵先摸清情报，精锐部队再精准出击"来形容。

第一阶段叫做"FP4加速探索"。在每一轮训练迭代中，系统首先随机生成96个不同的噪声种子，然后用FP4量化后的模型、以极少的去噪步数（只需6步，而非标准的10步）迅速生成96张"草图"。这些草图随即被奖励评分模型打分，并按照分数高低排序。整个过程因为FP4的超高吞吐量和减少步数，速度极快，对于SD3.5-Large模型只需约125秒（相比BF16的451秒）。完成排序后，系统记录下得分最高的12个噪声种子和得分最低的12个噪声种子，共24个。

第二阶段叫做"BF16高保真再生成"。系统拿着第一阶段筛选出的这24个噪声种子，切换回完整的BF16高精度模式，用完整的10步去噪过程，重新生成这24张图像。由于噪声种子没变，这24张高精度图像在语义上与FP4版本高度一致，但在细节和精度上完全没有损失。随后，模型的参数就在这24张高保真图像上进行更新学习。

整个训练迭代完成后，模型的新权重会被立刻重新量化为FP4格式，同步回推理引擎，为下一轮迭代做准备。这个重新量化的过程几乎不需要额外的计算开销，也不需要重新编译推理引擎，保证了整个训练流程的连贯性。

以SD3.5-Large为例，对比一下时间开销：传统的BF16全量候选池方案（96张图全用BF16生成）需要451秒用于生成、240秒用于训练，合计691秒每轮。Sol-RL方案只需125秒用于FP4探索、62秒用于BF16再生成、240秒用于训练，合计约427秒每轮，整体加速1.61倍。而在"达到同样奖励水平所需的总时间"这个更重要的指标上，由于Sol-RL能够高效利用大候选池带来的更好学习信号，收敛速度大幅提升，最终实现了高达4.64倍的训练加速。

---

四、实验验证：三个模型、四个评分标准、全面胜出

研究团队在SANA（16亿参数）、FLUX.1（约12B参数）和Stable Diffusion 3.5-Large三款主流文生图大模型上，分别进行了完整的实验验证，使用了ImageReward、CLIPScore、PickScore和HPSv2四种衡量图像质量和人类偏好的评分标准。所有实验均在8块英伟达B200 GPU上进行。

在最核心的对比实验中，研究团队将Sol-RL与四个当前主流的基线方法进行了同等GPU时间预算下的比较，这四个方法分别是DanceGRPO、FlowGRPO、AWM（Advantage Weighted Matching）和DiffusionNFT。以FLUX.1模型为例，在相同计算资源下，Sol-RL在ImageReward上得到1.7636分，比排名第二的DiffusionNFT（1.6707分）高出约5.5%；在CLIPScore上得到0.3089，同样是最高；在PickScore上得到0.8932，在HPSv2上得到0.3688，均居四种方法之首。

更直观的是训练收敛曲线的对比。以DiffusionNFT作为基准线，Sol-RL在所有九种"模型×评分指标"组合中，都能以更少的GPU时间达到DiffusionNFT最终的性能水平，提速范围从1.91倍（FLUX.1+CLIPScore）到4.64倍（SD3.5-Large+HPSv2）不等。而且，Sol-RL最终能达到的性能上限也显著高于DiffusionNFT，学习曲线的"天花板"被明显抬高了。

研究团队还专门验证了Sol-RL与"暴力BF16扩大候选池"方案之间的保真度对比——也就是说，Sol-RL的效果是否真的接近于用BF16老老实实地生成96张图再筛选的效果？结果显示，在相同训练步数下，Sol-RL与暴力BF16方案的HPSv2得分差异极小：FLUX.1上仅差0.29%，SANA上Sol-RL甚至还高出0.11%，SD3.5-Large上差距也仅有1.08%。这证明Sol-RL确实做到了"用FP4探索的效率，实现BF16训练的质量"。

---

五、调参实验：多少步探索合适？候选池多大最好？

研究团队还细致地探究了两个关键参数对Sol-RL效果的影响，为实际使用提供了具体的参数建议。

第一个是FP4探索阶段使用的去噪步数。研究团队测试了2步、4步、6步、8步四种设置。结果显示，仅用2步时，图像的语义内容还没有充分成形，FP4生成的草图太粗糙，导致排名判断不够准确，最终HPSv2得分只有0.3587。增加到4步时改善明显，得分提升到0.3650。6步是一个甜蜜点，得分达到0.3686。继续增加到8步，得分反而略微下降到0.3659，说明6步已经足够让语义信息稳定下来，再多步数只会增加计算开销却没有额外收益。

第二个是FP4探索的候选池大小N。研究团队测试了N=24、48、72、96四种设置，同时保持最终用于训练的样本数K固定在24。结果呈现出清晰的单调递增趋势：N=24时HPSv2为0.3569，N=48时为0.3622，N=72时为0.3663，N=96时达到0.3686。这验证了理论分析：候选池越大，极端样本越极端，学习信号越强，效果越好。而得益于FP4的高效率，将N从24扩展到96带来的额外计算代价是相当有限的。

---

六、数学上的严格保证：为什么这套方案在理论上一定成立

研究团队不仅做了充分的实验验证，还从数学角度严格证明了Sol-RL方案的正确性，这里用通俗的语言来解释其核心逻辑。

首先，研究团队证明了FP4量化对奖励分数的影响是有界的。用数学语言说，FP4产生的噪声e_t会让最终图像略有偏移，但这个偏移量受到一个由格朗沃不等式给出的上界Δ约束，这个Δ是一个固定的常数，完全由FP4的精度格式和去噪步数决定，与候选池大小N无关。

其次，对于筛选出的最好和最差候选，其真实奖励分差（即学习信号的强度）满足：真实分差 ≥ BF16暴力方案的分差 - 4Δ。也就是说，FP4筛选方案最坏情况下，只是把学习信号减弱了一个固定常数4Δ。

但关键在于：当候选池大小N增大时，BF16暴力方案的期望分差会以约2σ√(2logN)的速度增长。这个增长是无界的，而4Δ这个损失是固定不变的。因此，只要N足够大，FP4方案保留的学习信号不仅不会消失，反而会越来越强。这在数学上严格保证了：候选池越大，FP4方案的效果越接近理想的BF16方案，而Sol-RL正是在N=96这个足够大的候选池下运行，使得这个理论保证得到了实践验证。

---

七、视觉效果：Sol-RL微调后的图像究竟好在哪里

研究团队提供了大量对比图像，直观展示了Sol-RL微调前后的视觉差异，以及Sol-RL与其他方法之间的对比。

以SANA模型为例，经过Sol-RL在多个奖励指标（ImageReward、CLIPScore、PickScore、HPSv2和OCR文字识别奖励）联合微调后，模型在处理复杂场景时的表现有了明显提升。比如"一只梵高风格的霸王龙在巴黎"这个提示词，微调后的图像不仅构图更合理，梵高的笔触风格也更加鲜明。对于需要在图中渲染文字的场景（如"冲浪板上写着'Ride the Wave'的流动字体"），微调后的模型在文字的清晰度和艺术感方面都有显著改善。

与FlowGRPO和DiffusionNFT相比，Sol-RL生成的图像在语义与提示词的契合度、画面细节的丰富程度以及整体艺术风格的一致性方面都表现出明显优势。比如同一个"章鱼同时演奏八种乐器"的提示词，Sol-RL的版本在乐器数量和章鱼姿态的准确性上都更贴近描述。

---

说到底，Sol-RL做的事情，是解开了一个长期困扰AI绘画训练领域的死结：更多候选图片能带来更好的训练效果，但生成更多候选图片代价太高。研究团队找到的破局方式出奇地优雅——不是去压缩训练质量，也不是去寻找更好的算法，而是发现了"FP4版本虽然画得不够精细，但它对'谁好谁差'的判断力和BF16几乎一样准"这个关键事实，进而把"探索"和"学习"这两件事彻底分开，让FP4负责大范围侦察、让BF16专注精准出击。

这项研究对普通用户的影响，在于未来使用的AI绘图工具会在更短的时间内被调教得更符合人类审美，而这一切发生在模型开发阶段，并不需要终端用户做任何额外操作。对AI研究社区而言，Sol-RL所展示的"解耦探索与优化"思路，或许可以迁移到语言模型、视频生成等更广泛的强化学习后训练场景。

一个值得继续思考的问题是：当FP4的精度损失足够小、候选池足够大时，是否存在某种理论上的极限，使得进一步扩大候选池带来的收益开始递减？研究团队的实验在N=96处停止，但根据他们的理论分析，收益应该还在持续上升。下一代硬件的更强FP4算力，或许会让N=256、甚至N=1024的探索变得触手可及。对原论文感兴趣的读者，可通过arXiv编号2604.06916获取完整内容。

---

Q&A

Q1：Sol-RL框架中的FP4量化到底是什么，和普通的图像压缩有什么区别？

A：FP4量化是一种针对神经网络权重和计算过程的数值精度压缩技术，用4位浮点数代替原来的16位浮点数来表示数值，理论上计算吞吐量可达原来的4倍。与普通图像压缩不同，FP4量化作用于模型的计算过程本身，而非最终图像。它的影响是让生成过程更快但结果略有偏差，Sol-RL的创新在于只用FP4做候选筛选、不用FP4做最终训练，从而避免了精度损失影响模型学习质量。

Q2：Sol-RL的训练加速4.64倍是指什么意思，对实际使用AI绘画工具有影响吗？

A：这个加速倍数是指：达到同等图像质量水平所需要的GPU计算时间，Sol-RL只需要原来方案的约五分之一。对于模型开发方，这意味着训练一个对齐人类审美的大模型，原本可能需要100小时的GPU时间，现在只需约22小时，大幅降低了研发成本。对普通用户来说，直接体验是更快地用上质量更好的AI绘画工具，以及开发者有更多资源去测试不同的美学偏好方向。

Q3：DiffusionNFT和Sol-RL的主要差别是什么，Sol-RL是完全替代它还是在它基础上改进？

A：DiffusionNFT是一种现有的扩散模型强化学习训练方法，Sol-RL在训练优化阶段仍然沿用DiffusionNFT的学习目标，因此可以理解为Sol-RL是在DiffusionNFT的基础上增加了一个高效的两阶段候选筛选流程。Sol-RL的核心创新不在于改变"如何更新模型参数"，而在于改变"从哪些样本中学习"以及"如何高效找到这些样本"，两者是互补关系而非替代关系。

人工智能强化学习训练加速

分享至