微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

字节跳动Seed团队让AI画图从"差强人意"变"以假乱真"——持续对抗流模型的秘密

图像生成对抗训练连续时间流模型

字节跳动Seed团队让AI画图从"差强人意"变"以假乱真"——持续对抗流模型的秘密

作者：科技行者

2026-04-21 14:06

分享至：

字节跳动Seed团队于2026年4月发布论文（arXiv:2604.11521），提出连续对抗流模型（CAFM）。该方法通过引入与生成模型同步训练的鉴别器，替代流匹配中的欧氏距离训练目标，让模型的泛化方向更符合图像感知规律。核心创新是利用雅可比-向量积（JVP）将鉴别器锚定在速度场的导数空间，从而首次将对抗训练推广到连续时间流建模。在ImageNet 256像素任务上，仅10轮后训练即将SiT-XL/2的无引导FID从8.26降至3.63，文生图基准GenEval和DPG也均有显著提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-21 14:06 • 科技行者

这项由字节跳动Seed部门完成的研究，以预印本形式于2026年4月13日发布于arXiv，论文编号为arXiv:2604.11521，有兴趣深入了解的读者可以通过这个编号查询完整论文。

**一、AI画图有个藏了很久的老毛病**

你有没有注意到，用AI生成图片的时候，如果不开什么"引导"功能，出来的图往往怪怪的？狗的毛发乱成一团，鱼缸里的鱼像是从噩梦里游出来的，整张图透着一股说不清道不明的"不对劲"。但一旦开了引导功能，质量就蹭蹭上去了——只不过那样生成的图，和真实世界里的数据分布已经不完全一样了，像是经过了某种美化滤镜。

这背后有一个根本性的矛盾，而字节跳动Seed团队的这篇论文，正是专门冲着解决这个矛盾去的。

在讲他们的解法之前，先得理解主角——流匹配模型（Flow Matching）是怎么工作的。可以把它理解成一个"流水线导航员"：它的任务是把一团随机的噪声，沿着一条预先规划好的路径，一步步引导成一张真实的图片。这条路径是固定的，而"导航员"要学的，是在路径上的每一个位置告诉粒子"接下来往哪里走、走多快"，也就是预测所谓的"速度场"。

训练这个导航员的方式，是让它预测的速度和真实应该走的速度之间的距离尽可能小，用的是最经典的方法——欧氏距离，也就是空间中两点之间最直的那条线的长度。听起来合情合理，但问题就藏在这里。

欧氏距离衡量的是几何空间上的远近，而真实图片其实分布在一个极其复杂、弯弯绕绕的"数据流形"上。简单来说，不是所有在几何上"近"的图片，在感知上也"像"。两张图在像素值上差不多，但一张可能是正常的金毛猎犬，另一张可能是被压扁的幽灵猎犬。欧氏距离对这两种情况一视同仁，但人类的眼睛绝对不会。

正因如此，当模型的容量有限、无法死记硬背所有训练图片时，它就会用欧氏距离来"猜"应该生成什么。这种"猜法"不符合真实数据的内在结构，于是生成的图就会偏离正常分布，出现那些叫人看了难受的怪异样本。这就是导航员虽然在正确的路上走，却不知道目的地长什么样的困境。

**二、前人想了哪些办法，又卡在哪里**

当然，不止字节跳动一家在想这个问题。过去已经有几条思路被尝试过。

一种思路是换个空间再做流匹配。把图片先压缩到一个特殊的"表示空间"里，那个空间的结构比原始像素空间更规整，流匹配在里面效果就会好一点。这确实有用，但本质上是换了个战场，并没有直接解决距离度量不对的问题。

另一种思路是换用"黎曼几何"（Riemannian Geometry），也就是在弯曲的曲面上重新定义距离和路径。这就像在地球表面上，从北京到纽约的最短路不是直线穿地球，而是沿着地球曲面走的大圆弧。把流匹配搬到这种弯曲空间里，理论上更符合数据的真实分布。但问题是，你得事先知道数据流形的形状才行，而这个形状正是我们想学习的东西——鸡生蛋还是蛋生鸡的死循环。

还有一种思路是用一个预先训练好的神经网络来充当"感知距离计"，让模型的训练目标从欧氏距离换成这个网络认为的"像不像"。深层神经网络确实比像素距离更擅长判断两张图在感知上的差距，麻省理工等机构的研究者早就验证了这一点。但固定的距离计有个致命弱点：生成模型会慢慢摸清它的规律，找到各种"走捷径"的方式来欺骗它，让生成图在这个距离计的眼里看起来很棒，但在真实人眼里依然奇怪。

解决"被欺骗"问题的自然延伸，是让这个距离计和生成模型一起训练，互相博弈——你学着生成，我学着分辨，谁也别想一劳永逸地骗过对方。这就是生成对抗网络（GAN）的核心思想，由深度学习先驱伊恩·古德费洛在2014年提出。GAN的鉴别器在图片的纹理、清晰度、轮廓等感知细节上表现出色，在ImageNet等图像生成基准上屡创佳绩，也被广泛应用于流模型的"蒸馏加速"——通过对抗训练让模型用极少步数就生成高质量图片。

在GAN和流模型的融合方向上，此前已经有"对抗流模型"（AFM）的工作存在，它把对抗训练引入了离散时间的流模型，取得了不错的效果。但AFM在时间步长无限缩小的时候会不稳定，根本上无法推广到连续时间的流建模框架。这个空白，就是本文想要填补的。

**三、核心创新：让鉴别器学会"分辨速度"而非"分辨图片"**

字节跳动Seed团队提出的方法叫做"连续对抗流模型"（Continuous Adversarial Flow Models，简称CAFM）。它的核心创新点，是彻底解决了如何在连续时间框架下做对抗训练的问题。

在普通的GAN里，鉴别器看的是生成的图片本身，判断它是真是假。在离散时间的AFM里，鉴别器看的是从一个时间步跳到另一个时间步的"传输结果"。但在CAFM要处理的连续时间流中，基本单元不再是有限的"步"，而是一个瞬间的"速度"——也就是粒子在路径上某一刻应该往哪走、走多快这个向量。

速度是位置对时间的导数，它是个方向和大小都随时变化的东西，你没法直接把它塞进一个普通的鉴别器里说"你来分辨这个速度是真是假"。那怎么办？

团队想到的方法非常精妙，用到了数学里一个叫"雅可比-向量积"（Jacobian-Vector Product，JVP）的工具。先不管这个名字，用一个直觉来理解：鉴别器D本质上是一个把空间中的每个点映射到一个数值的"势场"——就像地图上的海拔高度图，每个位置对应一个高度数字。在这个势场里，一个向量（速度）的"好坏"，可以用它沿着该速度方向前进时势场高度的变化率来衡量。如果朝着某个方向走，势场高度上升很快，那这个方向就是"好的方向"。

JVP干的正是这件事：它计算的是当你站在空间中某个位置，沿着某个给定方向（速度向量）前进时，鉴别器的值会以多快的速度变化。这个变化率本身是个标量（一个单独的数），就可以被当作鉴别器的输出来使用了。

具体来说，训练时的对抗游戏是这样进行的：鉴别器D被训练成，对于真实的条件速度（标准答案），JVP输出接近+1；对于生成模型G预测的速度，JVP输出接近-1。与此同时，生成模型G被训练成让自己预测的速度在鉴别器眼里越来越像真实速度——也就是让JVP输出尽量接近+1。

这个设计有一个非常优雅的性质：鉴别器现在看的不再是图片或者某个中间状态，而是整条流路径的"局部方向偏好"。而且，由于JVP是线性的（它只是在当前点对速度做线性近似），对整条路径上所有点的JVP做积分，恰好等于鉴别器在路径终点和起点的值之差。这意味着鉴别器在全局路径上的判断是自洽的，不会出现互相矛盾的评价。

为了防止训练过程中一些不稳定的现象，团队还加入了几个辅助的正则化项。一个叫"中心化惩罚"，因为JVP只约束了鉴别器的导数，而鉴别器本身的绝对值是自由漂移的，需要把它拉回到零附近。另一个叫"最优传输正则化"，它鼓励生成模型在预测速度时倾向于选择范数最小的方向，这和物理上最省力路径的直觉相符，有助于在高维空间里防止模型利用鉴别器的"盲区"走捷径。

还有一个工程细节同样重要：对抗训练历来有个"梯度消失"的问题，就是当真实数据和生成数据的分布差得太远、没有重叠时，鉴别器能轻松分辨二者，于是给生成模型的梯度信号就近乎为零，学习陷入停滞。JVP的线性化特性在数学上保证了这个问题不会发生——只要生成的速度和真实速度不同，鉴别器的雅可比矩阵就会给出非零梯度，学习信号始终存在。因此，CAFM无需像AFM那样依赖梯度惩罚和鉴别器重置等繁琐的补丁措施。

**四、工程落地：如何让这套方法真正跑起来**

从数学原理到能在GPU集群上运行，还需要一系列工程决策。

JVP的计算在现代深度学习框架里并不复杂——PyTorch的`torch.func.jvp`函数支持前向模式自动微分，可以在一次前向传播中同时算出鉴别器的输出值和JVP值，非常高效。更妙的是，训练鉴别器时需要同时用真实速度和生成速度各算一次JVP，利用向量化映射（`vmap`）可以把这两次计算批量并行处理，无需跑两遍网络。

在网络架构上，生成模型G和原来的流匹配模型完全一样，没有任何改动，直接复用现有架构。鉴别器D则采用和G相同的变换器（Transformer）架构，但有一个关键修改：把所有的层归一化（LayerNorm）替换成均方根归一化（RMSNorm）。这个看似微小的改动极大提升了训练稳定性。实验发现，LayerNorm在JVP计算过程中会产生巨大的梯度尖峰，而RMSNorm则完全没有这个问题。这与其他涉及JVP计算的工作中的发现一致。

在训练策略上，团队采用了"N步鉴别器更新，1步生成器更新"的节奏，即每更新一次生成模型，就把鉴别器单独训练N步，让鉴别器始终保持在一个接近最优的状态。实验表明N=16是个合适的选择——太少（N=8）会导致鉴别器跟不上生成模型而训练发散，太多（N=32）则会使生成模型学得太慢。

大规模分布式训练方面，JVP和vmap能够与PyTorch的多机并行训练框架（DDP、FSDP）以及梯度检查点（用于节省显存）完美配合，唯一需要注意的是包装顺序：应该是`ddp(jvp(D))`而非`jvp(ddp(D))`，前者让JVP只包裹网络本身，后者则会把JVP套在包含梯度同步逻辑的分布式包装器上，造成不兼容。

**五、主要用途是"后训练"而非从头训练**

CAFM有一个非常实际的定位：它主要被设计为对现有流匹配模型的"后训练"工具，而非替代从头训练。

道理很简单：CAFM和标准流匹配在理论上收敛到同一个"真实速度场"，两者的本质区别只在于有限容量的模型如何"泛化"——也就是在见过的训练样本之外，如何应对新的情况。既然目标相同，就没必要从零开始，完全可以先用标准流匹配把模型训练到一个不错的状态，再切换到CAFM目标进行微调，让模型的泛化方向从"欧氏距离最近"调整为"感知距离最近"。

从头用CAFM训练也是可以的，团队也做了这个实验。但结果符合预期：在相同的训练轮次下，CAFM从头训练的收敛速度比标准流匹配慢——毕竟额外引入了鉴别器和JVP计算，计算开销约是标准流匹配的4.8倍。而且从头训练时需要精心调节最优传输正则化的权重λ和鉴别器更新步数N，随着训练进行，λ应逐渐减小，N应逐渐增大，才能获得最佳效果。相比之下，后训练只需10个训练轮次，设置λ=0（完全关闭最优传输正则化），就能获得显著的性能提升，简单得多。

**六、ImageNet实验：数字说明一切**

团队在最经典的图像生成基准——ImageNet 256像素分类条件生成任务上验证了CAFM的效果，测试对象是两个有代表性的流匹配模型。

第一个是SiT-XL/2，一个在SD-VAE潜在空间（也就是把图片压缩成更小的表示再处理）中运行的模型。它有6.75亿参数，已经过1400个训练轮次的标准流匹配预训练。用CAFM对它进行10个轮次的后训练后，在不使用任何引导的情况下，衡量生成质量的FID分数（越低越好，越接近真实图片分布越好）从8.26骤降至3.63——这是一个质的飞跃，相当于仅用极小的额外训练代价就几乎将"出戏感"减半。同期做的对照实验表明，用标准流匹配再继续训练10个轮次反而让FID从8.26微升到8.64，说明这个提升完全来自CAFM目标本身，而非额外的训练数据或轮次。

在有引导的情况下，CAFM同样表现出色。扫描一系列引导强度（CFG）发现，CAFM在CFG=1.3时就能达到最优FID=1.53，而原始SiT需要CFG=1.5才能达到2.06。这意味着CAFM不仅在无引导时更接近真实分布，还让引导变得更高效——需要的引导强度更小，得到的质量却更好。

第二个测试对象是JiT-H/16，一个直接在像素空间（不经过潜在空间压缩）运行的模型，有9.56亿参数，已经过600个训练轮次的预训练。CAFM后训练同样10个轮次，无引导FID从7.17降至3.57，最佳引导FID从1.86降至1.80。

与同期其他方法的横向对比更能说明问题。在SD-VAE潜在空间模型中，同样使用DiT架构和类似训练设置的各方法中，CAFM的无引导FID（3.63）超过了DiT-XL/2的9.62、SiT的8.26、加入特殊正则化的SiT+Disperse的7.43，以及引入了表示对齐技术的SiT+REPA的5.90（后者借助了DINOv2这个强大的预训练视觉模型）。在有引导的情况下，CAFM的1.53也优于SiT+Disperse的1.97和原始SiT的2.06，只逊于同样借助DINOv2的SiT+REPA（1.42）和DDT-XL（1.26）。

**七、文生图实验：从工厂级到产品级**

ImageNet实验验证了方法的可行性，而真正的"战场"在于实际产品中广泛使用的文生图模型。团队选择在Z-Image上进行后训练实验——这是字节跳动开源的、拥有60亿参数的单流扩散变换器，是一个真正产品级规模的模型。

实验设计同样注重公平性。由于Z-Image的原始训练数据不可获取，团队用了自己整理的开源自然图像数据集。为了排除数据集差异对结果的干扰，他们先用标准流匹配在这批数据上微调Z-Image训练1万次迭代，再分两路：一路继续用流匹配训练，另一路切换到CAFM训练，两路都跑到同样的总迭代次数，然后对比。

在鉴别器架构上，这次没有在输入端加入分类标记，而是在最后一层的视觉特征上加了一个交叉注意力层来输出鉴别分数，这样主干网络可以完全保持不变，改动最小。

GenEval基准（测试文生图对各种细粒度视觉语义的理解，如两个物体、颜色属性、空间位置、计数等）和DPG基准（测试图像与复杂文本描述的一致性）的结果显示，CAFM后训练显著提升了无引导生成的质量。在有提示词扩展且有引导的完整配置下，CAFM的GenEval总分从0.81提升至0.85，DPG总分从83.7提升至85.2。在两个物体、颜色属性、位置理解等细粒度指标上，提升尤为明显，反映出CAFM确实让模型对复杂语义场景的理解更准确、生成更到位。

**八、方法的局限与边界**

研究团队也坦诚地指出了方法的局限。CAFM在经验上确实能让模型的泛化更接近真实数据分布，但无法从理论上保证它能完美覆盖低密度区域，也就是那些在训练数据中很罕见的特殊情况。文生图实验的失败案例也印证了这一点：对于"四支笔围成一个矩形，中间五支铅笔排成圆圈"这样极度精细的空间计数描述，无引导的CAFM生成结果依然会出错，需要加上引导才能勉强处理。

这说明CAFM改善了模型的泛化方向，但没有神奇地解决所有问题。引导作为一种"低温采样"技术，可以和CAFM叠加使用，正交互补。实验数据也确认，在有引导的情况下，CAFM的底层模型质量提升会同样传递到引导生成的结果上。

归根结底，字节跳动Seed团队这项工作解决的是流匹配模型一个根本性的训练目标问题：与其用直尺量感知距离，不如训练一个懂感知的裁判来打分。通过将对抗训练优雅地扩展到连续时间框架，并用JVP将鉴别器锚定在流速度场的导数空间中，他们在不改变模型架构、不增加推理成本的前提下，让AI生成的图片更自然地融入了真实图像的世界。

Q&A

Q1：CAFM和普通流匹配模型有什么本质区别？

A：两者都在学习同一条从噪声到图片的路径，理论上收敛到同一个速度场。本质区别在于训练目标不同：普通流匹配用欧氏距离衡量速度预测的好坏，这种距离不符合图像感知规律；CAFM引入了一个和生成模型一起训练的鉴别器，用感知质量来评判速度预测的好坏。这种差异不影响模型结构，只影响"泛化方向"，所以CAFM可以直接对已有的流匹配模型做后训练，不用从头来过。

Q2：CAFM使用的JVP技术是什么，为什么要这么设计？

A：JVP（雅可比-向量积）本质上是计算一个函数在某个方向上的变化率。CAFM的鉴别器是一个把图片位置映射到标量势能的函数，JVP则计算这个势能沿某个速度方向的变化率。这样鉴别器就能直接对速度向量好坏进行打分，而不需要看图片本身。这个设计的好处在于：数学上自洽、训练中不会出现梯度消失、还能保证鉴别器对整条生成路径的判断前后一致。

Q3：CAFM后训练大概需要多少计算资源？

A：以ImageNet上SiT-XL/2模型的实验为例，后训练只需要10个训练轮次，批次大小256，学习率1e-5，整体设置非常轻量。但由于引入了鉴别器网络以及JVP的前向和反向计算，每个轮次的墙钟时间约是标准流匹配的4.8倍。综合来看，相对于从头训练一个大模型，这点额外开销对于后训练场景是完全可以接受的。

图像生成对抗训练连续时间流模型

分享至