
这项由香港科技大学、阿里巴巴Z-Image团队、加州大学圣地哥分校和香港中文大学联合完成的研究,以技术报告形式发布于2026年5月,论文编号为arXiv:2605.05204。有兴趣深入了解的读者可以通过这一编号在arXiv学术平台上查询完整论文。
一、当AI画师学了新技能,却忘了怎么快速出图
有一种AI绘图模型,经过特殊的"提速训练"之后,只需按四次或八次快门,就能生成一张高质量的图像。相比之前那种需要按几十甚至上百次才能出图的老式模型,这类"快速出图模型"效率高得多,图像质量也丝毫不逊色。如今,Z-Image-Turbo和FLUX.2-klein这样的产品,已经成为业界最受欢迎的快速出图模型,被大量应用在实际生产中。
然而,当人们尝试让这类模型学习新东西——比如记住一只特定的玩具狗的样子、掌握某种特殊的画风——麻烦就来了。按照以往的方式给模型"补课",会让它的快速出图能力大打折扣,原本四步就能画出清晰漂亮图像的本领,竟然在学完新知识之后退化成模糊、粗糙的涂鸦。这就好比一个原本能用四笔画出精准素描的画家,上完新技法课之后,反而需要画上百笔才能勉强画出一幅说得过去的作品。
研究团队将这种现象称为"训练测试不一致"问题。简单说,常规的"补课"方式,是把目标图像加上噪声之后塞给模型,让它从这些被噪声污染的目标图像的状态出发,学习如何预测正确的方向。但这些被噪声污染的状态,和模型在正常快速出图时经历的那几个关键步骤,根本就是两条不同的路。模型在这条"错误的路上"学到的东西,自然没法在"正确的路上"发挥作用,甚至会破坏原有的出图节奏。
研究团队的目标,就是找到一种方法,让这类快速出图模型能够持续学习新知识,同时绝不牺牲它快速出图的天赋本领。
二、"强化学习"的路走不通,"普通补课"的路又太窄
在正式介绍研究团队的解决方案之前,有必要了解一下他们踩过的坑,以及为什么那些看似合理的方案都行不通。
有人提出,既然普通的"补课"方式会打乱快速出图的节奏,那么用强化学习来训练模型是否可行?强化学习的思路是让模型自己先出图,然后根据图像质量给予奖励或惩罚,模型就在自己真实的出图过程中学习。研究团队确认,这种方式确实不会损伤快速出图的能力,因为模型始终在自己实际走的路上学习,没有路线偏差的问题。
然而,强化学习有一个致命的门槛:你必须设计一个"评分标准",告诉模型什么样的图是好图、什么样的图是差图。对于大型商业公司,专门训练一个评分模型不是难事,但对于大多数开发者和创作者——他们通常只有一批图文对——根本没有条件去设计这样的评分系统。
于是,研究团队设定了一个更贴近实际的目标:解决方案必须只用普通的图文对数据,不需要任何额外的评分工具或奖励函数,同时还要让模型在自己真实的出图轨迹上学习,避免路线偏差。这个要求听起来有点像既要马儿跑、又要马儿不吃草,但研究团队找到了一个巧妙的出口。
三、一个意外发现:模型天生就有"参照临摹"的能力
研究团队在研究现代绘图模型的结构时,注意到了一个有趣的现象。这类快速出图模型和早期模型有一个根本性的区别:早期模型用的是T5或CLIP这样专门为文字设计的编码器,而新一代模型越来越多地使用大语言模型(LLM)或多模态大模型(VLM)作为编码器。这就像早期模型只有一个只懂文字的秘书,而新模型的秘书升级成了既懂文字又能看图的全能助手。
研究团队做了一个实验:他们把一张目标图像和一段文字描述同时输入到这个"全能秘书"中,让秘书提取出一个融合了图文信息的"多模态特征",再把这个特征交给模型去出图;同时,也试验了只把文字描述交给秘书、提取纯文字特征的情况。对比两种情况的输出结果,发现了令人惊喜的事情。
当模型拿到的是"多模态特征"时,生成的图像会保留目标图像的概念风格或视觉特征——比如目标图是一只毛绒玩具狼,生成的图像就会出现相似造型的毛绒狼;目标图是港口的某种色彩风格,生成的图像就会呈现类似的色调氛围。而且,这一切都发生在无需任何额外训练的情况下,模型天生就会"参照临摹"。
这个发现为整个问题打开了一扇新门。既然模型可以通过"参照特征"来获得更强的出图指导,那何不用这种方式来构建一个"老师",专门教导同一个模型用"普通文字特征"出图时如何学习新知识?
四、D-OPSD:让同一个模型同时扮演学生和老师
基于这个发现,研究团队设计了D-OPSD方法,其核心思想可以用一个学艺场景来理解。
假设有一位画家,他平时接到委托只收到文字描述(比如"一只坐在木地板上的狼形玩具"),然后凭借自己的理解去作画。而在接受培训时,教练会在旁边放一张参考照片,让画家对照着画,自然能画得更像原作。D-OPSD的做法是:在训练期间,让这位画家分别扮演两个角色——一个是"普通模式"下只看文字描述作画的学生,一个是"加强模式"下同时参照目标图片和文字描述作画的老师。学生按照自己平时的四步出图节奏画出一幅草稿,然后老师在同样的这四个步骤上,也做出自己的判断。最后,用老师的判断来纠正学生的判断,让学生逐渐向老师靠拢。
关键在于,整个学习过程始终发生在学生自己走的那条路上——那四个真实的出图步骤。老师并没有拿着一张被噪声污染的目标图像,从那个与正常出图完全不同的起点去纠正学生;老师是和学生站在同一条路的同一位置,只是手里多拿了一张参考照片,给出更有指导性的建议。这就避免了"训练路线"和"出图路线"之间的偏差,也因此保住了快速出图的天赋。
从技术层面来说,模型在每个出图步骤上都预测一个"速度方向",这个速度方向决定了图像如何从纯噪声逐步演变为清晰图像。学生预测的速度方向和老师预测的速度方向,会在同一个出图步骤的同一个状态点上进行比较,训练的目标就是让两者尽量一致。老师的参数通过一种叫做指数移动平均(EMA)的技术来更新——简单说,老师的参数是学生参数的"极度平滑的历史版本",既能追踪学生的学习进度,又不会因为学生某次的大幅波动而剧烈变化,从而保证训练的稳定性。
这整个机制在语言模型领域有对应的前辈——"在线策略自蒸馏"方法,已经在大型语言模型的持续学习中被验证有效。而D-OPSD将这个思路从文字生成领域迁移到了图像生成领域,解决了迁移过程中最难的那道关:如何在不破坏出图轨迹的情况下,把目标图像的信息引入训练。
五、实验验证:新知识学到了,老本领也没丢
研究团队在两个模型上测试了D-OPSD:Z-Image-Turbo(60亿参数)和FLUX.2-klein(40亿参数)。测试分为两种场景,一种是用少量图片(约4张)进行小规模定制训练,另一种是用2.5万张高质量图片进行大规模全参数微调。
在小规模定制训练的场景中,目标是让模型记住特定概念——比如某只狼形毛绒玩具的具体外形——然后在全新的场景描述下也能生成这个概念。测试指标包括:生成图像和目标图像在视觉特征上的相似度(DINO距离和LPIPS距离,数值越小越好)、多模态大模型对"概念一致性"的评分(VLM-J,数值越大越好)、生成图像是否仍然符合文字描述中与概念无关的部分(CLIP-S,数值越大越好),以及图像的质量分数和美感分数(数值越大越好)。
对比方案包括:直接用流匹配损失进行普通微调(Vanilla SFT)、先在多步模型上训练再将LoRA权重迁移到快速模型(SFT + LoRA on distilled)、DreamBooth风格训练,以及PSO配对样本优化方法。
在Z-Image-Turbo上,D-OPSD在质量分数(3.7965)和美感分数(3.1710)上明显高出Vanilla SFT(分别为2.4236和2.3582)和DreamBooth(分别为2.5582和2.3755),说明快速出图能力得到了很好的保留。在概念相似度方面,D-OPSD的VLM-J评分(3.3333)与PSO并列最高,但在CLIP-S上(0.3664)显著超过了PSO(0.2893),说明D-OPSD学到的概念能够迁移到全新的场景描述中,而PSO则出现了过拟合——只能复现训练集里的场景,换个新描述就不灵了。
在FLUX.2-klein上,也观察到了高度一致的结果,D-OPSD同样在质量、美感和文本跟随能力上全面领先。
在大规模全参数微调的场景中,目标是让模型的风格偏向"动漫"领域,同时不忘记原来学会的其他知识。除了上述指标外,还加入了FID(衡量生成图像整体分布与目标图像分布的差异,越小越好)、Geneval和DPG两个综合基准测试(衡量模型是否还记得之前学会的广泛知识)。
结果显示,D-OPSD在Z-Image-Turbo上的FID为40.49,远优于Vanilla SFT的82.20和PSO的88.43,接近甚至优于未微调的基础模型(48.69),说明微调后的分布更贴近目标动漫风格。在Geneval和DPG两个综合基准上,D-OPSD分别保持在0.7170和84.11,与基础模型(0.7543和84.76)差距很小,而Vanilla SFT直接跌至0.1588和69.97,PSO也只有0.2475和72.74,几乎遗忘了大量之前学会的知识。FLUX.2-klein上的结论同样一致。
六、消融实验:拆开每个零件,看看各自的贡献
为了搞清楚D-OPSD究竟是哪个环节在发挥作用,研究团队做了一组"拆零件"实验,分别测试四种不同的训练方案。第一种是用目标图像直接做流匹配训练(即Vanilla SFT);第二种是用"老师模式"(多模态特征)生成一批样本,再用这些样本替代目标图像做流匹配训练(SFT from teacher samples);第三种是在固定数据集上让学生对齐老师的预测,但不在学生自己的出图轨迹上进行(off-policy distillation);第四种是完整的D-OPSD,在学生自己的出图轨迹上做知识蒸馏(on-policy distillation)。
实验结果清晰地呈现在两条曲线的变化趋势中。质量分数曲线方面,Vanilla SFT随着训练步数增加持续下滑,最终明显低于起点,印证了"快速出图能力受损"的问题;而三种蒸馏方案的质量分数均保持稳定甚至有所提升,说明蒸馏思路本身对保护快速出图能力起到了关键作用。在概念相似度曲线方面,完整的D-OPSD(on-policy distillation)达到了最快的收敛速度,也就是说,在相同的训练步数内,D-OPSD学到的新概念与目标图像最为相似,而off-policy版本虽然也有效,但收敛更慢。
关于老师模型的构建方式,研究团队也做了专门测试。直接使用学生模型的副本作为老师会导致训练崩溃;使用冻结的原始模型作为老师能稳定训练但效果有限;EMA系数为0.9的老师次优;EMA系数为0.9999的老师效果最佳。研究团队认为,高EMA系数能够极度平滑高方差的对齐目标,同时追踪学生的学习进度,兼顾稳定性与有效性。
七、技术细节:为什么直接换个VLM编码器行不通
在实现过程中,研究团队遇到了一个具体的工程难题。Z-Image-Turbo和FLUX.2-klein都使用Qwen3-4B作为文字编码器。既然要让老师模式能够处理图文多模态输入,最直接的想法是把编码器换成对应的多模态版本Qwen3-VL-4B。
然而,实际测试发现,直接这样替换会导致生成图像出现高频噪点和过度锐化的问题。研究团队将此归因于"特征空间不一致"——Qwen3-VL是在Qwen3-LM基础上继续训练的,虽然多模态能力增强了,但输出的特征分布已经和绘图模型最初训练时所见到的特征分布有所偏离。
解决方案是一个颇有创意的"拼接"操作:保留Qwen3-VL的视觉感知部分(ViT和连接器),但把其中处理文字的那部分参数替换回Qwen3-4B的参数。这样一来,模型保留了理解图像的能力,同时输出的特征分布又重新与绘图模型的训练环境相匹配。研究团队指出,这相当于把VLM"倒退"到了视觉感知部分已经训练好、但语言部分参数还没有更新的那个早期阶段——那时的模型虽然多模态理解能力相对弱一些,但对绘图模型更加友好。
值得期待的是,随着越来越多的语言模型朝着"原生多模态"架构演进,未来的编码器将从一开始就在统一的多模态框架内训练,这种特征空间偏离的问题会自然消失,D-OPSD的实现也将更加简洁。
八、还有哪些事情做不到,以及未来能走向哪里
研究团队对这个方法的局限性保持了坦诚的态度。
D-OPSD的训练成本大约是普通微调的两倍左右(每次迭代需要同时跑学生的出图轨迹和老师的预测),计算量约为普通微调的四倍。不过,研究团队认为这个代价是值得接受的——因为用普通微调方式训练之后,还需要重新做一轮"提速蒸馏"来恢复快速出图能力,综合算下来,D-OPSD其实更经济。
另一个明确的局限是,如果老师模式本身就无法根据目标图像的多模态特征生成有意义的变体,那整个训练就会失败。研究团队展示了一个失败案例:目标图是一个穿着特定服装的玩具角色,但老师模式生成的图像根本没有保留这个角色的外形特征,只生成了一个普通的城市背景图。在这种情况下,老师给不出有效的指导,学生自然也学不到有用的东西。
对于未来,研究团队提出了几个值得探索的方向。在老师侧的条件信息构建方面,可以引入图像编辑模型或视频生成模型提供更强的参考信号。在训练目标方面,可以将D-OPSD与其他训练约束结合,进一步提升学习效果。还有一个有趣的方向:先用强化学习或普通微调的方式,分别训练多个专精于不同领域的"专家模型",再把这些专家的知识通过D-OPSD蒸馏回一个统一的基础模型,实现多领域能力的聚合。
说到底,这项研究解决的是一个听起来简单、做起来却处处是坑的问题:怎样让一个已经练好"快速出图"内功的AI画师,还能继续学习新的绘画主题,而不伤及内功根本。研究团队给出的答案是:让模型在自己真实的出图步骤上接受自己更强版本的指导,既不绕道、也不偷懒,一步一步踏实地走在自己该走的路上。
这对普通使用者和开发者意味着什么?这意味着未来想要定制一个专属于自己的品牌形象、特定角色或特殊画风的快速出图AI,不再需要在"学到新知识"和"保持出图速度与质量"之间做取舍。一个既快又好、还能持续学习的AI画师,变得越来越现实。
有兴趣进一步了解技术细节的读者,可以在arXiv平台上搜索论文编号arXiv:2605.05204获取完整论文。
Q&A
Q1:D-OPSD方法为什么不会损坏快速出图模型的出图能力?
A:D-OPSD的核心在于,整个训练始终发生在模型自己真实的四步或八步出图轨迹上,而不是在用目标图像人工构造的噪声状态上。老师和学生都站在模型实际走的那条路上进行比较和学习,所以不会打乱原有的出图节奏。相比之下,普通微调是在一条模型从不会走的路上学习,自然会破坏快速出图的内在节奏。
Q2:D-OPSD训练时老师和学生有什么区别?
A:两者本质上是同一个模型,只是接收的输入信息不同。学生只接收文字描述对应的特征,和正常出图时完全一样;老师同时接收文字描述和目标图像融合在一起的多模态特征,因此能给出更贴近目标图像风格或概念的预测方向。训练的目标是让学生在自己的出图步骤上逐渐向老师的预测靠拢,从而把目标图像的信息内化进模型。
Q3:PSO方法和D-OPSD有什么本质差异,为什么PSO会过拟合?
A:PSO虽然尝试专门为快速出图模型设计,但它的训练状态和监督信号仍然来自目标图像构造的固定数据集,不是基于模型自己当前的出图轨迹。这意味着模型学到的是如何复现训练集里见过的那些特定状态,换了新的场景描述就失去了迁移能力。D-OPSD则始终在模型自己的当前轨迹上学习,学到的知识更具泛化性,能够在训练集之外的新场景描述下也正确呈现学到的概念。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。