微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中科大联手多校，这套AI"分科教学再合并"的新方法，让图像生成能力直接飙升30分

文生图在线蒸馏多任务对齐

中科大联手多校，这套AI"分科教学再合并"的新方法，让图像生成能力直接飙升30分

作者：科技行者

2026-05-14 09:34

分享至：

这项由中科大等多家机构联合发布的研究提出了Flow-OPD框架，专门解决AI文生图模型在同时优化多项能力时出现的"顾此失彼"问题。核心思路是先分别训练多个专科教师模型，再通过在线蒸馏让学生模型边自主生成边接受密集指导，同时引入美学锚定机制防止视觉质量下滑，最终在构图、文字渲染等核心指标上比传统方法提升约10个百分点。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-14 09:34 • 科技行者

这项由中国科学技术大学、加利福尼亚大学洛杉矶分校、香港中文大学及小红书联合开展的研究，以预印本形式于2026年5月8日发布在arXiv平台，论文编号为arXiv:2605.08063。感兴趣的读者可通过该编号检索完整论文。

当你拿起手机随手一拍，相机能帮你自动识别场景、优化色彩，这背后是多年来图像处理技术的积累。而现在，AI不仅能看图，还能"画图"——根据你用文字描述的内容，凭空生成一张图像。这项技术叫做"文生图"，近年来发展得相当迅猛，你可能已经在网上见过那些令人叹为观止的AI绘画作品。

然而，要让AI真正成为一个"全能画家"，面临一个棘手的难题。画一张好图，需要同时照顾到很多方面：文字要清晰可辨、物体数量要数对、构图要好看、风格要符合人类审美……这就像要求一个人同时精通书法、素描、油画和摄影，样样都要达到专业水准。现有的训练方法往往顾此失彼，擅长画文字的模型可能构图很差，构图漂亮的模型可能数数数不清楚。

中科大等机构的研究团队针对这一困境，提出了一个颇具创意的解决方案，他们把它叫做Flow-OPD。简单来说，这套方法的核心逻辑是：先分开训练多个"偏科天才"，让每个专家在自己的领域里练到极限，再用一种特别的方式把所有专家的本领融入同一个模型。实验结果显示，这套方法在核心指标上比此前最主流的训练方式高出了大约10分，效果相当亮眼。

一、为什么AI图像生成会"顾此失彼"

要理解这个问题，可以先想想学生考试的情形。一个学生如果同时备考语文、数学、英语，有时候会发现，多花了时间练数学，语文感觉就生疏了；拼命背英语单词，又好像挤掉了数学的练习时间。这种感觉在教育里叫"遗忘效应"，在AI训练里，研究者们叫它"梯度干扰"。

现有的一种流行训练方法叫做GRPO（可以把它理解为一种让AI"自我练习、自我打分"的强化学习技术）。这种方法对于单一目标的训练效果很好——比如专门练习"数对图里有几个物体"，或者专门练习"把文字画清楚"，都能取得不错的成绩。但一旦把多个目标同时丢给它，麻烦就来了。

研究团队做了一个清晰的实验来说明这个问题。他们在一个叫做Stable Diffusion 3.5 Medium的基础模型上，依次叠加四种不同的训练目标：先加入构图理解训练（GenEval），再加入文字清晰度训练（OCR），然后加入美学偏好训练（PickScore），最后加入图像质量训练（DeQA）。结果呈现出一种令人沮丧的规律：每多加一项训练，之前已经学会的能力就会打折扣。加入文字训练之后，构图能力从94%掉到了89%；再加入美学训练，构图能力进一步跌到82%，文字能力也从91%滑落到86%；等到四项全部叠加，构图能力已经只剩73%，几乎回到了未经训练的起点。

为什么会这样？从数学角度解释：每一项训练任务都会在模型参数上施加一个调整方向，就像四个人各自使劲拉一根绳子。当这四个方向互相冲突时，绳子不但不会往任何一个方向走，反而会被扯得乱七八糟。稀疏的单一数字评分（比如"这张图得8分"）根本无法提供足够细腻的信息，让模型分清楚哪些参数该往哪个方向调整。

二、"分科培养专家，再合并传授"的新思路

面对这一困境，研究团队的灵感来自近年来大语言模型（即类似ChatGPT这类文字AI）领域的一个成功经验，叫做"在线政策蒸馏"（On-Policy Distillation，简称OPD）。这个概念听起来很学术，但核心思路其实非常直观：先让多个"专科老师"各自练到顶尖水平，然后让一个"全能学生"边实际操作、边接受这些老师的实时指导，从而把所有老师的本领都学到手。

DeepSeek-R1、GLM-5等知名大语言模型都曾用类似的思路融合多种复杂能力。研究团队提出的问题是：这套方法能不能搬到图像生成领域来用？

Flow-OPD的整体流程可以用"分科精训—冷启动奠基—在线蒸馏融合"三个阶段来理解。

第一个阶段是培养专科教师。研究团队分别用单一目标对基础模型进行强化学习训练，得到三位"偏科专家"：一位专攻构图与物体理解（GenEval教师），一位专攻图片中的文字渲染（OCR教师），一位专攻人类审美偏好（PickScore教师）。此外还有第四位"美学教师"，它同时用图像质量评分（DeQA）和审美偏好评分混合训练，比例大约是4:6，主要负责看管整体的视觉质感。每位教师都在自己的专项任务上竭尽全力，把单项能力拉到了极限。

第二个阶段叫做"冷启动"。直接让一个空白的学生模型去向四位老师学习，效果往往不稳定，就像让一个完全没有基础的新生直接进入竞赛强化班，可能跟不上节奏。为了给学生模型打好基础，团队设计了两种预热方式。第一种叫"SFT初始化"：先收集四位教师生成的高质量图像样本，用这些样本对学生模型进行有监督微调，让它先模仿老师的输出，建立一个初步的多任务感知能力。第二种叫"模型合并"：直接把几位专科教师的模型参数按一定比例叠加，得到一个已经天然携带多项能力雏形的初始学生模型，不需要额外训练。两种方式各有优势：SFT方式更灵活，可扩展性更强；模型合并方式无需额外训练成本，初始状态更贴近各专项能力的峰值。

三、"学生边画边学"的精密训练机制

冷启动之后，进入最核心的第三阶段：在线蒸馏训练。这个阶段的设计相当精妙，包含三个环环相扣的步骤。

首先是"在线采样"。学生模型不是对着固定数据集死记硬背，而是真正"自己画"——每次给定一个文字描述，学生模型就独立生成一批图像（每个提示词生成若干张，论文中设定为24张）。这就好比一个学生练习写作，不是抄范文，而是自己动笔，写完了再拿给老师批改。这样做的好处是，训练数据始终反映学生模型当前的真实水平，而不是某个静态数据集，能够持续适应学生的成长状态。

为了让这个"自己画"的过程更具探索性——因为总是一成不变地走同一条路，很容易陷入局部最优的陷阱——研究团队把原本确定性的生成流程引入了一定的随机性，在数学上把确定性常微分方程转变为随机微分方程，相当于在每次生成时加入了一点点"即兴发挥"的空间，让模型有机会探索更广阔的可能性。

其次是"任务路由标注"。学生画出图像之后，需要有老师来批改。但不同的图像对应不同的任务：有些提示词是在考查构图能力，有些是在考查文字渲染，有些是在考查美学风格。研究团队设计了一个"硬路由"机制：根据提示词的内容，自动把这张图分配给最对口的那位专科教师。于是，构图类的图像由GenEval教师来指导，文字类的图像由OCR教师来指导，如此类推。每位教师不是给一个笼统的数字评分，而是提供"如果是我来画，每一步的速度场应该是什么样子"的详细示范。这种信息叫做"密集轨迹级监督"，信息密度远远高于一个单一的数字分数，就像老师在你的文章上逐句批注，而不是只在最后写一个"良"字。

接下来，学生模型通过计算自己的生成轨迹与教师示范轨迹之间的差距，用这个差距作为学习信号来更新自己的参数。从数学上看，这个差距被转化为一种叫做KL散度的指标（简单理解：衡量两种概率分布差异程度的数值），而得益于模型架构的特殊性质，这个复杂的散度计算最终可以简化为两个速度向量之间的L2距离——也就是最普通的欧式距离，计算起来既高效又稳定。为了防止每次参数更新幅度过大导致训练崩溃，研究团队还借鉴了一种叫PPO（近端策略优化）的技术，给每次参数变动加了一个"限幅器"，确保学生模型的更新步伐稳定可控。

四、防止"只顾学技术、忘了审美"的特别设计

在解决多任务冲突之后，研究团队注意到另一个微妙的问题：当模型拼命优化具体的功能性目标（比如把图里的文字画得越来越清晰），往往会带来一个副作用——图像的整体美感和多样性悄悄下降。这种现象在强化学习领域有个名字，叫"奖励黑客"，意思是模型找到了一条捷径，专门钻评分标准的空子，把指标刷高了，但整体质量其实变差了，甚至出现背景单调雷同、多个物体面孔一模一样等奇怪问题。

为了对抗这种倾向，研究团队提出了一种叫做"流形锚定正则化"（Manifold Anchor Regularization，简称MAR）的机制。名字听起来复杂，逻辑却很直接：在训练过程中，除了让专科教师在各自领域提供指导之外，还专门保留那位"美学教师"模型，在全部训练数据上持续提供视觉质感方面的监督信号，就像在每次学生交作业时，总有一位专门负责"整体观感"的评委在旁边打分，不管这次的作业是语文还是数学，视觉美感这一关都不能松懈。

数学上，这个机制被表达为在总损失函数里加入一个惩罚项：如果学生模型的生成方向与美学教师的期望方向偏离太远，就会受到额外的惩罚，促使它始终在一个高质量的"视觉流形"上运动，而不是为了刷文字清晰度或构图准确度而任意扭曲生成风格。

从实验结果可以看出这个设计的价值。不加MAR的版本，各项功能指标勉强维持，但美学评分（以Aesthetic指标衡量）为5.89，ImageReward为1.26，PickScore对应值为0.2998；加入MAR之后，美学评分上升到6.23，ImageReward提升到1.36，PickScore指标也达到了0.3302，Qwen-VL综合评分从3.82跳升到4.05。这说明，在专注功能训练的同时，MAR有效地把整体视觉质量拉了上来。

五、实验数据说明了什么

研究团队在四个主流基准测试上进行了系统评估：GenEval衡量构图与物体理解，OCR衡量图片内的文字渲染准确率，PickScore衡量人类审美偏好，DeQA衡量图像综合质量。

出发点是Stable Diffusion 3.5 Medium基础模型，其GenEval得分为63，OCR准确率为59，DeQA为4.07，PickScore为21.64。

经过Flow-OPD的合并冷启动加在线蒸馏训练之后，GenEval提升到92，OCR准确率跃升到94，DeQA上升到4.35，PickScore也达到23.08。与仅采用混合奖励GRPO训练的对照组相比（该方法的GenEval为73，OCR为83），Flow-OPD在构图维度提升了约19个百分点，在文字渲染维度提升了约11个百分点。综合平均得分（四项标准化到0-1区间后平均）从GRPO-Mix的0.8165上升到Ours(Merge)的0.9044，提升幅度约为10个百分点。

更值得关注的是，Flow-OPD的最终得分不仅超越了混合训练的GRPO基线，甚至在多个维度上与甚至超过了那些专门在单项任务上精训的"专科教师"的表现。研究团队把这种现象称为"教师超越效应"。他们认为，这种现象的原因在于：多位教师同时对同一个学生模型施加密集监督，迫使学生在学习中形成了一种比任何单一教师都更宏观、更平衡的内部表示，填补了各个专科教师因为"偏科"而形成的知识盲点，从而在某些边界情况下反而超越了单一专科模型的上限。

在一项叫做T2I-CompBench++的额外评测中，Flow-OPD同样表现突出。这个基准测试专门考查模型在颜色、形状、纹理、3D空间关系、物体数量等维度上的综合构图能力，覆盖了大量训练数据之外的场景。Flow-OPD在颜色、形状、3D空间和物体数量等多个子维度上都达到了所有对比方法中的最高分，展现出相当强的泛化能力。相比之下，同样使用了冷启动初始化但随后继续用普通GRPO训练的对照组，在形状（0.5985对0.6292）和3D空间（0.4017对0.4565）维度上出现了明显的退步，说明密集的多教师监督信号对于防止能力退化是不可或缺的。

六、有哪些局限和尚待探索的方向

研究团队在论文中坦诚地指出了Flow-OPD目前面临的主要限制。

一个核心约束来自教师模型本身的能力上限。密集蒸馏的本质是让学生向教师对齐，因此如果教师在某个特定提示词上也生成了错误的图像，这些错误就会通过密集监督信号传递给学生，给训练引入噪声，进而限制学生超越教师集体能力天花板的空间。

另一个约束是架构同质性的要求。当前的方法需要教师模型和学生模型采用相同的网络架构，才能实现逐步骤、逐时间点的精细速度场对齐。这意味着无法直接从结构不同的模型（比如不同家族的生成架构）进行蒸馏，在实际部署时增加了一定限制。

对于未来的研究方向，团队提出了三个值得探索的思路。其一是"协同进化蒸馏"，让教师和学生在训练过程中相互迭代提升，而非单向从固定教师向学生传递知识。其二是"自我蒸馏"，探索在没有外部教师的情况下，模型如何从自身的历史生成中提炼和强化多元能力。其三是"跨词汇蒸馏"，研究如何跨越不同架构之间的鸿沟，让结构异质的模型之间也能实现知识迁移。

说到底，Flow-OPD做的事情可以用一句很朴素的话来概括：先让专家专心把一件事练到极致，再用一套精密的机制把所有专家的本领汇聚到一个人身上，同时还给这个人配了一位专门盯着"整体气质"的导师，防止他在学专项技能时变得"功利而粗糙"。

这套思路的意义不仅仅在于数字上的提升。它揭示了一种在AI训练中普遍适用的逻辑：当目标变得多元且相互竞争时，用单一粗粒度的评分来调和矛盾往往是徒劳的，真正有效的方式是提供细腻、分域、密集的指导信号，让模型在丰富的信息环境中自然找到平衡。这个道理，其实与我们培养人才的经验相当相通——最好的教育从来不是一张试卷决定一切，而是多位各有专长的老师从不同角度持续塑造同一个学生。

对于普通用户而言，这项研究的长远意义在于：未来的AI绘画工具将有可能同时做到"画什么像什么"、"文字写得清楚"、"看起来就是好看"这几件事，而不再像今天这样在不同能力之间反复权衡妥协。感兴趣的读者不妨通过arXiv编号2605.08063查阅完整论文，深入了解每个技术细节背后的数学推导。

---

Q&A

Q1：Flow-OPD中的"冷启动"是什么意思，为什么需要它？

A：冷启动是在正式多教师训练之前，给学生模型打基础的预热阶段。如果直接让一个空白模型去向多位专科教师学习，初期很容易因为轨迹不稳定而训练崩溃。冷启动通过两种方式解决这个问题：一是用教师生成的高质量样本对学生做有监督微调，让它先模仿；二是直接把多个专科教师的模型参数合并，作为学生的起点。两种方式都能让学生在一开始就具备基本的多任务能力雏形，后续训练才能稳定推进。

Q2：Flow-OPD和普通的混合奖励GRPO相比，本质区别是什么？

A：普通混合奖励GRPO把多个任务的表现压缩成一个数字分数，用这个分数来统一指导参数更新，信息太稀疏，不同任务的梯度方向容易互相打架，导致学了一项忘了另一项。Flow-OPD则让每个专科教师在每一个生成步骤上提供详细的"速度场示范"，信息密度远高于单一分数，而且通过任务路由把不同任务的信号分开，从根本上避免了梯度干扰，所以能同时在多个维度上保持高水平。

Q3：Flow-OPD为什么有时候能超过专科教师的表现？

A：这种"教师超越效应"的原因是，多位教师同时向同一个学生施加密集指导，迫使学生学会一种比任何单一教师都更全面的内部表示。每位专科教师都有自己的知识盲点，但当多位教师的监督信号叠加时，各自的盲点会被其他教师的信号所覆盖，学生反而能在某些边界情况下整合出超越单一专家的解法。这类似于多位导师联合指导的学生，有时能发现单一导师视野之外的创新路径。

文生图在线蒸馏多任务对齐

分享至