微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 复旦大学与阿里巴巴联手:让AI绘图模型同时"精通百艺"的新方法

复旦大学与阿里巴巴联手:让AI绘图模型同时"精通百艺"的新方法

2026-05-21 16:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-21 16:33 科技行者

这项由复旦大学与阿里巴巴集团万象团队联合开展的研究,以预印本形式于2026年5月14日发布在arXiv平台,论文编号为arXiv:2605.15055。感兴趣的读者可通过该编号在arXiv上检索完整论文。

当你打开一款AI绘图软件,随手输入一段文字描述,几秒钟后屏幕上便出现了一张精美的图片。这背后,是一个叫做"扩散模型"的AI系统在默默运作。过去几年,研究者们已经可以通过"强化学习"的方式,把这类模型训练得越来越专注于某一项技能——比如让画面更好看、让文字渲染更准确、或者让物体的空间关系更符合描述。

然而,一个实际的烦恼始终存在:现实中的用户并不只想要一项技能,他们希望同一个模型既能画得好看,又能准确呈现文字,还能正确理解"把苹果放在篮子左边"这样的空间指令。这就像一个厨师,不能只会做一道菜,得是个全才。但问题在于,现有的训练方法在面对多项任务时往往顾此失彼:要么几个任务互相干扰、越练越乱,要么得一个任务一个任务地依次教,费时费力,而且教完新任务又容易把旧任务忘掉。

这篇论文提出的方法叫做**DiffusionOPD**,其中OPD代表"在线策略蒸馏"(On-Policy Distillation)。研究团队用一个非常聪明的思路解决了上述难题,并在多个权威评测上取得了目前最好的成绩。

---

一、为什么"全能选手"这么难培养

回到厨师的比喻。假设你要培养一个能同时烹饪川菜、粤菜和法餐的厨师,通常有两条路可走。第一条路是让他同时学三种菜系,每天混着练。听起来高效,但问题接踵而至——川菜追求麻辣,法餐讲究精致清淡,这两种口味的训练方向本身就相互冲突。更麻烦的是,粤菜相对容易上手,学徒很可能把大部分精力都花在粤菜上,结果法餐练得稀烂。这就是研究者所说的"跨任务干扰"和"任务难度失衡"。

第二条路是依次教:先练一个月川菜,再练一个月粤菜,再练一个月法餐。这避免了同时学习的冲突,但带来了另一个著名的麻烦——学完法餐之后,厨师往往把川菜忘了大半。研究者把这个现象称为"灾难性遗忘",在AI训练中同样普遍存在。而且这种方式需要精心设计每个阶段的训练方案,非常繁琐。

DiffusionOPD的核心思路是:把这两个步骤彻底拆开,先让每个任务独立培养出一位"专科大师",再由一个"全能学徒"同时向所有大师学习。专科大师只需专注自己的领域,互不干扰;而全能学徒的学习过程也不是从零开始摸索,而是直接从大师们的经验中汲取精华。这样一来,既避免了多任务同时训练的混乱,也不需要担心遗忘的问题。

---

二、从语言模型借来的"在场学习"法

这个思路并非凭空而来。在大语言模型(就是类似ChatGPT那类能聊天的AI)领域,有一种叫做"在线策略蒸馏"的训练方法,已经被证明非常有效。它的核心精神是:学生不应该在老师演示的场景下练习,而应该在自己实际生成的内容上,向老师学习每一步怎么做得更好。

打个比方,普通的学习方式像是临摹字帖——老师写一个字,你照着描。而在线策略蒸馏更像是这样:你自己先写一个字,写完之后老师指着你写的每一笔说"这里应该这样运笔,那里力道要轻一些"。这种方式的好处是,老师的指导始终针对你自己实际会犯的错误,而不是对着一个理想范本给出与你无关的建议。

研究团队的第一个工作,就是把这套原本为文字AI设计的方法,移植到图像生成的扩散模型上。这个移植过程并不简单,因为两者的工作机制有本质不同。文字AI每次生成一个词,是从有限的词汇表里选一个;而扩散模型的每一步,是在连续的像素空间里做细微调整,每一步都是无穷多种可能。

---

三、把图像生成理解成一条"去噪之旅"

要理解DiffusionOPD的数学原理,先得了解扩散模型的工作方式。一张图片的生成过程,可以想象成从一团随机噪点出发,一步步把杂质去掉,最终雕刻出清晰图像的过程——就像雕塑家面对一块原石,一刀一刀凿去多余的部分,最终显现出作品的样子。

这个"去噪"过程可以分成若干步骤,每一步,模型都要预测"下一步应该往哪个方向调整"。在数学上,这被表达为一个从当前状态出发、跳到下一个状态的概率分布——研究团队将其称为"马尔可夫链上的高斯转移核"。

关键在于:在任意一步,学生模型和老师模型虽然会预测不同的"调整方向",但它们调整时引入的随机性大小是完全相同的。这就好像两位雕塑家在同一步都使用相同力度的凿子,但凿的位置稍有不同。由于随机性部分完全一样,两者之间的差异就只取决于各自预测的"调整方向均值"之间的距离。

这个发现非常重要,因为它意味着衡量学生和老师在某一步有多不一样,可以精确地用一个简洁的数学公式表达出来——两者预测的"均值"之间的距离平方,除以步骤的随机幅度平方。这个量叫做"KL散度"的闭合形式,不需要做任何近似或随机采样,可以直接精确计算。

整个训练目标因此变得非常清晰:沿着学生模型自己走出的去噪轨迹,在每一步都让学生的预测方向尽量靠近对应老师的预测方向,把所有步骤的差距加起来,让这个总差距尽量小。

---

四、为什么不用更流行的"PPO强化学习"

熟悉AI训练的读者可能会问:强化学习里有一种非常流行的算法叫PPO(近端策略优化),它已经被广泛用于扩散模型的训练,为什么这里要换一种方式?

研究团队对这个问题做了详细的数学分析。他们发现,如果把每一步的KL散度当作一个奖励信号,再用PPO来优化,表面上看起来行得通,但背后会有一个问题:PPO的梯度计算中,除了一个有用的"方向梯度"之外,还多出了一个额外的项,这个项的形式是"随机噪声乘以梯度"。

从数学上看,这个多余的项在期望意义下等于零——也就是说平均而言它不会指错方向。但它的存在大大增加了每次梯度估计的抖动程度,就像你在黑暗中用手电筒找路,手电筒本身的稳定性变差了,虽然平均照射方向没错,但每一步都在左右晃动,走起来自然更慢、更容易走偏。

相比之下,直接优化那个可以精确计算的KL散度公式,梯度就完全来自确定性的预测均值,没有任何额外噪声。两种方法在期望上等价,但一个稳,一个抖,训练效果自然不同。

除此之外,PPO的框架依赖于"随机策略"的概念——模型必须能对每个动作输出一个概率密度,然后计算重要性比例。但对于扩散模型的确定性ODE采样器(一种不引入额外随机性的采样方式)来说,根本不存在这样的概率密度,PPO就没法用了。而直接优化KL散度公式的方式,对SDE(随机微分方程,有随机性)和ODE(常微分方程,无随机性)两种采样器都完全适用,是一个更通用的框架。

---

五、具体怎么训练:两阶段流水线

整个DiffusionOPD的训练流程分为两个阶段,可以用"培养专家,再培养全才"来概括。

第一阶段是独立培养每位专科老师。研究团队为三类任务各训练了一个专门的模型。第一类是"构图理解"任务,使用GenEval评测体系,衡量模型能否正确理解"苹果在篮子左边""斑马在消防栓右边"这类空间关系,这个老师用DiffusionNFT算法训练,因为它在这个任务上收敛更快、上限更高。第二类是"文字渲染"任务,衡量模型能否在图片中准确生成指定的文字,这个老师用GRPO-Guard算法训练,因为DiffusionNFT在这个任务上容易"走捷径"——通过扭曲图片来刷高分数,而不是真正学会写字。第三类是"美观度"任务,综合PickScore、ClipScore和HPSv2.1三个评分维度,同样用GRPO-Guard训练。三位老师各自独立训练,互不干扰,每人只需专注自己的专长。

第二阶段是全能学徒的在线学习。学生模型从原始的预训练扩散模型出发,按照轮询方式逐一向每位老师学习。每轮学习的具体流程如下:对于某个任务,先从对应的提示词数据集里取一批文字描述,然后用当前的学生模型(不更新参数,只生成轨迹)做一次完整的去噪生成,得到这条"在线轨迹"。接着,让对应的老师模型在同样的轨迹状态点上做预测,计算每一步的均值差距,把所有步骤的差距加总。依次对三个任务都完成这个计算,把三个任务的损失加在一起,统一做一次反向传播更新学生参数。这种在整轮循环结束后才做一次参数更新的方式,确保每次更新都充分反映了三个任务的综合需求,避免模型偏向某一个任务。

---

六、实验结果:到底好多少

研究团队在一套覆盖两类规则奖励和六类模型奖励的综合评测体系上进行了对比实验,基础模型是Stable Diffusion 3.5 Medium,分辨率为512×512。

规则类奖励包括GenEval(构图理解,满分1.0)和OCR(文字渲染,也是满分1.0)。模型类奖励包括PickScore(人类偏好评分)、ClipScore(图文匹配度)、HPSv2.1(另一种人类偏好评分)、Aesthetics(美观度,满分10分)、ImageReward(图像综合奖励)和UnifiedReward(多模态统一奖励)。

对比基准覆盖了多个层次。首先是三位单任务老师自己的表现,可以看到每位老师确实只在自己的专长领域突出:构图老师GenEval达到0.96但美观度只有5.24,文字老师OCR达到0.93但GenEval只有0.65,美观老师PickScore达到24.02但GenEval只有0.49。其次是两种联合训练的多任务强化学习方法:Multi-Task GRPO-Guard和Multi-Task NFT,两者分别需要约130小时GPU时间,综合平均分分别为0.763和0.715。再次是级联训练方法Cascade NFT,依次在三个任务上顺序微调,耗时约148小时,综合平均分达到0.851,已经相当不错,但依然存在灾难性遗忘的问题,且训练流程最为繁琐。

DiffusionOPD的结果则是:综合平均分达到0.929,超过所有基准。具体来看,GenEval为0.96(与单任务老师持平),OCR为0.94,PickScore为23.99,HPSv2.1为0.342,Aesthetics为6.15,ImageReward为1.50,UnifiedReward为3.50。更重要的是,DiffusionOPD所用的总训练时间为老师最长训练时间(美观老师85.75小时)加上蒸馏训练时间(11.26小时),合计约97小时,远少于级联NFT的148小时,也少于联合训练方法的130小时左右。

从收敛曲线上看,多任务联合训练方法的PickScore增长曲线明显比单任务老师的训练曲线更平缓,说明多任务干扰确实严重拖慢了学习速度。DiffusionOPD的曲线则从一开始就呈现出较快的爬升趋势,最终稳定在0.914附近,比级联NFT的0.903还高出一截。

---

七、消融实验:哪些设计选择真的有效

研究团队还通过一系列"控制变量"实验验证了关键设计选择的效果。

第一组对比是不同的蒸馏方法。研究团队在相同的教师模型和相同的在线轨迹采样方式下,分别尝试了DMD(分布匹配蒸馏)、TDM(轨迹分布匹配)、SFT(有监督微调,即让学生直接模仿老师生成的图片)以及DiffusionOPD本身。其中SFT是离线的——用老师预先生成的图片来监督学生,而不是在学生自己的轨迹上做监督。实验结果显示,DiffusionOPD在GenEval、OCR和PickScore三个指标上均取得了最快的收敛速度和最高的性能上限,尤其在早期训练阶段就明显领先其他方法。

第二组对比是损失函数的形式。在完全相同的采样噪声水平(a=0.7)下,直接优化闭合形式KL散度与使用PPO风格策略梯度的效果进行对比。结果如理论分析所预期:在相同噪声水平下,闭合KL目标比PPO方法收敛更快、最终分数更高,验证了减少梯度方差确实带来了实际收益。

第三组对比是采样器的噪声水平。研究团队分别测试了噪声水平a等于0.7、0.5、0.3以及完全无噪声的ODE采样器(相当于a=0)。实验结果非常清晰:噪声水平越低,收敛速度越快,最终性能越高。使用ODE采样器(无噪声)的版本,比噪声水平为0.7的SDE版本快出约五倍,这与理论分析高度一致——噪声越小,每步的KL估计越精确,梯度信号越干净。这也是为什么DiffusionOPD默认使用确定性ODE采样器来进行蒸馏训练。

---

归根结底,DiffusionOPD做的事情可以用一句话概括:先让每个高手各自磨炼,再让一个学徒同时跟着所有高手一起练,而且学徒的练习场景完全来自自己实际操作,而非照着高手的范本描摹。这种思路在实践中带来了双重收益——训练更快,效果更好,而且从理论上也有严格的数学支撑说明为什么这样做有效。

对于普通用户而言,这项研究意味着未来的AI绘图工具有望在单一模型内同时实现更准确的文字渲染、更合理的空间构图和更高的视觉美观度,而不需要为每个需求单独切换不同的模型版本。当然,目前这套方法的验证主要集中在512×512分辨率的SD3.5-Medium模型上,能否平滑扩展到更大规模的模型和更高分辨率,是一个值得进一步探索的开放问题。另外,教师模型的质量上限直接决定了学生能达到的高度,如何培养出更强的单任务教师,同样是这一框架未来发展的重要方向。感兴趣的读者可以通过arXiv:2605.15055进一步查阅完整的论文原文。

---

Q&A

Q1:DiffusionOPD和普通多任务强化学习有什么本质区别?

A:普通多任务强化学习让一个模型同时学多个任务,不同任务的训练信号会互相干扰,还容易偏向简单任务。DiffusionOPD先为每个任务单独训练一个专家模型,再让一个统一的学生模型沿着自己的生成轨迹,逐步向各专家模型靠拢。这样专家训练时互不干扰,学生学习时也不需要从零摸索,结果是训练更快、效果更好。

Q2:扩散模型训练中"在线策略"和"离线策略"有什么区别?

A:离线策略是让老师先生成一批图片,再让学生照着模仿,就像临摹字帖。在线策略是让学生自己先走一遍生成过程,然后老师针对学生实际走的每一步给出改进建议。DiffusionOPD用的是在线策略,老师的指导始终对准学生自己实际犯错的地方,因此比离线方式更有针对性,收敛也更快。

Q3:DiffusionOPD为什么默认用ODE采样器而不是SDE采样器?

A:SDE采样器每步都会注入额外的随机噪声,导致对训练梯度的估计产生额外抖动,就像在颠簸的路上开车,方向不稳。ODE采样器不引入额外噪声,每步的梯度信号更干净。实验表明,ODE采样器比高噪声SDE采样器的训练效率高出约五倍,因此被设置为默认选项。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-