
这项由美国中佛罗里达大学(University of Central Florida)研究团队完成的研究,发表于2026年的国际顶级人工智能学习表征会议(ICLR 2026),论文编号为arXiv:2604.24952,有兴趣深入了解的读者可以通过该编号查询完整论文。
**一个有趣的困境:AI画家为什么越学越糊涂**
每个人对"好看"的定义都不一样。有人在乎画面是否符合描述,有人更看重色彩是否漂亮,还有人执着于细节是否精细。这种"好看"的多维度特性,正是这项研究的出发点。
当前,以Stable Diffusion为代表的文字生成图像模型(简称T2I模型)已经相当成熟,你输入一段描述,它就能画出对应的图。但要让这类AI真正符合人类的审美,还需要额外的"训练"——告诉它哪张图好,哪张图差。这个过程被称为"偏好对齐"。
目前最流行的偏好对齐方法叫做"直接偏好优化"(DPO),它的思路很直接:给AI看一对图片,告诉它哪张是"赢家",哪张是"输家",让AI慢慢学会生成更受人喜欢的图片。这种方法的优点是不需要额外训练一个专门的评分系统,简洁高效,在大语言模型领域(比如ChatGPT的训练)已经大获成功。
然而,当研究团队把这套方法应用到图像生成时,一个隐藏的问题浮出水面。
**一、人类打分时留下的"烂摊子"**
考虑这样一个场景:你让AI生成一张图,描述是"广阔的绿色草地,蓝天白云,一头母牛带着小牛在吃草,极度细致,4K分辨率,完美光线,精细纹理"。AI生成了两张图——图A和图B。
图A构图精良,画面语义完全符合描述,母牛和小牛的位置关系自然,但整体色调有点平淡,缺乏质感。图B的毛皮纹理非常逼真,光线处理得很漂亮,但画面里的母牛和小牛的数量和描述对不上,语义有问题。
现在让你选出"更好的那张"。你可能会选图A,因为至少内容是对的。于是数据库里记录下:图A是赢家,图B是输家。
但问题来了——AI在学习这条数据时,会把图A的所有特点都视为"应该学习"的,把图B的所有特点都视为"应该避免"的。于是它同时学到了"好的语义对应"(值得学)和"平淡的色调"(不值得学,却被当作好的在学),同时被迫忘记了"精细的纹理渲染"(值得学,却被当作坏的在忘掉)。
这就是研究团队所说的"标签噪声"问题。人类在打分时,面对的是一个多维度的审美判断,却只能给出一个非此即彼的二元答案——"这张好"或"那张好"。这个被迫压缩的标签,会把多维度的真实偏好信息塞进一个不够大的容器,导致信息失真。
更糟糕的是,这种失真还不是个别现象。在大规模偏好数据集中,这种"某个维度上的赢家实际上是另一个维度上的输家"的情况大量存在。每一条这样的矛盾数据,都会在AI训练时产生一个与正确方向相反的梯度信号——你可以把"梯度"理解为AI每次学习时调整自己行为的方向指令。当矛盾数据积累得足够多,AI就会不断收到互相打架的指令,左走一步又被要求右走一步,最终原地打转,无法进步。
研究团队对这一问题做了严格的数学证明,他们推导出:当数据集中同时存在"对维度k认可"和"对维度k反对"的样本时,训练过程中梯度方向的波动程度(即方差)必然有一个正的下界,而且这个下界随着矛盾样本比例的增加而增大。这用数学语言证明了矛盾标签确实会导致训练不稳定,是一个系统性问题而非偶发现象。
**二、换个视角看问题:这其实是一道"分类作业"**
面对这个问题,研究团队没有选择修改数据集或者重新收集数据(那样代价极高),而是换了一个思路:把这个问题重新理解为机器学习领域中一个有成熟解法的经典问题——"带噪声标签的学习"(Learning with Noisy Labels)。
在机器学习的历史上,人们很早就发现:如果训练数据里混入了错误标签,神经网络会慢慢把这些错误"记住",反而变得更差。学界为此发展出了一套半监督学习(Semi-Supervised Learning)的方案:把数据分成两堆——一堆是标签可信的"干净数据",一堆是标签可疑的"噪声数据"。先用干净数据训练一个初步可靠的模型,再让这个模型去给噪声数据重新打标签,然后用这些"伪标签"继续训练,如此循环,逐步提升模型能力。
这套方案的精髓在于:不是丢掉噪声数据,而是让模型自己去修正它们。这样既保留了数据的数量优势,又逐渐提升了数据的质量。
受此启发,研究团队提出了自己的方案,命名为**Semi-DPO**(半监督直接偏好优化)。整个框架分为两大阶段,每个阶段都有其精妙之处。
**三、第一阶段:用"评委团"筛出干净数据**
首先要解决的问题是:怎么从整个数据集里找出那些"标签可信"的干净样本?
研究团队的做法是组建一个由五个不同评分模型构成的"评委团"。这五个模型分别是:PickScore(擅长评估整体偏好)、HPS v2(人类偏好评分第二版)、CLIP Score(擅长评估图文语义对应)、LAION美学分类器(擅长评估画面美感)、ImageReward(另一个综合评分模型)。
这五个模型的选择不是随机的。有研究表明,不同的评分模型实际上擅长衡量不同的审美维度:CLIP Score与语义对齐维度的相关性最强,美学分类器与审美维度的相关性最强,而PickScore、ImageReward等则更擅长捕捉整体偏好。换句话说,这五个模型加在一起,刚好能覆盖人类审美的多个主要维度,就像一个分工明确的专家小组。
一对图片只有在这五个评委"全票通过"时,才被认定为"干净标签",进入可信数据集。只要有任何一个评委不同意原有的标注(即认为"输家"比"赢家"更好),这对数据就被划入"噪声数据",暂时搁置。
经过这个筛选过程,在Pick-a-Pic V2这个包含约85万对图片的大型数据集中,大约21%(约17.7万对)被认定为干净数据,剩余约79%被划入噪声数据集。
有人可能会担心:只用21%的数据,效果会不会很差?事实上,从后续的实验结果来看,即便只用这21%的干净数据训练出的初始模型(研究中称为Iter0),其性能已经明显优于用全量数据但不加任何处理的传统DPO方法。这恰恰说明:数据质量远比数据数量更重要。
另外,研究团队还专门做了消融实验(就是通过逐步改变某个变量来验证其效果的实验),测试了用不同数量的评委(从2个到5个)对最终效果的影响。结果表明,随着评委数量的增加,模型的各项表现指标都在稳步提升,而且不仅是那些被纳入评委团的指标在提升,连没有参与评审的独立指标MPS(多维度偏好分数)也在提升。这说明增加评委数量确实减少了单个评分模型的偏见,提升了筛选出的干净数据的真实可靠性。
**四、第二阶段:让模型用"自己的眼光"重新审视噪声数据**
有了初始模型之后,Semi-DPO进入了最核心、也最有创意的第二阶段:让模型给噪声数据重新打标签,然后用这些新标签继续训练,如此迭代。
这个阶段的灵魂问题是:初始模型如何给一对图片"重新打标签"?
答案藏在DPO本身的数学结构里。当一个模型用DPO方式训练时,它其实同时在学习一个"隐式偏好分类器"——在每一个去噪时间步上,模型都在估算:对于当前这张图,赢家的生成概率相对于参考模型(未训练的原始模型)提升了多少,输家的生成概率降低了多少。这两者之差,就是模型对这对图片偏好的"置信度得分"(论文中用z来表示)。
如果这个得分是正数,说明模型认为当前的"赢家"确实更好;如果是负数,说明模型认为标签打反了,"输家"实际上更好。得分的绝对值越大,说明模型的判断越有把握。
这就像一个经验丰富的老教师,不仅能给学生的作业打分,还能判断自己给的分数是否可信。当老师觉得自己对某道题的判断很确定时,这个分数就是可信的;当老师也不太确定时,就暂时跳过这道题。
更妙的是,研究团队注意到了扩散模型去噪过程的一个特性:不同时间步对应不同层次的图像信息。去噪过程的早期时间步(噪声最多的阶段)主要决定图像的整体构图和全局结构,后期时间步(接近最终图像的阶段)主要决定局部细节和纹理。这与"画一幅画要先打草稿再细化"的道理是一样的。
这个特性非常有用。回想之前那对矛盾图片:图A构图好但纹理差,图B纹理好但构图差。如果我们用一个单一的标签来描述,必然会有矛盾。但如果允许标签随时间步变化呢?在早期时间步(关注构图的阶段),模型可以认为图A更好;在后期时间步(关注纹理的阶段),模型可以认为图B更好。这样,一对原本矛盾的数据,就被分解成了在不同时间步上都不矛盾的多条信号。
基于这个思路,研究团队设计了"时间步条件伪标签"机制:对噪声数据中的每一对图片,在每一个去噪时间步上分别计算置信度得分z,然后根据得分的正负号来决定这个时间步上的标签——正号保持原有的赢家/输家关系,负号则把赢家和输家互换。这样,一对图片在不同时间步上可能有不同的"谁更好"的判断,精细地解构了原本笼统的矛盾标签。
当然,模型的判断并非总是可靠的。为了避免用低置信度的标签来训练模型(那样反而会引入新的噪声),研究团队还设计了动态阈值机制。他们把整个去噪时间轴(0到999步)分成十个区间,每个区间单独设定一个置信度门槛。只有当某个时间步上的置信度得分的绝对值超过对应区间的门槛时,这个时间步的伪标签才会被用于训练。
更细致的一点是,研究团队发现模型在不同时间步上的预测准确率差异相当大。在较早的时间步(比如50步到550步附近),模型的预测准确率大约在71%到73%之间;但在很晚的时间步(750步以上),准确率会降到65%甚至更低。这是因为在去噪过程的早期,图像还很模糊,模型面对的信息更抽象,反而更容易判断整体好坏;而在后期,细节已经很丰富,判断变得更复杂,不确定性也更高。
针对准确率较低的时间区间,研究团队会主动提高置信度门槛,减少从这些时间步采样的伪标签数量。这个策略确保了用于训练的伪标签整体上都是高质量的,避免了"垃圾进垃圾出"的问题。
**五、两个损失函数协同工作:稳定与探索的平衡**
在迭代训练阶段,Semi-DPO的训练目标由两部分共同构成,就像两个声部协同演奏一首曲子。
第一个声部叫"锚定损失":它始终用干净的有标签数据来计算损失,确保模型不会偏离最初建立的正确方向。无论迭代到哪一轮,干净数据都是模型的"压舱石",防止模型在自我训练的过程中漂移出轨。
第二个声部叫"伪标签损失":它用上一轮迭代模型生成的高置信度伪标签来计算损失,让模型不断从噪声数据中汲取新的信息。每一轮迭代,模型都比上一轮更成熟,生成的伪标签也更可靠,于是下一轮的训练质量就更高——形成一个正向循环。
整个训练流程是这样展开的:先在干净数据上训练初始模型(称为Iter0),这是"冷启动"阶段,给整个自训练过程打下可靠基础;然后用Iter0给噪声数据打伪标签,筛出高置信度样本,结合干净数据训练出Iter1;再用Iter1给噪声数据重新打伪标签,结合干净数据训练出Iter2。研究团队发现,从Iter0到Iter1的提升是最显著的,从Iter1到Iter2还有一定提升,但幅度明显减小,说明两轮迭代基本上已经足够,继续迭代的边际收益递减。
**六、实验结果:成绩单全面告捷**
研究团队在两个主流扩散模型架构上进行了验证:SD1.5(Stable Diffusion 1.5)和SDXL(Stable Diffusion XL)。他们使用了三个不同的测试集(HPS v2、Parti-Prompt、Pick-a-Pic V2),并在六个不同的评估指标上与多个基线方法进行了比较。
以SD1.5为例,在HPS v2测试集上:相比未做任何偏好对齐的原始SD1.5,Semi-DPO在ImageReward指标上提升了约+0.677分,在HPSv2.1指标上提升了约16.7%,在PickScore上提升了约5.2%,在美学分数上提升了约5.8%。与此前最强的基线方法Diffusion-KTO相比,Semi-DPO在各项指标上也保持了明显优势,尤其是在综合衡量多维偏好的MPS(多维度偏好分数)指标上,提升幅度达到10.7%,远高于Diffusion-KTO的6.6%。
在更专业的生成质量评估基准测试GenEval上,该基准专门测试模型生成符合文字描述的物体时的准确率,Semi-DPO在SD1.5架构下的总体得分达到47.31,超过了此前表现最好的InPO方法(46.74),在"两个物体"类别的测试中尤为突出,达到49.75,远高于所有其他方法。
在T2I-CompBench++这个专门测试文字与图像组合语义对应能力的基准上,Semi-DPO在颜色、形状、纹理、空间关系、数量等多个子类别上都表现出色,总体上与当前最强的InPO方法不相上下,在部分类别(如形状、纹理、数量等)甚至超越了InPO。
定性结果方面,以"皮卡丘在餐厅做饭,戴着厨师帽"这个提示词为例,只有Semi-DPO生成的图片中皮卡丘确实戴了厨师帽,其他所有对比方法都没有做到这一点。这说明Semi-DPO在文字与图像的语义对应方面有真实的提升,而不仅仅是在数字指标上表现更好。
**七、一个意外的发现:扩散模型天生就是评分员**
这项研究还有一个很有意思的副产品:它揭示了扩散模型本身就天生具备"隐式评分"能力。
当一个扩散模型用DPO方式训练时,它会在每个去噪时间步上学会区分"更好的去噪路径"和"更差的去噪路径"。这种区分能力,本质上就是一种偏好判断能力,而且这种判断是在图像生成的隐空间(latent space,即模型内部的数学表示空间)中进行的,而非在最终输出的像素图像上进行的。
这与现有的一些"隐式奖励模型"方法形成了有趣的对比。现有方法(如Zhang et al., 2025)通常需要对模型架构进行修改,专门构建一个用于评分的附加模块,而且这个评分模块和生成模型必须共享同一个图像编码器(VAE),导致针对SD1.5训练的奖励模块无法直接用于SDXL,反之亦然。Semi-DPO的隐式评分方式则不需要任何架构修改,生成模型本身就是评分模型,不存在跨架构兼容性问题。
研究团队在论文中特别指出,这个发现为未来的研究开辟了一个有趣的方向:可以把Semi-DPO的理念扩展到在线训练(即在训练过程中动态生成新数据)场景中,让模型通过内部的隐式评分来不断自我完善,而不依赖任何外部评分系统。这将是一种真正意义上的"自给自足"的对齐方式。
**八、计算成本:比原来的方法还要便宜**
Semi-DPO是一个多阶段的训练框架,听起来似乎比单阶段的传统DPO方法要更费时费力。但实验数据告诉我们,情况恰恰相反。
完成Iter0加Iter1的训练总共需要约132个GPU小时,而传统Diffusion-DPO在全量数据上训练需要约192个GPU小时。也就是说,Semi-DPO不仅效果更好,实际上还更快、更省资源。
这个反常识的结果有其内在逻辑:传统DPO用的是全部85万对数据,而Semi-DPO在Iter0阶段只用了约17.7万对干净数据,在后续迭代中也只用了通过置信度门槛筛选的高质量伪标签数据,整体数据量远小于全量训练,因此总计算量实际上更少。
如果继续训练到Iter2,总计算量会上升到约228个GPU小时,超过了传统DPO,但Iter2带来的性能提升幅度已经很小,研究团队认为Iter0加Iter1的组合是效果与成本的最佳平衡点。
此外,由于Semi-DPO训练出的最终模型与原始SD1.5或SDXL的架构完全相同,没有增加任何额外的模块,因此在实际部署时的推理速度和内存占用与原始模型完全一致,没有任何额外负担。
**九、Semi-DPO与相关工作的异同**
理解Semi-DPO的位置,有助于把握整个领域的图景。
在偏好对齐的方法谱系中,Semi-DPO属于"离线"方法,即使用固定的预先收集好的数据集进行训练,而不是在训练过程中动态生成新数据。与同属离线方法的Diffusion-DPO、Diffusion-KTO、MaPO等相比,Semi-DPO的独特之处在于它主动处理了数据中的标签噪声问题,而其他方法大多假设数据标签是可信的。
与专注于算法改进的方法(如DSPO、MaPO)相比,Semi-DPO的切入点是数据质量而非算法结构,这是一个相对少有人关注但实际上非常根本的角度。
与需要重新收集或重新标注数据的方法(如Lee et al., 2025提出的多偏好校准优化)相比,Semi-DPO不需要任何额外的人工标注成本,而是通过模型自身的能力来提升数据质量,更具可扩展性。
**归根结底:干净的"课本"比多的"练习题"更重要**
说到底,Semi-DPO告诉我们的,是一个朴素但容易被忽视的道理:与其给AI喂大量混乱的数据,不如先喂少量高质量的数据,再让AI自己去整理剩下的数据。
这个道理在人类教育中同样适用——一个孩子如果一开始就被错误的示范误导,后面要纠正会非常困难;但如果一开始就建立了正确的基础,再去接触更复杂的案例,学习效果会好得多。
当然,这个研究也有其局限性。多阶段的训练管线在工程实现上比单阶段方法复杂,对于一个小团队来说,管理多个训练步骤和中间模型检查点本身就是不小的工作量。研究团队坦承,未来一个有价值的方向是开发能够一次性完成所有步骤的统一框架,减少这种工程层面的复杂性。
此外,Semi-DPO目前还是在静态数据集上工作,如果能结合在线数据生成,让模型在训练过程中不断产出新的图像并用自身的隐式评分能力来标注它们,或许能进一步突破静态数据集本身质量上限的制约。
对于任何对AI图像生成、偏好学习或者机器学习数据质量感兴趣的读者来说,这篇论文提供了一个清晰的问题诊断和有效的解决路径,值得细读。原论文可以通过arXiv编号2604.24952查阅完整内容。
---
Q&A
Q1:Semi-DPO和普通Diffusion-DPO相比,核心区别是什么?
A:普通Diffusion-DPO假设所有人工标注的"赢家/输家"标签都是可信的,直接拿来训练。Semi-DPO则认为这些标签里有大量噪声——因为人类打分时把审美的多个维度(构图、纹理、语义对应等)强行压缩成了一个是非题。Semi-DPO通过多评委筛选出可信数据先建立基础,再让模型自己去给可疑数据重新打时间步级别的精细标签,最终效果明显更好,而且计算成本反而更低。
Q2:Semi-DPO为什么在不同时间步上打不同的标签,这样做有什么道理?
A:扩散模型生成图像的过程分为很多步,早期的步骤决定整体构图,晚期的步骤决定细节纹理。一对图片可能在构图上是A好,在纹理上是B好。如果用一个统一标签就必然矛盾,但如果在构图阶段的时间步标A好、在纹理阶段的时间步标B好,这对数据就变成了在每个时间步上都不矛盾的多条精细信号,有效地把一条矛盾数据拆解成了多条有价值的训练数据。
Q3:Semi-DPO训练出的模型在部署时会不会变慢或者占用更多内存?
A:不会。Semi-DPO训练出的最终模型架构与原始SD1.5或SDXL完全相同,没有增加任何额外模块或参数。所有的创新都发生在训练阶段,训练完成后的模型和普通模型没有任何区别,推理速度和内存占用完全一致。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。