
这项由美国中央佛罗里达大学与字节跳动Seed联合完成的研究,发表于2026年的国际学习表征会议(ICLR 2026),论文编号为arXiv:2604.24953,有兴趣深入了解的读者可以通过该编号查询完整论文。
教一个学生变优秀,光靠好方法还不够——如果教材本身质量低劣、前后矛盾,再好的老师也束手无策。这篇研究瞄准的正是这样一个现实困境:当下的AI图像和视频生成模型,在用人类偏好数据"训练自己变得更好"这件事上,遇到了一堵看不见的墙。研究团队从两个方向同时下手——既改进了"教学方法",又重新编写了"教材",最终让AI生成的图像和视频质量获得了大幅跃升。
一、为什么AI生成的图片有时候"差强人意"
在AI图像生成领域,有一种让模型"知道好坏"的训练方式,类似于让学生做选择题:给它看两张图片,告诉它哪张是"赢家"、哪张是"输家",让它从中学习。这种方式叫做"偏好优化",是目前业界让AI模型靠近人类审美的主流手段之一。
问题在于,用来训练的"题库"——也就是已有的开源偏好数据集——质量参差不齐。研究团队发现,现有数据集里存在大量"矛盾评分":某张图片在"好不好看"这个维度上是赢家,但在"画的内容和提示词符不符"这个维度上却是输家。这就好比一套练习题里,有道题的答案是A,但解析写的是B——学生做题做多了,只会越来越糊涂,而不是越来越聪明。
更糟糕的是,现有数据集还有分辨率低(通常只有512到768像素)、提示词种类单一、数据分布严重不均衡等一系列问题,而且这些数据大多是用几年前的老模型生成的,早已跟不上当下最先进模型的能力水平。
研究团队做了一个很直观的测试:他们拿出目前最大的公开偏好数据集"Pick-a-Pic V2",用五种不同的评分工具同时给每对图片打分,结果发现——只有20.79%的图片对,在五个维度上都达成一致,认为其中一张比另一张更好。换句话说,超过四分之三的训练数据,在不同评判标准下都存在自相矛盾的情况。在这样的"教材"上死记硬背,AI当然学不好。
二、新方法:给学习过程装上一个"信心调节器"
面对这堆矛盾百出的训练数据,研究团队提出了一种改进的训练算法,叫做Poly-DPO。要理解它的作用,可以借助一个备考的场景来思考。
考虑这样一种情境:一个学生在刷模拟题时,遇到了两类极端情况。第一类是那些他几乎没把握的题——答案模棱两可,选A选B都有道理。第二类是那些他一眼就能看出答案的题——过于简单,秒答。这两类题,如果用同等力度去强化记忆,效果都不理想:前者会让学生建立错误的知识框架,后者则会让学生陷入表面功夫、不求甚解。
Poly-DPO做的事情,就是在原有训练目标的基础上,增加了一个"多项式调节项",通过一个叫做α(阿尔法)的参数来控制模型学习时的"信心状态"。
当α大于零时,算法会特意放大模型在"没把握"样本上的学习信号,帮助模型在矛盾信号中找到真正有价值的区分点,而不是被噪音带偏。这适用于像Pick-a-Pic V2这样的嘈杂数据集。当α小于零时,算法会压制模型对"太有把握"样本的过度学习,防止模型因为简单样本太多而变得自以为是、不再深入探索。这适用于那些充斥着过于简单偏好对比的数据集。当α等于零时,Poly-DPO就退化成了标准的DPO,因为此时数据已经足够均衡可靠,不需要额外的调节。
从数学角度看,Poly-DPO在原有的交叉熵损失函数基础上,加入了泰勒展开式的第一项扰动,整个改动只需要两行代码就能实现。研究团队将梯度公式写作:负的"(一减p)乘以(一加α乘以p)",其中p代表模型当前对某对图片偏好关系的判断置信度。在α大于零时,这个"多项式因子"会在中等置信度区间放大梯度,在高置信度区间压缩梯度;在α小于零时效果相反。
在实验中,研究团队对α值进行了网格搜索,发现在Pick-a-Pic V2上α=8效果最好;而在自己构建的高质量数据集上,α在正负一之间的所有取值性能差异几乎可以忽略,最优点就在α=0附近。这个收敛现象本身就是一种自我验证:如果数据质量足够好,复杂的算法调整是多余的。
三、新教材:从零开始造一套"高质量偏好题库"
改进算法只是解决问题的一半。另一半是从根源上解决数据质量问题,于是研究团队构建了ViPO数据集——这是目前规模最大、质量最高的视觉偏好开源数据集之一。
图像部分叫做ViPO-Image-1M,包含100万对高分辨率(1024像素)图片对,涵盖五个维度。第一个维度是"美学质量",评估图像的视觉吸引力和艺术感,共20万对。第二个维度是"图文对齐",评估生成的图像是否真正符合文字描述的语义,共20万对。第三个维度是"文字渲染",评估图像中文字元素的准确性,共20万对。第四个维度是"人物质量",评估人体解剖结构的正确性和真实感,共20万对。第五个维度是"构图",评估空间布局与视觉组织,共20万对。
视频部分叫做ViPO-Video-300K,包含30万对高分辨率(720p及以上)视频对,涵盖三个维度:运动质量、视频文本对齐、以及视觉质量,每个维度各10万对。
在数据生成方面,研究团队启用了当下最顶尖的开源生成模型。图像数据由Qwen-Image、HiDream-I1、FLUX.1-dev、PixArt-Σ、SANA1.5等十余个模型生成;视频数据则由WanVideo、HunyuanVideo等主流视频生成模型负责。提示词来源于HuggingFace上的多个公开数据集,覆盖了极为丰富的内容类型。
在偏好标注方面,研究团队使用多个大型视觉语言模型(VLM)进行打分和投票,包括Qwen2.5-VL-32B、Seed-VL-1.5、Q-Insight等,最终采用多数票机制确定每对图像或视频的"赢家"与"输家"。这种AI自动化标注方式,相比传统的人工标注,既大幅降低了成本,又保证了规模和一致性。
为了验证标注质量,研究团队还专门招募了18名人类标注员进行大规模人工评估,对数据集中的图像和视频样本进行盲测。结果显示,所有标注员的准确率均超过70%,平均准确率高达87.2%,18名标注员中有14人超过了80%的准确率。更重要的是,他们用来打标签的VLM评分系统,整体准确率达到了81.2%,甚至超过了人类标注员的平均水平(74.7%)。在图像类别上,VLM的表现尤为突出,准确率达到84.0%,而在视频的"运动质量"这一细分维度上,VLM只有55.0%,而人类标注员有67.2%——这说明当前AI模型在理解视频中的精细时序动态方面,仍然不如人类直觉。
数据集的构建流程因类别不同而各有侧重。以"图文对齐"为例,团队从LAION-Aesthetics数据集中采样图片,用Qwen2.5-VL-32B为每张图片生成详细描述,再用Seed-VL-1.5对描述进行"有限扰动"——比如修改颜色、动作、数量等细节属性,生成一个"微变版"描述,然后用同一个生成模型分别生成原始描述和扰动描述对应的图片,原始版本即为"赢家",扰动版本即为"输家"。这种设计的精妙之处在于,两张图片由同一个模型生成,风格高度接近,差异仅来自描述的细微变化,因此偏好信号非常干净、可靠。
以"人物质量"为例,团队先从多个现有数据集中筛选出存在人体解剖缺陷的图片,再用多种模型(包括CogView4、FLUX.1-dev、HiDream-I1-Full、SD3.5-Medium等十余个模型)重新生成人物图片,然后让Seed-VL-1.5判断哪张在人体结构上更加准确,由此形成20万对有明确偏好标注的人物图片对。
视频部分的构建同样别具匠心。"运动质量"维度全部采用图生视频(I2V)的方式,确保两段视频共享同一初始帧,差异纯粹来自视频模型的运动生成能力,从而避免场景内容的差异干扰运动质量的判断。"视频文本对齐"维度则分为空间对齐和时序对齐两个子任务,前者沿用图像对齐数据,后者通过给同一张图片配上两段描述不同运动状态的提示词(比如"一个人在跑步"对比"一个人在走路"),用同一模型生成两段视频,以检验模型是否能准确响应运动指令。
由于数据集中有部分图片和视频来自Seedream-3.0和Seedance-1.0这两个专有商业模型,考虑到许可协议的限制,研究团队还专门准备了一套完全开源的替代版本,将这两个专有模型的输出分别替换为FLUX.2-dev和Wan2.2-A14B-I2V的输出,命名为ViPO-Image-1M-Open和ViPO-Video-300K-Open,供研究社区自由使用。
四、实验验证:算法与数据的双重考核
研究团队在多个模型架构和多个评测标准上对方法进行了全面验证,覆盖SD1.5、SDXL、SD3.5-Medium、FLUX.1-dev等主流图像生成模型,以及Wan2.1-T2V-1.3B视频生成模型。
在"嘈杂数据集"场景下,研究团队用Pick-a-Pic V2训练SD1.5和SDXL,与Diffusion-DPO和Diffusion-KTO进行对比。Poly-DPO在所有评测数据集(Pick-a-Pic V2测试集、HPD V2测试集、Parti测试集、Pick-a-Pic V1验证集)上的所有指标均明显优于基线方法。以HPSv2.1分数为例,在Pick-a-Pic V2测试集上,Poly-DPO带来了13.1%的提升,而Diffusion-DPO只提升了4.4%。在ImageReward分数上,Poly-DPO的增益达到+0.594,而Diffusion-DPO仅为+0.212。
在GenEval构图评测基准上,Poly-DPO在SD1.5上取得了49.87的综合分,超过了同样使用Pick-a-Pic V2训练的Diffusion-DPO(43.00),甚至超过了需要在线迭代采样的SPO(41.53),在SDXL上也达到了60.34,同样优于所有对比方法。特别值得关注的是属性绑定这项难度最高的任务:SD1.5的Poly-DPO达到了14.00分,而Diffusion-DPO只有3.75分;SDXL的Poly-DPO达到了31.00分,而Diffusion-DPO只有18.50分。属性绑定考察的是模型能否准确地把特定颜色、形状等属性与特定对象对应起来,是衡量模型深层语义理解的重要指标,这一项的大幅领先充分说明了Poly-DPO在处理噪声数据时的优势。
在自建的高质量ViPO-Image-1M数据集上,各模型的提升幅度更为显著。SD1.5在GenEval综合分从0.42提升到0.54,其中两个物体场景的识别准确率从0.38跳升到0.66,属性绑定从0.05跳升到0.17。SDXL的综合分从0.56提升到0.63,属性绑定从0.16跳升到0.42。SD3.5-Medium本身已经是一个很强的模型,基础综合分就有0.69,经过训练后达到了0.83,与专为构图任务设计的HiDream-I1-Full(0.83)并驾齐驱。FLUX.1-dev则从0.69提升到了0.79。
在图文对齐评测(DPG-Bench)上,SD3.5-Medium和FLUX.1-dev经过训练后,综合分分别达到了87.71和87.31,超越了GPT-Image 1(85.15)这样的商业产品,接近HiDream-I1-Full(85.89)的水平,其中关系理解子项SD3.5-Medium达到了94.81的高分。
文字渲染方面的提升最为戏剧性。在CVTG-2K基准测试上,SD3.5-Medium的单词准确率从0.4378跃升至0.6995,提升幅度高达59.8%;FLUX.1-dev更是在SFT阶段因为某种原因性能短暂下滑(从0.4878下降到0.2126),但加上Poly-DPO之后不仅完全恢复,还大幅超越原始水平,最终达到了0.6859。
人物质量评估方面,研究团队用GPT-4o对400个包含人物描述的提示词生成的图片进行了解剖正确性评分。SD3.5-Medium的准确率从73.25%提升到85.25%,FLUX.1-dev从80.00%提升到88.75%,解决了AI图像生成中长期存在的手指数量错误、关节角度异常等人体结构问题。
在视频生成评测(VBench-2.0)上,Wan2.1-T2V-1.3B经过ViPO-Video-300K训练后,在运动相关指标上的提升最为突出:动态空间关系准确率从24.64上升到33.82(提升37.4%),运动顺序理解从35.35上升到38.62,运动合理性从43.68上升到47.70。人物身份一致性从62.18上升到67.99,人物交互准确率从74.00上升到78.00,说明视频中的人物动作和互动也得到了明显改善。
五、训练策略:先"熟读范文"再"活学活用"
研究团队还专门做了一组消融实验,探索SFT(监督微调,即让模型直接学习"赢家"样本)与Poly-DPO两个训练阶段如何最优搭配。结果表明,直接对基础模型施加Poly-DPO带来的收益有限,而先做SFT再做Poly-DPO才能获得最佳效果。更有趣的是,SFT阶段只学"赢家"图片(不接触"输家")比同时学习"赢家"和"输家"对效果更好。
这个结论背后有一定的直觉支撑:先让模型"熟读"大量高质量样本,给它建立一个扎实的"好图像"概念;然后再通过Poly-DPO,让它在此基础上学习精细的偏好区分。如果SFT阶段同时接触了大量低质量的"输家"样本,模型可能会被这些"坏例子"干扰,削弱后续偏好学习的效果。在SD1.5模型上,采用"只学赢家的SFT"加上"Poly-DPO"两阶段方案,PickScore从20.89提升到22.19,HPSv2.1从25.04提升到29.69,ImageReward从0.1757提升到1.0161,各项指标均显著优于其他所有组合。
六、"教材好坏"可以量化:α参数作为数据质量诊断仪
这项研究还带来了一个颇具实用价值的附产品:α参数本身可以被当作一种数据质量诊断工具。研究团队用三种不同性质的数据集验证了Poly-DPO的自适应性。
第一种是嘈杂数据集,用Pick-a-Pic V2作为代表。在这个数据集上,α越大(正方向),模型性能越好,最优值为α=8。这意味着,当一个数据集需要非常大的正α才能有效学习,很可能说明这个数据集存在严重的偏好冲突问题。
第二种是过度简单数据集,研究团队人工构造:先用ViPO赢家图片做SFT,然后在生成偏好对时,随机打乱批次内的"输家"图片——也就是说,"赢家"是真实的高质量图片,但"输家"只是来自同一批次内的其他随机高质量图片,两者之间的差别几乎是任意的。在这个数据集上,标准DPO会导致模型迅速过拟合,陷入仅仅复制赢家图片的模式;而Poly-DPO在α小于零时,能有效抑制这种过度自信,让模型继续探索更有意义的区分依据。
第三种是高质量均衡数据集,用ViPO-Image-1M作为代表。在这个数据集上,α在正负一范围内几乎没有影响,最优点就在α≈0附近。这反向证明了:当最优α自然趋向于零,说明数据本身已经足够可靠,不需要任何额外的调节,标准DPO就是最合适的选择。
通过梯度可视化分析也可以清楚地看到这种差异:在α=8时,模型在中等置信度区间(p在0.5到0.8之间)的梯度大约是标准DPO的两到三倍,这正是那些"矛盾样本"对应的置信度范围;在α=-1时,模型在高置信度区间的梯度比标准DPO更低,迫使它在"已经确信"的地方放慢学习速度,保持探索的欲望。
七、开源版本:让研究成果真正惠及学界
考虑到开源社区的实际需求,研究团队在完整版数据集之外还专门准备了开源版本(ViPO-Image-1M-Open和ViPO-Video-300K-Open),将所有专有模型的输出替换为公开可用的等效模型。
实验验证表明,开源版本与原始版本的效果相当。在GenEval构图评测上,SDXL使用开源版本训练后的综合分(0.63)与原始版本(0.63)完全一致;SD3.5-Medium使用开源版本训练后达到0.81,与原始版本的0.83非常接近。在DPG-Bench图文对齐评测上,使用开源版本训练的SD3.5-Medium甚至超过了原始版本,综合分达到89.85,高于原始版本的87.71。文字渲染方面,开源版本训练的结果也与原始版本保持在同一水平线上。这些结果充分说明,开源版本完全具备复现本文核心结论的能力,对希望在这个方向上继续研究的学者来说,是一套完整可用的资源。
说到底,这项研究揭示了一个在机器学习领域普遍适用的道理:算法的精妙程度,和数据的质量高低,是同等重要的两个轴心,任何一个短板都会拖累最终效果。研究团队用Poly-DPO证明了"即使数据有缺陷,聪明的算法也能榨取更多有用信号",又用ViPO数据集证明了"当数据足够好,复杂的算法技巧反而是多余的负担"。这两个结论放在一起,构成了一个完整的思路:在数据质量受限的现实场景下,先用算法弥补短板;在有能力构建高质量数据的时候,把精力放在数据本身。α参数的最优值,恰好成了衡量这两者之间平衡点的一把尺子。对于普通用户来说,这意味着未来AI生成的图像和视频会在人物结构、文字准确性、场景构图等各个维度上变得更加可靠,那些让人出戏的"六根手指"或者"文字乱码"问题,将会越来越少地出现。
Q&A
Q1:Poly-DPO中的α参数具体是怎么调的,普通研究者能用吗?
A:α参数通过网格搜索确定,研究团队测试了-1到10之间的多个值。在嘈杂数据集如Pick-a-Pic V2上,α=8效果最好;在高质量数据集上,α在[-1,1]范围内几乎没有性能差异,直接设为0即可。整个实现只需在原有DPO代码基础上增加两行代码,普通研究者完全可以上手。
Q2:ViPO数据集的偏好标签是AI打的还是人工打的,可靠吗?
A:ViPO数据集的标签主要由多个视觉语言模型投票决定,采用多数票机制。人工评估验证显示,VLM的标注准确率(81.2%)甚至高于人类标注员的平均水平(74.7%)。不过在视频运动质量这一细分维度上,VLM只有55%准确率,低于人类的67.2%,说明AI在理解时序动态上仍有局限。
Q3:ViPO开源版本和原始版本的训练效果差距大吗?
A:差距很小,核心结论完全一致。在GenEval构图评测上,SDXL用两个版本训练后的综合分相同(均为0.63);在DPG-Bench图文对齐上,开源版本训练的SD3.5-Medium(89.85)甚至略优于原始版本(87.71)。研究团队表示,开源版本完全可以复现论文的主要研究成果。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。