微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当"老师"遇上"垃圾教材"：中央佛罗里达大学与字节跳动联手解决AI图像视频生成中的"偏食"难题

人工智能偏好优化大规模数据集

当"老师"遇上"垃圾教材"：中央佛罗里达大学与字节跳动联手解决AI图像视频生成中的"偏食"难题

作者：科技行者

2026-05-08 10:08

分享至：

这项由美国中央佛罗里达大学与字节跳动Seed联合完成的研究（ICLR 2026，arXiv:2604.24953）提出了两项互补贡献：一是Poly-DPO算法，通过单一超参数α动态调节模型学习信心，使其能从矛盾嘈杂的偏好数据中有效提取信号；二是ViPO大规模视觉偏好数据集，包含100万对1024像素图像和30万对720p以上视频，覆盖多个质量维度。实验表明，两者协同作用下，多个主流图像和视频生成模型在构图、文字渲染、人物质量等方面均获得显著提升。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-08 10:08 • 科技行者

这项由美国中央佛罗里达大学与字节跳动Seed联合完成的研究，发表于2026年的国际学习表征会议（ICLR 2026），论文编号为arXiv:2604.24953，有兴趣深入了解的读者可以通过该编号查询完整论文。

教一个学生变优秀，光靠好方法还不够——如果教材本身质量低劣、前后矛盾，再好的老师也束手无策。这篇研究瞄准的正是这样一个现实困境：当下的AI图像和视频生成模型，在用人类偏好数据"训练自己变得更好"这件事上，遇到了一堵看不见的墙。研究团队从两个方向同时下手——既改进了"教学方法"，又重新编写了"教材"，最终让AI生成的图像和视频质量获得了大幅跃升。

一、为什么AI生成的图片有时候"差强人意"

在AI图像生成领域，有一种让模型"知道好坏"的训练方式，类似于让学生做选择题：给它看两张图片，告诉它哪张是"赢家"、哪张是"输家"，让它从中学习。这种方式叫做"偏好优化"，是目前业界让AI模型靠近人类审美的主流手段之一。

问题在于，用来训练的"题库"——也就是已有的开源偏好数据集——质量参差不齐。研究团队发现，现有数据集里存在大量"矛盾评分"：某张图片在"好不好看"这个维度上是赢家，但在"画的内容和提示词符不符"这个维度上却是输家。这就好比一套练习题里，有道题的答案是A，但解析写的是B——学生做题做多了，只会越来越糊涂，而不是越来越聪明。

更糟糕的是，现有数据集还有分辨率低（通常只有512到768像素）、提示词种类单一、数据分布严重不均衡等一系列问题，而且这些数据大多是用几年前的老模型生成的，早已跟不上当下最先进模型的能力水平。

研究团队做了一个很直观的测试：他们拿出目前最大的公开偏好数据集"Pick-a-Pic V2"，用五种不同的评分工具同时给每对图片打分，结果发现——只有20.79%的图片对，在五个维度上都达成一致，认为其中一张比另一张更好。换句话说，超过四分之三的训练数据，在不同评判标准下都存在自相矛盾的情况。在这样的"教材"上死记硬背，AI当然学不好。

二、新方法：给学习过程装上一个"信心调节器"

面对这堆矛盾百出的训练数据，研究团队提出了一种改进的训练算法，叫做Poly-DPO。要理解它的作用，可以借助一个备考的场景来思考。

考虑这样一种情境：一个学生在刷模拟题时，遇到了两类极端情况。第一类是那些他几乎没把握的题——答案模棱两可，选A选B都有道理。第二类是那些他一眼就能看出答案的题——过于简单，秒答。这两类题，如果用同等力度去强化记忆，效果都不理想：前者会让学生建立错误的知识框架，后者则会让学生陷入表面功夫、不求甚解。

Poly-DPO做的事情，就是在原有训练目标的基础上，增加了一个"多项式调节项"，通过一个叫做α（阿尔法）的参数来控制模型学习时的"信心状态"。

当α大于零时，算法会特意放大模型在"没把握"样本上的学习信号，帮助模型在矛盾信号中找到真正有价值的区分点，而不是被噪音带偏。这适用于像Pick-a-Pic V2这样的嘈杂数据集。当α小于零时，算法会压制模型对"太有把握"样本的过度学习，防止模型因为简单样本太多而变得自以为是、不再深入探索。这适用于那些充斥着过于简单偏好对比的数据集。当α等于零时，Poly-DPO就退化成了标准的DPO，因为此时数据已经足够均衡可靠，不需要额外的调节。

从数学角度看，Poly-DPO在原有的交叉熵损失函数基础上，加入了泰勒展开式的第一项扰动，整个改动只需要两行代码就能实现。研究团队将梯度公式写作：负的"（一减p）乘以（一加α乘以p）"，其中p代表模型当前对某对图片偏好关系的判断置信度。在α大于零时，这个"多项式因子"会在中等置信度区间放大梯度，在高置信度区间压缩梯度；在α小于零时效果相反。

在实验中，研究团队对α值进行了网格搜索，发现在Pick-a-Pic V2上α=8效果最好；而在自己构建的高质量数据集上，α在正负一之间的所有取值性能差异几乎可以忽略，最优点就在α=0附近。这个收敛现象本身就是一种自我验证：如果数据质量足够好，复杂的算法调整是多余的。

三、新教材：从零开始造一套"高质量偏好题库"

改进算法只是解决问题的一半。另一半是从根源上解决数据质量问题，于是研究团队构建了ViPO数据集——这是目前规模最大、质量最高的视觉偏好开源数据集之一。

图像部分叫做ViPO-Image-1M，包含100万对高分辨率（1024像素）图片对，涵盖五个维度。第一个维度是"美学质量"，评估图像的视觉吸引力和艺术感，共20万对。第二个维度是"图文对齐"，评估生成的图像是否真正符合文字描述的语义，共20万对。第三个维度是"文字渲染"，评估图像中文字元素的准确性，共20万对。第四个维度是"人物质量"，评估人体解剖结构的正确性和真实感，共20万对。第五个维度是"构图"，评估空间布局与视觉组织，共20万对。

视频部分叫做ViPO-Video-300K，包含30万对高分辨率（720p及以上）视频对，涵盖三个维度：运动质量、视频文本对齐、以及视觉质量，每个维度各10万对。

在数据生成方面，研究团队启用了当下最顶尖的开源生成模型。图像数据由Qwen-Image、HiDream-I1、FLUX.1-dev、PixArt-Σ、SANA1.5等十余个模型生成；视频数据则由WanVideo、HunyuanVideo等主流视频生成模型负责。提示词来源于HuggingFace上的多个公开数据集，覆盖了极为丰富的内容类型。

在偏好标注方面，研究团队使用多个大型视觉语言模型（VLM）进行打分和投票，包括Qwen2.5-VL-32B、Seed-VL-1.5、Q-Insight等，最终采用多数票机制确定每对图像或视频的"赢家"与"输家"。这种AI自动化标注方式，相比传统的人工标注，既大幅降低了成本，又保证了规模和一致性。

为了验证标注质量，研究团队还专门招募了18名人类标注员进行大规模人工评估，对数据集中的图像和视频样本进行盲测。结果显示，所有标注员的准确率均超过70%，平均准确率高达87.2%，18名标注员中有14人超过了80%的准确率。更重要的是，他们用来打标签的VLM评分系统，整体准确率达到了81.2%，甚至超过了人类标注员的平均水平（74.7%）。在图像类别上，VLM的表现尤为突出，准确率达到84.0%，而在视频的"运动质量"这一细分维度上，VLM只有55.0%，而人类标注员有67.2%——这说明当前AI模型在理解视频中的精细时序动态方面，仍然不如人类直觉。

数据集的构建流程因类别不同而各有侧重。以"图文对齐"为例，团队从LAION-Aesthetics数据集中采样图片，用Qwen2.5-VL-32B为每张图片生成详细描述，再用Seed-VL-1.5对描述进行"有限扰动"——比如修改颜色、动作、数量等细节属性，生成一个"微变版"描述，然后用同一个生成模型分别生成原始描述和扰动描述对应的图片，原始版本即为"赢家"，扰动版本即为"输家"。这种设计的精妙之处在于，两张图片由同一个模型生成，风格高度接近，差异仅来自描述的细微变化，因此偏好信号非常干净、可靠。

以"人物质量"为例，团队先从多个现有数据集中筛选出存在人体解剖缺陷的图片，再用多种模型（包括CogView4、FLUX.1-dev、HiDream-I1-Full、SD3.5-Medium等十余个模型）重新生成人物图片，然后让Seed-VL-1.5判断哪张在人体结构上更加准确，由此形成20万对有明确偏好标注的人物图片对。

视频部分的构建同样别具匠心。"运动质量"维度全部采用图生视频（I2V）的方式，确保两段视频共享同一初始帧，差异纯粹来自视频模型的运动生成能力，从而避免场景内容的差异干扰运动质量的判断。"视频文本对齐"维度则分为空间对齐和时序对齐两个子任务，前者沿用图像对齐数据，后者通过给同一张图片配上两段描述不同运动状态的提示词（比如"一个人在跑步"对比"一个人在走路"），用同一模型生成两段视频，以检验模型是否能准确响应运动指令。

由于数据集中有部分图片和视频来自Seedream-3.0和Seedance-1.0这两个专有商业模型，考虑到许可协议的限制，研究团队还专门准备了一套完全开源的替代版本，将这两个专有模型的输出分别替换为FLUX.2-dev和Wan2.2-A14B-I2V的输出，命名为ViPO-Image-1M-Open和ViPO-Video-300K-Open，供研究社区自由使用。

四、实验验证：算法与数据的双重考核

研究团队在多个模型架构和多个评测标准上对方法进行了全面验证，覆盖SD1.5、SDXL、SD3.5-Medium、FLUX.1-dev等主流图像生成模型，以及Wan2.1-T2V-1.3B视频生成模型。

在"嘈杂数据集"场景下，研究团队用Pick-a-Pic V2训练SD1.5和SDXL，与Diffusion-DPO和Diffusion-KTO进行对比。Poly-DPO在所有评测数据集（Pick-a-Pic V2测试集、HPD V2测试集、Parti测试集、Pick-a-Pic V1验证集）上的所有指标均明显优于基线方法。以HPSv2.1分数为例，在Pick-a-Pic V2测试集上，Poly-DPO带来了13.1%的提升，而Diffusion-DPO只提升了4.4%。在ImageReward分数上，Poly-DPO的增益达到+0.594，而Diffusion-DPO仅为+0.212。

在GenEval构图评测基准上，Poly-DPO在SD1.5上取得了49.87的综合分，超过了同样使用Pick-a-Pic V2训练的Diffusion-DPO（43.00），甚至超过了需要在线迭代采样的SPO（41.53），在SDXL上也达到了60.34，同样优于所有对比方法。特别值得关注的是属性绑定这项难度最高的任务：SD1.5的Poly-DPO达到了14.00分，而Diffusion-DPO只有3.75分；SDXL的Poly-DPO达到了31.00分，而Diffusion-DPO只有18.50分。属性绑定考察的是模型能否准确地把特定颜色、形状等属性与特定对象对应起来，是衡量模型深层语义理解的重要指标，这一项的大幅领先充分说明了Poly-DPO在处理噪声数据时的优势。

在自建的高质量ViPO-Image-1M数据集上，各模型的提升幅度更为显著。SD1.5在GenEval综合分从0.42提升到0.54，其中两个物体场景的识别准确率从0.38跳升到0.66，属性绑定从0.05跳升到0.17。SDXL的综合分从0.56提升到0.63，属性绑定从0.16跳升到0.42。SD3.5-Medium本身已经是一个很强的模型，基础综合分就有0.69，经过训练后达到了0.83，与专为构图任务设计的HiDream-I1-Full（0.83）并驾齐驱。FLUX.1-dev则从0.69提升到了0.79。

在图文对齐评测（DPG-Bench）上，SD3.5-Medium和FLUX.1-dev经过训练后，综合分分别达到了87.71和87.31，超越了GPT-Image 1（85.15）这样的商业产品，接近HiDream-I1-Full（85.89）的水平，其中关系理解子项SD3.5-Medium达到了94.81的高分。

文字渲染方面的提升最为戏剧性。在CVTG-2K基准测试上，SD3.5-Medium的单词准确率从0.4378跃升至0.6995，提升幅度高达59.8%；FLUX.1-dev更是在SFT阶段因为某种原因性能短暂下滑（从0.4878下降到0.2126），但加上Poly-DPO之后不仅完全恢复，还大幅超越原始水平，最终达到了0.6859。

人物质量评估方面，研究团队用GPT-4o对400个包含人物描述的提示词生成的图片进行了解剖正确性评分。SD3.5-Medium的准确率从73.25%提升到85.25%，FLUX.1-dev从80.00%提升到88.75%，解决了AI图像生成中长期存在的手指数量错误、关节角度异常等人体结构问题。

在视频生成评测（VBench-2.0）上，Wan2.1-T2V-1.3B经过ViPO-Video-300K训练后，在运动相关指标上的提升最为突出：动态空间关系准确率从24.64上升到33.82（提升37.4%），运动顺序理解从35.35上升到38.62，运动合理性从43.68上升到47.70。人物身份一致性从62.18上升到67.99，人物交互准确率从74.00上升到78.00，说明视频中的人物动作和互动也得到了明显改善。

五、训练策略：先"熟读范文"再"活学活用"

研究团队还专门做了一组消融实验，探索SFT（监督微调，即让模型直接学习"赢家"样本）与Poly-DPO两个训练阶段如何最优搭配。结果表明，直接对基础模型施加Poly-DPO带来的收益有限，而先做SFT再做Poly-DPO才能获得最佳效果。更有趣的是，SFT阶段只学"赢家"图片（不接触"输家"）比同时学习"赢家"和"输家"对效果更好。

这个结论背后有一定的直觉支撑：先让模型"熟读"大量高质量样本，给它建立一个扎实的"好图像"概念；然后再通过Poly-DPO，让它在此基础上学习精细的偏好区分。如果SFT阶段同时接触了大量低质量的"输家"样本，模型可能会被这些"坏例子"干扰，削弱后续偏好学习的效果。在SD1.5模型上，采用"只学赢家的SFT"加上"Poly-DPO"两阶段方案，PickScore从20.89提升到22.19，HPSv2.1从25.04提升到29.69，ImageReward从0.1757提升到1.0161，各项指标均显著优于其他所有组合。

六、"教材好坏"可以量化：α参数作为数据质量诊断仪

这项研究还带来了一个颇具实用价值的附产品：α参数本身可以被当作一种数据质量诊断工具。研究团队用三种不同性质的数据集验证了Poly-DPO的自适应性。

第一种是嘈杂数据集，用Pick-a-Pic V2作为代表。在这个数据集上，α越大（正方向），模型性能越好，最优值为α=8。这意味着，当一个数据集需要非常大的正α才能有效学习，很可能说明这个数据集存在严重的偏好冲突问题。

第二种是过度简单数据集，研究团队人工构造：先用ViPO赢家图片做SFT，然后在生成偏好对时，随机打乱批次内的"输家"图片——也就是说，"赢家"是真实的高质量图片，但"输家"只是来自同一批次内的其他随机高质量图片，两者之间的差别几乎是任意的。在这个数据集上，标准DPO会导致模型迅速过拟合，陷入仅仅复制赢家图片的模式；而Poly-DPO在α小于零时，能有效抑制这种过度自信，让模型继续探索更有意义的区分依据。

第三种是高质量均衡数据集，用ViPO-Image-1M作为代表。在这个数据集上，α在正负一范围内几乎没有影响，最优点就在α≈0附近。这反向证明了：当最优α自然趋向于零，说明数据本身已经足够可靠，不需要任何额外的调节，标准DPO就是最合适的选择。

通过梯度可视化分析也可以清楚地看到这种差异：在α=8时，模型在中等置信度区间（p在0.5到0.8之间）的梯度大约是标准DPO的两到三倍，这正是那些"矛盾样本"对应的置信度范围；在α=-1时，模型在高置信度区间的梯度比标准DPO更低，迫使它在"已经确信"的地方放慢学习速度，保持探索的欲望。

七、开源版本：让研究成果真正惠及学界

考虑到开源社区的实际需求，研究团队在完整版数据集之外还专门准备了开源版本（ViPO-Image-1M-Open和ViPO-Video-300K-Open），将所有专有模型的输出替换为公开可用的等效模型。

实验验证表明，开源版本与原始版本的效果相当。在GenEval构图评测上，SDXL使用开源版本训练后的综合分（0.63）与原始版本（0.63）完全一致；SD3.5-Medium使用开源版本训练后达到0.81，与原始版本的0.83非常接近。在DPG-Bench图文对齐评测上，使用开源版本训练的SD3.5-Medium甚至超过了原始版本，综合分达到89.85，高于原始版本的87.71。文字渲染方面，开源版本训练的结果也与原始版本保持在同一水平线上。这些结果充分说明，开源版本完全具备复现本文核心结论的能力，对希望在这个方向上继续研究的学者来说，是一套完整可用的资源。

说到底，这项研究揭示了一个在机器学习领域普遍适用的道理：算法的精妙程度，和数据的质量高低，是同等重要的两个轴心，任何一个短板都会拖累最终效果。研究团队用Poly-DPO证明了"即使数据有缺陷，聪明的算法也能榨取更多有用信号"，又用ViPO数据集证明了"当数据足够好，复杂的算法技巧反而是多余的负担"。这两个结论放在一起，构成了一个完整的思路：在数据质量受限的现实场景下，先用算法弥补短板；在有能力构建高质量数据的时候，把精力放在数据本身。α参数的最优值，恰好成了衡量这两者之间平衡点的一把尺子。对于普通用户来说，这意味着未来AI生成的图像和视频会在人物结构、文字准确性、场景构图等各个维度上变得更加可靠，那些让人出戏的"六根手指"或者"文字乱码"问题，将会越来越少地出现。

Q&A

Q1：Poly-DPO中的α参数具体是怎么调的，普通研究者能用吗？

A：α参数通过网格搜索确定，研究团队测试了-1到10之间的多个值。在嘈杂数据集如Pick-a-Pic V2上，α=8效果最好；在高质量数据集上，α在[-1,1]范围内几乎没有性能差异，直接设为0即可。整个实现只需在原有DPO代码基础上增加两行代码，普通研究者完全可以上手。

Q2：ViPO数据集的偏好标签是AI打的还是人工打的，可靠吗？

A：ViPO数据集的标签主要由多个视觉语言模型投票决定，采用多数票机制。人工评估验证显示，VLM的标注准确率（81.2%）甚至高于人类标注员的平均水平（74.7%）。不过在视频运动质量这一细分维度上，VLM只有55%准确率，低于人类的67.2%，说明AI在理解时序动态上仍有局限。

Q3：ViPO开源版本和原始版本的训练效果差距大吗？

A：差距很小，核心结论完全一致。在GenEval构图评测上，SDXL用两个版本训练后的综合分相同（均为0.63）；在DPG-Bench图文对齐上，开源版本训练的SD3.5-Medium（89.85）甚至略优于原始版本（87.71）。研究团队表示，开源版本完全可以复现论文的主要研究成果。

人工智能偏好优化大规模数据集

分享至