微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 DenseDPO:解决视频生成中的静止偏好,用精细时序偏好优化提升动态表现

DenseDPO:解决视频生成中的静止偏好,用精细时序偏好优化提升动态表现

2025-06-07 17:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 17:01 科技行者

视频生成技术近年来取得了令人瞩目的进步,但在现实应用中仍面临三大挑战:时间连贯性不足、视觉质量不佳和与文本提示的匹配度不高。为了解决这些问题,Snap Research、多伦多大学和Vector研究所的研究团队共同开发了DenseDPO(密集直接偏好优化)方法,这项研究于2024年6月发表在arXiv预印本平台上(arXiv:2506.03517v1)。

现有视频生成技术的问题:静态偏好现象

想象一下,你正在使用AI生成一段"人在沙滩上做倒立"的视频。结果你得到了两个选择:一个视频画面清晰但几乎没有动作,另一个视频动作流畅但人物手指变形严重。你会选择哪一个?

大多数人会选择第一个——这就是研究团队发现的"静态偏好"现象。当人们被要求在两个视频之间选择时,往往偏爱那些画面清晰但动作较少的视频,而不是动作丰富但有细节缺陷的视频。这导致了一个恶性循环:

1. 视频生成模型在生成静态内容时表现更好 2. 人类标注者偏好选择这些视觉上更清晰的静态视频 3. 使用这些标注数据训练的模型进一步强化了生成静态视频的倾向

传统的直接偏好优化(DPO)方法无法解决这个问题,因为它们通常是从图像生成领域直接借鉴过来的,没有考虑视频特有的时间维度。

DenseDPO:三大创新解决静态偏好问题

研究团队提出了三个关键创新来解决这一问题:

### 结构相似的视频对比

传统DPO方法是从两个不同的随机噪声开始生成两个完全不同的视频。这会导致视频在运动模式、整体布局等方面有很大差异,使比较变得困难且带有偏见。

研究团队借鉴了一种叫做SDEdit的技术,他们的方法是:

1. 首先获取一个真实的参考视频 2. 给这个视频添加不同程度的噪声,制造两个"部分损坏"的版本 3. 让AI模型"修复"这两个损坏的视频版本

这样产生的两个视频在整体运动轨迹和高级语义上非常相似,但在局部视觉细节上有所不同。这就像让两位艺术家临摹同一幅画作,大体构图相同但细节处理各有特色。

这种方法巧妙地中和了静态偏好,因为两个视频有着相似的动作幅度,人类标注者只能基于视觉质量而非动作幅度来判断优劣。

### 精细的时序偏好标注

传统方法是对整个视频(通常长达5秒)给出一个单一的偏好判断。但研究团队发现,人类对视频的偏好往往在时间上变化很大——一个视频的前半部分可能比另一个好,但后半部分可能更差。

因此,他们将视频切分成短段(例如1秒),并收集每个短段的偏好标注。这带来了几个好处:

1. 提供了更密集、更准确的学习信号 2. 减少了两个视频都有缺陷时的"平局"情况 3. 让模型能够学习到更精细的时间偏好

想象一下,这就像教导厨师烹饪一道复杂菜肴时,不只告诉他最终成品是否好吃,而是详细评价每一个烹饪步骤的执行情况。

### 利用现有视觉语言模型自动标注

标注视频偏好是耗时且昂贵的。研究团队发现,虽然现有的视觉语言模型(如GPT-o3)无法准确评估整个长视频,但它们在评估短视频片段时表现出色。

利用第一个创新产生的结构相似视频,和第二个创新提出的短片段评估方法,研究团队成功地使用GPT-o3模型进行自动偏好标注:

1. 将视频分割成1秒片段 2. 让GPT-o3比较每对相应片段的质量 3. 通过多数投票法汇总成整个视频的评价(如需要)

这种方法的准确率与人类标注相当,极大地提高了数据收集效率。

实验验证:DenseDPO的优势

研究团队使用多个基准测试集评估了DenseDPO的性能。实验结果显示:

1. **保留动态程度**:与传统VanillaDPO相比,DenseDPO在保持视频动态性方面有显著提升。在VideoJAM-bench测试集上,VanillaDPO的动态程度得分为80.25,而DenseDPO达到了85.38;在MotionBench测试集上,差距更明显,VanillaDPO为72.55,DenseDPO达到了84.73。

2. **视觉质量相当**:DenseDPO在视觉质量方面与VanillaDPO不相上下,甚至略有提升。例如,在MotionBench上,DenseDPO的美学质量为57.54,而VanillaDPO为57.51。

3. **数据效率高**:尽管只使用了三分之一的标注数据(10k对比30k视频对),DenseDPO仍然取得了优于或相当于VanillaDPO的性能。

4. **自动标注可行**:使用GPT-o3进行片段级别的偏好预测,准确率达到70.03%,与专门为视频质量评估而微调的模型相近。更重要的是,当用这些自动标注训练DenseDPO时,其性能接近使用人类标注的版本。

人类评估也证实了这些结果。在一项用户研究中,参与者被要求比较不同方法生成的视频。与VanillaDPO相比,DenseDPO在动态程度方面获得了63.9%的胜率,同时在其他方面保持相当水平。

DenseDPO如何工作:技术原理解析

要理解DenseDPO的工作原理,我们可以将其与传统直接偏好优化(DPO)方法进行对比。

传统DPO的工作方式类似于这样:给模型展示两个视频A和B,告诉它"A比B好",然后模型尝试调整参数,使得它预测A的得分高于B的得分。这就像教孩子识别好苹果和坏苹果,每次给他看两个苹果,告诉他哪个更好。

DenseDPO则做了几个关键改进:

1. **结构相似的视频对**:不是随机生成两个完全不同的视频,而是从同一个"种子"视频出发,添加不同程度的噪声再生成。这确保两个视频的基本运动结构相似,就像是同一个舞蹈动作的两种略微不同的表演。

2. **片段级别的偏好**:不是给整个视频一个总体评分,而是对每个短时间片段(如1秒)进行评分。这就像不仅评价整道菜的口感,还要分别评价每个成分的烹饪程度。

3. **密集的学习信号**:通过这种方式,模型可以学习到更细粒度的偏好信息,明确知道视频中哪些部分好,哪些部分不好,而不仅仅是整体的好坏。

在技术实现上,DenseDPO扩展了Flow-DPO的损失函数,将其应用到视频的每个时间片段上,而不是整个视频。这使得模型能够更精确地学习到时间维度上的偏好变化。

研究意义与应用前景

DenseDPO的研究意义远不止于提高视频质量。它揭示了一个更深层次的问题:AI系统训练数据中存在的隐性偏见如何影响模型行为。就像语言模型中发现的"冗长性偏好"(即人类评估者倾向于更长的输出)一样,视频生成中也存在"静态偏好"现象。

这项研究的潜在应用包括:

1. **更自然的AI视频生成**:生成具有丰富、自然动作的视频,而不仅是"漂亮但静止"的图像序列。

2. **减少人工标注成本**:通过利用现有视觉语言模型进行自动标注,大大降低了数据收集成本。

3. **更精确的质量评估**:分段评估方法可以应用于视频质量控制,精确定位问题区域。

4. **减少模型偏见**:这种方法可以扩展到识别和纠正其他类型的隐性偏见。

未来研究方向

尽管DenseDPO取得了显著进展,研究团队也指出了一些局限性和未来研究方向:

1. 与语言模型的DPO相比,视频生成模型的DPO训练仍然不够稳定,需要提前停止训练以避免过拟合。

2. 虽然引导式采样能保持视频的运动轨迹,但也减少了比较对之间的多样性,未来可以探索其他方法来解决这一问题。

3. 本研究专注于提高视觉质量和一致性,同时保持动态程度不变。未来可以将这种方法扩展到其他维度,如通过扰动文本提示来提高文本匹配度。

总之,DenseDPO代表了视频生成技术的一个重要进步,不仅解决了现有方法的关键局限性,还提供了一种更有效、更精确的偏好优化方法。随着这项技术的发展,我们可以期待未来AI生成的视频将更加自然、动态且符合人类期望。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-