微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 清华大学与快手联合推出VideoReward:让AI视频生成更懂人心的突破性方法

清华大学与快手联合推出VideoReward:让AI视频生成更懂人心的突破性方法

2025-09-17 10:30
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 10:30 科技行者

这项由清华大学刘宇杰教授领导,联合快手科技、香港中文大学等多个机构完成的研究发表于2025年1月,研究论文题为《Improving Video Generation with Human Feedback》。有兴趣深入了解的读者可以访问完整论文(arXiv:2501.13918v1)。

视频生成技术正在以惊人的速度发展,从最初的简单动画到如今能够生成逼真的人物对话,这个领域的进步让人目不暇接。然而,就像一个刚学会说话的孩子,现有的AI视频生成系统虽然能够产出内容,但往往无法真正理解什么样的视频才是人们真正想要的。运动不够流畅、画面质量不够精细、生成的内容与用户描述存在偏差——这些问题就像是AI在按照自己的理解创作,而不是按照人类的喜好创作。

研究团队意识到,要让AI真正学会生成高质量视频,关键在于让它能够理解人类的反馈和偏好。就如同一个学习绘画的学生需要老师的指导才能不断进步一样,AI也需要人类的"教学"才能产出更符合期待的作品。为了解决这个问题,研究团队构建了一个庞大的人类偏好数据集,包含了18.2万个经过人工标注的视频对比样本。这些样本就像是给AI准备的"教科书",告诉它什么样的视频在视觉质量、运动质量和文本对齐度方面更受人们喜爱。

在这个基础上,研究团队开发了VideoReward——一个多维度的视频奖励模型,它就像是一位经验丰富的评委,能够从多个角度对视频质量进行评判。更重要的是,他们还提出了三种针对基于流模型的视频生成系统的对齐算法:Flow-DPO、Flow-RWR和Flow-NRG。这些算法就像是不同的训练方法,能够让AI在生成视频时更好地遵循人类的偏好。

一、构建AI的"品味教科书":大规模人类偏好数据集

要让AI学会什么是好视频,首先需要告诉它人类是如何判断视频质量的。这就像培养一个艺术评论家,需要让他看遍各种艺术作品,了解什么是美,什么是不足。研究团队面临的第一个挑战就是现有的数据集大多基于较老的视频生成模型,这些模型产出的视频质量相对较低,时长也很短,无法反映现代视频生成技术的真实水平。

研究团队决定从零开始构建一个全新的数据集。他们从互联网上收集了各种类型的文本描述,包括动物、建筑、食物、人物、植物、场景、车辆和物体等八个大类。这些描述经过精心筛选和扩展,最终形成了1.6万个详细的文本提示。接着,他们使用12个不同的现代视频生成模型来处理这些文本,产生了10.8万个视频,进而构建了18.2万个三元组样本,每个样本包含一个文本提示和两个相应的生成视频。

数据收集只是第一步,更关键的是如何进行标注。研究团队聘请了专业的标注员,让他们从三个关键维度对视频进行评价:视觉质量、运动质量和文本对齐度。视觉质量主要关注画面的清晰度、细节丰富度和美观程度,就像评判一幅画作的技法是否精湛。运动质量则关注视频中的动作是否流畅自然,物体运动是否符合物理规律,就像评判一场舞蹈表演的协调性。文本对齐度评估的是生成的视频内容是否与原始文本描述相匹配,就像检查翻译是否准确传达原文意思。

为了确保标注质量,每个样本都由三位独立的标注员进行评价。当出现意见分歧时,会有额外的评审员介入解决争议。这个过程就像法庭审理案件时需要多位陪审员达成一致意见一样严谨。最终,这个数据集不仅包含了配对比较的标注(哪个视频更好),还包含了具体的评分(给每个视频打分),为后续的模型训练提供了丰富的学习材料。

二、打造AI视频评委:VideoReward多维度奖励模型

有了训练数据,下一步就是构建一个能够模拟人类判断的AI评委系统。这个系统需要像人类专家一样,能够从多个角度综合评价视频质量。研究团队以Qwen2-VL-2B作为基础模型,开发了VideoReward系统。

在设计VideoReward时,研究团队面临一个重要的技术选择:是使用点式评分(直接给视频打分)还是使用配对比较(判断哪个视频更好)的训练方式。通过大量实验,他们发现配对比较的方式更加有效。这是因为相比于给视频一个绝对的分数,人们更容易判断两个视频中哪一个更好。就像在美食比赛中,评委可能难以给一道菜打出确切的分数,但很容易判断两道菜中哪一道更美味。

研究团队采用了Bradley-Terry模型的扩展版本——Bradley-Terry-With-Ties模型来处理人类偏好数据。这个模型不仅能处理"A比B好"或"B比A好"的情况,还能处理"A和B差不多"的平手情况。在现实中,确实存在两个视频质量相当、难以区分优劣的情况,忽略这种情况会让模型的判断能力变得不够细致。

另一个重要的创新是分离式设计。传统的多维度评价模型往往会让不同维度的评价相互影响,就像一个偏心的老师可能因为学生字写得好就给作文内容也打高分。为了避免这种问题,研究团队为每个评价维度设计了专门的查询标记。视觉质量和运动质量的评价标记放在视频内容之后、文本提示之前,这样它们只能"看到"视频内容;而文本对齐度的评价标记放在文本提示之后,既能"看到"视频内容,也能"看到"文本描述。这种设计确保了每个维度的评价都更加独立和准确。

三、让AI学会模仿人类偏好:三种对齐算法

有了能够评价视频质量的VideoReward系统,接下来的挑战是如何让视频生成模型真正学会按照人类偏好来生成内容。这就像是教授学生如何根据评委的喜好来创作作品。研究团队开发了三种不同的算法来实现这个目标。

Flow-DPO(直接偏好优化)是第一种方法。这种方法的核心思想是让模型通过比较学习:当面对两个视频样本时,模型学会提高生成更受欢迎视频的概率,同时降低生成不受欢迎视频的概率。这就像教练通过分析优秀运动员和普通运动员的表现差异来指导训练一样。

在将DPO算法适配到基于流模型的视频生成系统时,研究团队发现了一个重要问题。原本的算法设计会在不同时间步施加不同强度的约束,在早期时间步(噪声较多时)施加较弱约束,在后期时间步施加较强约束。然而实验结果表明,使用固定强度的约束效果更好。这个发现对于实际应用非常重要,因为它意味着模型能够在整个生成过程中保持一致的优化方向。

Flow-RWR(奖励加权回归)是第二种方法。这种方法根据视频的质量评分来调整训练样本的权重,质量高的视频在训练中获得更大的权重,质量低的视频权重较小。这就像在学习时更多地关注优秀范例,而不是把时间平均分配给所有样本。这种方法的优势在于直接利用了奖励信号,但可能不如DPO那样能够精确地建模人类偏好的相对关系。

Flow-NRG(流式噪声奖励引导)是第三种方法,它的特殊之处在于可以在推理时直接应用,无需重新训练模型。这种方法在生成过程的每一步都使用奖励模型提供的梯度信息来调整生成方向,就像GPS导航在行驶过程中不断修正路线一样。更有价值的是,Flow-NRG允许用户为不同的评价维度设置不同的权重,比如某个用户更重视视觉质量而不太在意运动流畅度,就可以相应调整权重配置。

为了让Flow-NRG能够在含有噪声的中间状态下正常工作,研究团队训练了一个专门的时间相关奖励模型。这个模型不仅能评价最终的完整视频,还能评价生成过程中的中间状态。这就像培养一个能在雕塑创作过程中就能看出最终效果的专家一样。

四、实验验证:全面的性能评估

为了验证这些方法的有效性,研究团队进行了全面的实验评估。他们不仅在自己构建的数据集上测试,还在现有的基准测试上验证模型的泛化能力。

在奖励模型的评估中,VideoReward在多个基准测试中都表现出色。特别是在VideoGen-RewardBench这个专门针对现代视频生成模型设计的基准上,VideoReward的整体准确率达到了73.59%,显著超过了现有的其他方法。在各个维度上,视觉质量评估准确率为75.66%,运动质量评估为74.70%,文本对齐度评估为72.20%。这些数字表明VideoReward确实能够准确捕捉人类对视频质量的判断。

在对齐算法的评估中,Flow-DPO(使用固定β参数)表现最为优异。在VBench基准测试中,经过Flow-DPO对齐的模型总分达到83.41,相比原始模型的83.19有所提升。更重要的是,在人类评估中,Flow-DPO对齐的模型在各个维度上都获得了显著更高的胜率。在视觉质量方面胜率达到93.42%,运动质量胜率为69.08%,文本对齐度胜率为75.43%。

特别值得关注的是,研究团队还测试了Flow-NRG的灵活性。通过调整不同维度的权重,用户可以根据自己的需求定制生成结果。例如,当用户更注重文本对齐度时,可以增加相应权重,模型就会生成更贴近文本描述的视频,即使可能在视觉效果上有所妥协。

五、技术细节与创新点

这项研究的技术创新体现在多个方面。首先是数据集的构建策略。与以往研究主要使用早期开源模型生成的低质量视频不同,研究团队专门选择了12个现代化的视频生成模型,包括6个现代模型和6个传统模型,确保数据集能够反映当前技术的真实水平。

在模型架构设计上,分离式的查询标记设计是一个重要创新。这种设计不仅提高了评价的准确性,还增强了模型的可解释性。用户可以清楚地了解模型在各个维度上的判断,而不是得到一个黑箱式的总体评分。

在算法层面,将DPO算法从扩散模型扩展到流模型是一个技术挑战。研究团队通过数学推导发现,在流模型中应用DPO时,约束强度与时间步的关系需要重新考虑。这个发现不仅对本研究有用,对整个领域的发展也具有指导意义。

Flow-NRG算法的另一个创新是直接在潜在空间中进行奖励引导。由于现代视频生成模型通常在压缩的潜在空间中工作,直接在像素空间计算奖励梯度会带来巨大的计算开销。研究团队通过使用预训练模型的前几层来构建轻量级的奖励模型,既保持了引导的有效性,又控制了计算成本。

六、实际应用前景与意义

这项研究的意义远超学术价值,它为视频生成技术的实际应用开辟了新的可能性。在内容创作领域,创作者可以使用这些技术来生成更符合自己创意需求的视频素材。比如一个广告制作人可以快速生成多个版本的产品演示视频,然后根据客户偏好进行微调。

在教育培训领域,这项技术可以用来生成个性化的教学视频。不同学生可能对同样的知识点有不同的理解方式,通过调整生成参数,可以为每个学生生成最适合的讲解视频。比如有些学生更喜欢动画风格的解释,有些则偏好真实场景的演示。

对于社交媒体和娱乐平台,这项技术可以帮助用户更轻松地创作高质量的视频内容。用户只需要提供文字描述,系统就能生成符合其风格偏好的视频。更重要的是,通过人类反馈的持续学习,系统会越来越了解不同用户群体的喜好。

从技术发展的角度来看,这项研究建立了一个重要的评估框架。VideoGen-RewardBench基准测试填补了现代视频生成模型评估的空白,为后续研究提供了标准化的比较工具。这就像为整个领域建立了一个统一的考试系统,让不同研究团队的成果能够公平比较。

七、挑战与改进方向

尽管取得了显著成果,研究团队也坦诚地指出了当前方法的局限性。首先是奖励窃取问题。由于奖励模型是可微分的,生成模型可能会学会专门针对奖励模型的弱点来优化,而不是真正提升视频质量。这就像学生可能会针对特定老师的评分习惯来应付考试,而不是真正掌握知识。

计算效率是另一个挑战。虽然Flow-NRG提供了灵活的推理时对齐能力,但每次生成都需要额外的梯度计算,这会增加计算成本。对于需要大规模部署的应用来说,这可能是一个需要权衡的问题。

数据集的多样性仍有提升空间。虽然当前数据集已经相当庞大,但相对于人类视觉体验的复杂性来说仍然有限。特别是对于一些特殊场景或艺术风格,模型的判断能力可能还不够准确。

研究团队也认识到,人类偏好本身是动态变化的。不同文化背景、年龄层次的人对视频质量的看法可能存在差异。如何构建一个能够适应这种多样性的系统,仍然是未来需要解决的问题。

八、与现有技术的比较优势

相比于现有的视频生成评估方法,这项研究在多个方面展现了显著优势。传统的评估方法主要依赖于计算机视觉指标,比如FID分数或CLIP相似度。这些指标虽然客观,但往往无法准确反映人类的主观感受。就像用化学分析来评判食物味道一样,技术上精确但可能与实际体验相去甚远。

VideoReward的多维度评估框架更贴近人类的实际判断过程。当我们评价一个视频时,确实会从画面质量、动作流畅度和内容相关性等多个角度进行考虑。这种设计让AI的评判更接近人类专家的思维方式。

在算法层面,相比于传统的强化学习方法如PPO,DPO类方法避免了复杂的在线学习过程,训练更稳定,实施更简单。这就像选择了一条更直接的学习路径,避免了许多可能的陷阱和不稳定因素。

Flow-NRG的推理时对齐能力是这项研究的独特优势。大多数现有方法都需要针对特定偏好重新训练模型,这不仅耗时耗力,还限制了应用的灵活性。Flow-NRG让用户可以在使用时动态调整偏好权重,大大提高了实用性。

九、对行业发展的启示

这项研究对整个AI视频生成行业具有重要启示意义。首先,它验证了人类反馈在AI系统优化中的关键作用。仅仅依靠技术指标优化是不够的,必须将人类的主观判断纳入训练过程。这个观点在大语言模型领域已经得到广泛认可,现在在视频生成领域也得到了有力证实。

数据质量比数量更重要的观点在这项研究中也得到了体现。研究团队花费大量精力构建高质量的偏好数据集,这种投入获得了显著的回报。对于产业界来说,这意味着在数据收集和标注上的投资是值得的。

多维度评估的重要性是另一个关键启示。视频质量不是一个单一概念,而是多个维度的综合体现。忽视任何一个维度都可能导致用户体验的下降。这要求开发者在系统设计时必须考虑全面性。

技术的实用性和灵活性同样重要。Flow-NRG的成功说明,能够让用户根据具体需求进行定制的技术更有应用价值。在实际部署中,一刀切的解决方案往往无法满足多样化的用户需求。

说到底,这项由清华大学、快手科技等机构联合完成的研究为AI视频生成技术的发展提供了一个重要的里程碑。通过构建大规模的人类偏好数据集和开发相应的对齐算法,研究团队成功地让AI系统学会了更好地理解和满足人类对视频质量的期望。这不仅是技术上的突破,更是人机协作理念在视频生成领域的成功实践。

随着技术的不断完善,我们有理由相信,未来的AI视频生成系统将能够创作出更加符合人类审美和实用需求的内容。这项研究为这个美好愿景的实现奠定了坚实的基础,也为后续研究指明了方向。对于普通用户来说,这意味着他们很快就能享受到更智能、更贴心的AI视频创作服务。对于整个行业来说,这标志着视频生成技术正在向着更加成熟和实用的方向发展。

Q&A

Q1:VideoReward是什么?它能做什么?

A:VideoReward是由清华大学和快手科技等机构开发的AI视频评价系统,它能像专业评委一样从视觉质量、运动质量和文本对齐度三个维度评价视频好坏。这个系统基于18.2万个人工标注的视频对比样本训练而成,能够准确判断哪个视频更符合人类偏好,为AI视频生成模型的改进提供指导。

Q2:Flow-DPO这些算法会让视频生成变得更好吗?

A:是的,实验结果显示Flow-DPO算法能显著提升视频生成质量。经过Flow-DPO训练的模型在人类评估中,视觉质量胜率达到93.42%,运动质量胜率为69.08%,文本对齐度胜率为75.43%。这意味着生成的视频在画面清晰度、动作流畅性和内容准确性方面都有明显改善,更符合用户期望。

Q3:普通用户什么时候能用上这项技术?

A:目前这项研究主要面向技术开发者和研究机构,普通用户还无法直接使用。不过,这些技术有望集成到各大视频生成平台中,比如抖音、快手等短视频应用,以及专业的视频制作工具。预计在未来1-2年内,用户就能体验到基于这些技术改进的视频生成服务,享受更智能、更符合个人喜好的视频创作体验。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-