微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 南洋理工大学发现视频生成新突破:让AI学会从真实世界获得"审美指导"

南洋理工大学发现视频生成新突破:让AI学会从真实世界获得"审美指导"

2025-11-27 09:59
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-11-27 09:59 科技行者

这项由南洋理工大学、上海人工智能实验室、电子科技大学、南京大学和商汤科技研究院合作完成的研究发表于2025年10月的arXiv预印本平台,编号为arXiv:2510.14955v1。研究团队由南洋理工大学的黄子琦教授领导,主要作者包括程国、杨丹妮等多位学者。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

现在的AI视频生成技术已经相当成熟,能够创造出各种令人惊叹的视频内容。但是当涉及到生成复杂的人体动作时,这些AI系统往往会犯一些让人啼笑皆非的错误。比如生成一个拥抱的视频时,两个人的胳膊可能会扭曲得像麻花一样,或者一个人在走路时腿部动作完全不符合物理规律。这些问题的根本原因在于,现有的AI训练方法存在一个致命缺陷:它们缺乏真实世界的"审美标准"。

传统的AI训练方法就像一个从未见过真正美食的厨师,只能通过阅读菜谱来学习烹饪。虽然能够照着菜谱做出看起来像样的菜,但总是缺少那种只有经验丰富的大厨才能掌握的精髓。现有的视频生成AI也面临着同样的困境,它们依赖的是所谓的"奖励模型"来判断生成视频的好坏,但这些奖励模型本身就是AI系统,它们对于什么是"自然的人体动作"的理解往往存在偏差。

更令人困扰的是,当前的训练方法存在一个被称为"奖励破解"的现象。就像学生为了应付考试而死记硬背标准答案,AI系统会学会欺骗奖励模型,生成在评分系统看来很高分但在人类眼中却很奇怪的视频。研究团队发现,即使奖励模型给某个视频打了高分,人类观察者往往会发现明显的问题,特别是在人体动作的自然性方面。

为了解决这个根本性问题,研究团队提出了一个革命性的解决方案:RealDPO。这个名字来源于"Real"(真实)和"DPO"(直接偏好优化)的结合,其核心思想非常直观却又充满智慧。与其让AI系统在虚拟世界中自娱自乐,不如直接让它向真实世界学习。

RealDPO的工作原理可以用一个简单的比喻来理解。假设你正在学习舞蹈,传统方法是让你看其他初学者的表演,然后由一个也在学习的人来评判你跳得好不好。而RealDPO的方法则是让你直接观看专业舞蹈家的表演,以此作为学习的标准。显然,后者能让你学到更加自然、流畅的动作。

具体来说,RealDPO使用真实世界的高质量视频作为"获胜样本",同时使用AI自己生成的有问题的视频作为"失败样本"。通过对比这两类样本,AI系统能够清楚地看到自己的错误在哪里,并逐步改进。这种方法最大的优势在于,它不再依赖可能存在偏见的奖励模型,而是直接以人类世界的真实标准为准绳。

为了支持这项研究,团队还创建了一个名为RealAction-5K的数据集。这个数据集就像一个精心挑选的动作示例库,包含了5000个高质量的真实视频片段,涵盖了人们日常生活中的各种活动。这些视频被严格筛选,确保每一个动作都自然、流畅,符合人体运动的基本规律。

值得注意的是,RealAction-5K数据集遵循"少而精"的原则。与那些动辄包含数百万个样本的大型数据集不同,这个数据集故意保持相对较小的规模,但每个样本的质量都经过严格把关。研究团队发现,在RealDPO的框架下,少量高质量的真实样本往往比大量质量参差不齐的样本更有效。

一、让AI拥有"真实世界的眼光"

要理解RealDPO的工作机制,我们需要首先了解传统方法存在的根本问题。当前的AI视频生成系统就像一个只在封闭环境中成长的孩子,它对外界的认知完全来自于其他同样局限的信息源。这些系统通常使用一种叫做"监督微调"的方法进行训练,这种方法的工作方式就像给学生提供标准答案让他们背诵,但没有告诉他们为什么这些答案是正确的。

监督微调方法的最大问题在于缺乏纠错机制。当AI系统生成一个有问题的视频时,它无法理解自己错在哪里,因为它没有一个可靠的参照标准。就像一个从未见过正确示范的人试图学习复杂技能一样,AI系统只能在黑暗中摸索,很容易陷入错误的模式而无法自拔。

RealDPO的创新在于引入了一个清晰的对比学习机制。这种机制类似于人类学习过程中的"示范与纠错"模式。当一个孩子学习骑自行车时,最有效的方法不是让他看其他正在学习的孩子,而是观察熟练骑车者的动作,同时认识到自己摔倒或摇摆的动作是不正确的。

在技术实现上,RealDPO采用了一种叫做"直接偏好优化"的方法。这个方法的核心思想是让AI系统同时看到"好的例子"和"坏的例子",并学会区分两者的差异。好的例子来自真实世界的高质量视频,坏的例子则是AI系统自己生成的有问题的内容。通过不断对比这两类例子,AI系统逐渐学会了什么是自然的动作,什么是不自然的动作。

这种方法的另一个重要优势是避免了"奖励破解"问题。传统方法中,AI系统会学会迎合奖励模型的偏好,即使这些偏好可能与人类的真实感受不符。而在RealDPO中,评判标准是真实世界的视频,这些视频本身就是人类认为自然和正确的,因此不存在被"破解"的可能性。

RealDPO还解决了另一个重要问题:可扩展性。传统的在线强化学习方法需要在训练过程中不断生成和评估视频,这在计算资源上是非常昂贵的,特别是对于高分辨率视频生成任务。RealDPO通过使用预先准备好的真实视频样本,大大减少了训练过程中的计算开销,使得大规模训练成为可能。

二、构建完美的"动作教科书"

为了让RealDPO发挥最大效果,研究团队需要构建一个高质量的训练数据集。这个过程就像编写一本完美的动作教科书,每一页都必须展示最标准、最自然的人体动作。这个数据集被命名为RealAction-5K,其构建过程充满了巧思和严格的质量控制。

数据收集的第一步是确定收集范围。研究团队选择了十多个日常生活场景,包括运动、饮食、行走、拥抱等各种常见活动。这种选择策略确保了数据集能够覆盖人们日常生活中最常见的动作类型,同时也保证了训练出的AI系统能够处理广泛的应用场景。

接下来是视频收集阶段。团队从Pexels等公开视频平台收集原始素材,这个过程既包括有针对性的关键词搜索,也包括手工筛选下载。这种双重策略确保了收集到的视频既有足够的多样性,又符合质量要求。原始收集的视频数量远远超过最终数据集的规模,为后续的精选过程提供了充足的选择空间。

然后是第一轮质量筛选。研究团队使用了先进的视频理解模型Qwen2-VL来自动识别和排除质量较差或与主题不符的视频。这个过程类似于让一个经验丰富的编辑对大量素材进行初步筛选,去除明显不合格的内容。自动筛选大大提高了处理效率,同时确保了基本的质量标准。

第二轮是人工精选阶段。人工标注员仔细检查每个通过自动筛选的视频,确保它们准确地表现了预期的主题,动作正确自然,没有误导性或不相关的内容。这个步骤类似于最终的质量检查,确保每个进入数据集的视频都符合最高标准。

最后一步是生成详细的视频描述。研究团队使用LLaVA-Video这样的视频理解模型为每个视频生成准确的文字描述。这些描述不仅仅是简单的动作标签,而是详细的场景描述,包括参与者的外观、环境背景、动作细节等。这些描述在后续的训练过程中起到了重要的指导作用。

整个数据构建过程体现了"质量重于数量"的理念。虽然最终的RealAction-5K数据集只包含5000个视频片段,但每个片段都经过了层层筛选和严格验证。研究表明,在RealDPO的框架下,这种高质量的小数据集往往比质量参差不齐的大数据集更有效。

数据集的另一个特点是其多样性和代表性。通过分析最终数据集的统计特征,可以发现它很好地覆盖了不同类型的动作、不同的场景背景、不同的参与者特征。这种多样性确保了训练出的AI系统具有良好的泛化能力,能够处理现实世界中的各种情况。

三、训练过程的精妙设计

RealDPO的训练过程就像教导一个学生通过对比优秀作品和自己的作品来提高技能。整个过程被精心设计,确保AI系统能够从每一次对比中学到有价值的经验。

训练的第一步是样本配对。对于每个真实世界的视频(作为"获胜样本"),系统会生成多个对应的AI视频(作为"失败样本")。这个过程类似于让学生看一幅大师作品,然后让他尝试画出类似的作品。通过对比大师作品和学生作品之间的差异,学生能够清楚地看到自己需要改进的地方。

为了增加训练的多样性,研究团队采用了一个巧妙的策略:为每个真实视频生成三个不同的AI版本。这三个版本使用不同的随机初始条件,因此会产生不同类型的错误。这种做法确保了AI系统能够学会识别和避免各种可能的错误模式,而不是只针对某一种特定的错误类型进行优化。

训练过程中的一个关键创新是时间步骤选择器的设计。在视频生成的技术框架中,不同的时间步骤对应着不同程度的图像清晰度。研究团队设计了一个随机时间步骤选择器,能够在训练过程中动态选择不同的时间点进行对比学习。这种做法确保了AI系统在各个生成阶段都能得到有效的指导。

另一个重要的技术细节是参考模型的更新策略。为了防止AI系统偏离原始的能力基础,研究团队保留了一个参考模型作为"锚点"。这个参考模型会定期使用指数移动平均算法进行更新,确保它既能跟上训练进度,又不会偏离太远。这种设计类似于在学习新技能时保持对基础知识的掌握。

训练损失函数的设计也体现了研究团队的深度思考。传统的DPO损失函数被针对视频生成任务进行了专门优化,确保它能够有效地指导视频扩散模型的训练。新的损失函数不仅考虑了生成质量,还特别关注了动作的自然性和时间连贯性。

整个训练过程采用了分阶段的策略。初始阶段侧重于建立基本的质量意识,让AI系统学会区分明显的好坏差异。随着训练的进行,对比的标准逐渐提高,开始关注更加细微的质量差异。这种渐进式的训练策略模仿了人类学习的自然过程,从粗略理解到精细掌握。

训练的计算效率也得到了特别的优化。通过离线预处理负样本和在线生成正样本的混合策略,研究团队大大减少了训练过程中的计算开销。这种做法使得RealDPO能够在相对有限的计算资源下实现高质量的训练效果。

四、令人瞩目的实验成果

为了验证RealDPO的有效性,研究团队设计了一系列全面的评估实验。这些实验就像是对AI系统进行的"技能考试",从多个角度检验它是否真正学会了生成自然、流畅的人体动作视频。

首先是用户研究评估。研究团队邀请了多位测试者对不同方法生成的视频进行盲评。测试者需要从整体质量、视觉一致性、文本对齐、动作质量和人物质量五个维度对视频进行评分。这种评估方式最接近真实世界的使用场景,因为最终的判断者始终是人类用户。

实验结果显示,RealDPO在所有评估维度上都显著优于基础模型和传统的监督微调方法。在整体质量方面,RealDPO获得了73.33%的胜率,相比基础模型的65.56%有了明显提升。更重要的是,在动作质量这个最关键的指标上,RealDPO达到了71.00%的胜率,大幅超越了其他方法。

为了增加评估的客观性,研究团队还采用了大型语言模型进行自动评估。他们使用Qwen2-VL模型作为评估工具,设计了详细的评估指令模板,让AI模型从人类的角度对视频质量进行判断。这种方法的优势在于评估标准的一致性和可重复性。

自动评估的结果与人工评估高度一致,进一步证实了RealDPO的优越性。在文本对齐方面,RealDPO达到了99.22%的准确率,在人物质量方面达到了94.11%的评分。这些数据表明,RealDPO不仅提高了动作的自然性,还在保持其他质量方面做得很好。

研究团队还使用了业界权威的VBench评估框架进行测试。VBench包含了多个专门设计的指标,用于评估视频生成模型的各个方面,包括主体一致性、背景一致性、动作平滑性等。在这些标准化测试中,RealDPO同样表现出色,在大多数指标上都超越了对比方法。

特别值得关注的是质性评估结果。通过观察生成的视频样本,可以清楚地看到RealDPO在处理复杂动作场景时的优势。传统方法经常出现的肢体扭曲、动作不连贯、物理规律违背等问题,在RealDPO生成的视频中大大减少。人物的动作更加自然流畅,符合人类的直觉期待。

实验还揭示了RealDPO在不同场景下的适应性。无论是简单的日常动作,还是复杂的体育运动,RealDPO都能生成更加令人信服的结果。这种泛化能力表明,通过学习真实世界的样本,AI系统获得了更深层次的动作理解能力。

与其他基于奖励模型的方法相比,RealDPO显示出了明显的优势。LiFT和VideoAlign等方法虽然也采用了偏好学习的思路,但由于依赖可能有偏见的奖励模型,它们的效果明显不如直接使用真实样本的RealDPO。这个对比清楚地展示了"真实世界指导"相对于"人工评判标准"的优越性。

五、技术创新的深层意义

RealDPO的技术创新不仅仅体现在具体的算法改进上,更重要的是它代表了AI训练思路的根本性转变。这种转变的深层意义可能会影响整个AI生成领域的未来发展方向。

传统的AI训练方法本质上是一种"闭环学习",AI系统在由其他AI系统构建的评价体系中不断优化自己。这种方法的问题在于,评价标准本身可能存在偏见或局限性,导致整个系统陷入"局部最优"的困境。RealDPO通过引入真实世界的数据作为评价标准,打破了这种闭环,让AI系统能够接触到更加客观和全面的质量标准。

这种思路转变可以类比为教育方法的革新。传统方法就像让学生只通过教科书和考试来学习,而RealDPO则相当于让学生走出教室,在真实世界中观察和学习。显然,后者能够培养出更加全面和实用的能力。

从技术架构的角度来看,RealDPO的创新在于将对抗性学习的思想引入到了生成模型的训练中。通过让AI系统同时观察"正确的例子"和"错误的例子",它能够更加精确地理解什么是高质量的输出。这种对比学习的方法在人类认知科学中早已被证明是非常有效的学习机制。

RealDPO还解决了一个长期困扰AI生成领域的问题:如何定义和量化"自然性"。人体动作的自然性是一个高度主观和复杂的概念,很难用简单的数学公式来描述。通过使用真实世界的视频作为标准,RealDPO巧妙地避开了这个定义难题,让AI系统直接从示例中学习什么是自然的动作。

从计算效率的角度来看,RealDPO的设计也体现了实用性的考虑。传统的强化学习方法通常需要大量的在线采样和评估,计算成本极高。RealDPO通过使用预先准备好的真实样本,大大降低了训练成本,使得这种高质量的训练方法能够在更广泛的场景中应用。

RealDPO的成功还验证了"数据质量胜过数据数量"这一理念。在当前AI发展的背景下,很多研究都在追求更大规模的数据集,但RealDPO证明了精心挑选的高质量小数据集可能比质量参差不齐的大数据集更有效。这一发现对于资源有限的研究团队具有重要的指导意义。

更重要的是,RealDPO为AI系统的可控性和可解释性提供了新的思路。通过直接使用人类能够理解和认同的真实样本作为训练标准,AI系统的行为变得更加可预测和可信任。这种透明性对于AI技术在关键应用领域的部署具有重要意义。

六、未来应用的广阔前景

RealDPO技术的成功为AI视频生成领域开辟了广阔的应用前景。这些应用不仅涵盖了娱乐和创意产业,还延伸到了教育、医疗、体育训练等多个重要领域。

在娱乐内容创作方面,RealDPO能够帮助创作者生成更加自然和真实的人物动作视频。无论是电影特效制作、游戏角色动画,还是社交媒体内容创作,都能从这项技术中受益。创作者不再需要担心AI生成的人物动作看起来僵硬或不自然,可以更加专注于创意和故事本身。

教育培训领域是另一个极具潜力的应用方向。体育教练可以使用这项技术生成标准的动作示范视频,帮助学员更好地理解和掌握技术要领。舞蹈老师可以生成各种舞蹈动作的教学视频,学生可以反复观看和学习。这种应用特别适合那些需要精确动作指导的技能训练。

在医疗康复领域,RealDPO技术可以用于生成康复训练的示范视频。物理治疗师可以为患者定制个性化的康复动作指导,患者可以在家中按照视频进行练习。这种应用不仅提高了康复训练的便利性,还能确保动作的标准性和安全性。

广告和营销行业也能从这项技术中获得巨大价值。品牌可以快速生成展示产品使用场景的视频内容,而不需要昂贵的真人拍摄。这种技术特别适合那些需要展示人物互动或产品使用过程的营销场景。

虚拟现实和增强现实应用是另一个重要的发展方向。RealDPO生成的自然人体动作可以用于创建更加真实的虚拟角色,提升用户的沉浸体验。这对于VR游戏、虚拟会议、远程培训等应用都具有重要意义。

在内容本地化方面,RealDPO技术可以帮助创作者为不同文化背景的观众生成合适的动作内容。不同文化对于手势、表情、互动方式等都有不同的理解和偏好,这项技术可以帮助内容在全球范围内更好地传播。

辅助设计和原型制作也是一个值得关注的应用领域。产品设计师可以快速生成展示产品使用场景的视频,帮助客户更好地理解产品功能。建筑师可以生成展示建筑空间使用情况的视频,为设计决策提供直观的参考。

随着技术的进一步发展,RealDPO可能还会在新闻报道、历史重现、科学可视化等领域找到应用场景。例如,新闻机构可以使用这项技术重现新闻事件的过程,历史学家可以生成展示历史场景的教育内容。

说到底,RealDPO代表的不仅仅是一项技术改进,更是AI学习方式的一次重要进化。通过让AI系统直接向真实世界学习,而不是在虚拟的评价体系中打转,这项技术为AI生成内容的质量和可信度设立了新的标准。对于普通用户来说,这意味着未来我们将能够看到更加自然、真实的AI生成视频内容,无论是在娱乐、教育还是工作场景中。

虽然目前RealDPO主要专注于人体动作的生成,但其核心思想——使用真实世界的高质量样本来指导AI学习——完全可以推广到其他类型的内容生成任务中。这种"真实世界导向"的训练方法可能会成为未来AI发展的一个重要趋势,帮助我们创造出更加可靠、有用的人工智能系统。研究团队已经证明了这种方法的有效性,相信未来会有更多研究者和开发者采用类似的思路,推动整个AI生成技术的进步。有兴趣深入了解技术细节的读者可以通过arXiv:2510.14955v1查阅完整的研究论文。

Q&A

Q1:RealDPO相比传统AI视频生成方法有什么优势?

A:RealDPO最大的优势是直接使用真实世界的高质量视频作为学习标准,而不是依赖可能有偏见的AI评价系统。这就像让学生直接向大师学习,而不是让初学者互相评判。结果是生成的人体动作更加自然流畅,避免了传统方法常出现的肢体扭曲、动作不连贯等问题。实验显示,RealDPO在动作质量方面的胜率达到71%,显著优于其他方法。

Q2:RealAction-5K数据集为什么只有5000个视频,这个规模够用吗?

A:RealAction-5K遵循"质量胜过数量"的原则。这5000个视频都经过了严格的多轮筛选,包括AI自动筛选、人工精选和质量验证,确保每个样本都展示了最自然、标准的人体动作。研究证明,在RealDPO框架下,少量高质量样本比大量质量参差不齐的样本更有效。这种精选策略不仅降低了计算成本,还提高了训练效果。

Q3:普通用户什么时候能体验到RealDPO技术?

A:目前RealDPO还处于研究阶段,主要在学术论文中展示了技术可行性。但考虑到其显著的效果提升和相对较低的计算成本,这项技术很可能会被视频生成公司快速采用。预计在未来1-2年内,我们就能在各种AI视频生成工具中看到基于类似原理的改进版本,特别是在需要生成人物动作的应用场景中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-