微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 UCLA与字节跳动联手打造视频生成新纪元:四分钟超长视频一次生成成为现实

UCLA与字节跳动联手打造视频生成新纪元:四分钟超长视频一次生成成为现实

2025-10-29 13:56
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-10-29 13:56 科技行者

这项由UCLA(加州大学洛杉矶分校)的Cho-Jui Hsieh教授与字节跳动种子团队的Jie Wu博士共同领导的研究,发表于2025年10月的计算机视觉顶级会议论文集,论文编号为arXiv:2510.02283v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当下的视频生成技术就像是一个只会做小点心的烘焙师傅——虽然手艺精湛,但每次只能做出几秒钟的"小蛋糕"。现在的顶级模型,比如大名鼎鼎的Sora,虽然能制作出令人惊叹的短视频,但时长通常被限制在5到10秒之内。这就好比一个才华横溢的导演,却只能拍摄超短的广告片,无法创作完整的故事。

问题的根源在于现有技术的架构设计。传统的扩散变换器模型就像是一个需要同时处理所有画面的全能画家,它必须一次性构思整部作品的每一个细节。这种工作方式虽然能保证画面质量,但计算成本极其昂贵,就像要求画家在脑海中同时描绘一幅巨大壁画的每一个笔触。

为了突破这个瓶颈,一些研究者开始尝试自回归的方法——就像连环画家一样,先画好第一幅画,再根据第一幅的内容画第二幅,依此类推。这种方法的优势是可以不断延续创作,理论上能画出无限长的故事。然而,这种方法面临着一个严重的问题:误差累积。就像传话游戏一样,每传递一次信息就会产生一点偏差,当传递的次数足够多时,最终的结果可能与原始信息相去甚远。

在视频生成中,这种误差累积表现为画面逐渐变暗、动作停滞、甚至完全失去连贯性。研究者们发现,现有的自回归视频生成方法在生成超过5秒的视频时,画面质量会急剧下降,这正是误差累积效应的直接体现。

UCLA和字节跳动的研究团队深入分析了这个问题,发现了一个关键矛盾:在训练阶段,模型就像是在温室中长大的植物,只见过完美的5秒短片;但在实际应用时,却要求它在野外生存,生成几分钟甚至更长的视频。这种训练与实际应用之间的巨大差异,就是导致长视频生成质量下降的根本原因。

研究团队提出了一个巧妙的解决方案,他们称之为"Self-Forcing++"。这个方法的核心思想就像是让学徒在师傅的指导下,不断练习修复自己的失败作品。具体来说,他们让学生模型先尝试生成长视频,这些长视频必然会包含各种错误和质量下降的问题。然后,他们请"师傅"(原本只会生成短视频的教师模型)来指导如何修复这些问题。

这种训练方式的巧妙之处在于,它让学生模型提前见识了长视频生成中会遇到的各种困难,并学会了如何应对。就像一个司机不仅要学会在驾校的标准道路上开车,还要学会应对各种复杂路况一样。通过这种方式,模型在实际生成长视频时,就能更好地处理误差累积的问题。

为了实现这个目标,研究团队设计了三个关键技术组件。第一个是"逆向噪声初始化",这就像是在修复一幅画时,先给画面添加适量的模糊效果,然后再让模型学会如何去除这些模糊并恢复清晰度。第二个是"扩展分布匹配蒸馏",这个过程就像是让学生模型在更长的时间跨度内,学会模仿师傅的绘画风格。第三个是"滚动式键值缓存",这就像是给模型配备了一个可以滑动的观察窗口,让它能够在生成新内容时,参考之前生成的内容,保持整体的一致性。

实验结果令人印象深刻。在标准的5秒视频生成任务中,新方法的表现与现有最佳方法不相上下,语义得分达到80.37分,总体得分为83.11分。但真正的突破在于长视频生成能力。在50秒视频生成任务中,Self-Forcing++的文本对齐分数达到26.37,比基线方法提升了6.67%;动态程度得分为55.36,比基线方法提升了令人惊叹的104.9%。

更加令人瞩目的是,当研究团队扩大训练规模时,这个方法展现出了惊人的可扩展性。通过25倍的训练计算量投入,模型成功生成了长达255秒(4分钟15秒)的高质量视频,这几乎达到了基础模型位置编码能力的极限——99.9%。这相比基线方法实现了50倍的提升,标志着视频生成技术的一个重要里程碑。

研究团队还发现了现有评估标准的一个重要问题。广泛使用的VBench评估基准存在一个偏见:它往往给过度曝光和质量下降的画面打出较高分数。这就像是一个色彩偏好有问题的评委,总是青睐那些过于鲜艳甚至刺眼的画面。为了解决这个问题,研究团队引入了最先进的多模态大语言模型Gemini-2.5-Pro作为新的评估工具,并设计了"视觉稳定性"这一新指标,专门用于检测长视频中的质量下降和过度曝光问题。

在实际应用测试中,Self-Forcing++展现出了优异的性能。与其他方法相比,它不仅能够保持长时间的动作连贯性,还能避免常见的失败模式。比如CausVid方法容易产生过度曝光的画面,就像相机设置错误导致的过亮照片;而Self-Forcing方法则容易出现画面逐渐变暗和动作停滞的问题,就像电池即将耗尽的设备。相比之下,Self-Forcing++能够在整个生成过程中保持稳定的亮度和持续的动作。

这项技术的意义不仅在于能够生成更长的视频,更重要的是它为视频生成领域开辟了新的可能性。在实际应用中,这意味着内容创作者可以生成完整的故事片段,教育工作者可以制作详细的教学视频,而普通用户也能创作出更加丰富和完整的视频内容。

研究团队在论文中坦诚地讨论了当前方法的局限性。由于继承了Self-Forcing基础架构的特点,新方法在训练速度上仍然比传统的教师-学生训练方法要慢一些。此外,模型缺乏长期记忆能力,这可能导致在某些长时间被遮挡的区域出现内容不一致的情况。

为了验证方法的有效性,研究团队进行了详尽的对比实验。他们将Self-Forcing++与包括NOVA、Pyramid Flow、MAGI-1、SkyReels-V2等在内的多种先进方法进行比较。结果显示,在75秒和100秒的视频生成任务中,Self-Forcing++在几乎所有关键指标上都取得了最佳表现。特别值得注意的是,在100秒视频生成中,该方法的动态程度得分达到54.12,远超其他所有方法。

研究团队还进行了一系列精心设计的消融实验,以验证每个技术组件的重要性。他们发现,仅仅缩短注意力窗口虽然能带来一定改善,但效果有限。而引入光流奖励的强化学习技术则能显著提升视频的时间连贯性,有效抑制突然的场景转换和不自然的动作变化。

这项研究的影响已经开始在学术界和工业界产生反响。它不仅推动了长视频生成技术的发展,也为相关领域提供了新的思路。研究团队表示,他们正在探索将长期记忆机制整合到自回归框架中的方法,这可能进一步提升长视频生成的质量和一致性。

值得注意的是,这项工作的出现恰逢视频生成技术快速发展的时期。与同期发表的Rolling Forcing和LongLive等工作相比,Self-Forcing++的简化设计避免了对注意力沉降帧的依赖,这使得整个系统更加简洁和高效。所有这些方法的共同点是都能生成几分钟长的高质量视频,这标志着自回归长视频生成技术的重大进步。

从技术实现的角度来看,Self-Forcing++的成功在于它巧妙地解决了训练和推理之间的不一致问题。通过让模型在训练过程中就接触到长视频生成的挑战,并学会如何应对这些挑战,该方法实现了从短视频专家到长视频大师的华丽转身。

这项研究也为我们理解人工智能学习过程提供了新的视角。就像人类学习一门技能时,不仅要练习基础动作,还要学会应对各种意外情况一样,AI模型也需要在训练中接触到真实世界的复杂性和不确定性。Self-Forcing++的成功证明了这种"在实战中学习"的训练理念的有效性。

展望未来,这项技术有望在多个领域产生深远影响。在娱乐行业,它可能彻底改变视频内容的制作流程,让独立创作者也能制作出电影级别的视频内容。在教育领域,教师可以轻松制作出详细的教学视频,让复杂概念变得生动易懂。在商业应用中,企业可以快速生成产品演示视频或营销内容,大大降低制作成本和时间。

说到底,UCLA和字节跳动团队的这项研究不仅仅是技术上的突破,更是对AI创造力边界的一次成功拓展。通过解决长视频生成中的关键技术难题,他们为人工智能在创意产业的应用开辟了新的可能性。虽然目前这项技术还主要停留在研究阶段,但随着计算能力的不断提升和算法的进一步优化,相信不久的将来,普通用户也能享受到这种技术带来的便利。这项研究再次证明了学术界与工业界合作的巨大潜力,也为AI视频生成技术的未来发展指明了方向。

Q&A

Q1:Self-Forcing++是什么?它与传统视频生成方法有什么区别?

A:Self-Forcing++是由UCLA和字节跳动联合开发的长视频生成方法。传统方法只能生成5-10秒短视频,就像只会做小点心的师傅。Self-Forcing++则通过让模型先生成包含错误的长视频,再让教师模型指导修复,最终实现了4分钟超长视频的高质量生成。

Q2:为什么之前的视频生成模型无法制作长视频?

A:主要原因是"误差累积"问题,就像传话游戏一样。现有模型在训练时只见过5秒短片,但实际应用时却要生成几分钟长视频。每生成一帧新画面都会产生小误差,时间越长误差越严重,最终导致画面变暗、动作停滞或完全失去连贯性。

Q3:Self-Forcing++生成的长视频质量如何?有什么实际应用价值?

A:在100秒视频生成中,Self-Forcing++的动态程度得分达到54.12,远超其他方法。最长可生成4分15秒高质量视频,比基线方法提升50倍。这项技术可用于影视制作、教育视频、产品演示等领域,让独立创作者也能制作电影级内容。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-