微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 香港大学团队突破视频生成瓶颈:一小时超长视频也能保持完美连贯性

香港大学团队突破视频生成瓶颈:一小时超长视频也能保持完美连贯性

2025-12-12 09:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-12 09:15 科技行者

这项由香港大学的俞逸飞、吴晓山、胡欣庭等研究者,联合字节跳动PICO团队和南方科技大学共同完成的研究,于2025年12月发表在计算机视觉领域顶级会议,论文编号为arXiv:2512.04519v1。感兴趣的读者可以通过该编号查询完整论文内容。

当前的AI视频生成技术就像一个健忘的导演,拍摄几分钟后就开始忘记故事的开头,导致画面变得混乱、角色面目全非,甚至开始无限循环同样的动作。而这个团队开发的VideoSSM系统,却能像一个经验丰富的导演一样,即使拍摄一小时的长片,也能完美记住每个角色的特征和故事的脉络,让视频从头到尾保持惊人的一致性。

要理解这个突破的重要性,我们需要先了解当前AI视频生成面临的核心挑战。现有的视频生成系统在创作短视频时表现不错,但一旦要求它们生成几分钟以上的长视频,就会出现三个致命问题:首先是累积错误,就像传话游戏一样,每一帧的小错误会不断叠加,最终导致画面崩坏;其次是运动漂移,角色可能会莫名其妙地改变位置或姿态;最后是内容重复,系统会像卡住的唱片一样,不断重播相同的动作序列。

传统的解决方案就像给健忘症患者写便条,要么在手机里存储最近的信息(滑动窗口注意力),要么把最重要的几件事写在纸条上随身携带(注意力锚点机制)。前者会导致远期记忆丢失,后者虽然能保持长期一致性,但会让生成的内容变得僵化和重复,就像一个人总是念叨着同样的老故事。

VideoSSM的创新之处在于模仿了人类大脑的记忆机制,建立了一套"双重记忆系统"。这个系统包含两个互补的记忆模块:局部记忆和全局记忆。局部记忆就像人的工作记忆,负责处理当前正在发生的事情,保持最近几帧画面的详细信息,确保动作的流畅性和细节的准确性。而全局记忆则像人的长期记忆,它会不断压缩和存储历史信息,形成对整个视频内容的抽象理解。

这个全局记忆模块的核心是一个叫做状态空间模型(SSM)的技术。可以把它想象成一个智能的信息压缩器,它不是简单地删除旧信息,而是会筛选出最重要的特征,将它们压缩成紧凑的"记忆胶囊"。随着视频的生成进行,这个记忆胶囊会不断更新,既保留了历史的精华,又为新内容留出了空间。

更巧妙的是,VideoSSM还设计了一个"记忆路由器",它能根据当前的生成情况,动态决定应该更多地依赖局部记忆还是全局记忆。在视频的开始阶段,系统主要依靠局部记忆,确保初始画面的质量。随着内容的增加,全局记忆的作用逐渐增强,帮助维持整体的一致性。这个过程就像一个经验丰富的编剧,既关注每个场景的细节,又不忘记整个故事的主线。

在训练过程中,研究团队采用了一种叫做"自强迫蒸馏"的技术。这个过程可以比作让一个新手厨师跟着大师学艺。首先,他们有一个"老师模型",这是一个在短视频生成上已经很成熟的系统,就像一个能做出完美五分钟大餐的大厨。然后,他们让新的VideoSSM系统(学生模型)观察这个老师的工作方式,学习如何在短时间内保持高质量。

接下来是关键的第二阶段训练,叫做"长视频训练"。在这个阶段,VideoSSM需要独立生成长视频,就像让学徒厨师尝试做一顿需要几个小时的大餐。系统会自己生成一段长视频,然后老师模型会在其中随机选择一小段进行"品尝"和纠错。这种训练方式确保了VideoSSM既能保持短期的生成质量,又能在长时间创作中避免累积错误。

实验结果令人印象深刻。在短视频生成的标准测试中,VideoSSM在总体评分、质量评分等关键指标上都超越了当前主流的自回归视频生成模型,总分达到83.95分,质量分达到84.88分,在同类模型中排名第一。更重要的是,在一分钟长视频生成测试中,VideoSSM在主体一致性和背景一致性方面都取得了最高分,分别达到92.51分和93.95分,显著超过了其他竞争对手。

特别值得注意的是动态程度这个指标。传统的解决方案要么牺牲一致性获得动态效果,要么通过静态锚点保持一致性但失去生动性。VideoSSM却实现了50.50的动态程度分数,远高于竞争对手的37.50分,这意味着它能在保持长期一致性的同时,让视频内容保持自然的变化和演进。

在实际的视频生成效果上,研究团队展示了多个令人印象深刻的案例。比如在一个汉堡的60秒展示视频中,其他系统要么出现了严重的画面崩坏,要么让汉堡变成了无法辨识的模糊物体,而VideoSSM生成的汉堡从始至终都保持着清晰的结构和一致的外观。在一个小孩游泳的水下场景中,传统方法要么让孩子变得静止不动,要么出现了莫名其妙的重影,而VideoSSM成功捕捉到了自然的游泳动作,并在整个60秒过程中保持了角色的身份识别。

VideoSSM还支持交互式视频生成,这是一个非常实用的功能。用户可以在视频生成过程中改变文本提示,系统能够平滑地过渡到新的场景描述,而不会出现突兀的跳跃或残留的旧元素。这就像一个灵活的导演,能够根据制片人的即时要求调整拍摄方向,同时保持故事的连贯性。

为了验证用户的真实感受,研究团队还进行了大规模的用户研究。40名参与者观看了由不同系统生成的一分钟视频,并根据视觉质量、时间一致性、物理合理性和文本匹配度进行排名。结果显示,VideoSSM获得了41.07%的第一名票数,平均排名为1.85,明显优于其他竞争方法。用户普遍反映,VideoSSM生成的视频不仅保持了长期的一致性,而且内容更加生动有趣,避免了其他系统常见的重复和僵化问题。

从技术效率的角度来看,VideoSSM实现了线性时间复杂度,这意味着生成时间随视频长度线性增长,而不是像传统全注意力方法那样呈指数增长。这使得生成一小时视频成为现实可能,而不需要天文数字的计算资源。

这项研究的意义远超技术本身。它为长视频生成奠定了全新的架构基础,证明了混合记忆机制在处理长序列任务中的有效性。这种思路不仅适用于视频生成,也可能启发其他需要长期一致性的AI应用,比如长篇故事创作、游戏世界建模,甚至机器人的长期任务规划。

对于普通用户而言,这项技术的成熟将带来革命性的变化。创作者将能够用简单的文字描述生成高质量的长视频内容,极大地降低视频制作的门槛和成本。教育工作者可以快速制作教学视频,企业可以批量生成产品展示内容,个人用户也能轻松创建家庭纪念视频。

当然,这项技术目前还在研究阶段,距离大规模商业应用还需要时间。研究团队也提到了未来的改进方向,包括整合多模态输入、加入相机感知能力,以及扩展到可控的长视频编辑功能。

说到底,VideoSSM代表了AI视频生成技术的一个重要里程碑。它解决了困扰该领域多年的长期一致性问题,为创造真正实用的视频生成系统铺平了道路。随着这类技术的不断完善,我们正在向着一个人人都能成为视频创作者的时代迈进,那时候,丰富的视觉表达将不再受限于技术门槛,而是真正成为每个人表达想法和创意的工具。

Q&A

Q1:VideoSSM是什么?

A:VideoSSM是由香港大学和字节跳动团队开发的AI视频生成系统,它的最大特点是能生成一小时长度的视频,并且从头到尾保持角色和场景的完美一致性,解决了传统AI视频生成中的画面崩坏、运动漂移和内容重复等问题。

Q2:VideoSSM的双重记忆系统是如何工作的?

A:VideoSSM模仿人脑记忆机制,设计了局部记忆和全局记忆两个模块。局部记忆负责保持最近几帧的详细信息确保动作流畅,全局记忆则通过状态空间模型压缩历史信息形成抽象理解。系统还有智能路由器根据生成阶段动态调配两种记忆的使用比例。

Q3:VideoSSM比其他视频生成AI有什么优势?

A:VideoSSM在一分钟长视频生成中取得了最高的主体一致性(92.51分)和背景一致性(93.95分),同时保持了50.50的高动态程度,远超竞争对手。它既避免了传统方法的画面崩坏问题,又不会像静态锚点方法那样产生僵化重复的内容。

分享至
2赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-