在人工智能迅速发展的今天,我们正在见证视频生成技术的革命性突破。最近,由斯坦福大学、上海交通大学、香港中文大学、上海人工智能实验室和南洋理工大学的研究团队联合发表了一篇引人注目的论文《具有长期空间记忆的视频世界模型》(Video World Models with Long-term Spatial Memory)。这篇论文发表于2025年6月5日的arXiv预印本平台(arXiv:2506.05284v1),由Tong Wu、Shuai Yang(共同第一作者)、Ryan Po、Yinghao Xu、Ziwei Liu、Dahua Lin和Gordon Wetzstein共同完成。有兴趣深入了解的读者可以通过https://spmem.github.io/访问项目主页。
一、为什么我们需要让AI记住它生成的世界?
想象一下,你在玩一个开放世界的电子游戏。你探索了一座城堡,离开去探险,然后几小时后决定回到那座城堡。令人惊讶的是,城堡的布局、装饰和整体外观都与你第一次访问时完全相同。这种一致性对于创造沉浸式体验至关重要。
然而,当前的视频世界模型——也就是那些能够根据指令自动生成连续视频的AI系统——在这方面面临着严重的挑战。它们往往会"忘记"之前生成的场景细节,导致在重访已生成区域时出现不一致性。就好像游戏世界每次你转身离开后又重新随机生成了一样!
这个问题的核心在于这些模型的"记忆"能力有限。目前的视频生成模型通常只能"记住"最近生成的几帧画面,用作生成下一帧的参考。这就像只能记住最近5分钟发生的事情,而忘记了5分钟前的一切。这种短期记忆限制极大地阻碍了这些模型创建长期一致的虚拟世界的能力。
为什么会这样呢?这主要是因为计算复杂度的问题。视频生成模型中的注意力机制需要处理所有历史帧之间的关系,这会导致计算复杂度随着帧数增加而呈二次增长。简单来说,让AI"记住"的画面越多,需要的计算资源就呈爆炸性增长,很快就会超出实际硬件能承受的范围。
斯坦福大学和上海交大的研究团队受到人类记忆机制的启发,提出了一个创新的解决方案。我们人类并不是简单地记住过去所有经历的每一个细节,而是通过不同类型的记忆系统组织信息:工作记忆用于短期记住近期事件,空间记忆用于记住环境的布局和结构,而情节记忆则帮助我们记住特定的重要事件和经历。
研究团队模仿这种多层次的记忆结构,为视频世界模型设计了三种互补的记忆机制: 1. 短期工作记忆:类似于现有模型使用的最近生成帧 2. 长期空间记忆:使用三维点云表示持久的空间结构 3. 稀疏情节记忆:存储关键历史帧作为重要参考点
就像人类记忆系统的分工合作一样,这三种记忆机制各司其职,协同工作,使AI能够在生成长视频时保持场景的一致性,即使摄像机回到之前已经"看过"的区域。
二、如何构建AI的"三重记忆系统"?
研究团队设计的记忆系统让我们联想到人类大脑中的不同记忆区域。让我们深入了解每种记忆类型是如何工作的。
首先是短期工作记忆。想象你正在做一道复杂的数学题,需要暂时记住一些中间步骤和数值。这就是工作记忆的功能——暂时存储我们正在处理的信息。在视频生成模型中,短期工作记忆由最近生成的几帧视频(通常是5-10帧)组成。这些帧为模型提供了关于当前场景中动态元素(如移动的人物或车辆)的即时上下文,确保运动的连贯性和短期一致性。
但仅有短期记忆是不够的。想象你离开家去度假两周,当你回来时,你仍然记得你家的布局、家具的位置以及整体结构。这就是空间记忆的作用——帮助我们记住环境的物理结构和布局。
研究团队设计的长期空间记忆使用一种称为"点云"的三维表示。这种表示法就像是用无数小点标记出场景中所有物体的位置和外观,共同构成了整个场景的三维地图。更重要的是,系统能够区分场景中的静态部分(如建筑物和树木)和动态部分(如行走的人或移动的车辆),并且只将静态部分存储在长期空间记忆中。
研究团队使用了一种称为"截断符号距离函数融合"(TSDF融合)的技术来实现这一点。这听起来很复杂,但其原理其实很直观。想象一下,如果你多次拍摄同一个场景,静态物体(如建筑物)在每张照片中的位置应该是一致的,而动态物体(如行人)则会出现在不同位置。TSDF融合技术就是通过比较多帧图像,找出哪些元素保持不变(静态部分),哪些元素在变化(动态部分),然后只保留那些静态的、一致的元素在空间记忆中。
最后一种是情节记忆,这就像是我们记住生活中特定重要事件的能力——比如你的大学毕业典礼或第一次约会的细节。在AI系统中,研究团队设计的情节记忆存储了一系列关键的历史参考帧。当系统探索到新区域时,它会保存这些区域的关键帧作为"快照",以便将来需要时参考。这些情节记忆帧帮助系统记住特定视角下场景的详细视觉特征,这些特征可能在点云表示中丢失。
这三种记忆机制如何协同工作呢?想象你正在使用这个AI系统探索一个虚拟城市。系统使用短期工作记忆来确保你看到的人物行走动作流畅自然;使用长期空间记忆来记住城市的建筑布局、街道结构和其他静态元素;当你转身回头看之前走过的街道时,系统会从情节记忆中检索相关的关键帧,确保你看到的街道与之前看到的完全一致,包括其中的细节和纹理。
三、从理论到实践:如何训练这样的记忆系统?
要训练一个具有长期记忆能力的视频世界模型,研究团队需要专门的数据和创新的训练方法。这就像教一个孩子记住一个城市的布局——你需要带他多次游览这个城市的不同部分,然后测试他是否能记住路线和地标。
研究团队首先从MiraData数据集中收集了原始视频。这个数据集包含了丰富的、长时间的视频序列,非常适合训练需要理解长期一致性的模型。他们将每个视频分割成97帧的片段,其中前49帧作为"源序列",后48帧作为"目标序列",中间有一帧重叠以保持连续性。
接下来,研究团队使用一个名为Mega-SaM的4D重建工具从这些视频中提取相机内参、外参和每帧的深度图。简单来说,这个工具可以理解视频中相机是如何移动的,以及场景中不同物体有多远。然后,他们将这些信息输入到TSDF融合系统中,将源序列的RGB-D观测(即颜色和深度信息)整合到一个体积网格中。这个过程会自动抑制由动态物体(如行人)造成的不一致深度信息,从而得到一个干净的静态场景重建。
有了这些处理过的数据,研究团队为每个训练样本创建了以下成对数据: - 源视频序列及其相机轨迹 - 从融合的静态点云中渲染的目标轨迹的静态场景引导 - 目标序列的完整RGB帧作为监督信号
这就像是给AI系统提供了一本详细的"记忆训练手册":首先观看视频的开始部分,然后使用从中提取的静态场景知识,预测视频后续部分应该是什么样子。通过不断重复这个过程,AI系统逐渐学会了如何维护和利用长期空间记忆。
研究团队最终构建了一个包含90,000个结构化视频样本的数据集,每个样本都配有明确的3D空间记忆和未来观测。他们使用这个数据集来训练他们的模型,使其能够学习如何有效地存储和检索不同类型的记忆。
四、记忆系统如何引导视频生成?
现在,让我们看看这个记忆增强的系统如何实际工作。想象一下厨师在准备一道复杂的菜肴,需要同时参考食谱(长期计划)、关注当前正在烹饪的步骤(短期工作记忆),并回想过去做过的类似菜肴的经验(情节记忆)。研究团队的视频生成系统以类似的方式整合了三种不同的记忆机制。
系统的核心是一个称为"扩散变换器"(DiT)的视频生成模型。这种模型通过迭代去噪过程生成视频帧,就像艺术家从模糊的草图逐渐精细化到细节丰富的画作。研究团队基于CogVideoX-5B-I2V架构实现了他们的系统,这是一个强大的预训练视频生成模型。
为了将静态点云渲染整合到生成过程中,研究团队设计了一个类似于ControlNet的架构。想象这就像是给艺术家提供了一个场景的线框图,帮助他们保持透视和比例正确。系统首先沿着输入轨迹从当前静态空间记忆中渲染条件视频,背景中缺少点云的区域设置为黑色。然后使用预训练的3DVAE将这个静态点云渲染编码为条件潜在变量。这些条件信息通过从主DiT块复制的前18个预训练DiT块进行处理,并通过零初始化的线性层添加到主DiT中相应的特征图。
为了支持动态元素的生成和现有动态元素的时间延续,系统将源视频最后五帧的标记与目标视频标记沿帧维度连接起来,提供动态上下文引导。此外,目标条件标记也与前面提到的近期上下文标记结合,确保帧级对应关系。
最后,为了在记忆帧和当前生成的帧之间建立信息交换,系统选择代表性的历史关键帧作为辅助参考帧。这些参考帧也由3DVAE编码并被分块为参考标记。系统添加了一个历史交叉注意力机制,引导当前生成帧和记忆帧之间的信息交换。具体来说,视频标记作为查询,参考标记作为键和值。
在实际使用过程中,系统自回归地生成视频帧,每次生成几帧,然后将这些新帧纳入上下文窗口,用于生成下一批帧。同时,系统在线更新空间记忆和情节记忆,为未来的生成提供更好的长期一致性。这就像是一个不断学习和记忆的系统,随着探索的继续,其对世界的理解也在不断丰富和完善。
五、实验证明:记忆增强确实有效
研究团队进行了全面的评估,证明他们的记忆增强方法在多个方面显著优于现有方法。他们的评估集中在三个关键方面:视角回忆一致性、整体视频质量和用户研究。
首先是视角回忆一致性。想象你参观一座城市,早上看了某个景点,下午又回到同一个地方。如果这是真实世界,你会期望看到基本相同的景色(除了可能的光线变化和移动物体)。研究团队设计了一个"视角回忆"实验,让系统生成沿着前进然后返回的相机轨迹的视频,并比较相同相机位置处生成的帧。他们使用PSNR、SSIM和LPIPS等图像重建指标来评估这种一致性。
结果令人印象深刻:他们的方法在PSNR上达到了19.10,而最接近的基线方法只有12.16;在SSIM上达到了0.6471,而基线最高只有0.4512;在LPIPS上达到了0.3069(越低越好),而基线最低只有0.5874。这意味着他们的系统在重访同一场景时,能够生成更加一致的图像,大大减少了"忘记"现象。
第二个评估维度是整体视频质量。研究团队使用VBench指标套件评估了六个方面:美学质量、成像质量、时间闪烁、运动平滑度、主体一致性和背景一致性。与基线方法相比,他们的方法在大多数指标上表现更好,特别是在美学质量、减少时间闪烁和运动平滑度方面。这表明记忆增强不仅改善了长期一致性,还提高了整体视频质量。
最后,研究团队进行了一项全面的用户研究,邀请20位有视频/3D/4D生成经验的受试者对他们的方法和三个基线方法生成的结果进行排名。他们选择了14个代表性用例,包括静态场景的新视角合成、动态场景的新视角合成(第一人称和第三人称视角),以及覆盖真实和游戏风格的场景样式。用户从三个角度评估结果:相机准确性、静态一致性和动态合理性。
用户研究结果明确显示,他们的方法在所有三个评估标准上都显著优于基线,平均人类排名分数分别为3.6260(相机准确性)、3.3846(静态一致性)和3.4011(动态合理性),远高于基线方法。
为了深入了解各个记忆组件的贡献,研究团队还进行了消融实验,移除短期工作记忆或长期情节记忆,并比较结果。实验表明,每个组件都一致地贡献到性能改进中。特别是,上下文帧(工作记忆)在增强短期运动连贯性方面起着关键作用,而历史参考帧(情节记忆)则帮助模型更好地保留和利用时间距离较远的细节,提高静态区域和主体的长期一致性,并进一步增强涉及移动实体的运动的合理性和连续性。
六、局限性与未来展望
尽管研究团队的方法取得了显著的进步,但仍存在一些局限性。最显著的问题是他们用于存储新生成信息到空间记忆中的TSDF融合算法并不完美。特别是,当从与之前观测非常不同的相机位置查看之前生成的内容时,会引入伪影。
研究团队展示了一个失败案例:当连续相机位置之间的距离过大,轨迹展现过于突兀的角度变化时,4D重建可能会失败,导致帧之间出现明显的鬼影伪影。结果,TSDF融合会过滤掉大量本应属于静态区域的点云,最终导致极度稀疏的空间记忆和关键信息的丢失。例如,蜘蛛侠在摩天大楼之间快速摆荡的场景说明了这种具有挑战性的相机轨迹如何导致空间记忆存储中的遗漏,从而导致不精确的相机控制和不一致性。
此外,研究团队指出,他们的记忆机制主要设计用于实现空间一致性,而近期的帧打包策略(如FramePacker)主要关注角色一致性。未来的工作可能会结合这些机制,同时实现两种类型的一致性。他们解决的遗忘问题只是视频世界模型面临的几个挑战之一。另一个挑战是"漂移"——由于随时间累积的错误导致图像质量下降,这是他们没有解决的问题。
尽管如此,这项研究为提高视频世界模型的长期一致性迈出了重要一步。通过引入受人类记忆机制启发的记忆系统,研究团队展示了如何使视频生成模型"记住"它们已经生成的世界,为内容创作或为代理或机器人创建训练数据的视频世界模型铺平了道路。
七、总结:向人类般的AI记忆迈进
归根结底,斯坦福和上海交大研究团队的这项工作向我们展示了AI系统如何通过模仿人类的记忆机制变得更加智能和实用。就像我们人类依靠工作记忆处理眼前的任务,依靠空间记忆导航熟悉的环境,依靠情节记忆回忆特定经历一样,这个增强的视频世界模型现在也拥有了多层次的记忆系统,使其能够创建更加一致和沉浸式的视频体验。
这项研究的实际应用非常广泛。从游戏开发到虚拟现实,从电影制作到机器人训练,任何需要生成长时间、一致视频内容的领域都可能从中受益。想象一下未来的AI助手能够为你创建一个虚拟旅游体验,带你游览一个虚构的城市,而无论你如何探索,城市的布局和外观都保持一致。
当然,这项研究只是朝着更智能、更人性化的AI系统迈出的一步。随着技术的不断发展,我们可以期待看到更加复杂和高效的记忆机制,进一步缩小AI系统与人类认知能力之间的差距。
如果你对这项研究感兴趣,可以通过访问https://spmem.github.io/了解更多详情,或者直接阅读论文原文。这项突破性的工作无疑将为视频生成和世界模型的未来发展铺平道路,让我们拭目以待这些技术将如何改变我们创建和体验虚拟世界的方式。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。