这项由新加坡国立大学ShowLab实验室的顾宇超、毛伟佳和寿迈克教授团队完成的研究,发表于2025年5月18日的arXiv预印本平台(论文编号:arXiv:2503.19325v3),感兴趣的读者可以通过https://github.com/showlab/FAR访问完整的研究代码和论文。这项研究解决了一个让AI研究者头疼已久的问题:如何让人工智能在生成视频时不仅能记住刚刚发生的事情,还能像人类看电影一样,牢牢记住很久之前出现的场景和细节。
当前最先进的AI视频生成模型,比如Wan和Cosmos,虽然能够生成令人惊叹的短视频片段,但就像患了严重健忘症的人一样,只能记住大约5秒钟的内容。这意味着如果你想让AI生成一个长视频,比如一个角色在房间里走来走去,AI很可能在几秒钟后就完全忘记了房间最初的布局,导致生成的视频中家具位置不断变化,墙壁颜色时而变化,完全违背了物理世界的基本规律。
这个问题的根源在于视频数据的复杂性远超文本。当我们阅读一篇长文章时,每个词汇只占用很小的存储空间。但视频就像一本包含无数精美插图的百科全书,每一帧都包含大量的视觉信息。随着视频长度的增加,AI需要处理的信息量呈爆炸式增长,就像一个人试图同时记住一百本小说的所有细节一样,最终只能选择性遗忘。
新加坡国立大学的研究团队敏锐地意识到,要让AI成为真正的"世界模拟器",就必须解决这个长期记忆问题。他们的解决方案就像是给AI设计了一套全新的记忆系统,这套系统不仅能够高效地记住长视频中的所有重要信息,还能显著降低计算成本。
**一、FAR:一个善于记忆的AI视频生成器**
研究团队开发的核心技术被称为FAR(Frame AutoRegressive,帧自回归模型)。可以把FAR想象成一位非常有经验的电影制作人,他不仅能够根据剧本生成下一个镜头,还能牢牢记住之前所有镜头的内容,确保整部电影的连贯性和逻辑性。
FAR的工作原理可以用制作连续剧来类比。传统的AI视频生成方法就像是每集都换编剧的连续剧,新编剧对之前的剧情一知半解,因此很容易出现前后矛盾的情况。而FAR则像是由同一位编剧从头到尾负责的连续剧,编剧不仅记得上一集发生了什么,还清楚地记得第一集的所有细节。
在技术实现上,FAR采用了一种被称为"流匹配"的训练方法。这种方法可以比作教一个学生画画的过程。传统方法就像是让学生从完全随机的涂鸦开始,逐步修改成目标图像。而流匹配方法则像是给学生提供了一条从起点到终点的清晰路径,学生只需要沿着这条路径前进即可。这种方法不仅训练速度更快,而且生成的视频质量更高。
FAR的架构基于扩散变换器(Diffusion Transformer),但在注意力机制方面做了重要改进。可以把注意力机制理解为AI的"注意力分配系统"。在生成每一帧视频时,FAR会仔细查看之前的所有帧,就像一个细心的导演在拍摄新镜头时会反复检查之前的素材,确保新镜头与整体风格保持一致。
特别值得注意的是,FAR解决了一个困扰混合AR-扩散模型的重要问题:训练-推理差异。这个问题就像是学生在考试时遇到了与平时练习完全不同的题型。在训练过程中,模型看到的是加了"噪声"的模糊图像,但在实际应用时却需要处理清晰的图像。研究团队通过引入"随机清洁上下文"技术巧妙地解决了这个问题,就像是在平时练习中故意混入一些考试真题,让学生提前适应考试环境。
**二、发现视频记忆中的"冗余现象"**
在深入研究视频生成过程中,研究团队发现了一个有趣的现象:并非所有的历史信息都同等重要。这就像我们在看电影时,刚刚发生的情节对理解当前场景最为关键,而很久之前的情节虽然也重要,但主要起到背景知识的作用。
具体来说,在生成当前帧时,相邻的几帧对于保持画面的连贯性和运动的流畅性至关重要。这些"近期记忆"决定了角色的动作是否自然,物体的运动是否符合物理规律。而距离较远的帧虽然包含重要的环境信息,比如房间的布局、天气的状况等,但这些信息相对稳定,不需要保留过多的细节。
这个发现启发研究团队开发了"长短期上下文建模"策略。可以把这种策略比作我们大脑的记忆系统:对于刚刚发生的事情,我们会记住每一个细节;对于很久之前的事情,我们主要记住关键信息和总体印象。
在具体实现上,研究团队采用了"非对称补丁化核"技术。这个技术名称听起来很复杂,但原理其实很简单。可以把视频帧想象成一幅幅照片,而补丁化就是把照片切成小块进行处理。对于近期的帧,研究团队使用标准大小的切块,保留所有细节;对于远期的帧,则使用较大的切块,只保留主要信息。这就像是在整理相册时,近期的照片保留原始尺寸,而久远的照片则缩小保存,既节省了存储空间,又保留了重要信息。
这种策略的效果非常显著。实验结果显示,在处理128帧的长视频时,传统方法需要超过8000个标记(token),而采用长短期上下文建模后,只需要大约4000个标记,几乎减少了一半。这种减少不仅降低了计算成本,还提高了训练效率,使得在长视频上的训练变得可行。
**三、多层次的记忆缓存系统**
为了进一步提高FAR的效率,研究团队还开发了一套巧妙的"KV缓存"系统。可以把这个系统想象成一个智能的视频播放器,它不仅能播放当前画面,还能快速调取之前任何时刻的关键信息。
在短视频生成中,这个缓存系统就像是一个高效的助手。每当生成一帧新画面时,系统会自动将其处理后的关键信息存储起来,供后续帧使用。这样,在生成下一帧时,系统不需要重新分析所有之前的帧,只需要调取缓存中的关键信息即可,大大提高了生成速度。
对于长视频生成,研究团队设计了更加精密的"多级KV缓存"系统。这个系统可以比作图书馆的分级管理制度。最近的几本借阅记录放在前台,可以随时快速查询;稍早一些的记录存放在办公室,需要时可以较快取出;而很久之前的记录则归档保存,主要信息仍然可以查询,但调取速度相对较慢。
具体来说,短期上下文窗口中的帧被编码到"L1缓存"中,保留完整的细节信息;而长期上下文窗口中的帧则被编码到"L2缓存"中,每帧只保留4个关键标记。当某一帧从短期窗口移出时,系统会自动将其压缩并转移到长期缓存中。这种设计既保证了信息的完整性,又实现了高效的存储和调取。
实验结果表明,这套缓存系统的效果非常显著。在生成256帧的长视频时,不使用缓存的基线方法需要约1341秒,而使用KV缓存后降低到171秒,再结合长短期上下文建模,时间进一步减少到104秒。这意味着生成速度提升了近13倍,为实际应用提供了强有力的技术支撑。
**四、全面的实验验证和性能表现**
为了验证FAR的有效性,研究团队在多个标准数据集上进行了全面的实验评估。这些实验就像是对一个新研发的汽车进行各种路况测试,确保其在不同环境下都能稳定可靠地工作。
在短视频生成任务中,研究团队使用了UCF-101数据集,这是一个包含约13000个视频的标准测试集。实验结果显示,FAR在多个关键指标上都取得了最佳性能。在条件视频生成任务中,FAR的FVD(Fréchet Video Distance)得分为108,显著优于之前的最佳方法;在无条件视频生成中,得分为279,同样领先于现有技术。这些数字背后反映的是生成视频的质量和真实度的显著提升。
更重要的是,FAR在训练效率方面表现出色。与需要双倍训练成本的其他帧自回归模型相比,FAR在不增加任何额外训练成本的情况下取得了更好的性能。这就像是设计出了一台既省油又跑得快的汽车,在实际应用中具有巨大的优势。
在短视频预测任务中,FAR同样表现卓越。在BAIR数据集上,当使用2帧上下文预测28帧时,FAR的SSIM得分达到0.819,PSNR为19.40,LPIPS为0.049,FVD为144.3,全面超越了之前的最佳方法。这些指标从不同角度衡量了预测视频的质量,包括结构相似性、峰值信噪比、感知相似性和时间一致性等。
**五、长视频建模的突破性进展**
FAR最令人瞩目的成就在于长视频建模能力。研究团队在Minecraft和DMLab数据集上进行了长达300帧的视频预测实验,这相当于约20秒的连续视频内容。在这项极具挑战性的任务中,FAR展现出了令人印象深刻的性能。
在Minecraft数据集上,FAR使用144帧上下文信息预测156帧未来内容时,LPIPS得分仅为0.251,远低于之前最佳方法TECO的0.340。更令人惊喜的是,在FVD指标上,FAR取得了39的优异成绩,而TECO为116。这些数字背后体现的是FAR在长期记忆和一致性保持方面的显著优势。
研究团队还专门比较了测试时扩展和长视频训练两种策略的效果。测试时扩展就像是让一个只学过短文写作的学生去写长篇小说,虽然在技术上可行,但效果往往不尽如人意。实验结果证实了这一点:各种测试时扩展方法的SSIM得分都在0.37左右,而直接在长视频上训练的FAR-B-Long模型达到了0.576,提升幅度超过50%。
这个结果清楚地表明,要真正掌握长视频生成能力,直接在长视频数据上训练是必要的,仅仅依靠测试时的技巧无法从根本上解决问题。这就像学习一门语言,只有在真实的语言环境中长期浸润,才能真正掌握其精髓,而非仅仅依靠短期的强化训练。
**六、深入的消融实验和技术细节分析**
为了更好地理解FAR各个组件的作用,研究团队进行了详细的消融实验。这些实验就像是拆解一台精密机器,逐一检验每个零件的功能和重要性。
首先,关于远程上下文的补丁化核大小选择,研究团队测试了不同的配置。实验发现,[4,4]大小的补丁化核在性能和效率之间取得了最佳平衡。使用[1,1]核(即不压缩)会导致内存溢出,而[8,8]核虽然大幅降低了计算成本,但性能也有所下降。[4,4]核在保持良好性能的同时,将训练内存需求从38.9G降低到15.3G,实现了实用性和性能的双赢。
随机清洁上下文技术的效果同样显著。在没有这项技术时,模型在视频预测任务上的SSIM得分为0.540,而加入后提升到0.596。这个看似不大的数字提升实际上代表了生成视频质量的显著改善,特别是在消除帧间闪烁和保持时间一致性方面。
短期上下文窗口大小的选择也经过了仔细的实验验证。研究团队发现,当窗口大小达到8帧时,性能基本达到饱和,继续增加窗口大小虽然略有提升,但计算成本却大幅增加。这个发现印证了团队关于上下文冗余的理论假设:在视频自回归建模中确实存在明显的上下文冗余现象。
KV缓存系统的效率提升也得到了量化验证。在256帧视频生成任务中,不使用任何优化的基线方法需要1341秒,加入KV缓存后降至171秒,再结合长短期上下文建模和多级缓存,最终降至104秒。这种阶梯式的性能提升清楚地展示了每项技术的贡献。
**七、技术实现的精妙设计**
FAR的成功不仅在于创新的理念,更在于精妙的技术实现。研究团队在模型架构、训练策略和推理优化等多个层面都展现了深厚的技术功底。
在模型架构方面,FAR基于DiT(Diffusion Transformer)结构,但在注意力机制上进行了关键改进。不同于传统视频扩散变换器使用的交替空间-时间注意力,FAR在所有层都采用了因果时空注意力。这种设计使得图像生成和图像条件视频生成可以在同一个模型中联合学习,避免了额外的图像-视频协同训练需求。
训练策略的设计同样巧妙。FAR为每帧独立采样时间步,然后使用线性插值在清洁潜在表示和采样噪声之间构建连续轨迹。这种做法避免了传统扩散强制方法中的一些问题,同时保持了流匹配目标的简洁性。时间步嵌入的特殊处理(如使用-1表示清洁上下文帧)为模型提供了明确的信号来区分不同类型的输入。
在长视频训练中,分离投影层的设计防止了长期和短期上下文之间的相互干扰。这种设计借鉴了MM-DiT的思想,为不同类型的上下文信息提供了专门的处理通道。虽然这会略微增加参数数量,但换来的是更好的建模能力和训练稳定性。
推理优化方面,多级KV缓存的实现尤为精巧。系统需要在保持信息完整性的同时实现高效的缓存管理,这涉及到复杂的内存管理和数据流控制。研究团队通过巧妙的缓存策略和批处理优化,实现了显著的推理加速。
**八、与现有方法的全面对比**
FAR的优势在与现有方法的对比中得到了充分体现。与Token-AR(基于标记的自回归)方法相比,FAR避免了向量量化带来的信息损失问题。向量量化就像是用有限的调色板来绘制复杂的画作,不可避免地会丢失一些细节信息。而FAR直接在连续潜在空间中工作,保留了更多的视觉细节。
与视频扩散变换器相比,FAR在收敛速度和生成质量方面都显示出优势。研究团队专门进行了对比实验,将FAR转换为视频扩散变换器作为基线。结果显示,FAR的训练曲线明显更优,说明因果时空注意力和自回归训练范式的确带来了实际的好处。
与其他混合AR-扩散模型相比,FAR的主要优势在于解决了训练-推理差异问题,同时没有增加额外的训练成本。一些方法通过维护噪声序列的清洁副本来解决这个问题,但这会使训练成本翻倍。FAR的随机清洁上下文策略以几乎零成本实现了同样的效果。
在长视频建模方面,FAR与专门的长视频预测方法相比也显示出明显优势。TECO等方法采用对所有帧进行激进下采样的策略来减少标记数量,这在训练效率和预测精度之间形成了权衡。而FAR的长短期上下文建模策略实现了两者的兼顾,在保持高预测精度的同时显著降低了计算成本。
说到底,这项研究的意义远超技术本身。FAR不仅是一个性能优秀的视频生成模型,更代表了AI视频生成领域从短期记忆向长期记忆的重要转变。就像人类从只能记住几秒钟的内容进化到能够构建复杂的长期记忆体系一样,FAR为AI系统提供了类似的能力飞跃。
这种能力的提升将对多个应用领域产生深远影响。在娱乐产业,FAR可能会让AI辅助的影视制作变得更加高效和一致;在教育领域,它可以生成更加连贯的教学视频;在游戏产业,它可能会推动程序化内容生成技术的发展。更重要的是,FAR向着真正的"世界模拟器"迈出了重要一步,这对于未来的AI系统理解和模拟现实世界具有重要意义。
当然,研究团队也诚实地指出了当前的局限性。由于缺乏大规模的实验验证,FAR还需要在更大的数据集和更复杂的场景中证明其能力。此外,目前的实验主要局限在300帧(约20秒)的视频长度,距离分钟级的长视频生成还有一定距离。
展望未来,研究团队计划将FAR扩展到大规模文本到视频生成任务,并探索其在分钟级视频生成中的表现。更有趣的是,他们还计划研究FAR的长上下文建模能力是否能够实现视频级的上下文学习,这可能会开启AI视频理解和生成的新篇章。
归根结底,FAR的出现标志着AI视频生成技术从"健忘症患者"向"记忆大师"的重要转变。通过巧妙的技术设计和深入的理论洞察,新加坡国立大学的研究团队为这个快速发展的领域贡献了一项重要的技术突破。对于普通人来说,这意味着我们很可能在不久的将来看到更加连贯、更加智能的AI生成视频内容,这些内容不仅在短时间内保持一致性,还能在长时间跨度内维持逻辑性和连贯性。感兴趣的读者可以通过研究团队提供的开源代码(https://github.com/showlab/FAR)进一步了解这项技术的细节,或查阅完整的研究论文获得更深入的技术理解。
Q&A
Q1:FAR模型是什么?它解决了什么问题? A:FAR(Frame AutoRegressive)是新加坡国立大学开发的AI视频生成模型。它主要解决了现有AI模型只能记住短视频片段(约5秒)的问题,让AI能够生成长达20秒且前后一致的连贯视频,就像给AI装上了长期记忆系统。
Q2:FAR的"长短期上下文建模"是什么意思? A:这就像人类大脑的记忆机制:对刚发生的事情记住所有细节,对久远的事情只记住关键信息。FAR对最近的视频帧保留完整细节,对较远的帧只保留主要信息,既节省了计算资源,又保持了视频的连贯性。
Q3:普通人什么时候能用上这种技术? A:目前FAR还处于研究阶段,研究团队已经开源了代码供技术人员使用。随着技术的进一步发展和优化,预计在1-2年内可能会被集成到商业视频生成工具中,让普通用户也能制作高质量的长视频内容。
好文章,需要你的鼓励
这项由Midjourney团队主导的研究解决了AI创意写作中的关键问题:如何让AI既能写出高质量内容,又能保持创作的多样性和趣味性。通过引入"偏差度"概念和开发DDPO、DORPO两种新训练方法,他们成功让AI学会从那些被传统方法忽视的优秀独特样本中汲取创意灵感,最终训练出的模型在保持顶级质量的同时,创作多样性接近人类水平,为AI创意写作开辟了新方向。
上海AI实验室联合多所高校开发出VisualPRM系统,这是首个专门用于多模态推理的过程奖励模型。该系统能像老师批改作业一样逐步检查AI的推理过程,显著提升了AI在视觉推理任务上的表现。研究团队构建了包含40万样本的训练数据集和专门的评估基准,实现了在七个推理基准上的全面性能提升,即使是最先进的大型模型也获得了5.9个百分点的改进。
上海AI实验室团队通过LEGO积木设计了创新评测基准LEGO-Puzzles,系统测试了20个先进多模态大语言模型的空间推理能力。研究发现即使最强AI模型准确率仅57.7%,远低于人类93.6%的表现,揭示了当前AI在三维空间理解和多步序列推理方面的重大不足,为机器人、自动驾驶等应用发展提供重要参考。
字节跳动团队突破了AI图像生成领域的三大难题:身份识别不准确、文字理解偏差和图片质量不佳。他们开发的InfiniteYou技术采用创新的InfuseNet架构和多阶段训练策略,能够根据用户照片和文字描述生成高质量个性化图像。实验显示该技术在身份相似度、文本匹配度和图像质量方面均超越现有最佳方案,并具备出色的兼容性,为个性化内容创作开辟了新道路。