这项由新加坡南洋理工大学S-Lab实验室、商汤科技以及北京大学王选计算机技术研究所的研究团队共同完成的突破性研究发表于2025年7月,论文题为《TokensGen: Harnessing Condensed Tokens for Long Video Generation》。研究的主要负责人包括欧阳文琦、肖泽琦、杨丹妮、周易凡等多位学者,有兴趣深入了解的读者可以通过arXiv:2507.15728v1访问完整论文。
当你在抖音或YouTube上观看一段精彩的长视频时,你可能从未想过,让计算机自动生成这样一段连贯流畅的长视频有多么困难。就像让一个初学者画出一幅长卷画一样,虽然可能画好其中某一小段,但要保持整幅画的风格统一、故事连贯,几乎是不可能完成的任务。现在,这个看似不可能的挑战被南洋理工大学的研究团队成功攻克了。
目前的人工智能视频生成技术虽然能够创造出令人印象深刻的短视频片段,但当需要生成更长的视频内容时,就会遇到两个核心难题。第一个问题类似于电脑内存不足,当视频变长时,计算机需要处理的信息量急剧增加,很容易导致系统崩溃或运行极慢。第二个问题更像是连环画的衔接问题,虽然单独看每一幅画都很精美,但连在一起时却发现人物的服装颜色变了,背景突然换了,故事情节也变得支离破碎。
研究团队提出的TokensGen解决方案就像是为视频生成找到了一套全新的"编剧和导演"系统。这个系统的核心思想是将长视频的制作分解为三个相互配合的任务,每个任务都有专门的"工作人员"负责。
第一个任务由To2V模块负责,可以把它想象成一位经验丰富的摄影师。这位摄影师不仅会根据剧本(文字描述)来拍摄画面,还会参考导演提供的关键场景示意图(视频标记)来确保每个镜头都准确传达想要表达的内容。与传统摄影师只能依据文字剧本不同,这位AI摄影师能够同时理解文字描述和视觉线索,从而拍出更加精准的画面。
这里有一个关键的创新点,就是视频标记器的使用。可以把它比作一个超级压缩专家,能够将一段完整的视频浓缩成几个关键的"DNA片段"。这些DNA片段虽然看起来很小,但包含了原视频的所有重要信息,包括画面构图、角色动作、场景变化等。就像一粒种子虽然微小,却包含了整棵大树的所有遗传信息一样。
第二个任务交给T2To模块处理,它的作用相当于一位总体规划师。当你想要拍摄一部两分钟的长视频时,这位规划师会首先从整体角度考虑整个视频的脉络和逻辑。它不会像传统方法那样一段一段地生成视频,而是一开始就规划好整部视频的所有关键节点,确保从头到尾的故事线索都保持连贯。这就像建筑师在动工之前就画好了整栋楼的完整设计图,而不是盖一层想一层。
这种全局规划的好处在于能够避免传统方法中常见的"错误积累"问题。传统的自动生成方法就像接龙游戏,每个人只能看到前一个人写的内容,结果往往越到后面偏离主题越远。而T2To模块采用的方法更像是先写好完整的故事大纲,然后再逐章填充内容,从而保证整个故事的逻辑性和连贯性。
第三个创新点是自适应FIFO扩散策略,这个技术解决的是相邻视频片段之间的衔接问题。传统的视频生成方法在连接不同片段时,经常会出现突兀的跳跃,就像电影剪辑时出现的"穿帮镜头"。研究团队开发的这套策略就像是一位专业的剪辑师,能够巧妙地处理片段之间的过渡,让整个视频看起来浑然一体。
这种处理方式的巧妙之处在于它采用了"对角线去噪"的技术。简单来说,就是在处理相邻片段的连接时,不是简单粗暴地把两段视频拼在一起,而是让它们在时间维度上有一个渐进的融合过程。这就像调色师在处理两种颜色的过渡时,不是直接拼接,而是创造一个自然的渐变效果。
研究团队的实验结果证明了这套方法的有效性。他们使用了包含长视频和结构化说明文字的MiraData数据集进行训练,这个数据集包含了56000个视频样本。在训练To2V模型时,他们从这些长视频中随机选取49帧的片段,以10帧每秒的速度进行处理。对于T2To模型的训练,他们特别筛选出了16000个高质量的长视频,这些视频至少有一分钟长,主要包含游戏画面和自然风景。
为了确保训练效果,研究团队还采用了渐进式学习策略。这就像学习绘画时先从简单的几何图形开始,然后逐渐过渡到复杂的人物肖像。他们先用较小的标记尺寸训练模型1200次迭代,然后再转换到完整尺寸继续训练2600次。这种渐进式的训练方法帮助模型更好地收敛,能够处理更复杂的长视频生成任务。
在与其他先进方法的对比实验中,TokensGen展现出了明显的优势。研究团队将他们的方法与Video-Infinity、DiTCtrl、Kling等当前主流的长视频生成方法进行了详细对比。结果显示,其他方法在生成长视频时都存在各自的问题。Video-Infinity虽然能产生一些过渡效果,但主要角色和场景往往保持静态,缺乏生动性。DiTCtrl在某些关键帧上表现不错,但片段之间的过渡经常显得突兀,导致故事情节不连贯。Kling虽然能保持视觉一致性,但经常出现不合理的运动,比如角色突然改变运动方向。
更重要的是,传统的FIFO方法在处理复杂场景时会出现过度饱和和颜色突变的问题,特别是在生成数百帧的长视频时这些问题更加明显。相比之下,TokensGen能够在整个两分钟的视频中保持平滑的运动过渡和稳定的角色表现,完全符合输入的文字描述。
在量化评估方面,研究团队使用了VBench评测标准对100个随机选择的提示词进行了测试。TokensGen在运动平滑度和动态程度两个关键指标上都取得了最高分。考虑到某些评测指标可能偏向于动态较少的视频,研究团队还组织了人工评估,邀请24位参与者对不同方法生成的视频进行盲测评分。结果显示,TokensGen在文字-视觉对齐和运动内容一致性两个维度上都明显优于其他方法,分别获得了75.69%和75.74%的支持率。
研究团队还进行了详细的消融实验来验证各个组件的重要性。他们测试了不同的视频条件整合策略,包括不同的压缩标记尺寸、是否使用通道投影,以及与超分辨率方法的对比。结果表明,适当大小的压缩标记(4×8×12)能够在保持语义保真度和计算效率之间取得最佳平衡。而基于PCA的投影方法提供了一种轻量级而有效的降维方案,在不牺牲图像质量的情况下减少了计算负担。
关于FIFO扩散策略的改进效果,实验结果清楚地显示了自适应填充技术的重要性。没有使用FIFO的版本在相邻片段之间会出现突兀的场景变化,角色可能会瞬间移动或背景突然改变。而使用传统FIFO但没有自适应填充的版本在视频开头会产生严重的画面瑕疵,因为模型依赖的重复帧偏离了训练数据的分布。相比之下,完整的TokensGen系统能够在片段边界处实现自然的过渡,防止不自然的不连续现象。
除了长视频生成之外,TokensGen还展现出了优秀的视频编辑能力。To2V模型能够整合文本提示和源视频数据,实现在保持原始视频基本结构的同时注入新的语义内容的变换。这种能力特别适用于各种长视频编辑场景,比如改变视频的风格、替换场景元素或者调整整体色调。
实验结果显示,这种编辑方法能够在保持原视频时间结构和主要动作的基础上,根据新的文本描述对视频内容进行相应的修改。比如,可以将一段雪地行驶的视频转换成沙漠场景,或者将白天的场景改为黄昏时分,同时保持车辆行驶的路径和速度基本不变。
TokensGen框架的一个重要优势是其模块化设计。由于每个组件都有明确的功能定位,这套系统可以很容易地与其他短期控制策略或多提示组合框架进行集成。这种灵活性意味着该方法不仅是一个独立的解决方案,更可以作为一个基础平台,为未来的视频生成技术发展提供支撑。
与其他长视频生成方法相比,TokensGen通过利用预训练的短视频模型,继承了强大的知识先验和架构设计,使得从短片段到分钟级序列的转换变得更加顺畅,无需大量的重新设计。通过将长视频编码为压缩的标记表示,大大降低了分钟级视频生成的计算开销。
当然,这项研究也存在一些局限性。由于专注于高级语义信息,标记化的方法可能无法保留所有细粒度的细节,在扩展序列中可能会导致前景对象的逐渐变化。在复杂场景中,压缩标记可能无法充分捕获复杂的时空线索,需要更精细的标记化和比无调优FIFO更强的短期一致性策略。目前的框架是在有限的游戏和风景视频数据集上训练和测试的,但可扩展到更大的数据集以支持更广泛的应用。
研究团队指出,未来的工作可能会探索多尺度标记化或混合表示方法,以增强细粒度的可控性,在保持可扩展性和资源效率的同时保留细微属性。这样的改进将使TokensGen能够处理更加复杂和多样化的视频生成任务。
说到底,TokensGen为长视频生成领域带来了一个全新的解决思路。通过巧妙地结合压缩标记技术、全局一致性控制和智能片段衔接,这套系统成功突破了传统方法在内存限制和长期一致性方面的瓶颈。对于普通用户来说,这意味着未来我们可能会看到更多高质量的AI生成长视频内容,无论是用于教育、娱乐还是创意表达。这项技术的成熟将大大降低视频内容创作的门槛,让更多人能够参与到视频创作中来。当然,随着技术的进步,我们也需要思考如何在享受AI带来便利的同时,保持对内容真实性和创作伦理的关注。有兴趣深入了解技术细节的读者可以访问研究团队的项目网页或查阅完整的论文文档。
Q&A Q1:TokensGen生成的长视频有多长?效果如何? A:TokensGen能够生成长达2分钟(约1200帧)的连贯视频。与传统方法相比,它在运动平滑度和内容一致性方面表现显著更好,能避免常见的场景跳跃、角色突变等问题,生成的视频在整个时长内都能保持与文字描述的高度一致。
Q2:这项技术会不会很耗费计算资源? A:恰恰相反,TokensGen通过压缩标记技术大大降低了计算开销。它将视频压缩成语义丰富的小标记,实现了约3×8×8的压缩比,相比直接处理原始视频帧,大幅减少了内存需求和计算时间。
Q3:普通人能使用TokensGen来创作视频吗? A:目前TokensGen还处于研究阶段,普通用户暂时无法直接使用。不过研究团队已经开源了相关代码和模型,技术开发者可以基于此进行应用开发。随着技术成熟,未来很可能会有基于此技术的消费级视频生成产品面世。
好文章,需要你的鼓励
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。
中国电信研究院等机构联合开发的xVerify系统,专门解决复杂AI推理模型的评估难题。该系统能够准确判断包含多步推理过程的AI输出,在准确率和效率方面均超越现有方法,为AI评估领域提供了重要突破。
昆仑公司Skywork AI团队开发的Skywork R1V模型,成功将文本推理能力扩展到视觉领域。该模型仅用380亿参数就实现了与大型闭源模型相媲美的多模态推理性能,在MMMU测试中达到69.0分,在MathVista获得67.5分,同时保持了优秀的文本推理能力。研究团队采用高效的多模态迁移、混合优化框架和自适应推理链蒸馏三项核心技术,成功实现了视觉理解与逻辑推理的完美结合,并将所有代码和权重完全开源。