微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI视频生成新突破:天工AI让你用几张照片就能拍出好莱坞大片

AI视频生成新突破:天工AI让你用几张照片就能拍出好莱坞大片

2025-07-14 09:49
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-14 09:49 科技行者

这项由天工AI(Skywork AI, Kunlun Inc.)的费正聪、李德邦、邱迪等十位研究人员共同完成的研究发表于2025年4月,论文题为《SkyReels-A2: Compose Anything in Video Diffusion Transformers》。有兴趣深入了解技术细节的读者可以通过项目主页SkyReels-A2.github.io或代码仓库https://github.com/SkyworkAI/SkyReels-A2访问完整研究成果。

想象一下,你手头有几张不同的照片:一张是你朋友的自拍照,一张是红色的咖啡杯,还有一张是海边的风景。现在,如果有人告诉你,只需要这几张普通照片加上一句话描述,就能制作出一段高质量的电影级视频,你会相信吗?天工AI的研究团队让这个听起来像科幻小说的想法变成了现实。

传统的视频制作就像搭积木一样,你需要先有完整的积木块,然后按照固定的方式拼接。而这项新技术更像是魔法师的变戏法,它能把散落的照片元素重新组合,创造出全新的动态画面。过去,如果你想制作一个朋友在海边喝咖啡的视频,你要么需要真的带着朋友和咖啡杯去海边拍摄,要么需要复杂的后期制作技术。但现在,你只需要提供这三样东西的照片,告诉AI"朋友在海边喝咖啡",它就能生成一段自然流畅的视频。

这种技术被研究团队称为"元素到视频"(Elements-to-Video,简称E2V),就像厨师能用不同的食材烹制出美味佳肴一样,AI能够将不同的视觉元素"烹制"成完整的视频作品。与目前市面上需要从头开始创建或只能对现有视频进行简单变换的技术不同,SkyReels-A2能够真正理解每个元素的特征,并将它们自然地融合到一个连贯的故事中。

研究团队面临的最大挑战就像同时玩转多个杂耍球一样复杂。他们需要确保生成的视频中每个元素都保持其原有特征(比如朋友的脸部特征不能改变),同时还要让这些元素在同一个场景中看起来自然协调,最重要的是,整个视频要符合用户的文字描述。这就好比要求一位画家同时画出三个不同风格的人物,但让他们看起来像是在同一个房间里自然交谈。

一、数据收集的秘密配方

为了训练这个AI系统,研究团队首先需要解决一个根本问题:如何获得足够的训练材料?这就像教一个从未见过世界的孩子如何理解不同物体之间的关系一样,需要大量的例子和说明。

传统的视频生成系统就像只会背诵课本的学生,它们只能根据已有的完整视频来学习。但SkyReels-A2更像是一个观察敏锐的艺术学徒,它需要学会如何将独立的元素组合成有意义的作品。为此,研究团队设计了一套复杂而精巧的数据处理流水线,这个过程可以比作珠宝匠将原石加工成精美首饰的工艺。

整个数据处理过程从收集大量原始视频开始,就像收集各种类型的原材料。研究团队首先对这些视频进行筛选,根据分辨率、标签、类型和来源进行过滤,然后将长视频分割成短片段,每个片段都基于关键帧来确定边界。这个过程类似于将一本厚厚的小说分解成独立的章节,确保每个章节都有完整的情节。

接下来是最关键的一步:为每个视频片段生成详细的描述。研究团队使用了专门开发的多专家视频字幕模型,这个模型能够为视频片段生成两种类型的描述:整体描述和结构化描述。整体描述就像电影的剧情简介,概括了视频的主要内容;而结构化描述则像是电影的分镜头脚本,详细记录了每个元素的特征,包括人物的外观、服装、物体的属性、背景信息,以及动态特征如面部表情、动作和运动轨迹。

为了提取视频中的各种元素,研究团队使用了一系列检测和分割模型。对于人物,他们使用通用检测模型来定位人体,然后进一步使用人脸检测器和人体解析模型来提取面部特征和服装细节。对于物体和背景,他们使用CLIP模型来匹配文字描述与视觉实体,确保AI能够准确理解每个元素的含义。

最有趣的是,为了避免生成的视频简单地"复制粘贴"原始图像,研究团队引入了一个巧妙的相似性过滤步骤。他们计算不同视频片段中相同主体的相似性,使用人脸相似性模型处理人物,使用CLIP相似性模型处理物体,然后从不同的视频片段中选择多样化的参考图像。这就像确保每个演员都有多套不同的服装,避免在最终的视频作品中出现单调重复的形象。

对于背景的处理,研究团队采用了特别的方法:他们找到背景覆盖面积最大的帧,通过裁剪去除前景物体,保留纯净的背景图像。这个过程就像摄影师寻找最佳的拍摄背景,确保场景的完整性和美观性。

通过这套复杂而精密的数据处理流水线,研究团队最终构建了一个包含约200万个高质量视频-参考图像-文本提示三元组的训练数据集。这个数据集就像一个巨大的图书馆,包含了AI学习如何将不同元素组合成连贯视频所需的所有知识和示例。

二、AI的"视觉合成魔法"

SkyReels-A2的核心架构就像一位经验丰富的电影导演的大脑,能够同时处理多个信息来源,并将它们完美地融合成一个连贯的视觉故事。这个系统的设计理念可以用交响乐团的比喻来理解:每个乐器(视觉元素)都有自己独特的声音,而指挥家(AI系统)需要确保所有乐器和谐演奏,创造出美妙的音乐(视频)。

当用户提供多张参考图像时,系统会将这些图像分为两个处理通道,就像食物处理中的不同工序。第一个通道叫做"语义特征分支",它使用CLIP视觉编码器来理解每张图像的含义和内容。这个过程类似于一个艺术评论家观察画作,不仅看到表面的色彩和形状,更能理解画作要表达的深层含义。系统会为每张参考图像提取全局和语义特征,然后通过一个投影模块将这些特征转换成与视频序列兼容的格式。

第二个通道被称为"空间特征分支",它使用标准的3D视频自编码器(VAE)来处理图像的精细细节和空间信息。这就像一位细致的工匠,不仅关注整体设计,更注重每个细节的精确度。为了适应视频生成的需要,系统会将参考图像沿着时间维度进行连接,并进行零填充以匹配原始帧数。

这两个分支的设计反映了人类视觉认知的双重机制:我们既能快速理解图像的整体含义(语义理解),也能感知精细的视觉细节(空间感知)。通过模拟这种双重机制,SkyReels-A2能够在保持每个元素特征完整性的同时,创造出视觉上令人信服的合成效果。

系统的另一个关键创新是其交叉注意力机制的设计。传统的视频生成模型只能处理单一的文本输入,就像只会听一种语言的翻译员。而SkyReels-A2则像是精通多种语言的外交官,它能够同时理解文本描述和多个视觉参考的信息,并将这些信息整合成统一的指令。

在处理过程中,系统会将从所有参考图像中提取的语义特征连接起来,作为交叉注意力层中的键(keys)和值(values)。这些层被巧妙地集成在每个文本提示交叉注意力块之后,确保视觉信息能够与文本信息有效融合。这种设计就像在烹饪过程中逐步添加不同的调料,每一步都会增强最终菜肴的味道层次。

对于空间特征的处理,系统采用了更直接的方法:将处理后的参考图像特征与噪声潜在向量沿着通道维度连接,然后传递到补丁嵌入模块。这个过程确保了精细的空间信息能够在整个生成过程中得到保留,就像确保音乐录制中每个音符的清晰度。

三、训练过程的精密调校

训练SkyReels-A2就像培养一位多才多艺的演员,需要在保持其原有技能的基础上,教会它新的表演技巧。这个过程既要避免"过度训练"导致原有能力退化,也要确保新技能的充分掌握。

研究团队采用了一种精心设计的训练策略,只对系统的特定部分进行优化。具体来说,他们选择性地训练交叉注意力模块、补丁嵌入层和图像条件嵌入器,而保持基础视频生成模型的其他部分不变。这种方法类似于给已经熟练的钢琴家教授新的演奏技巧,而不是从头开始学习整个钢琴演奏。

训练过程中,系统学习重建目标视频的潜在空间表示,使用标准的扩散均方误差损失。为了增强模型的鲁棒性和泛化能力,研究团队引入了一种称为"无分类器引导"的技术。在训练期间,他们会随机丢弃30%的视频字幕和10%的参考条件,这就像让学生在缺少部分信息的情况下完成任务,从而提高应变能力。

训练数据的预处理也体现了研究团队的细致考虑。当参考图像的比例与视频比例不匹配时,系统会用白色图像进行填充,这种处理方式既简单有效,又不会引入额外的视觉噪声。训练视频被设置为81帧,对应15帧每秒的6秒时长,这个长度既足以展现完整的动作序列,又不会给计算资源带来过大负担。

优化器的选择和参数设置也经过了精心调整。研究团队使用Adam优化器,学习率设置为1e-5,全局批次大小为256。这些看似简单的数字背后,实际上是大量实验和调优的结果,就像厨师经过无数次尝试才找到最佳的火候和调料比例。

四、推理加速的工程智慧

一个再优秀的AI系统,如果运行速度太慢,就像一辆性能卓越但油耗惊人的跑车,实用价值会大打折扣。SkyReels-A2的研究团队深知这个道理,因此在系统推理阶段投入了大量精力进行优化。

基础的推理流程采用了UniPC多步调度方案,这是一种经过验证的高效采样策略。但研究团队并不满足于此,他们进一步引入了多种并行化策略来应对大规模模型推理的挑战。要知道,SkyReels-A2包含140亿个参数,相当于一个庞大的虚拟大脑,如果按传统方式运行,每一步采样都会成为性能瓶颈。

为了解决这个问题,研究团队实施了上下文并行、CFG并行和VAE并行等策略。这些技术就像将一个复杂的工厂生产线分解成多个并行工作站,每个工作站专门负责特定的工序,最终协同完成整个产品的制造。通过这种方式,系统能够在满足在线环境低延迟要求的同时,实现快速无损的视频生成。

另一个重要的优化方向是用户级GPU部署。研究团队实现了模型量化和参数级卸载策略,显著降低了GPU内存消耗。这使得即使是配置相对较低的消费级显卡也能运行这个强大的AI系统,就像将原本需要大型机械才能完成的工作,通过巧妙的设计变成了家用设备也能胜任的任务。

推理过程中的另一个关键参数是flow shift值,研究团队经过大量实验发现,这个参数对最终输出质量有显著影响。较大的flow shift值会让系统在早期采样步骤中投入更多精力,从而生成更合理的空间结构,但可能会在图像细节方面有所妥协。经过综合考虑运动自然度和视觉质量的平衡,研究团队将默认值设置为8。

五、A2-Bench评估体系的建立

为了客观评价SkyReels-A2的性能,研究团队面临一个棘手的问题:现有的视频生成评估基准主要针对文本到视频或图像到视频任务,并没有专门针对"元素到视频"任务的评估标准。这就像要评判一种全新的体育项目,却发现没有合适的评分规则。

于是,研究团队决定自己制定评估标准,创建了A2-Bench这个综合评估基准。这个基准的设计理念可以比作奥运会的评分体系:既要有客观的量化指标,也要考虑人类的主观感受,确保评估结果既科学严谨又贴近实际应用需求。

A2-Bench的构建过程体现了研究团队的严谨态度。他们从各种场景中收集了150张参考图像,包括50个不同的人物身份、涵盖12个类别的50种不同物体,以及50个独特的背景。为了创建基准数据集,他们将这些元素随机配对组合成50种不同的输入组合,然后使用大语言模型生成相应的文本提示。特别重要的是,研究团队确保训练视频和A2-Bench之间没有任何重叠,避免了"考试泄题"的问题。

自动评估指标分为三个核心维度,每个维度都像考试中的不同科目,测试系统的不同能力。组合一致性评估系统是否能够保持各个元素的特征完整性。字符ID一致性通过人脸识别模型提取特征并计算余弦相似度来评估;物体一致性使用Grounded-SAM分割视频中的物体部分,然后计算帧级CLIP特征之间的相似性;背景一致性通过检测和分割主体,遮盖主体后计算背景与参考背景图像的帧级CLIP特征相似性。

视觉质量维度包含了图像质量、美学质量、运动平滑度和动态程度等指标,这些指标借鉴了VBench的定义,确保了评估的权威性和可比性。提示跟随维度使用ViCLIP计算文本描述与视频内容之间的余弦相似度分数,直接衡量文本-视频对齐程度。

考虑到自动化元素检测和匹配可能存在较高的错误率,研究团队还设计了详细的用户偏好研究。他们使用50个测试样本,向多位参与者展示条件图像、提示和来自多个模型的结果,包括Keling、Vidu、Pika和SkyReels-A2。每个样本都会根据10个不同的评估标准进行评分,参与者需要在1到5的尺度上为每个标准打分。

这套评估框架的建立不仅为SkyReels-A2提供了性能基准,更为整个"元素到视频"领域的发展奠定了评估标准的基础,就像为一个新兴体育项目制定了第一套正式的比赛规则。

六、实验结果与性能对比

当SkyReels-A2与当前市场上的顶级商业模型进行较量时,结果令人印象深刻。研究团队将其与Pika2.1、Vidu2.1和Keling1.6等领先的闭源商业模型进行了全面对比,这场比赛就像让一位新晋棋手与经验丰富的大师们对弈。

在自动评估指标方面,SkyReels-A2展现出了均衡而出色的性能。在组合一致性方面,虽然在ID一致性和背景一致性上略有不足,但在物体一致性方面表现最佳,达到了0.809的分数,超过了所有竞争对手。这个结果特别有意义,因为物体一致性往往是最难保持的,需要AI系统对各种物体的形状、纹理和特征有深入的理解。

视觉质量评估显示了SkyReels-A2的另一个优势领域。在图像质量方面,它以0.683的得分领先所有对手,显示出生成视频的清晰度和保真度都达到了很高水准。在动态程度指标上,SkyReels-A2与Keling并列第一,都达到了1.000的满分,这意味着生成的视频具有丰富而自然的运动效果。

更有说服力的是用户偏好研究的结果。在这项更贴近实际应用的评估中,SkyReels-A2在多个关键指标上都表现出色。特别是在服装一致性和人体运动平滑度方面,它甚至超越了一些商业解决方案。这个结果尤其令人鼓舞,因为这些是用户在实际使用中最关心的质量指标。

通过定性比较可以看出,不同模型各有特色。Pika在主体一致性方面表现较弱,生成的视频运动相对较少;Keling虽然在某些方面表现出色,但存在明显的镜像运动效果,画面可能出现忽远忽近的问题,研究团队认为这可能与训练数据的分布有关。相比之下,Vidu和SkyReels-A2在主体一致性、视觉效果和文本响应方面都表现出较为均衡的性能。

值得特别指出的是,SkyReels-A2在光影纹理的处理上表现尤为出色。生成的视频在光照效果、阴影处理和表面纹理方面都显示出很高的真实感,这对于创建令人信服的视觉内容至关重要。

七、技术细节的深度探索

为了更好地理解SkyReels-A2的设计选择,研究团队进行了详尽的消融实验,这个过程就像解剖一台精密机器,逐一检查每个部件的作用和重要性。

空间特征组合方式的选择对系统性能有显著影响。研究团队比较了三种不同的方法:在原始像素空间中连接后通过3D VAE处理、独立通过3D VAE处理后在潜在空间连接,以及不进行帧重复的处理方式。实验结果显示,没有帧重复会导致图像信息的显著丢失,在组合一致性指标上出现明显下降。这个发现强调了保持时间维度信息完整性的重要性。

可学习参数集合的选择也经过了仔细考量。研究团队比较了只训练每两层的交叉注意力参数、训练所有层的交叉注意力参数,以及微调整个视频扩散模型三种策略。结果表明,只训练部分层会导致显著的一致性性能损失,而微调整个模型虽然能提高图像质量和自然度,但考虑到性能和数据规模的平衡,训练所有交叉注意力层是最优选择。

训练数据混合比例的实验产生了一个意外的发现。研究团队原本期望加入单一主体数据能够提升模型在定制化任务中的表现,但实验结果显示,在各种组合场景中,单纯使用多主体数据的效果最佳。这个结果类似于监督微调中的发现:适量的高质量文本-参考-视频数据能够更好地激发模型的可控性,而不会损害原有的生成流畅性。

推理加速和超参数的影响也得到了深入研究。flow shift参数的选择需要在空间结构合理性和图像细节质量之间找到平衡点。较大的数值会让系统在早期采样步骤中投入更多精力构建合理的空间结构,但可能会导致图像细节的逐渐退化。经过大量实验,研究团队选择了8作为默认值,在运动自然度和视觉质量之间实现了最佳平衡。

八、应用前景与实际价值

SkyReels-A2的应用潜力就像一把万能钥匙,能够打开多个创意产业的新大门。在音乐视频制作领域,创作者可以选择各种乐器,如吉他、钢琴或小提琴,然后定义具有想象力的场景,生成无缝衔接的创意序列。当配合音乐片段时,这种技术能够让音乐可视化达到前所未有的水平,为音乐人和视频制作者提供了全新的创作可能。

虚拟电商是另一个充满潜力的应用场景。品牌方可以提供产品图像,比如最新款的智能手机或时尚服装,然后将知名人士或虚拟形象置于特定的营销场景中,制作出引人注目的宣传内容。当这些视频配合量身定制的旁白时,能够有效提升消费者的购买意图,为电商营销带来革命性的改变。

影视制作行业也将从这项技术中获得巨大收益。导演可以在前期制作阶段快速生成概念预览,测试不同的角色组合和场景设置,大大降低了试错成本。对于独立制片人来说,这意味着可以用更少的预算创作出高质量的视觉内容。

教育培训领域同样具有广阔的应用前景。教师可以使用历史人物的图像和相关场景,创建生动的历史重现视频,让学生仿佛置身于历史现场。语言学习应用可以生成各种日常对话场景,帮助学习者在真实语境中练习。

社交媒体内容创作将变得更加民主化。普通用户不再需要专业的拍摄设备和后期技能,只需要几张照片和创意想法,就能制作出吸引眼球的短视频内容。这种技术的普及可能会彻底改变社交媒体的内容生态。

九、技术挑战与未来发展

尽管SkyReels-A2取得了令人瞩目的成果,但研究团队也清醒地认识到当前技术仍面临一些挑战。最主要的问题是背景一致性的保持。在某些复杂场景中,系统可能难以完美地将多个元素融合到背景中,有时会出现不够自然的合成效果。这个问题就像拼图游戏中最后几块拼图的配合,需要更加精密的技术来解决。

另一个挑战是处理极端情况下的元素冲突。当用户提供的参考图像在风格、光照条件或分辨率方面差异过大时,系统需要做出妥协,这可能会影响最终视频的质量。解决这个问题需要更加智能的预处理和风格统一技术。

计算资源的需求仍然是实际部署中的考虑因素。虽然研究团队已经实现了显著的优化,但生成高质量视频仍需要相当的计算能力。未来的发展方向可能包括更加高效的模型架构和更好的压缩技术。

伦理和版权问题也是需要谨慎处理的方面。随着技术的普及,如何防止恶意使用、保护个人肖像权和知识产权将成为重要议题。研究团队需要在技术发展的同时,建立相应的安全机制和使用规范。

展望未来,研究团队计划在几个方向上继续改进。首先是提高模型对不同风格和质量参考图像的适应能力,让系统能够处理更加多样化的输入。其次是优化背景融合技术,实现更加自然和令人信服的元素组合效果。

长期来看,这项技术可能会与其他AI技术结合,形成更加强大的创意工具。比如与语音合成技术结合,创建完整的影视内容;与3D建模技术结合,生成更加立体的视觉效果;与实时渲染技术结合,实现交互式的内容创作体验。

十、对行业的深远影响

SkyReels-A2的出现标志着视频生成技术进入了一个新的发展阶段。它不仅仅是技术的进步,更是创意表达方式的革命。这项技术的开源性质尤其重要,它打破了先进视频生成技术被少数商业公司垄断的局面,为更多研究者和开发者提供了学习和改进的机会。

从技术演进的角度来看,SkyReels-A2代表了从"生成式AI"向"组合式AI"的重要转变。传统的生成式AI更像是一位独立创作的艺术家,完全依靠想象来创作;而组合式AI则更像是一位善于整合资源的导演,能够将现有元素重新组织成新的作品。这种转变反映了AI技术从简单模仿向复杂创作能力的发展。

对于创意产业而言,这项技术的影响将是深远而持久的。它降低了高质量视频内容创作的门槛,让更多人能够参与到视觉内容的创作中来。同时,它也为专业创作者提供了强大的工具,让他们能够更加专注于创意构思而非技术实现。

教育和培训行业也将受益匪浅。复杂概念的可视化解释、历史事件的重现、科学实验的模拟等,都可以通过这项技术变得更加生动和易于理解。这对于推进教育现代化和提高学习效果具有重要意义。

从社会影响的角度来看,这项技术的普及可能会改变人们消费和创作视觉内容的方式。社交媒体、广告营销、娱乐产业都可能因此发生结构性变化。同时,它也提出了新的挑战,包括如何识别AI生成内容、如何保护个人隐私和肖像权等问题。

研究团队通过开源这项技术,展现了负责任的创新态度。他们不仅提供了完整的代码和模型权重,还建立了评估基准,为后续研究奠定了基础。这种开放式的研究方式有助于加速整个领域的发展,也有助于建立更加透明和可信的AI技术生态。

说到底,SkyReels-A2的真正价值不仅在于它当前能够实现什么,更在于它为未来可能性打开的想象空间。当技术的界限不断被推进,当创意的表达方式不断丰富,我们可以期待一个更加多彩和充满可能性的数字创意世界。这项来自天工AI的研究成果,正是通向这个未来世界的重要里程碑。

值得一提的是,这项技术的成功也体现了国内AI研究的实力和创新能力。天工AI团队不仅在技术上实现了突破,更在开源共享方面展现了国际视野和合作精神,为推动全球AI技术的发展做出了重要贡献。

Q&A

Q1:SkyReels-A2是什么?它和其他视频生成AI有什么不同? A:SkyReels-A2是天工AI开发的视频生成系统,最大特点是能够将多张不相关的照片(比如人物、物品、背景)组合成一段连贯的视频。与其他只能根据文字描述或单张图片生成视频的AI不同,它就像一个数字导演,能够"指挥"不同的视觉元素在同一个场景中自然互动。

Q2:普通人能使用SkyReels-A2吗?需要什么技术基础? A:目前SkyReels-A2已经开源,代码和模型可以通过GitHub获取。不过使用它需要一定的编程知识和较好的硬件配置。研究团队正在优化系统,希望未来能让普通消费者也能轻松使用,就像现在使用手机拍照一样简单。

Q3:用SkyReels-A2生成的视频会有版权问题吗? A:这确实是需要注意的问题。如果你使用了他人的照片(特别是人物肖像)来生成视频,可能涉及肖像权和版权问题。建议只使用自己拍摄的照片或获得授权的素材。研究团队也意识到这个问题,未来可能会加入相关的安全机制和使用规范。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-