微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Shopee团队打造10亿参数视频生成模型:让AI制作商品视频更高效

Shopee团队打造10亿参数视频生成模型:让AI制作商品视频更高效

2025-12-15 09:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-15 09:44 科技行者

这项由新加坡电商巨头Shopee公司大语言模型团队主导的研究发表于2025年10月,主要作者包括张永顺、范忠毅、张永杭等多位研究员。研究成果以预印本形式在arXiv平台发布,编号为arXiv:2510.17519v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究的重要意义在于,它首次公开了一套完整的大规模视频生成模型训练代码和框架,为整个AI视频生成领域的发展提供了宝贵的开源资源。

如今,当我们刷抖音或看YouTube时,很难想象这些视频背后可能隐藏着AI的身影。AI视频生成技术正在悄然改变着我们的视觉世界,就像几年前AI绘画突然爆火一样。而在这个快速发展的领域中,训练一个能够生成高质量视频的AI模型,就像培养一位全能的电影制作人一样复杂。

Shopee团队面临的挑战就像是要同时教会一个学生学会画画、编剧、导演和剪辑。AI需要理解文字描述中的含义,还要掌握视频中物体的运动规律,更要确保画面在时间轴上保持连贯性。这远比静态图片生成复杂得多,因为视频涉及时间维度,每一帧都要与前后帧保持逻辑关系,就像制作一部动画片时,每个角色的动作都必须符合物理规律。

研究团队开发的MUG-V 10B模型拥有100亿个参数,这相当于给AI配备了一个超级大脑,能够处理文本到视频、图片到视频等多种生成任务。更重要的是,这个模型特别擅长生成电商相关的视频内容,比如商品展示、试穿效果等,这对于Shopee这样的电商平台具有直接的商业价值。

这项研究的突破性在于,它不仅提供了一个性能优秀的模型,更重要的是首次完整开源了训练这样大规模视频生成模型的全套代码和框架。这就像是一位顶级厨师不仅做出了美味佳肴,还毫无保留地公开了完整的食谱、烹饪技巧和厨房设备配置。

一、数据处理:为AI准备优质"食材"

就像做菜需要精选食材一样,训练AI视频生成模型首先需要大量高质量的视频数据。Shopee团队面临的第一个挑战就是从海量的原始视频中筛选出适合训练的素材,这个过程就像是在图书馆里为学生挑选最合适的教科书。

研究团队首先建立了一套可扩展的视频处理流水线,这个系统就像一个超级智能的视频编辑师,能够自动处理大量原始视频素材。整个处理过程分为几个重要步骤,每一步都像制作纪录片时的不同工序。

视频分割是第一个关键步骤,就像将一部长电影切分成不同的场景片段。研究团队使用了PySceneDetect工具和自主开发的Color-Struct SVM方法相结合的方案。PySceneDetect主要负责识别明显的镜头切换,而CSS方法则专门处理那些渐隐渐现等过渡效果。这种组合就像配备了两种不同类型的剪刀,一把用于快速裁剪,另一把用于精细修饰。团队根据不同数据源的特点调整识别阈值,确保能够准确分割出语义连贯的视频片段。

接下来是严格的视觉质量筛选过程,这就像珠宝鉴定师在挑选钻石时要检查多个维度。研究团队设计了四道质量检验关卡。首先是清晰度测试,使用OpenCV的拉普拉斯变分度量来评估图像边缘清晰程度,只有变分值在200到2000之间的视频帧才能通过,这确保了画面足够清晰但不会过度锐化。

美学评分环节采用了类似LAION的美学预测器,就像艺术品鉴定专家一样为每个视频片段打分,只有得分超过4.5分的内容才能入选。运动幅度检测则使用RAFT光流估算技术,通过分析视频开头、中间和结尾三个均匀分布的帧对来计算平均光流幅度。研究团队发现,运动幅度小于1的视频往往过于静态,而大于20的则过于动态,都不适合训练,所以只保留中等动态范围的内容。

最后一道关卡是多模态大语言模型过滤器,这就像配备了一位经验丰富的视频制作专家。研究团队使用在2.4万个标注视频上微调的专有模型来识别那些经过重度后期处理的内容,包括文字覆盖、大边框、特效处理、变速播放和摄像头抖动等问题。这个过滤器就像一位严格的质检员,确保进入训练集的视频都是高质量的原始素材。

字幕生成是另一个关键环节,因为高质量的文字描述直接影响着AI的学习效果。研究团队首先在公开数据集和内部标注片段上微调了Qwen2-VL-72B模型,专门优化其描述物体、外观、运动和背景上下文的能力。随后,他们将这种能力蒸馏到更小的Qwen2-VL-7B模型中,在保持准确性的同时大幅提升了处理速度,这就像培训出了一支既专业又高效的字幕创作团队。

为了控制数据分布偏差和消除重复内容,研究团队开发了一套智能的数据平衡和去重系统。他们使用大语言模型解析字幕内容,提取关键实体信息如主体、动作和场景,构建了一个轻量级的本体分类系统。这个系统有两个重要作用:一是进行分层采样,确保那些代表性不足的类别获得足够的权重;二是识别近似重复的视频片段并将其移除。整个过程就像图书管理员在整理藏书时,既要确保各个学科的书籍数量均衡,又要避免同一本书出现多次。

除了基础的预训练数据处理,研究团队还专门为后期训练阶段准备了人工标注的高质量数据集。这个数据集的准备过程更加精细,就像为高端餐厅挑选食材一样严格。他们首先从完整预训练集中筛选出排名前10%的高分视频片段,然后有意提高以人为中心的视频比例,包括人物动作、复杂身体运动和人物与物体的交互场景。研究团队发现,虽然刚性物体的动态相对容易学习,但人体关节运动仍然是一个主要瓶颈,而这恰恰是真实用户查询中最常见的内容。

人工质量标注过程更是精益求精,标注员需要从三个维度评估每个候选视频片段:运动连续性要求没有跳切或变速;内容稳定性要求没有场景变化、溶解或拼接;视觉保真度要求画面清晰且没有重度后期处理痕迹。任何一个维度不合格的片段都会被丢弃,最终形成的数据集在视觉和时间一致性方面都达到了极高标准。

为了进一步提升模型性能,研究团队还收集了针对偏好优化的人工标注数据。这包括两种类型的标注:成对比较标注让标注员在两个生成视频之间选择在整体美学、运动平滑度和视觉错误严重程度方面更优的那个;绝对正确性标注则独立检查每个片段是否与提示语义匹配、主体是否在整个序列中保持一致,以及是否存在物理或渲染错误。这种双重标注机制为后续的偏好学习阶段提供了强有力的支持,使模型能够迭代改进生成质量并系统性地减少物理错误。

二、模型设计:构建AI视频生成的"大脑"

在完成数据准备后,研究团队需要设计模型的核心架构,这就像为一台超级计算机设计主板和处理器。MUG-V 10B采用了当前主流的潜在扩散变换器框架,整个系统由两个主要组件构成:一个负责视频压缩的视频变分自编码器(Video VAE)和一个负责生成的10亿参数扩散变换器(DiT)。

视频VAE的设计就像创造一位超级压缩专家,它需要在保持视频质量的同时将数据量大幅缩减。这个组件沿着时间、高度和宽度三个维度实现8×8×8的压缩比例,相当于将原始视频体积缩小512倍。结合后续扩散变换器中的非重叠2×2空间分块操作,整个系统相对于像素空间实现了约2048倍的压缩比例。这种极高的压缩比例为后续处理带来了巨大的效率提升。

在Video VAE的架构设计上,研究团队从公开可用的图像VAE开始,通过混合卷积堆栈将其扩展到视频域。每个下采样阶段都交替使用2D空间卷积和3D卷积,前者捕获帧内纹理特征,后者建模帧间运动信息。这种混合设计既保留了全3D编码器的表现力,又相比纯3D方案显著降低了计算复杂度。

与以往分离"空间"和"时间"处理路径的方法不同,研究团队采用了统一架构,同时对每个维度进行8倍下采样。最终的潜在张量Z编码了外观和运动线索的紧凑形式。由于高压缩比可能损害保真度,研究团队扩大了瓶颈的通道维度来增强潜在容量。通过消融研究发现,增加通道数C能够显著改善重建质量,最终选择C=24作为质量和存储预算之间的最佳平衡点。

Video VAE设计中的一个重要创新是"最小编码原则"。传统的时序因果卷积虽然在许多Video VAE实现中广泛使用,但存在信息不平衡问题。当当前帧到片段起始位置的距离小于编码器的时序感受野时,早期令牌聚合的上下文信息少于后期令牌,造成潜在序列的信息密度不均。研究团队提出的最小编码原则强制每个潜在令牌作为独立单元,仅从其对应的帧块(在他们的设置中为8帧)中导出,不进行超出此时序窗口的信息交换。

这种设计理念基于一个重要观察:Video VAE的主要职责是压缩和重建,而非生成。由于单位帧段已经包含了重建自身所需的外观和运动线索,进一步的上下文混合是不必要的,甚至可能产生捷径学习。最小编码原则还带来了灵活的潜在接口:同一编码器可用于任意序列长度、图像到视频或视频续写任务,以及首帧、中间帧或末帧条件等特殊情况。

在解码器设计上,研究团队采用了共享解码器策略。解码器必须从潜在序列重建完整片段,不受上述"最小原则"约束。实验发现,一次性向解码器输入适当长度的潜在序列比强制单位重建收敛更快。为了平衡吞吐量和内存使用,团队在训练时使用单潜在编码,但在解码器输入窗口中变化使用1、4、8个连续潜在令牌。运行时,编码器和解码器简单地重塑输入以匹配选择的窗口大小。

MUG-V 10B扩散变换器是整个系统的生成核心,拥有100亿参数,能够同时处理文本到视频、图像到视频和文本加图像到视频的合成任务。模型主干采用DiT架构,确保与最先进扩散技术的兼容性。整个DiT主干由四个组件构成:输入分块、文本条件网络、堆叠DiT块和输出反分块。

在变换器块设计上,研究团队没有采用某些图像或视频扩散模型中使用的MM-DiT块,而是选择了与自回归语言模型密切对齐的变换器块架构。在自注意力和前馈网络之间插入交叉注意力模块,使文本嵌入和视觉令牌能够直接交互。这种设计确保了文本条件能够有效地指导视频生成过程。

在注意力机制的选择上,当前DiT变体要么采用全注意力,即时空序列中的每个令牌都关注其他所有令牌,要么采用时空分离注意力,将注意力限制在局部邻域以减少计算量。全注意力提供更强的全局一致性,例如片段开始和结束时出现的同一人物或背景可以直接交互。由于Video VAE和分块方案带来的高压缩比,全注意力不会产生过高的计算成本,因此研究团队在整个模型中采用了全注意力机制。

为了让全注意力能够捕获准确的位置线索,研究团队应用了三维旋转位置嵌入(3D RoPE),将原始的一维公式扩展到联合编码空间和时间坐标。这种设计让模型能够精确理解视频中每个元素的时空位置关系。

在全局信号嵌入方面,扩散时间步和视频帧率等全局信号按照现有方法进行嵌入。共享MLP将每个全局标量映射到模型维度,每块可学习的缩放参数调制结果向量,在表现力和内存效率之间取得平衡。

标准化处理对于大规模模型的训练稳定性至关重要。除了自注意力内部的QK标准化外,研究团队还对输入文本特征和交叉注意力模块进行标准化。实验证明,这些层显著减少了参数波动,减轻了损失波动,在训练过程中产生更少的视觉伪影。

在图像或帧条件视频生成方面,研究团队设计了一种新颖的条件策略。他们不是将条件潜在向量添加到去噪潜在向量中,而是对视频序列进行掩码处理。条件区域接收给定的图像或帧潜在表示,扩散时间步设为零(不添加噪声),而其余令牌遵循标准的噪声扩散轨迹。这种策略在预训练期间既澄清了时间步信号,又在推理时对提供的视觉内容产生更高的保真度。

三、训练策略:循序渐进的学习之路

训练一个100亿参数的视频生成模型就像培养一位世界级的艺术家,需要科学的教学方法和循序渐进的学习过程。研究团队设计了一套完整的多阶段训练策略,确保模型能够稳定高效地学习复杂的视频生成技能。

Video VAE的训练采用了复合损失函数,就像用多种评价标准来衡量学生的综合表现。损失函数包含三个互补的组成部分:重建损失、KL散度正则化和对抗损失。重建损失是加权的MSE、L1和感知损失的组合,分别鼓励像素级准确性和感知保真度。KL散度项对潜在分布进行正则化,抑制异常值并促进平滑插值。对抗损失仅在最终微调阶段应用,用于锐化纹理和颜色细节,但研究团队将其权重保持在较小值并监控验证PSNR和SSIM指标,避免过度对抗训练导致的色调偏移或细节过度增强。

为了解决模型容易重建全局结构但在高动态、精细细节区域出现振荡的问题,研究团队引入了自适应重建权重技术。对于每个重建帧,他们计算时空显著性图,结合拉普拉斯算子提取高频空间边缘和时间前向差分突出快速运动。然后使用这个权重图形成加权损失项替代普通的L1组件。具有快速时空变化的区域因此贡献更大的梯度信号,在不增加额外数据传递的情况下改善收敛。

在扩散变换器的训练中,研究团队面临的主要挑战是如何在有限的计算资源下高效训练如此大规模的模型。考虑到执行详尽的缩放定律研究和超参数搜索需要大量计算资源,他们采用了两阶段工作流程:首先训练紧凑模型,然后将其参数扩展到100亿规模继续训练。

参数扩展策略借鉴了零样本超参数转移研究的思路。研究团队固定目标深度为56个变换器块,构建了隐藏尺寸为1728的较小DiT(约20亿参数)。这个小模型的低训练成本和快速推理使其成为快速实验和方案验证的理想选择。一旦20亿模型达到满意的视频生成质量,他们通过隐藏尺寸等变扩展将其放大。

扩展策略与HyperCloning扩展方法密切相关,都是在保持网络功能行为的同时增加通道宽度。对于权重矩阵W和偏置向量b,通过因子e扩展隐藏维度时,将原始参数平铺并除以e以保持特征缩放不变。同时添加随机扰动以避免梯度重复问题。这种输出保持扩展策略加速了收敛,而小模型阶段大幅降低了整体实验成本。

多阶段预训练课程是训练策略的核心创新。视频数据的异构性质使得课程学习对视频生成模型训练特别有效。在低空间分辨率下,语义内容占主导地位;随着分辨率增加,更丰富的纹理特征开始出现。同时,视频可以被视为静态图像的动态扩展,运动是在外观基础上学习的。

基于这些特性,研究团队采用了三阶段课程。第一阶段混合图像数据和低分辨率360p视频片段,图像到视频的比例在训练期间逐渐调整直到视频占主导,此时模型能够可靠生成合理的图像和粗糙的视频片段。第二阶段保持360p分辨率但将片段长度从2秒增加到5秒,训练持续到验证损失趋于平稳。第三阶段将训练集替换为5秒720p片段,从约1200万高质量视频中精选,构成最终预训练阶段。

需要注意的是,参数扩展前的较小模型仅使用图像和360p视频;前述图像或帧条件的掩码策略与文本到视频生成预训练兼容,在第二和第三阶段都引入了首帧掩码。这个课程不仅指导模型逐步获得视频生成技能,还提升了训练效率。在第一和第二阶段,较短序列和更高吞吐量让模型看到比第三阶段多十倍的样本,培养了稳健的通用能力。第三阶段虽然计算成本高,但通过严格筛选的高分辨率数据完善了细节。

多阶段预训练完成后,验证损失趋于平稳并开始振荡,模型输出呈现两种持续的失效模式:精细粒度伪影(特别是在人手等关节区域)和基本物理合理性违背(如穿透和变形)。为进一步改善生成质量,研究团队采用了两种后训练方法:带后EMA的退火监督微调和基于偏好的优化。

退火监督微调使用精心挑选的约30万高质量片段,在这个子集上继续训练并逐渐降低学习率。研究团队比较了在线指数移动平均参数平滑和后验EMA变体,后者不仅消除了昂贵的EMA超参数网格搜索需求,还更可能产生更高的视频质量。他们通过指数衰减模型集成近似后验EMA,这在概念上类似于模型合并策略,在他们的设置中实验效果优于标准在线EMA。

偏好优化方面,虽然基于偏好的强化学习在大语言模型中取得显著成功,但其在视频生成中的应用仍然具有挑战性,主要由于当前视频评估模型的有限能力和优化轴的多样性(如外观、运动、时间一致性等)。研究团队因此求助于人工标注偏好,专注于两个目标:无错误生成和运动质量。

对于穿透、变形或其他物理不合理性等失效,他们收集绝对正负标签并使用KTO算法优化模型。为改善动态真实性,他们获得成对"更好或更差"标注并应用DPO算法。在偏好优化期间保留原始监督微调目标作为正则化器,减轻了模型采用不良统计偏差的风险。通过多阶段进行偏好优化并交替使用不同标注源的批次,模型能够顺序暴露不同类别的错误,实现持续的质量改进。

四、基础设施:强大计算支撑的幕后英雄

训练一个100亿参数的视频生成模型就像指挥一支庞大的交响乐团,需要精密的协调和强大的基础设施支撑。研究团队基于Megatron-Core构建了高效的训练框架,专门应对视频生成模型面临的三大核心挑战:处理长序列的全注意力机制、扩展到数十亿参数,以及在训练过程中保持数值精度。

模型并行策略是解决大规模训练的关键技术。由于视频数据的长序列特性比语言模型预训练产生更高的动态内存消耗,研究团队系统地探索了并行化技术以最大化吞吐量。他们的混合方案巧妙结合了数据并行、张量并行、流水线并行和序列并行四种技术。

具体实施时,团队首先在单个节点内启用张量并行。为了减轻长序列的内存负担,他们通过序列并行在张量并行组内分片激活。接着应用流水线并行,垂直分割层级并利用点对点通信来利用节点间带宽,同时禁用激活重计算。最后引入数据并行来扩大有效批量大小并改善训练稳定性。通过广泛的基准测试,他们确定了一个在100亿规模下提供近线性效率扩展的最优配置,从而最大化硬件利用率。

数据加载和计算平衡是另一个关键优化点。除了优化参数更新,高效的数据摄取对整体训练吞吐量至关重要。研究团队构建了带有激进预取和缓存的异步IO流水线,将数据预处理和传输与计算重叠以隐藏延迟。为了最小化由可变视频序列长度引起的流水线停顿,他们还引入了跨所有等级的动态平衡采样。这个方案确保每个GPU接收计算成本相当的批次,减少空闲周期并进一步改善硬件利用率。

内核融合技术为模型训练带来了显著的性能提升。为了减少DiT的像素级调制和残差路径带来的内存开销,研究团队设计了两级融合:低级内核融合和块重构。在低级别,他们将三个紧密耦合的操作合并为单个GPU内核:线性层偏置加法、逐像素缩放位移调制和残差累积。将读取-计算-写入序列合并为一次传递,将全局内存事务从N次减少到1次。

融合内核采用Triton手写实现,利用warp级shuffle在不产生共享内存溢出的情况下广播偏置和调制向量。持久线程调度模式保持中间数据在寄存器中驻留于三个融合阶段,将带宽利用率推向硬件极限并进一步削减内存流量。

在更高层级,研究团队重构DiT块以暴露额外的融合机会。LayerNorm与QKV投影融合执行,消除额外的内存往返。注意力分数掩码直接折叠到FlashAttention-2 softmax内核中,避免分数矩阵的冗余读取。静态形状推理去除不必要的填充,确保完全合并访问。这些优化协同降低了内存流量,增加了算术强度,并提供了端到端的加速效果。

通过这些系统级优化,研究团队在配备500个Nvidia H100 GPU的系统上实现了近线性扩展。整个基础设施不仅支持高效训练,还为模型推理和应用部署提供了坚实基础。这套完整的基础设施解决方案与模型权重和训练代码一起开源,为研究社区提供了宝贵的资源。

五、模型表现:从实验数据到实际应用

经过精心设计和训练的MUG-V 10B模型在各种评估中展现出了优异的性能表现,就像一位经过严格训练的艺术家终于登台表演。研究团队从多个维度对模型进行了全面评估,不仅包括标准的自动化指标,还特别关注了在电商视频生成这一实际应用场景中的表现。

在标准的VBench评估协议中,MUG-V 10B在多项指标上表现出色。VBench是视频生成领域广泛使用的综合基准测试,涵盖了时间一致性、运动动态和感知美学等多个维度。具体评估包括主体一致性、背景一致性、运动平滑度、动态程度、美学质量和成像质量六个核心指标。此外,针对图像到视频任务,还增加了视频-文本摄像机运动、视频-图像主体一致性和视频-图像背景一致性三个专门指标。

评估结果显示,MUG-V 10B在几乎所有指标上都表现强劲。在提交时,该模型在VBench I2V排行榜上排名第三,仅次于Magi-1和某个商业系统。特别值得注意的是,模型在保持较小参数规模(100亿)的情况下,达到了与那些参数量更大的模型相当甚至更优的性能水平。这证明了研究团队在模型设计和训练策略上的有效性。

然而,研究团队深知自动化指标存在的局限性。现有指标往往忽略了一些细粒度的缺陷,比如织物纹理的微妙变化或手部姿势的轻微错误,而这些细节对产品保真度至关重要。因此,他们专门设计了针对电商视频生成任务的人工评估实验,这为模型的实际应用价值提供了更直接的证据。

在电商视频生成的人工评估中,研究团队将MUG-V 10B与两个领先的开源模型HunyuanVideo和Wan 2.1进行了直接对比。测试输入随机抽样自公开可用的模型展示间图像,每种方法都使用其默认提示生成器创建视频提示并生成5秒片段。所有片段被混合并随机排序,然后由三名独立标注员并行评估,最终标签通过共识决定。

评估过程分为三个阶段,每个阶段都像电影评审一样严格。首先,标注员判断片段是否明显由AI生成,考虑错误存在(从物理不合理性到小伪影)和整体视觉真实性。这个阶段主要评估生成内容是否能够达到"以假乱真"的程度。

第二阶段针对被认为足够真实的片段,标注员评估产品相对于输入图像的一致性,要求颜色、材料、纹理和其他属性保持不变。只有同时满足这两个标准的片段才被认为可在电商中部署。这个标准非常严格,因为电商应用中产品信息的准确性直接关系到消费者的购买决策。

第三阶段针对可部署的片段,标注员判断视频是否"高质量",以专业摄影和模型表现的特征为标准。评估结果显示,MUG-V 10B在通过率和高质量率两个指标上都取得了领先成绩。具体来说,该模型生成的电商视频中有更大比例能够通过"真实性"和"产品一致性"的双重检验,同时在视觉质量方面也表现更佳。

尽管取得了这些令人鼓舞的结果,研究团队也诚实地指出了当前的局限性。他们观察到残留的小伪影和几何扭曲仍然限制着整体质量,这表明在电商应用中还有substantial headroom for improvement。这种客观的自我评估体现了严谨的科学态度,也为未来的改进指明了方向。

在Video VAE的重建质量评估中,研究团队使用了标准指标PSNR、SSIM、LPIPS和FloLPIPS,针对真实世界片段进行验证。结果显示,他们的Video VAE在这些指标上超越了大多数比较模型。虽然在720p设置下的SSIM分数略低于CogVideoX VAE,但考虑到8×8×8的更高压缩比(相比CogVideoX的4×8×8),这代表了效率和质量之间的有利平衡。定性示例显示,飘散的烟雾和快速变化的纹理等精细细节都得到了忠实再现。

研究团队还提供了丰富的可视化示例,展示了模型在文本到视频和图像到视频两种主要任务中的生成效果。这些示例涵盖了各种场景,从自然风光到人物动作,从静物展示到动态交互,充分展现了模型的多样性和灵活性。特别是在电商相关场景中,模型能够很好地处理服装展示、产品演示等常见需求。

值得一提的是,这些评估结果的获得离不开研究团队在整个训练流程中的精心设计。从数据处理的严格筛选,到模型架构的创新设计,再到训练策略的循序渐进,每一个环节都为最终的优异表现贡献了力量。这也证明了在AI模型开发中,系统性的方法比单点突破更为重要。

六、技术创新:突破传统的巧思妙想

MUG-V 10B的成功不仅仅依赖于大规模的计算资源和数据,更重要的是研究团队在多个技术环节上的创新突破。这些创新就像建筑师在设计摩天大楼时的巧妙构思,每一个看似微小的改进都对整体性能产生了重要影响。

最小编码原则是Video VAE设计中的一个重要创新。传统方法中,时序因果卷积被广泛采用,因为它们尊重时间箭头、允许单一模型编码可变长度片段,并防止视频预测期间来自未来帧的信息泄漏。但是,因果卷积也带来了问题:当当前帧到片段原点的距离小于编码器的时序感受野时,早期令牌聚合的上下文比后期令牌少,在潜在序列中产生信息不平衡。

研究团队提出的最小编码原则从根本上解决了这个问题。他们强制每个潜在令牌作为独立单元仅从其对应的帧块中导出,从而消除了信息密度不平衡。这个设计基于一个深刻的洞察:Video VAE的主要职责是压缩和重建,而不是生成。单位帧段已经包含重建自身所需的外观和运动线索,进一步的上下文混合不仅不必要,甚至可能创造捷径学习。

自适应重建加权是另一个巧妙的技术创新。研究团队观察到,模型在核心目标稳定后容易重建全局结构,但在高动态、精细细节区域出现振荡。为了让学习重点关注这些困难案例,他们为每个重建帧计算时空显著性图,结合拉普拉斯算子(提取高频空间边缘)和时间前向差分(突出快速运动)。具有快速时空变化的区域因此贡献更大的梯度信号,在不增加额外数据传递的情况下改善收敛。

参数扩展策略展现了研究团队在资源优化方面的智慧。考虑到详尽的缩放定律研究和超参数搜索需要大量计算资源,他们采用了创新的两阶段工作流程。首先固定目标深度为56个变换器块,构建隐藏尺寸1728的较小DiT(约20亿参数)进行快速实验和方案验证。一旦小模型达到满意质量,通过隐藏尺寸等变扩展放大到100亿规模。

这种扩展策略巧妙地平衡了原始参数的平铺和随机扰动,既保持了网络的功能行为,又避免了梯度重复问题。通过设置扩展因子e=2,总参数量增加约4倍。这种输出保持扩展策略不仅加速了大模型的收敛,更重要的是小模型阶段大幅降低了整体实验成本。

图像/帧条件策略的设计也体现了研究团队的创新思维。与传统的将条件潜在向量添加到去噪潜在向量的方法不同,他们采用了掩码策略:条件区域接收给定的图像/帧潜在表示并将扩散时间步设为零(不添加噪声),而其余令牌遵循标准噪声扩散轨迹。这种方法在预训练期间澄清时间步信号,在推理时对提供的视觉内容产生更高保真度。

多阶段训练课程体现了教育学原理在AI训练中的应用。研究团队深刻理解视频数据的异构特性:低空间分辨率下语义内容占主导,高分辨率下纹理特征丰富,而视频本质上是静态图像的动态扩展。基于这些洞察,他们设计了从图像-低分辨率短视频,到低分辨率长视频,再到高分辨率长视频的渐进式训练过程。

这个课程设计的巧妙之处在于,早期阶段的较短序列和更高吞吐量让模型接触到比最终阶段多十倍的样本,培养了稳健的通用能力。而最终阶段虽然计算成本高,但通过严格筛选的高分辨率数据完善了细节处理能力。这种渐进式学习不仅提高了训练效率,还确保了模型能力的全面发展。

偏好优化的双轨制设计展现了实用主义的创新精神。面对当前视频评估模型能力有限和优化目标多样化的挑战,研究团队求助于人工标注偏好,但采用了针对性的双轨制策略。对于具体的错误类型如穿透、变形等物理不合理性,使用绝对正负标签和KTO算法;对于整体的运动质量,使用成对比较和DPO算法。这种分类处理的方法既保证了优化的针对性,又提高了训练的效率。

内核融合技术的设计体现了系统优化的深度思考。研究团队不满足于简单的算法优化,而是深入到GPU内核级别进行优化。他们将线性层偏置加法、逐像素缩放位移调制和残差累积三个紧密耦合的操作合并为单个GPU内核,将全局内存事务从N次减少到1次。采用Triton手写实现,利用warp级shuffle技术,确保中间数据在寄存器中驻留,将带宽利用率推向硬件极限。

这些技术创新的集成效应远大于各部分的简单相加。最小编码原则确保了数据表示的一致性,自适应加权提升了学习效率,参数扩展降低了实验成本,多阶段课程保证了能力发展,偏好优化解决了质量问题,而内核融合则榨取了硬件性能的最后一滴潜力。正是这些看似独立却相互支撑的创新,共同铸就了MUG-V 10B的优异表现。

七、开源贡献:为社区打造的技术宝库

MUG-V 10B项目最令人钦佩的地方在于其完全开源的态度,这就像一位顶级厨师不仅做出了美味佳肴,还毫无保留地公开了完整的食谱、烹饪技巧和厨房设备配置。研究团队的开源承诺为整个AI视频生成社区提供了前所未有的宝贵资源。

据研究团队介绍,这是首次有团队公开发布利用Megatron-Core实现高训练效率和近线性多节点扩展的大规模视频生成训练代码。这个贡献的重要性怎么强调都不为过,因为它填补了学术界和工业界之间的重要空白。以往,虽然研究论文会详细描述算法和方法,但实际的工程实现细节往往是缺失的,这让其他研究者很难复现或改进相关工作。

完整的开源栈包含了多个层面的内容。首先是模型权重的完整发布,这意味着研究者和开发者可以直接使用训练好的模型进行实验和应用开发,而无需从零开始训练。这大大降低了进入这个领域的门槛,特别是对那些计算资源有限的小型研究团队或个人开发者来说。

更重要的是,基于Megatron-Core的大规模训练代码的开源为社区提供了一个高质量的起点。Megatron-Core是NVIDIA开发的先进并行训练框架,能够有效处理大规模模型的训练挑战。研究团队在此基础上的改进和优化,特别是针对视频生成任务的特殊需求所做的适配,现在都可以被社区直接使用和进一步改进。

推理流水线的开源同样具有重要价值。一个优秀的模型如果没有高效的推理系统支撑,其实际应用价值就会大打折扣。研究团队提供的推理代码不仅支持标准的视频生成功能,还包括了视频增强等扩展功能,这为开发者构建实际应用提供了完整的技术栈。

项目的开源策略体现了深思熟虑的设计。代码结构清晰,文档详尽,这使得其他研究者能够快速理解和使用这些资源。同时,模块化的设计意味着开发者可以根据自己的需求选择性地使用某些组件,而不必采用整个系统。

这种开源贡献对学术研究的推动作用是多方面的。首先,它大大降低了相关研究的重复工作。其他研究团队可以在这个坚实的基础上继续创新,而不必花费大量时间重新实现基础功能。其次,统一的代码基础有助于不同研究之间的比较和验证,提高了整个领域的研究质量。

对于工业应用而言,这个开源项目同样意义重大。企业可以基于这些经过验证的代码和模型快速开发自己的视频生成应用,而不必从零开始投入巨大的研发成本。这种技术民主化的效应可能会催生更多创新的应用场景和商业模式。

教育价值也不容忽视。对于学习AI和深度学习的学生和研究者来说,这个项目提供了一个极佳的学习案例。他们可以通过阅读代码、运行实验来深入理解大规模AI模型的训练和部署细节,这种实践经验往往比纯理论学习更有价值。

研究团队的开源决定还体现了对整个AI社区发展的长远考虑。通过分享他们的技术成果,他们不仅推动了当前技术的普及,更重要的是为未来的创新奠定了基础。当更多的研究者和开发者能够在这个基础上工作时,整个领域的发展速度必然会显著加快。

值得注意的是,这种全栈开源的做法在大型AI项目中并不常见。许多公司和研究机构往往只会发布模型权重或者部分代码,而将核心的训练和系统优化技术作为竞争优势保留。Shopee团队的开放态度展现了他们对推动整个领域发展的真诚承诺。

从技术生态的角度来看,这个项目的开源可能会形成一个良性循环。当更多的研究者和开发者使用这些代码时,他们的反馈和改进将使整个系统变得更加稳定和高效。同时,基于这个平台开发的新功能和优化也可能反哺给原项目,形成社区共同维护和改进的模式。

八、未来展望:技术进步路上的挑战与机遇

在展示了MUG-V 10B的优异表现之后,研究团队并没有停留在成功的喜悦中,而是以科学家特有的严谨态度指出了当前技术仍面临的挑战,并为未来的发展方向提供了深入的思考。这种客观的自我评估体现了真正的科学精神,也为整个领域的发展指明了方向。

条件信号的忠实度和可控性仍然是需要重点突破的领域。虽然MUG-V 10B已经能够处理文本、图像或混合输入等多种条件,但从条件信号到生成视频的映射还不够精确和可控。这就像一位翻译虽然能够理解多种语言,但在某些细节的表达上还不够准确。在实际应用中,用户往往对生成结果有非常具体的期望,任何细微的偏差都可能影响最终的使用效果。特别是在商业应用中,这种精确性要求更是至关重要的。

精细外观保真度的问题同样值得关注。虽然模型在整体视觉效果上表现出色,但在材质和纹理保持方面仍有提升空间。这个问题的根源部分来自于Video VAE的压缩过程,部分来自于DiT的噪声初始化,这些因素都可能导致微妙但重要的视觉质量降级。就像高端相机在不同ISO设置下会产生不同程度的噪点一样,AI模型的各个处理环节都可能对最终质量产生影响。

扩展到更长时长和更高分辨率是技术发展的必然趋势,但也带来了新的挑战。当前的算法和系统需要应对长序列训练的复杂性、推理效率的要求,以及长期时间一致性的维持。这不仅仅是计算资源的问题,更是算法设计的根本性挑战。就像制作一部长篇电影比制作短片需要更复杂的剧情架构和更精密的制作流程一样,生成更长的视频需要模型具备更强的全局规划和局部细节平衡能力。

面对这些挑战,研究团队提出了几个值得深入探索的方向。在条件控制方面,未来的工作可能需要开发更精细的条件编码机制,让模型能够更准确地理解和执行用户的意图。这可能涉及多模态理解的进一步提升,以及条件信号与生成过程之间更直接的关联机制。

在视觉质量提升方面,研究团队认为需要在压缩效率和保真度之间找到更好的平衡点。这可能需要开发新的压缩算法,或者在训练过程中引入更精细的质量控制机制。同时,对于特定应用场景如电商视频生成,可能需要开发专门针对产品特性优化的模型变体。

长序列处理的挑战可能需要从多个角度来解决。在算法层面,可能需要开发更高效的注意力机制或者新的序列建模方法。在系统层面,需要更好的内存管理和计算优化策略。在训练策略上,可能需要更巧妙的课程学习设计,让模型能够逐步适应越来越长的序列。

训练效率的持续优化也是一个重要方向。虽然当前的系统已经实现了近线性扩展,但随着模型规模的进一步增长,新的瓶颈可能会出现。这需要在硬件利用、算法优化和系统设计等多个层面持续创新。

数据质量和多样性的提升同样重要。更高质量的训练数据不仅能够提升模型性能,还能减少训练所需的计算资源。同时,数据的多样性直接影响模型的泛化能力和应用范围。如何高效地收集、筛选和处理大规模高质量数据将是一个持续的挑战。

评估方法的改进也值得关注。当前的自动化评估指标虽然有用,但往往无法捕捉到人类视觉系统关注的细节。开发更好的评估方法,特别是能够自动检测细粒度错误的方法,对于推动整个领域的发展具有重要意义。

从更宏观的角度来看,视频生成技术的发展还面临着伦理和社会责任的考量。随着技术越来越逼真,如何防止恶意使用、保护隐私权利、维护信息真实性等问题变得越来越重要。这需要技术开发者、政策制定者和社会各界共同努力。

产业应用的深入也会带来新的需求和挑战。不同行业对视频生成的要求各不相同,如何开发既通用又专业的解决方案,如何在保持技术先进性的同时降低使用门槛,这些都是值得深入思考的问题。

尽管面临诸多挑战,但视频生成技术的发展前景依然令人乐观。随着计算能力的持续提升、算法的不断创新和数据资源的日益丰富,我们有理由相信这些技术难题将逐步得到解决。更重要的是,像MUG-V 10B这样的开源项目为整个社区提供了共同努力的基础,这种开放合作的精神将加速技术进步的步伐。

说到底,MUG-V 10B不仅仅是一个技术产品,更是人工智能发展历程中的一个重要里程碑。它证明了通过系统性的方法、创新的技术和开放的态度,我们能够在复杂的技术挑战面前取得突破。虽然距离完美的AI视频生成系统还有一段路要走,但每一步扎实的进展都在让我们更接近那个目标。

对于普通人来说,这项技术的发展意味着未来我们将能够更容易地创造高质量的视频内容,无论是为了商业用途还是个人表达。对于整个社会来说,这种技术的普及可能会改变内容创作的格局,让更多人能够参与到视觉故事的讲述中来。而对于科技发展来说,MUG-V 10B所展现的系统性创新方法和开源合作精神,无疑为其他技术领域的发展提供了有益的借鉴。

归根结底,技术的价值在于服务人类,推动社会进步。Shopee团队通过MUG-V 10B项目不仅推进了AI视频生成技术的发展,更通过开源的方式让这些先进技术能够惠及更广泛的群体。这种技术创新与社会责任相结合的做法,正是我们在AI时代所需要的发展模式。随着更多类似项目的出现和发展,我们有理由对人工智能技术的未来保持乐观和期待。

Q&A

Q1:MUG-V 10B是什么?

A:MUG-V 10B是由Shopee公司开发的一个100亿参数的AI视频生成模型,能够根据文字描述或图片生成高质量视频,特别擅长制作电商相关的产品展示视频。

Q2:MUG-V 10B的最大创新是什么?

A:该项目的最大创新在于首次完整开源了基于Megatron-Core的大规模视频生成模型训练代码,包括模型权重、训练框架和推理流水线,为AI视频生成领域提供了宝贵的技术资源。

Q3:普通人能使用MUG-V 10B吗?

A:是的,研究团队已经将完整的代码和模型权重开源,有技术背景的开发者可以直接使用。对于普通用户,未来可能会有基于这个模型的应用产品推出。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-