
这项由香港科技大学的黄介辉、清华大学的贺旭、以及快手公司Kling团队的袁高、岑志、夏斌、周彦、陶鑫、万鹏飞等研究者合作完成的研究发表于2025年12月的arXiv预印本平台,论文编号为arXiv:2512.07831v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
以往的视频生成AI就像专业厨师,每个人只精通一道菜。有的只会"看图说话"生成视频,有的只会从视频中识别物体和动作,还有的只能按照特定要求控制视频效果。但现实世界是复杂多样的,就像一顿完整的大餐需要各种技能的配合。当AI只擅长单一技能时,它对世界的理解就像只见过厨房一角的学徒,无法真正掌握烹饪的精髓。
研究团队意识到,如果能训练出一个"全能大厨",让AI同时掌握视频生成、物体识别、动作捕捉、深度估计等多种技能,它就能像真正理解世界运作规律的专家一样,生成出更符合物理规律、更具真实感的视频内容。这就是UnityVideo项目的核心理念——通过统一训练让AI成为视频领域的"全才"。
这个想法听起来美好,但实现起来却像同时学会十八般武艺一样困难。不同的视频任务就像不同的语言,有着各自的"语法"和"词汇"。深度信息告诉AI物体的远近关系,光流信息展示物体的运动轨迹,人体姿态信息描述身体各部位的位置,分割信息标识不同物体的边界。如何让AI理解这些不同"语言"之间的联系,并且在学习过程中相互促进而不是相互干扰,成了最大的挑战。
研究团队的解决方案就像设计了一套巧妙的"翻译系统"。他们创建了一个名为UnityVideo的框架,这个框架就像一个超级聪明的学生,能够同时学习多种技能,并且让这些技能彼此增强。当它学习如何生成视频时,对物体运动的理解会帮助它生成更流畅的画面。当它学习识别物体时,对深度关系的掌握会让它的判断更准确。
为了实现这个目标,研究团队设计了三个核心组件。第一个是"动态噪声调度器",就像一个智能的训练教练,会根据学习进度动态调整训练重点。有时让AI专注于生成训练,有时转向识别训练,有时进行综合训练,确保各项技能均衡发展。第二个是"模态自适应开关器",就像给AI配备了多副"眼镜",每副眼镜专门用来处理特定类型的信息,比如深度信息、运动信息或姿态信息。第三个是"上下文学习器",让AI能够理解不同信息类型的含义,就像学会了识别不同工具的用途。
在数据准备方面,研究团队构建了一个名为OpenUni的大型数据集,包含130万个多模态视频样本。这就像为AI准备了一个丰富的"教材库",涵盖了各种场景、动作和物体,让AI能够接触到足够多样化的训练素材。他们还创建了UniBench基准测试集,包含3万个合成视频样本,用来评估AI的学习效果。
训练过程采用了渐进式策略,就像教孩子学习一样,先从简单的内容开始。第一阶段专注于训练AI理解人体相关的各种信息,比如姿态、动作和深度关系。第二阶段则扩展到更广泛的场景,包括多人场景和一般物体的处理。这种循序渐进的方法避免了"消化不良"的问题,让AI能够稳步提升各项能力。
实验结果表明,UnityVideo在多个任务上都表现出色。在视频质量评估中,它生成的视频在背景一致性、美学质量、整体一致性和动态程度等指标上都达到了优秀水平。特别值得一提的是,相比单独训练的模型,统一训练的UnityVideo展现出了明显的性能提升,就像一个全面发展的学生比只擅长单科的学生更有潜力。
在深度估计任务中,UnityVideo的表现也令人印象深刻。它能够准确估计视频中物体的距离关系,生成的深度图像细节丰富、边缘清晰。在视频分割任务中,它能够准确识别和分离不同的物体,即使是复杂场景下的多个人物也能精确区分。
更令人惊喜的是,UnityVideo表现出了强大的泛化能力。尽管主要在人体数据上训练,它却能够成功处理动物动作捕捉、一般物体的深度估计等超出训练范围的任务。这就像一个学会了基本绘画技巧的艺术家,能够举一反三地创作出训练时从未见过的题材。
从技术实现角度来看,UnityVideo基于扩散变换器架构构建,使用了10亿个参数的大型模型。训练分为两个阶段:第一阶段使用50万个以人体为主的视频片段训练1.6万步,第二阶段扩展到130万个多样化视频片段训练4万步。整个训练过程采用了批量大小为32的设置,学习率为5×10^-5。在推理阶段,使用50步DDIM采样,CFG比例设置为7.5。
研究团队还进行了详细的消融实验,验证了各个组件的重要性。实验结果显示,多模态联合训练相比单模态训练能够在所有指标上带来显著提升。特别是在图像质量和整体一致性方面,提升幅度达到了4分以上。多任务训练同样展现出了明显优势,相比单任务训练在时间一致性和运动平滑度方面都有所改善。
架构设计方面的实验证实了上下文学习器和模态自适应开关器的有效性。当两个组件都启用时,模型在所有评估指标上都达到了最佳表现,证明了这种设计的合理性和必要性。
在与现有方法的比较中,UnityVideo在多个维度上都展现出了竞争优势。与商业模型Kling1.6相比,它在动态程度和整体一致性方面表现更佳。与开源模型如OpenSora、Hunyuan-13B等相比,它在美学质量和视频质量方面都有明显优势。在可控生成任务中,相比VACE和Full-DiT等专门方法,UnityVideo在背景一致性和动态程度上都表现出色。
用户研究进一步证实了UnityVideo的优势。在包含70个完整回答的评估中,UnityVideo在物理质量、语义质量和整体偏好等人工评估指标上都获得了最高分,同时在自动评估指标上也表现最佳。这表明该方法不仅在技术指标上领先,在实际用户体验上也更受欢迎。
值得特别关注的是UnityVideo在物理世界理解方面的表现。研究团队设计了多个涉及光学原理的测试场景,比如通过玻璃杯观察液体时的光线折射效果。UnityVideo能够准确模拟这些物理现象,生成的视频中光线折射、液体流动等细节都符合物理规律,而其他模型往往在这些细节上出现错误。
这种对物理世界的深度理解源于多模态联合训练的优势。深度信息帮助AI理解空间关系,光流信息让它掌握运动规律,分割信息教会它区分不同物体,姿态信息让它理解人体结构。当这些信息融合在一起时,AI就像拥有了全方位的"感官",能够更准确地理解和模拟真实世界。
训练效率方面,统一训练相比分别训练各个模型具有明显优势。从训练曲线可以看出,多模态联合训练能够更快收敛到更低的损失值,这意味着相同的计算资源能够获得更好的模型性能。这种效率提升对于大规模模型训练具有重要意义。
模型的可扩展性也得到了验证。当训练数据从三种模态扩展到五种模态时,UnityVideo在所有评估指标上都展现出持续改善,没有出现性能饱和或下降的现象。这表明该框架具有良好的扩展潜力,未来可以继续整合更多类型的视觉信息。
在实际应用方面,UnityVideo展现出了丰富的可能性。它可以用于电影特效制作,生成高质量的背景视频或特殊效果。在教育领域,它能够创建生动的教学视频,帮助学生理解复杂概念。在虚拟现实和游戏开发中,它可以快速生成逼真的环境和角色动画。对于内容创作者来说,它提供了一个强大的视频生成工具,大大降低了视频制作的门槛。
当然,这项技术也面临一些局限性。当前的视频自编码器偶尔会引入重建伪影,影响最终视频质量。这个问题可能需要通过改进自编码器架构或进行专门的微调来解决。此外,随着模态数量的增加,计算复杂度也会相应提升,这对硬件资源提出了更高要求。
另一个需要注意的问题是模态混淆。当处理大量不同类型的信息时,模型偶尔可能会产生错误的输出,比如在要求生成分割掩码时输出人体骨架信息。研究团队通过引入模态特定的输出层在一定程度上缓解了这个问题,但随着模态数量进一步增加,这个挑战可能会变得更加突出。
未来的发展方向包括扩展到更大的模型规模和整合更多视觉模态。研究团队认为,随着计算能力的提升和训练数据的丰富,UnityVideo有潜力发展成为真正理解物理世界的通用视觉模型。这样的模型不仅能够生成逼真的视频内容,还能够进行复杂的场景理解和预测,为人工智能在现实世界的应用奠定重要基础。
从技术创新角度来看,UnityVideo的成功证明了多模态联合训练的巨大潜力。这种方法打破了传统AI模型各自为政的局面,通过统一的框架实现了真正的协同发展。这一思路不仅适用于视频生成领域,也为其他AI应用提供了有价值的参考。
说到底,UnityVideo就像是AI视频领域的一场革命。它证明了"术业有专攻"的传统思维在AI时代需要更新换代。当我们让AI同时掌握多种技能时,这些技能之间产生的化学反应远比简单的相加更加强大。这不仅仅是技术上的突破,更代表了我们对AI能力边界认知的重大转变。对于普通人来说,这意味着未来我们可能拥有更智能、更便捷的视频创作工具,让每个人都能轻松制作出专业级的视频内容。而对于整个AI行业来说,UnityVideo开创的统一训练范式可能会激发更多跨领域的技术创新,推动人工智能向着更加通用、更加智能的方向发展。
Q&A
Q1:UnityVideo与传统的AI视频生成模型有什么不同?
A:传统AI视频模型就像专业厨师,每个只会做一道菜,比如有的只能根据文字生成视频,有的只能识别视频中的物体。而UnityVideo是个"全能大厨",它能同时掌握视频生成、物体识别、深度估计、动作捕捉等多种技能。更重要的是,这些技能在训练过程中相互促进,让AI对真实世界的理解更加深入,生成的视频也更符合物理规律。
Q2:普通人可以用UnityVideo来做什么?
A:UnityVideo为普通用户提供了强大的视频创作可能性。你可以用它根据文字描述生成高质量视频,也可以通过提供深度图、人体姿态等条件来精确控制视频效果。比如拍摄教学视频时,它能帮你生成特定动作的演示画面;制作短视频时,它能根据你的创意快速生成各种场景。最关键的是,它生成的视频在物理真实性方面表现出色,光线折射、物体运动等细节都很逼真。
Q3:UnityVideo是如何实现多技能协同训练的?
A:UnityVideo的核心在于三个巧妙设计:动态噪声调度器像智能教练,会根据学习进度灵活调整训练重点;模态自适应开关器给AI配备了多副"专业眼镜",每副专门处理特定信息类型;上下文学习器让AI理解不同信息的含义。训练时采用渐进式策略,先学简单的人体相关技能,再扩展到复杂场景,避免了"消化不良"。这种设计让AI的各项技能在学习过程中相互增强而不是相互干扰。
好文章,需要你的鼓励
openGauss的目标是探索oGRAC和超节点深度融合的可能,打造超节点原生数据库。
清华团队开发DKT模型,利用视频扩散AI技术成功解决透明物体深度估计难题。该研究创建了首个透明物体视频数据集TransPhy3D,通过改造预训练视频生成模型,实现了准确的透明物体深度和法向量估计。在机器人抓取实验中,DKT将成功率提升至73%,为智能系统处理复杂视觉场景开辟新路径。
字节跳动研究团队提出了专家-路由器耦合损失方法,解决混合专家模型中路由器无法准确理解专家能力的问题。该方法通过让每个专家对其代表性任务产生最强响应,同时确保代表性任务在对应专家处获得最佳处理,建立了专家与路由器的紧密联系。实验表明该方法显著提升了从30亿到150亿参数模型的性能,训练开销仅增加0.2%-0.8%,为混合专家模型优化提供了高效实用的解决方案。
上海AI实验室团队开发的Yume1.5是一个革命性的AI视频生成系统,能够从单张图片或文字描述创造无限可探索的虚拟世界。用户可通过键盘控制实时探索,系统8秒内完成生成,响应精度达0.836,远超现有技术。该系统采用创新的时空通道建模和自强制蒸馏技术,支持文本控制的事件生成,为虚拟现实和内容创作领域开辟了新的可能性。