微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

DreamWorld：首个统一视频生成世界模型诞生！中科大与上海交大联合打造

人工智能视频生成世界模型

DreamWorld：首个统一视频生成世界模型诞生！中科大与上海交大联合打造

作者：科技行者

2026-03-17 10:56

分享至：

由中科大、上海交大联合开发的DreamWorld是首个统一世界建模视频生成框架，突破了传统AI只能生成表面视觉效果的局限。通过融合时间动态、空间几何和语义理解三维知识，实现了既美观又符合物理规律的视频生成。该技术在多项权威基准测试中显著超越现有模型，为视频生成向真正世界模拟器发展奠定重要基础，有望革新影视制作、教育培训等领域。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-03-17 10:56 • 科技行者

这项由中国科学技术大学、上海交通大学以及南京大学苏州校区联合开展的开创性研究于2026年3月3日发布，论文编号为arXiv:2603.00466v1。对于想要深入了解技术细节的读者，可以通过该编号在学术数据库中查询完整论文。这项研究成果代表了视频生成技术向真正世界模拟器迈出的关键一步。

现在的AI视频生成技术就像一个技艺精湛的画师，能够创作出令人惊叹的视觉作品，但却缺乏对真实世界运行规律的深层理解。当你要求AI生成一段"蜂蜜滴落到酸奶上"的视频时，现有的模型可能会生成看起来很棒的画面，但仔细观察就会发现蜂蜜的流动违反了物理定律，或者勺子搅拌汤的动作不符合常理。这就好比一个从未接触过真实世界的艺术家，只能凭借想象创作，而无法准确描绘真实的物理现象。

研究团队深入分析了当前视频生成技术的核心问题，发现现有的模型主要专注于像素级别的视觉效果匹配，就像只关心画面是否好看，而忽略了画面内容是否符合物理常识。当研究人员尝试将多种世界知识同时注入到一个视频生成模型中时，就像同时让一个学生学习物理、化学、数学和文学，不同学科之间的要求可能相互冲突，导致学习效果适得其反。

为了解决这一根本性挑战，研究团队开发出了DreamWorld框架。这个框架的核心理念就像培养一个真正的"世界观察家"，让AI不仅能看到表面现象，还能理解现象背后的运行规律。DreamWorld通过一种全新的联合世界建模方法，同时学习视频的视觉表现和多种类型的世界知识，包括时间动态、空间几何关系和语义一致性。

一、世界知识的三维构建

要让AI真正理解世界，就像教会一个孩子认识世界一样，需要从多个维度来构建认知体系。研究团队将世界知识分解为三个关键维度，每个维度就像拼图的一块，只有完整组合才能形成对真实世界的完整理解。

第一个维度是时间动态知识，主要通过光流技术来捕获。光流就像记录物体运动轨迹的"慢镜头"，能够精确追踪画面中每个像素点的移动方向和速度。当你看到一个球在滚动时，光流能够告诉AI这个球应该按照什么样的轨迹和速度运动。研究团队使用RAFT模型来计算这些运动信息，然后将复杂的数学数据转换成RGB颜色编码，让AI能够像人类一样"看到"运动。

第二个维度是空间几何知识，通过VGGT技术来实现。这个技术就像给AI安装了一个"空间感知器"，让它能够理解物体之间的相对位置、大小比例和遮挡关系。比如当一个人伸手去拿杯子时，VGGT能够确保手和杯子的相对位置合理，手不会穿透杯子，也不会悬空抓取。

第三个维度是语义理解知识，依靠DINOv2技术实现。DINOv2就像一个经验丰富的"物品识别专家"，能够准确识别视频中的各种物体，并确保这些物体在整个视频过程中保持身份的一致性。比如视频开始时是一只黄色的狗，那么在整个视频过程中这只狗都应该保持黄色，不会忽然变成其他颜色或者变成别的动物。

研究团队面临的挑战是如何将这三种完全不同类型的知识有效地融合在一起。就像同时教会一个学生理解诗歌的韵律、绘画的构图和音乐的节奏，每种知识都有其独特的表达方式和学习规律，直接混合往往会导致相互干扰。

二、统一预处理的智慧融合

为了让三种不同的世界知识能够和谐共存，研究团队设计了一套精巧的统一预处理协议，就像为不同语言的人群提供同声传译服务，让大家能够在同一个平台上顺畅交流。

运动信息的处理最为复杂，因为标准的视频编码器只能处理RGB图像，而光流数据是二维的位移场。研究团队巧妙地将运动的速度和方向转换成颜色的亮度和色调，就像用彩虹的颜色来表示风的方向和强度。具体来说，运动的强度被映射为颜色的亮度，运动越快，颜色越亮；运动的方向则对应不同的色调，向上运动可能是红色，向右运动可能是蓝色。这样，复杂的运动信息就被"翻译"成了AI能够理解的视觉语言。

对于语义和空间信息，处理过程相对简单但同样重要。研究团队首先确保所有信息的空间尺寸一致，就像把不同大小的照片都调整到相同尺寸，然后通过时间采样确保所有信息的时间长度也保持一致。

最关键的是，由于这些不同来源的特征具有完全不同的数值分布，就像混合摄氏度、华氏度和开尔文三种不同的温度单位，研究团队应用了标准化处理，将所有特征都调整到相同的数值范围内。随后，他们使用主成分分析技术来压缩高维特征，就像将厚厚的百科全书提炼成精简的要点摘要，既保留了核心信息，又大大减少了计算负担。

最终，三种世界知识被巧妙地连接成一个统一的特征向量，这个向量就像一个多功能的"世界描述符"，同时包含了时间、空间和语义的完整信息。这种设计确保了模型能够同时考虑所有维度的世界知识，而不会因为信息冲突导致性能下降。

三、联合世界知识学习的创新机制

传统的视频生成模型就像一个只看表面的模仿者，能够复制视觉效果但不理解内在逻辑。DreamWorld的创新之处在于采用了联合世界知识学习范式，让模型不仅要生成好看的像素，还要同时预测和理解世界知识特征。

这种学习方式类似于让一个学生不仅要会画画，还要理解画面中物体的物理原理。模型的输入不再是简单的噪声和文本描述，而是将噪声视频数据和世界知识特征连接在一起，形成一个丰富的联合特征空间。这就像给画家提供不仅仅是颜料和画布，还有物理定律手册、几何学教科书和百科全书。

在架构设计上，研究团队巧妙地扩展了模型的输入和输出投影层。输入投影层被扩展以接受联合特征，而对应世界知识的权重初始化为零，确保模型开始时的行为与原始的预训练模型完全一致。这种设计就像在一栋已建成的房子上添加新房间，既保持了原有结构的稳定性，又为新功能预留了发展空间。

输出端的设计同样精巧，模型需要同时预测视频内容和世界知识特征。这意味着在每一个生成步骤中，模型不仅要考虑"这个像素应该是什么颜色"，还要考虑"这个运动是否符合物理定律"、"这个物体的位置是否合理"、"语义信息是否一致"。

四、一致性约束退火的平衡艺术

将多种世界知识融入视频生成过程中最大的挑战是如何平衡不同目标之间的冲突。就像同时满足美观、实用和经济三个要求来设计一件产品，不同的约束条件可能会相互矛盾，简单的平均或叠加往往导致谁都不满意的结果。

研究团队发现，当直接将所有世界知识约束同等对待时，模型往往会产生视觉不稳定和时间闪烁现象。这种现象就像一个人试图同时专注于多个不同的任务，结果每个任务都做不好。为了解决这个问题，他们提出了"一致性约束退火"策略。

这个策略的核心思想是在训练过程中逐渐调整不同约束的重要性，就像调节音响设备的均衡器，在不同阶段强调不同频段的声音。在训练初期，模型主要专注于学习基本的世界知识规律，各种约束的权重相对较高。随着训练的进行，这些约束的权重逐渐降低，让模型有更多自由度来优化视觉质量。

退火过程采用余弦衰减函数，就像日出日落的光线变化一样平缓自然。权重不是突然消失，而是像潮水退去一样缓缓减弱。这种设计确保模型在学会世界知识的基础上，最终能够生成既符合物理规律又具有高视觉质量的视频内容。

这种平衡艺术的效果非常显著。在退火策略的帮助下，DreamWorld能够生成既保持世界一致性又避免视觉瑕疵的视频。就像一个经验丰富的大厨，知道何时该加盐、何时该调火，最终烹制出色香味俱全的佳肴。

五、多源内在引导的精准控制

传统的视频生成模型在推理阶段只能依靠文本提示来指导生成过程，就像只有一个粗略的地址就要找到具体的房子。DreamWorld在推理阶段引入了多源内在引导机制，为生成过程提供更精准的方向控制。

这种引导机制的工作原理类似于GPS导航系统。除了目的地地址（文本提示）之外，系统还会考虑实时路况（运动引导）、地形信息（空间引导）和路标指示（语义引导）来规划最优路线。在视频生成过程中，模型会根据自己预测的世界知识特征来调整生成方向，确保最终结果严格遵循真实世界的规律。

具体实现上，系统通过对比有条件和无条件的预测结果来计算引导信号。当模型预测时，它会同时考虑所有可用信息和屏蔽特定信息的情况，两者之间的差异就构成了该类型知识的引导强度。这就像通过比较有无路标指示的导航效果来判断路标的重要性。

多源引导的权重设置也经过精心调节。文本引导的权重设置为5，确保生成内容始终符合用户的描述。而三种世界知识的引导权重都设置为1，在不压制创意的前提下提供适度的约束。这种设置就像调节汽车的转向助力，既要保证驾驶的灵活性，又要确保行驶的稳定性。

六、全面性能验证与对比分析

为了验证DreamWorld的实际效果，研究团队进行了极其全面的性能测试，涵盖了多个权威的视频生成评估基准。这种测试就像对一款新汽车进行各种路况的全面试驾，确保在不同条件下都能表现出色。

在VBench基准测试中，DreamWorld取得了总分80.97的优异成绩，显著超越了Wan2.1基线模型的78.71分和VideoJAM的78.76分。这个提升虽然看起来数值不大，但在视频生成领域已经代表了显著的技术进步。特别是在动态程度评估中，DreamWorld达到了79.16分，相比基线模型的54.08分有了巨大飞跃，说明模型生成的视频运动更加自然流畅。

在更加严格的VBench 2.0测试中，DreamWorld的总分达到52.97，再次证明了其卓越性能。这个基准测试更加注重人类感知偏好和复杂运动任务，DreamWorld在人类保真度方面得分80.11，在物理学评估中得分55.07，都明显优于竞争对手。

VideoPhy基准专门评估模型对物理常识的理解能力，这正是DreamWorld的核心优势所在。在这个测试中，DreamWorld的语义遵循度达到52.9%，物理常识得分26.2%，全面超越了其他模型。这个结果表明，DreamWorld确实成功地将物理世界的规律融入到了视频生成过程中。

WorldScore基准从静态和动态两个维度评估世界模拟能力，DreamWorld在总分51.48的表现中展现了全面的优势。在3D一致性方面得分73.16，在光度一致性方面得分77.55，都证明了模型对空间几何关系的准确理解。

研究团队还通过定性分析展示了DreamWorld的实际效果。在太空站液体倾倒的场景中，DreamWorld能够准确模拟液体在微重力环境下的流动行为，而竞争模型往往忽略这种特殊的物理条件。在人物阅读的场景中，DreamWorld确保了人物面部身份的持续稳定，避免了常见的时间变形问题。

七、深入的消融实验分析

为了深入理解DreamWorld各个组件的贡献，研究团队进行了详尽的消融实验，就像拆解一台精密机器来研究每个零件的作用。

首先是世界知识组件的重要性验证。当只使用空间知识（VGGT）时，模型的质量得分为81.76，语义得分为71.36。这为模型提供了基础的几何理解能力，但缺乏语义一致性。当加入语义知识（DINOv2）后，模型性能有所提升，质量得分达到82.08，语义得分提高到71.58。只有当三种知识完全整合后，模型才达到最佳性能，质量得分83.49，总分80.97。这个实验清楚地证明了多源知识融合的必要性。

一致性约束退火策略的有效性通过对比实验得到验证。在没有这个策略的情况下，模型生成的视频出现严重的闪烁和异常高亮现象。特别是在阳台场景中，光线变得不自然地强烈，在草地上的动物场景中出现了高频闪烁和纹理抖动。而采用退火策略后，这些视觉瑕疵完全消失，模型能够生成既符合物理规律又具有良好视觉效果的视频。

多源内在引导机制的每个组件都被单独测试。移除文本引导后，语义得分从70.89急剧下降到47.41，总分从80.97下降到71.15，说明文本引导对于保持生成内容与用户意图的一致性至关重要。移除任何一种世界知识引导都会导致相应方面的性能下降，其中移除时间引导的影响最为显著，质量和总分都有明显下降。

权重参数的敏感性分析显示，λ=0.2是最优选择。当权重过低时，世界知识约束不够强，无法有效纠正物理和语义错误。当权重过高时，过强的约束会干扰模型的生成能力，导致视觉质量下降。λ=0.2在保证知识约束效果的同时，为模型保留了足够的生成自由度。

八、技术影响与未来展望

DreamWorld的成功不仅仅是技术指标的提升，更重要的是为整个视频生成领域指明了新的发展方向。这项研究证明了从单纯的视觉模仿转向真正的世界理解是完全可行的，为构建真正的世界模拟器奠定了坚实基础。

在实际应用方面，DreamWorld的技术突破将带来广泛的影响。在影视制作中，导演可以更精确地控制虚拟场景中的物理现象，确保特效既壮观又真实。在教育培训中，可以生成准确反映科学原理的演示视频，帮助学生更好地理解复杂概念。在游戏开发中，能够创建更加真实和可信的虚拟世界，提升玩家的沉浸体验。

从技术发展的角度看，DreamWorld开启了多模态知识融合的新篇章。传统的单一模型架构正在向多专家协作的方向演进，这种趋势将推动整个人工智能领域向更加综合和智能的方向发展。联合学习范式的成功也为其他需要处理多源异构数据的任务提供了重要参考。

当然，这项技术也面临一些挑战和限制。首先是计算资源需求较高，多源知识的处理需要更强的硬件支持。其次是训练数据的多样性要求，需要更加丰富和高质量的数据集来支持模型的泛化能力。此外，如何进一步提升模型对复杂场景的理解能力，特别是涉及多对象交互的场景，仍然是一个需要继续探索的问题。

研究团队在论文中诚恳地指出了当前工作的局限性，并为未来的研究方向提出了建议。他们认为，优化多源集成的计算效率、扩展训练数据的多样性、探索更多类型的世界知识，都是值得继续深入研究的方向。

总的来说，DreamWorld代表了视频生成技术向真正智能化迈出的重要一步。它不仅提升了生成视频的质量，更重要的是让AI开始具备了对真实世界的基础理解能力。随着技术的不断完善，我们有理由期待，在不远的将来，AI将能够创造出既美观又符合物理规律的虚拟世界，为人类的创意表达和知识学习提供前所未有的强大工具。

这项研究的开源代码将在GitHub上公开发布，为全球的研究者和开发者提供了学习和改进的机会。这种开放的研究态度将进一步推动整个领域的快速发展，让更多人能够参与到这一激动人心的技术革命中来。

Q&A

Q1：DreamWorld与传统视频生成模型有什么根本区别？

A：传统视频生成模型就像只会模仿表面现象的画师，主要关注视觉效果是否好看，而DreamWorld是首个真正理解世界运行规律的模型。它不仅能生成漂亮的视频，还能确保视频内容符合物理定律、空间几何关系和语义逻辑，就像从单纯的艺术创作升级为科学严谨的世界模拟。

Q2：DreamWorld是如何同时处理时间、空间和语义三种不同知识的？

A：DreamWorld采用了联合世界知识学习方法，通过光流技术捕捉运动规律、VGGT技术理解空间关系、DINOv2技术保持语义一致性。这三种知识被统一处理并融合成一个综合特征，让模型在生成每一帧画面时都能同时考虑这三个维度的约束，确保生成结果既美观又符合真实世界规律。

Q3：普通用户什么时候能体验到DreamWorld技术？

A：DreamWorld目前还是学术研究阶段的成果，研究团队承诺将在GitHub上开源相关代码。虽然普通消费者还无法直接使用，但这项技术将逐步被集成到各种视频制作工具和平台中。预计在未来几年内，基于类似技术的商业产品将陆续面世，让普通用户也能享受到更智能、更真实的AI视频生成服务。

人工智能视频生成世界模型

分享至