微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙大与微软教AI"看懂"三维世界:让视频生成模型不再犯"空间错误"

浙大与微软教AI"看懂"三维世界:让视频生成模型不再犯"空间错误"

2026-05-05 13:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-05 13:47 科技行者

这项由浙江大学与微软亚洲研究院联合主导、多名独立研究者参与的研究,以预印本形式于2026年1月发布,论文编号为arXiv:2604.24764,题为《World-R1: Reinforcing 3D Constraints for Text-to-Video Generation》。

**一个让人哭笑不得的问题**

你有没有看过那种AI生成的视频,镜头慢慢向前推进,然后你发现远处的建筑开始"融化",或者一个人的脸在转角处凭空消失?这不是艺术效果,这是目前最先进的AI视频生成模型普遍存在的一种根本性缺陷——它们不理解三维空间。

这背后的原因其实并不复杂。现有的视频生成模型,不管名气多大,本质上都是在"平面世界"里工作的。它们学会了从大量视频数据中归纳出"什么样的画面接下来应该是什么样的画面",但它们从来没有真正理解:这个世界是立体的,摄像机绕着一栋楼转一圈,楼的每一个面都应该以符合几何规律的方式出现,而不是随机生成一些看起来"差不多对"的像素。

于是,当这些模型被要求生成镜头大幅运动的视频——比如无人机绕着雕塑飞一圈,或者驾车穿过峡谷——各种诡异的"空间幻觉"就会出现:物体突然变形,背景莫名漂移,整个场景像是用橡皮泥捏成的,完全违背物理规律。

这项研究提出的解决方案叫做**World-R1**。它的核心思路不是给模型安装新的"器官",而是用一种叫做强化学习的训练方式,让模型通过不断"试错",自己学会在内心维护一个三维一致的世界模型。

**一、为什么已有的"修补方案"不够好**

在World-R1出现之前,研究者们也不是没想过办法。大体上,已有的尝试可以分成两个方向。

第一个方向是在模型推理时强行加入三维约束。打个比方:这就像给一个不懂建筑规范的工人配了一个严格的监工,每一步操作都要检查。效果是有的,但代价是推理速度极慢,而且这个"监工"太死板,反而限制了模型生成多样化场景的能力。

第二个方向是直接改造模型结构,加入专门处理三维信息的模块,并在包含三维数据的专用数据集上训练。这种方法也有效,但改造模型架构意味着需要从头或半途重新训练,成本极高;而且现有的三维数据集规模有限、场景单一,用它们训练出来的模型往往只能应付特定类型的场景,换个稍微复杂或者有动态物体的场景就原形毕露。更关键的是,这两个方向都有一个共同的局限:它们只能处理"图像转视频"这类任务,而无法直接从文字描述生成视频。

World-R1的出发点建立在一个重要的发现之上:视频生成模型其实已经在内部"悄悄地"编码了相当丰富的三维几何信息。这些知识就藏在模型的参数里,只是平时没有被充分激活和利用。既然知识已经在那里了,何不想办法把它"唤醒",而不是费力地从外部强行塞进去?

**二、强化学习:用"考试"代替"填鸭式教育"**

理解World-R1的核心机制,可以借助一个学习的比喻。传统的监督学习,就像老师把所有答案都写好,让学生抄写记忆——需要大量"标准答案"(即带有三维标注的数据集),而且学生是被动接受的。强化学习则完全不同,它更像是让学生反复参加考试,根据每次考试的成绩(奖励信号)来调整自己的学习策略——不需要现成的答案,只需要一套评分标准。

World-R1采用的具体强化学习算法叫做**Flow-GRPO**,这是专门为一类叫做"流匹配模型"的生成模型设计的训练方法。理解它的工作方式,可以这样思考:普通的视频生成模型从随机噪声出发,一步一步"去噪",最终形成清晰的视频画面,整个过程是确定性的。Flow-GRPO做的事情,是在这个确定性过程中引入一点随机性,让模型在生成时能够"探索"不同的可能性,就像学生在考试时尝试不同的解题思路,而不是机械地重复同一个步骤。每次探索结束后,根据生成视频的质量计算奖励,用这个奖励信号来告诉模型"这次做得好,继续这个方向"或者"这次不行,调整策略"。

为了让训练更高效,研究团队还使用了一个叫做Flow-GRPO-Fast的加速版本。它的思路是:不需要从头完整地生成每一个视频,可以在生成过程的中间某一步注入噪声,从那一步开始继续,这样就大幅减少了每次"考试"所需的计算量。

**三、如何告诉模型摄像机在哪里:噪声包裹的秘密**

World-R1解决的第一个工程难题是:如何在不修改模型结构的前提下,让模型知道摄像机应该怎么运动?

传统方法是专门训练一个额外的网络来编码摄像机姿态,然后把这个信息输入主模型。World-R1选择了一条更优雅的路:**噪声包裹**(noise wrapping)。

具体来说,研究团队首先从文字提示中提取摄像机运动指令——比如"向前推进"、"向左平移"、"绕着中心旋转"等——然后把这些三维摄像机运动轨迹转换成每两帧之间的光流场(你可以把光流场理解为一张描述"哪里的像素应该移动到哪里"的地图)。接下来,他们用这个光流场对视频生成的初始噪声进行"重新排列"。

为什么操控初始噪声有用?这里有个关键的直觉:在扩散模型中,初始噪声的空间结构会深刻影响最终生成内容的空间结构。如果初始噪声已经"预装"了摄像机运动的信息,模型在去噪过程中就会自然地沿着这个方向生成内容。

当然,直接对噪声做空间移动会破坏噪声的统计特性(扩散模型需要初始噪声严格服从标准正态分布)。研究团队借鉴了Go-with-the-Flow的技术,将噪声的重新排列建模为一个"质量传输"问题,并通过密度归一化保证每个像素处的噪声方差不变。最终,摄像机运动信息就被无损地、隐式地编码进了初始噪声,不需要任何额外的网络模块,也不需要修改模型的任何一行代码。

**四、奖励系统:模型的"三维空间考官"**

World-R1最精妙的部分在于它的奖励设计。奖励系统回答的是这个问题:当模型生成了一段视频,怎么判断这段视频的三维一致性好不好?

研究团队设计了一套由多个分项组成的综合评分体系,总奖励由三维感知奖励和通用质量奖励两大部分叠加而成。

三维感知奖励本身又包含三个分项。第一项叫做**元视角评分**,英文缩写Smeta,是整个奖励体系里最关键的创新。具体做法是:把生成的视频输入一个叫做Depth Anything 3的三维基础模型,让它自动重建出场景的三维高斯溅射(3DGS)表示——你可以把3DGS理解为一堆带有颜色和透明度信息的三维气泡,它们共同描述了场景的三维结构。然后,从一个"元视角"渲染这个三维重建结果,这个元视角是从一个与生成轨迹明显不同的位置看过去的,比如从后方拉远看整个场景。

为什么要从新视角看?这是一个非常聪明的设计。在原始视角下,即使模型生成了"纸板道具"式的假三维场景——表面看起来没问题,但实际上所有物体都像舞台布景一样是平的——也很难发现问题。但一旦从侧面或后方看过去,纸板道具立刻露馅:楼房变成了一张薄薄的纸片,树木变成了没有厚度的贴图。元视角评分就是专门用来检测这类问题的。渲染出元视角图像后,再让一个视觉语言模型(Qwen3-VL)担任"评审",用0到9分打分,评判这个元视角图像的三维结构是否合理。

第二项叫做**重建保真度评分**,英文缩写Srecon,它衡量的是:把三维模型重新渲染回原始摄像机轨迹,得到的重建视频与原始生成视频有多像?如果两者非常相似(用LPIPS这个感知距离指标衡量),说明三维模型忠实地捕捉到了原始视频的内容,三维一致性较高;如果相差很大,说明原始视频本身存在无法被三维重建解释的"幻觉"。

第三项叫做**轨迹对齐评分**,英文缩写Straj,它检查的是:模型实际生成的摄像机运动轨迹,和我们要求的轨迹有多接近?通过比较输入的目标轨迹和从生成视频中估计出来的实际轨迹,计算平移距离和旋转角度的偏差,确保模型真的按照指令行事,而不是生成了一段完全不动或者乱动的视频。

除了三维感知奖励,研究团队还加入了一个**通用生成质量奖励**,使用HPSv3这个人类偏好评分工具,对生成视频的前若干帧进行审美质量评分,确保模型在追求三维一致性的同时,不会生成让人不想看的低质量画面。最终奖励是三维感知奖励和通用质量奖励的加权之和,两者相互制衡,避免模型走极端。

**五、纯文本数据集:从"看视频"到"读文字"**

训练数据的选择也是World-R1的一个重要创新。以往的摄像机控制研究大多依赖真实视频数据集,但这类数据集存在分辨率有限、文字描述质量参差不齐等问题,而且视频本身的内容分布会引入偏见,让模型在某些场景类型上表现好,在其他场景上表现差。

World-R1完全摒弃了视频数据,转而构建了一个纯文本数据集。研究团队利用Gemini大语言模型自动生成了约3000条高质量的场景描述,每条描述都包含详细的场景内容和对应的摄像机运动指令。

这3000条数据按照多个维度精心设计。从场景类型看,涵盖了自然地貌(山川、水体、天气现象)、城市与建筑(街景、室内空间、基础设施)、微观与静物(桌面摆设、微观世界、材质特写)、奇幻与超现实(漂浮岛屿、物理规律被打破的场景)以及艺术风格(水彩、赛博朋克插画、梵高风格等)五大类别。从摄像机运动复杂度看,分为隐式运动(没有明确的摄像机指令)、单一方向指令(如"向左移动")和复合轨迹(如"先向左移动,再后退,再向左旋转")三个难度层级。

数据集里还专门保留了约500条描述高度动态场景的提示词,比如"瀑布倾泻而下"、"狮子咆哮鬃毛飘动"、"玻璃杯慢镜头摔碎"等,这些数据专门用于后面要介绍的周期性解耦训练策略。

**六、周期性解耦训练:保留"动感"的秘诀**

这里有一个非常现实的矛盾:如果模型被训练得太"追求三维一致性",它会倾向于生成静止的场景,因为静止的场景最容易通过三维重建,也最容易获得高分。但现实世界里有风吹草动、有流水、有跳舞的人,这些非刚性运动在三维重建的框架下很难被正确捕捉,如果全程用三维感知奖励训练,模型可能学会"作弊"——用静止的画面逃避三维一致性检测。

World-R1用**周期性解耦训练**策略来解决这个矛盾。训练过程被组织成一个循环:在主要阶段,用完整的综合奖励(三维感知奖励加通用质量奖励)在全部数据集上训练模型,强化三维一致性。每隔100个训练步,进入一个"松绑"阶段:暂时关闭三维感知奖励,只用通用质量奖励,专门在那500条动态场景数据上训练模型,让它维持生成非刚性运动的能力。

这个设计的逻辑是:三维感知奖励负责"教纪律",通用质量奖励负责"保创意",两者交替发挥作用,让模型既能维护三维世界的规律,又不至于变成一台只会拍静物的"呆板相机"。

**七、实验结果:数字说话**

研究团队基于Wan 2.1这套开源视频生成模型进行了实验,训练了两个版本:World-R1-Small(基于13亿参数的小模型,使用48块H200 GPU训练)和World-R1-Large(基于140亿参数的大模型,使用96块H200 GPU训练),生成分辨率为832×480。

在三维一致性评测上,研究团队用一套基于三维重建的方法来量化评分:对生成视频做三维高斯溅射重建,然后从同样的摄像机轨迹重新渲染,比较重建视频和原始生成视频的像素级相似度。

相比Wan 2.1-T2V-1.3B(未经过World-R1训练的基础版本),World-R1-Small在PSNR指标上提升了10.23dB——这个数字听起来抽象,但直观地说,差距相当于原图和轻度压缩图与原图和严重失真图之间的跨越,是非常显著的提升。World-R1-Large相对于Wan 2.1-T2V-14B提升了7.91dB,SSIM和LPIPS指标也同样大幅改善。有意思的是,即便与更新版本的Wan 2.2相比,World-R1也展现出明显优势,说明这套训练方法的收益是稳定的。

在通用视频质量评测上,研究团队使用了VBench这个标准化基准,评测维度包括画面美学质量、成像清晰度、运动平滑度以及主体一致性和背景一致性。World-R1-Small在这些维度上不仅没有退步,反而在美学质量(65.74分)和成像质量(67.53分)上略微超过了原始Wan 2.1-1.3B基础模型。相比之下,那些依靠添加摄像机控制模块的专用方法——如GCD、DAS、ReCamMaster等——在美学质量上普遍只有38到42分左右,这是因为引入额外模块后画面质量往往会下降。

摄像机控制精度方面,研究团队用旋转误差(RotErr)、平移误差(TransErr)和综合摄像机运动误差(CamMC)三个指标做了测试。World-R1-Large的表现(RotErr=1.21,TransErr=1.30,CamMC=2.95)甚至超过了CamCloneMaster这类专门为摄像机控制设计的方法,尽管World-R1的设计初衷并不是专注于轨迹追踪,而是三维一致性的整体提升。

为了验证三维一致性的提升不只是三维重建流程的数值游戏,研究团队还引入了一个不依赖三维重建的独立评估指标——多视图一致性评分(MVCS),直接从生成视频中衡量不同帧之间的跨视角一致性。World-R1-Small的MVCS从0.974提升到0.989,World-R1-Large从0.963提升到0.993,确认了三维一致性的提升来自视频本身,而非重建算法的副产品。

数据集规模的影响也经过了专门测试:从1000条提示词扩展到3000条,PSNR持续从25.82提升到27.63,VBench平均分从83.23提升到85.21,说明数据越多效果越好,而且这套方法对数据规模的扩展是友好的。

此外,研究团队还做了长视频测试——在121帧的长视频上,World-R1-Large的PSNR达到26.32,而Wan 2.1-T2V-14B只有18.32,说明训练在短视频上学到的三维一致性知识可以迁移到更长的时间跨度,不需要专门针对长视频重新训练。

**八、人工评测:真实用户更喜欢哪个**

除了自动评测指标,研究团队还组织了一个盲测用户调研,25名参与者在不知道哪个视频来自哪个模型的情况下,对World-R1和Wan 2.1的输出进行两两比较,每对视频从三个维度打分:几何一致性、摄像机控制准确性和整体视觉质量。

在几何一致性维度,92%的比较中用户认为World-R1更好,这是所有指标中最高的胜率,说明三维一致性的提升是用户真实可以感知到的,不仅仅是数字层面的改善。摄像机控制准确性的胜率是76%,整体视觉偏好的胜率是86%。这个最后的数字尤其值得关注:整体偏好胜率高达86%,意味着即使用户没有刻意关注三维一致性,光是整体观感,他们就更倾向于选择World-R1。

研究团队还专门设计了一个"指标验证调研",验证自动三维一致性评分和人类感知是否一致:20名参与者、30对视频,结果显示91.17%的情况下人类对三维一致性的判断与自动评分的排名一致,证明这套评测体系不是在测量一个与真实感知脱节的工程指标。

**九、消融实验:每个设计选择的价值**

研究团队还做了一系列消融实验,系统验证了每个设计选择的必要性。

去掉噪声包裹这个摄像机隐式编码机制后,PSNR从27.63下降到24.46,VBench均分从85.21下降到76.39,运动轨迹的对齐精度也大幅下滑。这说明噪声包裹不只是让摄像机运动"稍微好一点"的小技巧,而是整个强化学习训练能够有效收敛的关键归纳偏置。

去掉周期性解耦训练后,重建类指标(PSNR、SSIM、LPIPS)甚至略有提升,但VBench均分从85.21下降到82.64——这完美验证了设计初衷:没有周期性松绑,模型会过度向三维刚性收敛,生成的视频看起来三维上"很稳",但缺乏动态质感,不受用户喜欢。

去掉三维感知奖励后,VBench基本不变,但三维一致性指标急剧恶化,PSNR跌至18.93,接近未训练的基础模型水平。去掉通用质量奖励后,三维一致性指标几乎保持不变,但视频美观度下降。这两组对照实验共同说明两类奖励各司其职、缺一不可。

奖励黑客问题——即模型学会通过生成静止视频来轻松获得高三维分——也在实验中被专门分析。研究发现,由于轨迹对齐分项会惩罚不运动的输出,元视角分项会检测真实三维结构而非简单的静止画面,加上周期性动态数据训练的约束,没有出现明显的奖励黑客现象。

**十、局限与未来**

研究团队也坦诚地指出了两个主要局限。

第一个是计算成本问题。在线强化学习需要反复生成视频并计算三维重建和多个奖励信号,比普通的监督微调昂贵得多。这意味着World-R1目前仍然是一个需要大量GPU资源才能运行的训练范式,如何降低这个成本,是未来的重要方向。

第二个是对基础模型能力的依赖。World-R1是在现有视频生成模型上做的后训练,能力的上限受到基础模型的制约。对于极端复杂的场景——比如场景里有很多物体相互遮挡、精细的手部动作、非常长的视频序列——基础模型本身就容易出问题,World-R1能做的改善也有限。不过,随着基础模型自身能力的不断提升,World-R1这套后训练框架可以直接在更强的基础模型上复用,获益于基础模型的进步。

---

归根结底,World-R1做的事情可以用一个简单的比喻来总结:之前的AI视频生成模型像是一个非常有才华的画家,画出来的东西很好看,但他只会画平面图,不懂透视,所以一旦需要展现复杂的空间关系,画面就会露馅。World-R1没有给这个画家换一双手,也没有强行给他配一个监督员,而是设计了一套考试制度——让他反复画、反复接受评审,评审不只看正面,还会绕到侧面和背面检查立体感——慢慢地,画家自己学会了在心里维持一个三维的空间感,再画出来的东西就经得起从任何角度审视了。

这项研究对普通人意味着什么?短期内,你可能会在各类AI视频生成工具里看到更流畅的镜头运动、更不违和的场景穿越。长远来看,这类技术是自动驾驶模拟器、游戏场景生成、影视制作乃至机器人训练环境构建的基础。一个能真正"理解"三维世界的视频生成模型,与一个只会"模仿"视频的模型相比,在应用价值上有本质的差距。

有兴趣深入研究的读者,可以通过论文编号arXiv:2604.24764查找完整论文,项目主页地址为https://aka.ms/world-r1,其中包含视频演示材料。

---

**Q&A**

Q1:World-R1是怎么在不改变视频生成模型结构的情况下让它学会三维一致性的?

A:World-R1使用强化学习来训练模型。简单来说,就是让模型不断生成视频,然后用一套评分系统给视频打分——检查三维重建质量、元视角合理性、摄像机轨迹准确性和画面美观度——根据分数调整模型参数。摄像机运动信息通过对初始噪声进行空间重排来隐式传递,整个过程不需要额外添加任何网络模块,也不需要改变模型的推理方式。

Q2:World-R1训练用的数据集是什么,为什么不用真实视频?

A:World-R1使用的是一个完全由文字描述构成的纯文本数据集,共约3000条,由Gemini大语言模型自动生成。不用真实视频的原因是:真实视频数据集分辨率有限、文字对齐质量参差不齐,而且视频内容的分布会引入偏见。纯文本数据集的最大优势是灵活,可以生成覆盖各种场景类型和摄像机运动复杂度的描述,让模型学到更通用的三维空间理解能力。

Q3:World-R1会不会因为太追求三维一致性而生成没有动感的死板视频?

A:研究团队专门设计了"周期性解耦训练"策略来解决这个问题。具体做法是:每隔100个训练步,就暂时关闭三维感知奖励,仅用通用质量奖励在约500条动态场景数据上训练模型,让它维持生成火焰、流水、运动人物等非刚性动态的能力。实验结果表明,使用这一策略后,模型在动态场景上的生成质量明显优于没有这个策略的版本。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-