微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙大、西湖大学联手重塑AI世界探索:让机器"隐式漫步"场景的全新范式

浙大、西湖大学联手重塑AI世界探索:让机器"隐式漫步"场景的全新范式

2026-07-03 13:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-07-03 13:47 科技行者

这项由浙江大学、西湖大学与阿法睿智能驾驶联合开展的研究,以预印本形式于2026年6月29日发布,论文编号为arXiv:2606.30045,有兴趣深入了解的读者可通过该编号查询完整原文。

当你玩一款第一人称视角的电子游戏,控制角色在房间里自由走动,转过身去,再走回来,你会期待眼前的场景始终保持一致——那把椅子还在那里,阳光依然从同一扇窗户斜射进来。然而,对于今天的人工智能系统来说,做到这一点出奇地困难。大多数AI在"向前走几步"这件事上表现还行,但一旦需要"走回来看看之前路过的地方",画面就开始出现偏差、模糊乃至面目全非。

研究团队把这个问题的症结归纳得很清楚:现有的AI世界探索系统,把"场景长什么样"和"我现在在哪里"这两件事混在一起处理,就像一位厨师边做菜边记菜谱,越做越乱。于是,这支来自中国顶尖高校的团队提出了一种全新的思路——把这两件事彻底分开,用一种他们称为"在隐式中漫步"(Walking in the Implicit)的框架重新组织AI的世界探索方式,并将其落地为一个名为**NeuWorld**的完整系统。

---

一、问题的根源:为什么AI"走回头路"这么难

回到游戏的比喻。现有的主流做法,是让AI一帧一帧地"画"出它看到的画面,每画一帧就把这帧存进一个越来越长的记忆列表里。下次需要判断接下来看到什么时,它就翻翻这个列表,然后继续往下画。这个方法有一个致命缺陷:随着探索的帧数越来越多,这个列表越来越长,而且每一帧画面本身就携带着大量的细节信息——光影、纹理、颜色——这些信息全都堆在一起,让AI的"工作台"变得越来越拥挤。更关键的是,这些帧和帧之间的关系是时间顺序的,而不是空间几何的,所以当你转身往回走时,AI并不知道"现在看到的这个角落"和"五步前看到的那个角落"其实是同一个地方。

研究团队将这个问题描述为"状态转换与高频观测合成的纠缠"——翻译成白话就是:AI同时做了两件本该分开做的事,导致两件事都没做好。

当然,也有人尝试引入真正的三维重建来解决这个问题。用NeRF(神经辐射场)或者三维高斯泼溅(3D Gaussian Splatting)这类技术,把场景精确地重建成一个三维模型,然后从任意视角渲染。这个方向确实能更好地处理"走回头路"的一致性问题,但代价是极其沉重的计算负担——每走一步都要重建一次场景,就像每次出门前都要把整个城市重新测绘一遍,实在太奢侈了。

研究团队认为,真正需要的东西介于这两者之间:它应该比一帧帧的视频更紧凑、更具几何意识,同时又比完整的三维重建更轻便、更适合生成式模型去学习和演化。这个"中间地带",就是他们提出的**神经隐式场景**(Neural Implicit Scene,简称NIS)。

---

二、核心发明:用一个"场景胶囊"代替不断增长的视频列表

NIS可以被理解为一个紧凑的"场景胶囊"。给定当前位置周围的几张带有相机位置信息的照片,NIS编码器会把这些信息压缩成一组固定数量的"记忆令牌"——在NeuWorld里,这个数量固定为1024个,每个令牌携带64维的信息。无论你要描述的场景有多复杂,这个胶囊的大小永远不变。

更重要的是,这个胶囊不只是存储了一张图片,它存储的是场景的几何结构和外观的综合表达,可以在任意给定相机角度下被"解码"(渲染)成对应的画面。换句话说,这个胶囊是可以"查询"的:你告诉它"我现在站在这个位置,朝这个方向看",它就给你渲染出对应的画面。

这个设计来源于近年来一些非常优秀的新视角合成工作,特别是LVSM和RayZer这两个模型,它们已经证明了用固定长度的潜在令牌来编码稀疏视角并支持新视角合成是完全可行的。NeuWorld的创新不在于发明了NIS这个概念本身,而在于把NIS的角色从"视角合成的辅助工具"提升为"整个交互过程的核心状态变量"。

具体来说,NeuWorld将每一步交互拆分成两个独立的阶段:第一步,用一个扩散变换器(NIS-DiT)根据当前观测、未来相机轨迹和历史记忆,生成(采样)下一个局部区域的NIS胶囊;第二步,用一个冻结的解码器(NIS-VAE的解码部分)从这个胶囊里渲染出未来各个视角的画面。第一步是随机的、生成性的,处理的是"这个区域的场景应该长什么样"这个开放性问题;第二步是确定性的、几何的,处理的是"从这个确定的场景状态,在这个角度看到的画面是什么"这个封闭性问题。两步分离,各司其职。

---

三、两个核心模块:VAE学"压缩场景",DiT学"预测场景"

NeuWorld由两个主要神经网络模块构成,它们的分工非常清晰。

第一个模块叫做**NIS-VAE**(变分自编码器版本的NIS学习器)。它的任务是学会如何把一组带位置信息的照片压缩成NIS胶囊,以及如何从NIS胶囊中渲染出任意视角的画面。具体来说,给定若干张"情境视图"(带有相机位置的照片),编码器把每张照片和对应的相机射线信息(用一种叫做Plücker射线嵌入的方式编码几何关系)拼接起来,切成小块儿,再经过一个Transformer处理,最终由1024个可学习的"查询令牌"把所有信息汇聚成NIS胶囊。解码器则反过来,给定NIS胶囊和一个目标相机角度,渲染出对应的画面。

NIS-VAE的训练采用了图像重建、感知损失、对抗损失(GAN)和KL正则化四种损失函数的组合,这和常见的图像自编码器训练方式是一致的,只不过这里的"图像"变成了"从特定相机角度看到的场景画面"。

第二个模块叫做**NIS-DiT**(扩散变换器版本的NIS动态预测器)。它的任务是:给定当前观测和未来的相机轨迹,预测(采样)出这段轨迹对应的局部区域NIS胶囊。这是一个生成式建模问题,采用了流匹配(flow matching)目标函数——可以理解为一种比传统扩散模型更高效的训练方式,通过让模型学习如何把随机噪声"流动"成目标NIS胶囊。

NIS-DiT基于U形Transformer骨架,使用AdaLN风格的时间步调制(用于控制去噪过程的不同阶段)、RMSNorm归一化和Q、K归一化,整体架构上没有空间或时间位置编码,因为NIS令牌本身不绑定到任何网格或时间顺序,自注意力直接在令牌集合上操作。

---

四、统一的"语言":让相机、图像和历史说同一种话

NeuWorld里有一个特别精妙的设计思路,值得单独展开。

通常,当一个AI系统需要同时处理"现在在哪里的相机信息"、"参考图像的外观信息"和"过去走过区域的历史信息"这三类输入时,工程师往往会为每种输入设计一个专门的编码器——相机用相机编码器,图像用图像编码器(比如DINOv2),历史用历史编码器。这就像一个多语言翻译会议,每个人说不同的语言,还需要专门的翻译官把不同语言的信息汇总给主讲人。

NeuWorld的做法完全不同。由于NIS编码器已经学会了把"图像+相机位置"的组合压缩成NIS令牌,研究团队就直接把它复用为所有条件信息的统一接口。

当只有相机轨迹信息(没有图像)时,研究团队把图像部分全部设为零,只保留相机位置,然后送进NIS编码器,得到一个"仅含相机结构"的部分NIS令牌,称为z_pose。当同时有参考图像时,把参考图像放在对应位置,其余图像仍设为零,得到z_ref。当需要编码历史帧时,把历史帧和对应相机位置送进同一个NIS编码器,得到记忆NIS令牌z_mem。

这三种条件输入最终都变成了同一种"语言"——NIS令牌,然后通过两种不同的拼接方式送给NIS-DiT:z_pose和z_ref通过**通道维度拼接**(每个令牌的信息量加倍),而z_mem则通过**令牌数量维度拼接**(令牌序列变长)。前者把条件信息和待去噪的NIS令牌紧密绑定,后者则把历史证据作为可被注意力机制灵活查询的背景信息。

研究团队通过一个简单的消融实验验证了这个统一接口的价值:如果把这种统一的部分NIS条件换成"DINOv2参考图像令牌+轻量相机编码器令牌,通过交叉注意力注入"的异构方案,短期位姿一致性误差(R_dist)从0.030上升到0.095,长期误差也有明显退化。说明把相机和图像信息映射到同一个NIS空间,确实为几何一致性提供了更强的骨架。

---

五、训练的艺术:从弱到强,循序渐进

NIS-DiT的训练采用了一种"由弱到强"的课程学习策略,背后的逻辑很有意思。

在本地场景里,一张参考图像往往能覆盖未来帧的大部分内容。如果一开始就给模型喂"参考图像+相机轨迹"这样的强条件,模型很可能学会一个取巧的捷径:直接把参考图像的内容复制粘贴到输出,根本不去学习真正的场景几何先验。这就像一个学生在考试中只会抄旁边同学的答案,而不去理解题目本身。

因此训练分为三个阶段。第一阶段只给仅含相机位置(图像全部置零)的z_pose作为条件,强迫模型去学习NIS的内在分布和相机对齐的几何结构,没有任何外观信息可以依赖。第二阶段加入参考图像,但以70%的概率随机丢掉参考图像的条件(回退到第一阶段的弱条件),用30%的概率使用强条件,这样既保留了第一阶段学到的先验,又逐渐引入外观对齐能力。第三阶段再加入历史记忆令牌,同样通过随机回退(50%的概率丢掉参考图像和历史,25%的概率只保留参考图像但丢掉历史)来防止模型过度依赖历史信息,保持在历史匮乏时的"冷启动"能力。

此外,还有一个专门针对长期漫游稳定性的设计:**抗漂移条件增强**。在实际测试时,历史帧是模型自己生成的,可能带有模糊、锯齿或局部偏差;但训练时历史帧是真实的清晰图像。这个训练-测试的差距会随着漫游步数增加而累积,最终导致模型"漂移"。

为了弥合这个差距,训练阶段会随机降质历史图像(30%概率加高斯模糊、30%概率降采样再上采样、30%概率用VAE重建版本替换、10%概率保持原始清晰图像),模拟测试时可能遇到的各种质量退化。更进一步,在编码条件之后,还会额外注入随机高斯噪声扰动潜在条件令牌,噪声强度γ服从缩放的Beta分布采样。模型还会被告知当前使用的噪声强度(通过AdaLN调制),使其能根据条件质量的好坏自适应调整生成策略。在推理时,随着漫游步数k增加,噪声强度γ_k会从γ_min线性增大到γ_max,自动补偿不断积累的历史质量退化。

消融实验证实了这个设计的重要性:去掉抗漂移增强,短期表现几乎不受影响,但长期漫游的位移误差(T_dist)从0.153急剧升至0.680。

---

六、记忆的智慧:几何感知的历史检索

仅仅生成当下的场景状态是不够的,NeuWorld还需要在长期漫游中记住自己去过哪里。为此,系统维护了一个记忆库,存储过去生成的所有帧及其对应的相机位置。每一步漫游时,系统会从这个记忆库里检索出最相关的若干帧,作为历史条件送给NIS-DiT。

检索策略的设计体现了几何常识。从记忆库中检索一部分最近生成的帧,保证局部时间连贯性;同时通过一个综合评分函数从全库检索另一部分几何相关的帧,用于"闭环回忆"。

综合评分函数考虑三个因素:相机位置距离(两个相机在三维空间里离得多近)、视野重叠度(候选历史帧的视野和未来轨迹的视野有多大的重叠面积,用蒙特卡洛采样估计),以及一个弱的时间近邻偏好项(打破平局时优先选较近的帧)。特别值得一提的是,视野重叠的查询不是针对一个固定的终点位姿,而是针对从未来轨迹上稀疏采样的一组位姿,取平均相关性得分,这使得检索更能代表整段未来轨迹的需求,而不只是下一步的终点。

全局检索得到的候选帧还会经过一个位姿多样性过滤,确保选出的历史帧在空间上不过于集中,然后与最近帧合并,形成最终的历史集合,送给NIS编码器编码为z_mem。

消融实验清楚地展示了这个检索策略的价值。如果只用最近的历史帧(不做几何检索),回程路径的旋转误差(R_dist)高达0.940,回程画面的感知质量(LPIPS,越小越好)为0.755——基本失效。单独使用相机距离或者单独使用视野重叠检索,性能都能大幅恢复。而两者结合的完整混合检索,在所有指标上均为最优,说明位姿和视野这两个几何信号确实互补。

---

七、训练数据与实验设置:完全从零开始

NeuWorld的NIS-VAE和NIS-DiT都从零开始训练(无预训练权重),仅使用两个公开的室内场景数据集:Re10K(室内视频数据集,来源于YouTube)和DL3DV-10K(大规模室内/室外场景数据集)。所有图像都被中心裁剪并缩放到256×256像素。训练使用16块A100 GPU,总计约一周。

所有被比较的基线方法,包括SEVA、ViewCrafter、Gen3C、VMem和Matrix-Game 2.0,都继承了大规模预训练的图像或视频生成先验,其中多个方法还在Re10K和DL3DV上进行了专门的微调。NeuWorld完全没有借助任何预训练视频骨干网络,在这种不对等的条件下参与比较,研究团队也坦诚地指出这使得比较相对保守,但这恰恰更能体现NIS表示本身的贡献。

---

八、实验结果:数字背后的故事

研究团队设计了两类评估协议。第一类是**前向轨迹生成**:从第一帧出发,沿着真实相机轨迹自回归地生成后续帧,在Re10K上评估第50帧(短期)和第200帧(长期),在DL3DV上评估第20帧和第80帧。第二类是**环形重游**:相机从起点走到终点,然后沿原路返回,评估回程帧的画面质量和与去程对应帧的一致性,同时记录每条轨迹的平均运行时间(ART)。

在Re10K前向生成的短期评估(第50帧)中,NeuWorld在所有六个指标上全面领先:LPIPS为0.431(越低越好),PSNR为15.11 dB(越高越好),SSIM为0.476(越高越好),FID为34.55(越低越好),旋转误差R_dist仅0.026度,位移误差T_dist仅0.098。这意味着在短期范围内,NeuWorld生成的画面不仅看起来更接近真实场景,而且相机运动的几何精度也远超其他方法。

在Re10K的长期评估(第200帧)中,NeuWorld的画面质量指标(PSNR、SSIM)相对于短期有所下降,这在任何长期生成系统中都是预期内的退化,但关键的几何一致性指标依然表现最优:R_dist为0.083,T_dist为0.141,同时LPIPS(0.665)和FID(54.08)在所有方法中也是最优或次优。

在DL3DV上,任务难度更大(场景更多样、相机运动更复杂),NeuWorld在短期评估的多数指标上名列前两位,在长期位移一致性(T_dist=0.274)上表现最优。

在环形重游评估中,NeuWorld在Re10K上取得最优的重游自一致性(LPIPS/SSIM为0.208/0.692),最优的回程位移误差(T_dist=0.382),同时推理效率极高:每条前向+回程轨迹仅需3.24分钟,比VMem和Gen3C(各需47.62分钟)快约14倍。唯一更快的是采用了少步蒸馏扩散模型的Matrix-Game 2.0(1.33分钟),但其画面质量和几何一致性与NeuWorld相差悬殊。在DL3DV环形重游中,NeuWorld取得最优的回程位姿误差(R_dist=0.410,T_dist=0.507)和最优的重游位移一致性(T_dist=0.315),推理时间(1.14分钟)是所有方法中第二快的。

---

九、NIS到底学到了什么几何?

研究团队还做了一个很有说服力的探测实验:把NIS-VAE的编码器冻结,额外训练一个轻量的深度预测头(用Depth Anything 3蒸馏监督),把解码出的深度图反投影成点云,用来可视化NIS里隐含的几何信息。

结果显示,从完整NIS解码的点云,展现出清晰的三维布局,家具、墙面、地板的空间关系都有合理的几何结构。更关键的是,从"仅保留一张参考图像+所有相机位置(其余图像置零)"的部分NIS解码的点云,同样保留了连贯的几何骨架——虽然细节比完整NIS差,但远没有崩塌成一团噪声。这说明NIS编码器把相机几何关系有效地编码进了令牌中,而不只是记录了图像外观,这也是它能作为有效几何条件接口的根本原因。

研究团队还进行了NIS空间的插值实验。在同一段场景序列中,分别以第一帧和最后一帧为参考坐标系编码出两个NIS胶囊,然后在这两个胶囊之间做线性插值,从插值结果渲染参考视图,发现画面随着插值系数从0到1平滑过渡,没有出现突变或几何混乱。这说明NIS空间在局部是光滑连续的,不同局部坐标系之间的转换可以在潜在空间里被平滑地表示出来。跨序列(不同场景)的插值实验也显示,解码器对潜在扰动的响应是连续的,即使在两个完全不相关的场景之间,插值也不会导致完全无意义的输出,体现了NIS空间一定程度上的全局平滑性。

---

十、NIS表示对比视频帧潜变量:一次公平的对决

为了更纯粹地比较NIS潜变量和传统视频帧潜变量作为世界模型状态变量的优劣,研究团队专门设计了一个受控对比实验:在相同的DiT骨架和相机轨迹条件注入方式下,分别用NIS潜变量和用CogVideoX视频VAE压缩的帧潜变量训练两个扩散先验,都只训练50,000步。

结果显示,NIS先验在视频质量(FVD:86.20 vs 88.03)和旋转轨迹误差(R_dist:3.26°vs 4.20°)上优于帧潜变量先验,位移误差(T_dist:0.157 vs 0.141)上略逊。更显著的差距在训练效率上:NIS先验达到50,000步只需17.2小时,而帧潜变量先验需要78.0小时,接近5倍的时间差异。研究团队认为这种效率优势来自NIS的集合式令牌结构——不需要处理空间和时间的位置编码,自注意力在更紧凑的令牌集合上操作,收敛更快。

---

十一、NIS容量的精细调节

NIS胶囊的表达能力由两个参数控制:令牌数量L(决定胶囊可以记录多少个"记忆单元")和每个令牌的通道维度D(决定每个记忆单元能记录多细腻的信息)。

通过系统地调节这两个参数并在Re10K上评估新视角合成质量,研究团队发现:增加令牌数量L对画面质量的提升非常显著且持续——从L=512(PSNR=25.90)到L=3072(PSNR=28.35),品质稳步攀升。相比之下,增加通道维度D的收益则很快饱和——从D=32(PSNR=26.25)到D=256(PSNR=26.82),增益微乎其微。

这个发现有很直接的工程含义:如果想提升NIS的表达能力,优先增加令牌数量,而非加宽每个令牌的维度。考虑到交互推理效率和扩散先验训练的稳定性,最终选择L=1024、D=64作为默认配置,是计算代价和画面质量之间的合理平衡点。

---

说到底,NeuWorld做的事情可以用一句话概括:它为AI的世界漫游发明了一种新的"记忆方式",不是把走过的每一帧画面都存下来,而是把每一段路上的场景浓缩成一个可以随时解码、随时查询的"场景胶囊",然后用一个专门的生成模型来预测下一段路的场景胶囊应该长什么样。这种分工让AI在往前走、往回走、在复杂场景里绕来绕去时,都能保持更好的几何一致性,同时推理速度也比很多依赖三维重建的方法快一个数量级以上。

当然,这项研究有着明确的局限性。目前的NeuWorld只在静态场景下验证了有效性,场景里不能有移动的物体。每个NIS胶囊只覆盖局部区域,随着智能体的移动不断重新锚定,并没有维护一张全局的、持久的场景地图。如何把这个局部状态的框架扩展到动态环境、更丰富的交互动作,以及更大范围的场景组合,是研究团队明确点出的未来方向。

对这一领域保持关注的读者,可以通过arXiv编号2606.30045找到这篇论文的完整版本,项目页面也提供了更多可视化对比结果。

---

Q&A

Q1:NeuWorld和普通AI视频生成有什么本质区别?

A:普通AI视频生成把场景画面一帧帧存储和生成,而NeuWorld把场景压缩成一个固定大小的"场景胶囊"(NIS),用它来记录当前区域的几何和外观信息,再按需渲染任意角度的画面。这种分离让场景状态的管理和画面合成各自独立,避免了随时间推移越来越混乱的问题,使得长期漫游和回头路的一致性大幅改善。

Q2:NeuWorld在"走回头路"场景下的推理速度是多少?

A:在Re10K数据集的环形轨迹测试中,NeuWorld完成一条前向加回程的完整轨迹平均只需3.24分钟,比VMem和Gen3C(各需47.62分钟)快约14倍,比SEVA(7.75分钟)也快一倍以上,同时在回程自一致性和几何精度上表现最优或次优。

Q3:NIS令牌数量和通道维度哪个对画面质量影响更大?

A:令牌数量L的影响远大于通道维度D。将令牌数从512增加到3072,画面PSNR从25.90提升到28.35,提升显著;而将通道维度从32增加到256,PSNR只从26.25微增到26.82。因此提升NIS表达能力时,增加令牌数量比加宽通道维度更有效率。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-