微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

英伟达造出了一个"会记忆的AI导游"：只需一张照片，就能带你游遍整个虚拟世界

人工智能3D场景生成视频扩散模型

英伟达造出了一个"会记忆的AI导游"：只需一张照片，就能带你游遍整个虚拟世界

作者：科技行者

2026-04-23 11:17

分享至：

Lyra 2.0 是由英伟达研究团队于2026年4月发布的生成式三维场景探索系统（arXiv:2604.13036）。它能从单张图片出发，让用户通过自定义摄像机路径在AI实时生成的三维世界里自由漫游，包括原路返回。系统通过逐帧保存空间骨架而非彩色图像来解决"空间遗忘"问题，通过自增强训练策略缓解"时间漂移"，最终将生成视频重建为高质量三维高斯场景，可直接用于机器人仿真和实时渲染。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-23 11:17 • 科技行者

这项研究由英伟达（NVIDIA）旗下的研究团队完成，论文于2026年4月14日以预印本形式发布，编号为arXiv:2604.13036，感兴趣的读者可通过该编号查阅完整论文。

**从一张照片出发，能走多远？**

假设你手里有一张老北京胡同的照片，你想知道：如果我顺着这条小巷一直走下去，拐个弯，再往回走，会看到什么？传统上，这个问题的答案要么是"不知道"，要么需要真人去拍摄一遍。但现在，英伟达的研究团队开发了一套名为 Lyra 2.0 的系统，只需那一张照片，它就能带你在一个完全由AI生成的三维世界里自由漫游——前进、后退、绕圈，甚至原路返回，看到的场景依然合理、一致、真实可信。

这听起来像科幻电影里的情节，但它已经成为现实，并且背后的技术细节远比听起来更有意思。

---

**一、当AI试图"记住"它造过的世界**

先来说说这件事为什么难。

现有的AI视频生成系统，可以理解为一个"有创意但记性差的画家"。你告诉它"给我画一个中世纪街道"，它能画出很漂亮的一帧。然后你说"现在往左走一步，再画一帧"，它还能画。但如果你说"好，现在原路返回，我要看刚才走过的那条街"——它就懵了。因为它根本没有真正"记住"刚才画的街道是什么样的，它只是每次重新凭感觉画一幅，两次的结果往往面目全非。

这个问题在技术上叫做"空间遗忘"，是长距离场景探索的头号难题。而且还有第二个问题：即便这个AI能记住，它每次画画也会积累小错误。第一帧颜色稍微偏了一点，第二帧稍微歪了一点，到了第五十帧，整个画风可能已经面目全非，建筑物的颜色从红变成了蓝，或者原本笔直的街道变成了弯曲的隧道。这叫做"时间漂移"。

Lyra 2.0 的全部设计，就是为了同时解决这两个问题。整个系统可以用一个贯穿始终的比喻来理解：把它当成一位拥有完美素描地图的导游。这位导游手里有一张随时更新的手绘地图，每走到一个地方就在地图上记录下来。当你说"我想回到刚才那个广场"，他不是凭感觉重新想象那个广场，而是翻开地图，找到当时画的素描，对照着带你回去，确保你看到的是同一个广场。

---

**二、地图不存颜色，只存骨架**

这里有一个非常关键的设计选择，值得细说。

这位导游的地图，存的不是彩色照片，而是骨架图——也就是每个地方的三维空间结构。这个选择听起来好像多此一举，但实际上是整个系统最聪明的地方之一。

如果地图存的是彩色照片，当导游把照片拿出来给AI看，AI就会直接把照片里的颜色、纹理原样搬过去。这时候，如果照片本身有一点变形或者拼接错位（三维重建总会有误差），AI就会把这些错误也原样呈现出来，甚至放大。就像你用一张褪色的旧照片当参考，结果画出来的画也是褪色的。

但如果地图只存骨架——比如，这个位置有一堵墙，那个位置有一扇门，墙和门的相对位置是这样的——那么AI只会用这个骨架来"对准方向"，至于墙是什么颜色、门是什么材质，还是由AI自己根据已有的视觉经验来填充。这样，即使骨架本身有一点点误差，AI的视觉生成部分也能自然地弥补，而不是机械地放大错误。

在论文中，这个骨架叫做"规范坐标"，每一帧历史画面都会保存自己的深度信息（可以理解为每个像素离摄像头有多远），然后用这个深度信息计算出一张空间位置地图。当需要回看某个地方时，系统把这张位置地图"投影"到新的视角上，告诉AI"这些地方在画面里应该对应那些地方"，而颜色和细节则交给AI的视觉能力自由发挥。

这个设计在技术上的表现非常出色。系统对每一帧分别保存独立的骨架，而不是把所有历史帧的骨架合并成一张大地图。理由也很直接：越走越远，AI生成的画面难免积累一点点误差，如果把所有骨架强行拼在一起，误差就会叠加传播，最后变成一堆互相矛盾的结构。保持独立，就是防止误差扩散。

---

**三、找回"老朋友"：智能检索历史记忆**

有了骨架地图，下一步是决定：在即将生成新场景时，应该调取哪些历史帧作为参考？

这里又是一个需要讲清楚的细节。AI生成每一段新视频时，它能同时"看到"的历史帧数量是有限的——就像人的短期记忆一样，不可能把过去几千帧全部同时装进脑子里。所以必须从历史库里挑出最有价值的几帧。

Lyra 2.0 的挑选策略叫做"几何感知检索"。简单说，就是把每一帧历史画面的骨架点云（一堆带有空间坐标的点）都投影到"当前视角"上，看看哪些历史帧的内容，在当前画面的视角下是可见的、且不被其他东西遮挡的。一个历史帧在当前视角下可见的点越多，它就越值得被调取。

这个检索过程还有一个贪心策略：不是简单地选得分最高的五帧，而是依次选择"能覆盖最多当前画面中尚未被其他已选帧覆盖的区域"的帧。这样可以确保选出来的五帧之间互相补充，而不是五帧都在看同一个角落。

在训练阶段，系统还会故意给这个检索过程加入一点随机性——有时候不选最优的几帧，而是按照得分概率随机采样。这样AI学会了面对"不完美的参考帧"时也能正常工作，提高了系统的鲁棒性。

检索完成后，这五帧历史画面会以两种方式"喂"给AI。第一，直接把历史画面的像素编码进去，让AI看到历史上那些地方长什么样。第二，把骨架坐标做一次"视角变换"，产生一张"对应关系地图"，告诉AI"历史帧里这个位置，对应着当前新帧里那个位置"。这两个信号一起，让AI既知道"历史上那里长什么样"，也知道"历史上那里对应现在画面的哪个区域"。

---

**四、对抗"记忆漂移"：教AI从自己的错误中学习**

解决了"记忆"问题，还得解决"漂移"问题。

类比一下：假设你在玩"传话游戏"，第一个人说了一句话，依次传下去，到了第十个人，往往已经面目全非。AI生成长视频也面临类似的问题——每一段视频都是以上一段为参考生成的，上一段的微小偏差会被下一段继承并放大，如此循环，最终整个场景的风格、颜色、甚至几何结构都会逐渐走样。

传统的应对方式是让AI一直"回望"最初那张输入图片，用它来锚定风格。Lyra 2.0 沿用了这个策略，始终把第一张输入图像放在最显眼的位置。但这只能解决风格漂移，解决不了因为"条件输入本身就是AI之前生成的、带有误差的画面"而导致的误差传播。

研究团队提出了一个叫做"自增强训练"的方法。理解它的关键在于：AI在训练时，给它看的历史帧通常是真实、完美的——就像让学生在考试时用标准答案当草稿纸。但真正推理时，草稿纸上写的都是AI自己之前的生成结果，有误差、有偏色、有轻微变形。这种"训练时用完美素材，推理时用不完美素材"的落差，就是漂移的根源。

自增强训练的做法是：在训练过程中，有70%的概率会故意把完美的历史帧"弄脏"——给它加上一些符合AI推理时典型误差的随机噪声，然后再让AI对这个"弄脏版本"做一次快速的自我去噪，得到一个近似于AI自己会生成的、带有轻微瑕疵的历史帧，然后用这个"自己版本的历史帧"作为训练时的条件输入。

这样，AI就学会了"即使参考帧有一点偏差，我也能生成正确的下一帧"，而不是"只有参考帧完美时我才能正常工作"。额外的计算开销非常小，只需要在训练时多做一次前向传播，完全不影响推理速度。

整个时序压缩策略则使用了一种叫做FramePack的机制——可以理解为"近事记得清楚，远事记得模糊"。最近几帧用高分辨率记录，越早的历史帧压缩得越厉害，这样在固定的"记忆容量"里，AI能同时兼顾细节和长度。

---

**五、把视频"雕刻"成三维世界**

生成了长达几百帧的一致性视频之后，Lyra 2.0 还要完成最后一步：把这段视频变成可以真正"走进去"的三维场景。

这里用到了一种叫做"三维高斯溅射"的技术，可以把它理解为一种特殊的积木。普通积木是方方正正的，而三维高斯溅射用的是一种"柔软的椭球形积木"，每一个积木代表场景中的一小块空间，它的大小、方向和透明度都可以自由调整。当成千上万个这样的椭球体组合在一起，就能表现出非常真实的光影效果，而且渲染速度极快，足以支持实时交互。

具体的工作流程是这样的：AI生成的每一帧视频，会被一个叫做"Depth Anything v3"的模型处理，这个模型会预测每个像素的深度，然后把所有像素都变成空间中的高斯椭球体。研究团队在这里做了一些改造，原始模型一个像素对应一个椭球体，对于高分辨率图像来说数量太庞大；改造后，每四个像素才对应一个椭球体，大幅减少了数据量，同时不明显降低质量。

此外，研究团队还把这个深度预测模型在Lyra 2.0自己生成的数据上进行了微调。这一步很关键：AI生成的画面和真实照片有细微的不同，直接用在真实照片上训练的深度模型来处理AI生成的画面，容易产生"水土不服"——出现浮空的小球或者表面破洞。微调之后，模型学会了容忍AI生成画面特有的轻微不一致，重建质量大幅提升。

最终，如果需要更精确的几何结构，系统还可以进一步把三维高斯场景转换成传统的网格模型（就像游戏里用的那种由三角形拼成的表面）。这个转换用了一种分层稀疏网格技术，在靠近摄像机的地方用精细格子，远处用粗格子，既保证了重要区域的精度，又控制了数据量。

---

**六、在游戏手柄式的界面里造世界**

Lyra 2.0 不只是一套离线处理流程，研究团队还为它配上了一个交互式图形界面。用户可以实时看到已经生成并重建的点云地图，就像在地图上看到自己已经"探索过的区域"。然后用鼠标或控制器在这张地图里规划下一段摄像机路径，点击"生成"，系统就会根据这条路径续写视频，并实时更新三维地图。

这个设计让整个系统变成了一个真正的"世界探索工具"：用户可以先往东走，再往西走，回到起点，然后往南拐，每一步的场景都相互一致，就像在一个真实存在的世界里漫游。

研究团队还展示了一个特别有意思的功能：可以从同一张输入图片出发，定义多条不同的探索路径，最终把所有路径探索的区域合并成一个更大的三维世界。如果第一条路径往左边走，第二条路径往右边走，两条路径的重叠区域会保持一致，整个场景拼合在一起依然合理连贯。

生成的三维场景还可以直接导入到英伟达的机器人仿真平台Isaac Sim中，机器人可以在这些AI生成的环境里进行导航和交互测试。这意味着，一张街景照片，就能变成一个可以训练自动驾驶或机器人的仿真环境，而不需要真正去采集三维数据。

---

**七、横向比较：它到底比同行强在哪里**

论文里做了非常系统的对比实验，对象包括GEN3C、Yume-1.5、Context as Memory、VMem、SPMem和HY-WorldPlay等多个同期方案。测试在两个数据集上进行：一个是DL3DV，包含一万段真实世界场景的长视频，用于测试"在训练数据类似的场景下表现如何"；另一个是Tanks and Temples，用于测试"在没见过的场景下能否依然表现良好"。

评价指标覆盖了多个维度。图像相似度和视觉感知质量用来衡量生成画面本身的好坏；风格一致性分数专门用来检测"从第一帧到最后一帧，画风有没有发生漂移"；摄像机可控性分数衡量AI实际生成的摄像机路径与用户指定路径的吻合程度；重投影误差则通过SLAM（一种实时三维定位技术）来评估整个视频序列的三维一致性。

结果显示，Lyra 2.0 在几乎所有指标上都排名第一或第二。具体来看，GEN3C的摄像机控制精度很好，但由于过度依赖刚性的几何约束，生成的画面质量偏低；CaM和SPMem的画面质量不错，但摄像机控制精度较差；VMem在长时间探索后画面质量会严重崩塌；Yume-1.5和HY-WorldPlay则根本不支持精确的摄像机轨迹控制。只有Lyra 2.0同时在画面质量和摄像机控制上都表现出色。

在三维重建的评测中，研究团队把各个视频生成系统的输出分别送入同一个三维重建模型，对比重建结果的质量。Lyra 2.0生成的视频由于三维一致性更高，重建出的三维场景质量也明显更好，浮空点和噪声更少，整体结构更清晰。

论文中还展示了一组消融实验，逐一去掉某个设计选项来验证每个部分的贡献。去掉"逐帧独立保存骨架"而改用全局融合点云，摄像机控制精度下降明显；去掉FramePack时序压缩机制，风格一致性显著下降，漂移加剧；去掉自增强训练，风格一致性和摄像机控制精度双双恶化，证明这两个机制的独立贡献都是实质性的。

---

**八、快速版本：13倍加速，依然好用**

考虑到实际应用需求，研究团队还训练了一个"蒸馏版"模型。

原始模型每生成一段80帧的视频需要进行35步去噪，还需要分别做条件生成和无条件生成再取差值（这叫"分类器自由引导"）。蒸馏版将步数压缩到4步，并且把引导过程也一起蒸馏掉，整个推理过程快了大约13倍——在单张英伟达GB200显卡上，原始模型每步需要约194秒，蒸馏版只需约15秒。

值得一提的是，在蒸馏过程中，研究团队保留了自增强训练策略，让蒸馏后的学生模型在快速生成时仍然能抵抗误差积累。从实验结果来看，蒸馏版在单帧图像质量（LPIPS和FID指标）上甚至略优于完整版，只是在摄像机控制精度上稍有下降。对于需要快速交互的应用场景，这个折中完全可以接受。

---

**九、它还不完美的地方**

研究团队在论文末尾坦诚地列出了几个现有的局限。

Lyra 2.0 目前只能处理静态场景，也就是说，如果场景里有人在走动、车辆在行驶、树叶在飘动，系统就无法正确处理这些动态部分——生成的视频里要么这些东西消失了，要么被"冻住"了。

另一个问题来自训练数据。使用的DL3DV数据集在不同视角之间存在曝光变化，就是同一个场景从不同角度拍，亮度会不一样——这是真实摄像机的特性，但放到三维重建里就成了麻烦。AI学到了这个特性，生成的视频有时也会出现这种曝光不一致，导致重建的三维场景出现颜色偏差。研究团队提到，未来可以通过在网络里引入光度一致性约束，或者使用来自游戏引擎的合成数据（这类数据天然没有曝光变化问题）来改善。

---

归根结底，Lyra 2.0 做的事情可以用一句话概括：它造了一位"有骨感记忆力"的AI导游，用空间骨架而非颜色照片来记住已探索的世界，用自我纠错训练来防止记忆失真，最终让用户能从一张照片出发，在一个自洽的三维世界里自由漫步，甚至原路返回。

对于普通用户来说，这项技术最直接的想象是：旅行前先用一张目的地的照片"预游览"一遍，看看街道深处藏着什么；游戏开发者可以用它快速生成可探索的场景原型；机器人和自动驾驶工程师可以用它低成本地创造仿真训练环境，而不需要派车队去实地采集数据。

当然，动态场景和光度一致性依然是等待解决的挑战。在这个世界里，AI能记住你走过的路，却还无法追上跑动中的人——这或许是下一个版本要回答的问题。有兴趣深入探究每一个技术细节的读者，可以通过arXiv编号2604.13036查阅英伟达团队发布的完整论文。

---

**Q&A**

Q1：Lyra 2.0 生成的三维场景可以用在游戏或机器人仿真里吗？

A：可以。Lyra 2.0 生成的三维场景会被转换成三维高斯溅射表示和网格模型，这两种格式都可以直接导入到主流仿真引擎中。研究团队已经演示了将生成场景导入英伟达Isaac Sim用于机器人导航测试，机器人可以在这些AI生成的环境里进行实际的物理交互仿真，不需要真实采集三维数据。

Q2：Lyra 2.0 为什么不直接把生成的图像帧存起来当记忆，而要单独保存三维骨架？

A：直接存图像会让AI把图像里的颜色误差和变形也原样复现甚至放大。存三维骨架只保留空间位置关系，不包含颜色信息，这样AI利用骨架来对准位置，颜色由自己的视觉经验填充，即使骨架有轻微误差，AI也能自然弥补，不会机械地放大错误。

Q3：Lyra 2.0 生成一段视频要多久，普通硬件能跑吗？

A：完整版模型在单张英伟达GB200专业显卡上，每生成80帧约需194秒；蒸馏加速版约需15秒。目前这套系统对硬件要求很高，需要英伟达高端专业级GPU，还不是面向普通消费者的产品，主要面向研究和产业应用场景。