
这项研究由英伟达(NVIDIA)旗下的研究团队完成,论文于2026年4月14日以预印本形式发布,编号为arXiv:2604.13036,感兴趣的读者可通过该编号查阅完整论文。
**从一张照片出发,能走多远?**
假设你手里有一张老北京胡同的照片,你想知道:如果我顺着这条小巷一直走下去,拐个弯,再往回走,会看到什么?传统上,这个问题的答案要么是"不知道",要么需要真人去拍摄一遍。但现在,英伟达的研究团队开发了一套名为 Lyra 2.0 的系统,只需那一张照片,它就能带你在一个完全由AI生成的三维世界里自由漫游——前进、后退、绕圈,甚至原路返回,看到的场景依然合理、一致、真实可信。
这听起来像科幻电影里的情节,但它已经成为现实,并且背后的技术细节远比听起来更有意思。
---
**一、当AI试图"记住"它造过的世界**
先来说说这件事为什么难。
现有的AI视频生成系统,可以理解为一个"有创意但记性差的画家"。你告诉它"给我画一个中世纪街道",它能画出很漂亮的一帧。然后你说"现在往左走一步,再画一帧",它还能画。但如果你说"好,现在原路返回,我要看刚才走过的那条街"——它就懵了。因为它根本没有真正"记住"刚才画的街道是什么样的,它只是每次重新凭感觉画一幅,两次的结果往往面目全非。
这个问题在技术上叫做"空间遗忘",是长距离场景探索的头号难题。而且还有第二个问题:即便这个AI能记住,它每次画画也会积累小错误。第一帧颜色稍微偏了一点,第二帧稍微歪了一点,到了第五十帧,整个画风可能已经面目全非,建筑物的颜色从红变成了蓝,或者原本笔直的街道变成了弯曲的隧道。这叫做"时间漂移"。
Lyra 2.0 的全部设计,就是为了同时解决这两个问题。整个系统可以用一个贯穿始终的比喻来理解:把它当成一位拥有完美素描地图的导游。这位导游手里有一张随时更新的手绘地图,每走到一个地方就在地图上记录下来。当你说"我想回到刚才那个广场",他不是凭感觉重新想象那个广场,而是翻开地图,找到当时画的素描,对照着带你回去,确保你看到的是同一个广场。
---
**二、地图不存颜色,只存骨架**
这里有一个非常关键的设计选择,值得细说。
这位导游的地图,存的不是彩色照片,而是骨架图——也就是每个地方的三维空间结构。这个选择听起来好像多此一举,但实际上是整个系统最聪明的地方之一。
如果地图存的是彩色照片,当导游把照片拿出来给AI看,AI就会直接把照片里的颜色、纹理原样搬过去。这时候,如果照片本身有一点变形或者拼接错位(三维重建总会有误差),AI就会把这些错误也原样呈现出来,甚至放大。就像你用一张褪色的旧照片当参考,结果画出来的画也是褪色的。
但如果地图只存骨架——比如,这个位置有一堵墙,那个位置有一扇门,墙和门的相对位置是这样的——那么AI只会用这个骨架来"对准方向",至于墙是什么颜色、门是什么材质,还是由AI自己根据已有的视觉经验来填充。这样,即使骨架本身有一点点误差,AI的视觉生成部分也能自然地弥补,而不是机械地放大错误。
在论文中,这个骨架叫做"规范坐标",每一帧历史画面都会保存自己的深度信息(可以理解为每个像素离摄像头有多远),然后用这个深度信息计算出一张空间位置地图。当需要回看某个地方时,系统把这张位置地图"投影"到新的视角上,告诉AI"这些地方在画面里应该对应那些地方",而颜色和细节则交给AI的视觉能力自由发挥。
这个设计在技术上的表现非常出色。系统对每一帧分别保存独立的骨架,而不是把所有历史帧的骨架合并成一张大地图。理由也很直接:越走越远,AI生成的画面难免积累一点点误差,如果把所有骨架强行拼在一起,误差就会叠加传播,最后变成一堆互相矛盾的结构。保持独立,就是防止误差扩散。
---
**三、找回"老朋友":智能检索历史记忆**
有了骨架地图,下一步是决定:在即将生成新场景时,应该调取哪些历史帧作为参考?
这里又是一个需要讲清楚的细节。AI生成每一段新视频时,它能同时"看到"的历史帧数量是有限的——就像人的短期记忆一样,不可能把过去几千帧全部同时装进脑子里。所以必须从历史库里挑出最有价值的几帧。
Lyra 2.0 的挑选策略叫做"几何感知检索"。简单说,就是把每一帧历史画面的骨架点云(一堆带有空间坐标的点)都投影到"当前视角"上,看看哪些历史帧的内容,在当前画面的视角下是可见的、且不被其他东西遮挡的。一个历史帧在当前视角下可见的点越多,它就越值得被调取。
这个检索过程还有一个贪心策略:不是简单地选得分最高的五帧,而是依次选择"能覆盖最多当前画面中尚未被其他已选帧覆盖的区域"的帧。这样可以确保选出来的五帧之间互相补充,而不是五帧都在看同一个角落。
在训练阶段,系统还会故意给这个检索过程加入一点随机性——有时候不选最优的几帧,而是按照得分概率随机采样。这样AI学会了面对"不完美的参考帧"时也能正常工作,提高了系统的鲁棒性。
检索完成后,这五帧历史画面会以两种方式"喂"给AI。第一,直接把历史画面的像素编码进去,让AI看到历史上那些地方长什么样。第二,把骨架坐标做一次"视角变换",产生一张"对应关系地图",告诉AI"历史帧里这个位置,对应着当前新帧里那个位置"。这两个信号一起,让AI既知道"历史上那里长什么样",也知道"历史上那里对应现在画面的哪个区域"。
---
**四、对抗"记忆漂移":教AI从自己的错误中学习**
解决了"记忆"问题,还得解决"漂移"问题。
类比一下:假设你在玩"传话游戏",第一个人说了一句话,依次传下去,到了第十个人,往往已经面目全非。AI生成长视频也面临类似的问题——每一段视频都是以上一段为参考生成的,上一段的微小偏差会被下一段继承并放大,如此循环,最终整个场景的风格、颜色、甚至几何结构都会逐渐走样。
传统的应对方式是让AI一直"回望"最初那张输入图片,用它来锚定风格。Lyra 2.0 沿用了这个策略,始终把第一张输入图像放在最显眼的位置。但这只能解决风格漂移,解决不了因为"条件输入本身就是AI之前生成的、带有误差的画面"而导致的误差传播。
研究团队提出了一个叫做"自增强训练"的方法。理解它的关键在于:AI在训练时,给它看的历史帧通常是真实、完美的——就像让学生在考试时用标准答案当草稿纸。但真正推理时,草稿纸上写的都是AI自己之前的生成结果,有误差、有偏色、有轻微变形。这种"训练时用完美素材,推理时用不完美素材"的落差,就是漂移的根源。
自增强训练的做法是:在训练过程中,有70%的概率会故意把完美的历史帧"弄脏"——给它加上一些符合AI推理时典型误差的随机噪声,然后再让AI对这个"弄脏版本"做一次快速的自我去噪,得到一个近似于AI自己会生成的、带有轻微瑕疵的历史帧,然后用这个"自己版本的历史帧"作为训练时的条件输入。
这样,AI就学会了"即使参考帧有一点偏差,我也能生成正确的下一帧",而不是"只有参考帧完美时我才能正常工作"。额外的计算开销非常小,只需要在训练时多做一次前向传播,完全不影响推理速度。
整个时序压缩策略则使用了一种叫做FramePack的机制——可以理解为"近事记得清楚,远事记得模糊"。最近几帧用高分辨率记录,越早的历史帧压缩得越厉害,这样在固定的"记忆容量"里,AI能同时兼顾细节和长度。
---
**五、把视频"雕刻"成三维世界**
生成了长达几百帧的一致性视频之后,Lyra 2.0 还要完成最后一步:把这段视频变成可以真正"走进去"的三维场景。
这里用到了一种叫做"三维高斯溅射"的技术,可以把它理解为一种特殊的积木。普通积木是方方正正的,而三维高斯溅射用的是一种"柔软的椭球形积木",每一个积木代表场景中的一小块空间,它的大小、方向和透明度都可以自由调整。当成千上万个这样的椭球体组合在一起,就能表现出非常真实的光影效果,而且渲染速度极快,足以支持实时交互。
具体的工作流程是这样的:AI生成的每一帧视频,会被一个叫做"Depth Anything v3"的模型处理,这个模型会预测每个像素的深度,然后把所有像素都变成空间中的高斯椭球体。研究团队在这里做了一些改造,原始模型一个像素对应一个椭球体,对于高分辨率图像来说数量太庞大;改造后,每四个像素才对应一个椭球体,大幅减少了数据量,同时不明显降低质量。
此外,研究团队还把这个深度预测模型在Lyra 2.0自己生成的数据上进行了微调。这一步很关键:AI生成的画面和真实照片有细微的不同,直接用在真实照片上训练的深度模型来处理AI生成的画面,容易产生"水土不服"——出现浮空的小球或者表面破洞。微调之后,模型学会了容忍AI生成画面特有的轻微不一致,重建质量大幅提升。
最终,如果需要更精确的几何结构,系统还可以进一步把三维高斯场景转换成传统的网格模型(就像游戏里用的那种由三角形拼成的表面)。这个转换用了一种分层稀疏网格技术,在靠近摄像机的地方用精细格子,远处用粗格子,既保证了重要区域的精度,又控制了数据量。
---
**六、在游戏手柄式的界面里造世界**
Lyra 2.0 不只是一套离线处理流程,研究团队还为它配上了一个交互式图形界面。用户可以实时看到已经生成并重建的点云地图,就像在地图上看到自己已经"探索过的区域"。然后用鼠标或控制器在这张地图里规划下一段摄像机路径,点击"生成",系统就会根据这条路径续写视频,并实时更新三维地图。
这个设计让整个系统变成了一个真正的"世界探索工具":用户可以先往东走,再往西走,回到起点,然后往南拐,每一步的场景都相互一致,就像在一个真实存在的世界里漫游。
研究团队还展示了一个特别有意思的功能:可以从同一张输入图片出发,定义多条不同的探索路径,最终把所有路径探索的区域合并成一个更大的三维世界。如果第一条路径往左边走,第二条路径往右边走,两条路径的重叠区域会保持一致,整个场景拼合在一起依然合理连贯。
生成的三维场景还可以直接导入到英伟达的机器人仿真平台Isaac Sim中,机器人可以在这些AI生成的环境里进行导航和交互测试。这意味着,一张街景照片,就能变成一个可以训练自动驾驶或机器人的仿真环境,而不需要真正去采集三维数据。
---
**七、横向比较:它到底比同行强在哪里**
论文里做了非常系统的对比实验,对象包括GEN3C、Yume-1.5、Context as Memory、VMem、SPMem和HY-WorldPlay等多个同期方案。测试在两个数据集上进行:一个是DL3DV,包含一万段真实世界场景的长视频,用于测试"在训练数据类似的场景下表现如何";另一个是Tanks and Temples,用于测试"在没见过的场景下能否依然表现良好"。
评价指标覆盖了多个维度。图像相似度和视觉感知质量用来衡量生成画面本身的好坏;风格一致性分数专门用来检测"从第一帧到最后一帧,画风有没有发生漂移";摄像机可控性分数衡量AI实际生成的摄像机路径与用户指定路径的吻合程度;重投影误差则通过SLAM(一种实时三维定位技术)来评估整个视频序列的三维一致性。
结果显示,Lyra 2.0 在几乎所有指标上都排名第一或第二。具体来看,GEN3C的摄像机控制精度很好,但由于过度依赖刚性的几何约束,生成的画面质量偏低;CaM和SPMem的画面质量不错,但摄像机控制精度较差;VMem在长时间探索后画面质量会严重崩塌;Yume-1.5和HY-WorldPlay则根本不支持精确的摄像机轨迹控制。只有Lyra 2.0同时在画面质量和摄像机控制上都表现出色。
在三维重建的评测中,研究团队把各个视频生成系统的输出分别送入同一个三维重建模型,对比重建结果的质量。Lyra 2.0生成的视频由于三维一致性更高,重建出的三维场景质量也明显更好,浮空点和噪声更少,整体结构更清晰。
论文中还展示了一组消融实验,逐一去掉某个设计选项来验证每个部分的贡献。去掉"逐帧独立保存骨架"而改用全局融合点云,摄像机控制精度下降明显;去掉FramePack时序压缩机制,风格一致性显著下降,漂移加剧;去掉自增强训练,风格一致性和摄像机控制精度双双恶化,证明这两个机制的独立贡献都是实质性的。
---
**八、快速版本:13倍加速,依然好用**
考虑到实际应用需求,研究团队还训练了一个"蒸馏版"模型。
原始模型每生成一段80帧的视频需要进行35步去噪,还需要分别做条件生成和无条件生成再取差值(这叫"分类器自由引导")。蒸馏版将步数压缩到4步,并且把引导过程也一起蒸馏掉,整个推理过程快了大约13倍——在单张英伟达GB200显卡上,原始模型每步需要约194秒,蒸馏版只需约15秒。
值得一提的是,在蒸馏过程中,研究团队保留了自增强训练策略,让蒸馏后的学生模型在快速生成时仍然能抵抗误差积累。从实验结果来看,蒸馏版在单帧图像质量(LPIPS和FID指标)上甚至略优于完整版,只是在摄像机控制精度上稍有下降。对于需要快速交互的应用场景,这个折中完全可以接受。
---
**九、它还不完美的地方**
研究团队在论文末尾坦诚地列出了几个现有的局限。
Lyra 2.0 目前只能处理静态场景,也就是说,如果场景里有人在走动、车辆在行驶、树叶在飘动,系统就无法正确处理这些动态部分——生成的视频里要么这些东西消失了,要么被"冻住"了。
另一个问题来自训练数据。使用的DL3DV数据集在不同视角之间存在曝光变化,就是同一个场景从不同角度拍,亮度会不一样——这是真实摄像机的特性,但放到三维重建里就成了麻烦。AI学到了这个特性,生成的视频有时也会出现这种曝光不一致,导致重建的三维场景出现颜色偏差。研究团队提到,未来可以通过在网络里引入光度一致性约束,或者使用来自游戏引擎的合成数据(这类数据天然没有曝光变化问题)来改善。
---
归根结底,Lyra 2.0 做的事情可以用一句话概括:它造了一位"有骨感记忆力"的AI导游,用空间骨架而非颜色照片来记住已探索的世界,用自我纠错训练来防止记忆失真,最终让用户能从一张照片出发,在一个自洽的三维世界里自由漫步,甚至原路返回。
对于普通用户来说,这项技术最直接的想象是:旅行前先用一张目的地的照片"预游览"一遍,看看街道深处藏着什么;游戏开发者可以用它快速生成可探索的场景原型;机器人和自动驾驶工程师可以用它低成本地创造仿真训练环境,而不需要派车队去实地采集数据。
当然,动态场景和光度一致性依然是等待解决的挑战。在这个世界里,AI能记住你走过的路,却还无法追上跑动中的人——这或许是下一个版本要回答的问题。有兴趣深入探究每一个技术细节的读者,可以通过arXiv编号2604.13036查阅英伟达团队发布的完整论文。
---
**Q&A**
Q1:Lyra 2.0 生成的三维场景可以用在游戏或机器人仿真里吗?
A:可以。Lyra 2.0 生成的三维场景会被转换成三维高斯溅射表示和网格模型,这两种格式都可以直接导入到主流仿真引擎中。研究团队已经演示了将生成场景导入英伟达Isaac Sim用于机器人导航测试,机器人可以在这些AI生成的环境里进行实际的物理交互仿真,不需要真实采集三维数据。
Q2:Lyra 2.0 为什么不直接把生成的图像帧存起来当记忆,而要单独保存三维骨架?
A:直接存图像会让AI把图像里的颜色误差和变形也原样复现甚至放大。存三维骨架只保留空间位置关系,不包含颜色信息,这样AI利用骨架来对准位置,颜色由自己的视觉经验填充,即使骨架有轻微误差,AI也能自然弥补,不会机械地放大错误。
Q3:Lyra 2.0 生成一段视频要多久,普通硬件能跑吗?
A:完整版模型在单张英伟达GB200专业显卡上,每生成80帧约需194秒;蒸馏加速版约需15秒。目前这套系统对硬件要求很高,需要英伟达高端专业级GPU,还不是面向普通消费者的产品,主要面向研究和产业应用场景。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。