微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

谷歌与康奈尔大学联手：用AI带你"走进"世界任意一条真实街道

视频生成检索增强生成空间感知

谷歌与康奈尔大学联手：用AI带你"走进"世界任意一条真实街道

作者：科技行者

2026-04-30 15:04

分享至：

CityRAG是由谷歌、康奈尔大学和斯坦福大学联合提出的视频生成系统，发布于2026年4月（arXiv:2604.19741）。它能根据用户指定的地点和路径，生成既忠于真实地理（建筑、道路与现实吻合）又反映用户自定义天气和动态场景的漫游视频。系统的核心是将检索增强生成（RAG）引入视频生成领域，在推理时从海量地理标注街景数据库中动态调取真实街景作为参考，并通过"同地点不同时刻"的配对训练数据，使模型学会区分场景的永久结构与瞬时属性。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-30 15:04 • 科技行者

这项研究由谷歌、康奈尔大学和斯坦福大学的研究团队联合完成，论文以预印本形式于2026年4月21日发布在arXiv平台，编号为arXiv:2604.19741，研究方向归属计算机视觉领域（cs.CV）。有兴趣深入了解的读者可通过该编号查询完整论文。

**一、如果你能"踏进"任何一张街景照片……**

假设你手边有一张拍摄于纽约42街与第五大道交叉口的普通照片。现在，你不只是在看这张照片，而是真的能"走进去"——虚拟相机开始向前移动，沿着街道一步步靠近帝国大厦。帝国大厦在原照片里并不可见，但随着镜头南行，整座城市的面貌逐渐展开：真实存在的道路、红绿灯、商店、消防栓，乃至帝国大厦本身，都与现实地理位置完全吻合。更妙的是，视频里保留了原照片拍摄时的天气——下午两点的蒙蒙细雨——还有一辆出租车正在转弯，一位穿西装外套的男士继续沿街行走。

这不是科幻电影里的桥段，而是这篇论文提出的系统"CityRAG"正在尝试实现的事情。

这种能力的潜在用途相当广泛。自动驾驶汽车的研发团队可以把一张暴风雪场景的照片直接转化成高保真仿真视频，用于训练无人驾驶系统，而不必真的开着测试车在危险路况下行驶。工厂机器人可以通过类似系统提前熟悉特定环境的每个角落，学会绕开临时堆放的货箱和穿行的工人。虚拟旅游、游戏场景构建、城市规划预演……这些都是这项技术可能落地的场景。

**二、现有技术为什么做不到这件事**

要理解CityRAG的价值，先得明白现有方法卡在哪里。

目前最流行的AI视频生成方式，大致分为"文字生成视频"和"图片生成视频"两大类。你给它一段文字描述，或者一张图片，它就能生成一段看起来合理的视频。这类模型之所以能做到这点，是因为它们在海量数据上训练，积累了大量关于"世界大概长什么样"的直觉。

但问题恰恰在于"大概"这两个字。这类模型生成的城市街道，是AI想象中的某条街道，而不是真实存在的那条。建筑物的样式、道路的走向、路口的结构，都是模型凭空捏造出来的，跟现实毫无对应关系。用它来做自动驾驶仿真，就好比用一幅凭想象画出来的地图来训练导航系统——看起来像模像样，但一旦真车上路，就会发现地图和现实完全对不上。

另一条路是用三维重建技术，比如NeRF（神经辐射场）这类方法。它的思路是：给系统大量从不同角度拍摄的同一地点的照片，让它重建出这个地方的三维结构，然后就可以从任意角度渲染出新视角的图像。这条路的好处是"忠于现实"，但坏处也很明显——它要求输入的照片必须是同一时刻、同一光照条件下密集拍摄的，而且生成的画面是静态的，无法自然呈现行人走路、汽车行驶这类动态元素。要在城市规模上应用，数据采集的成本和难度都极高。

CityRAG的出发点，正是要在这两条路之间找到第三条：既能忠于真实地理，又能灵活处理光照变化、天气差异和动态物体。

**三、核心思路：给AI一份"真实记忆"**

CityRAG这个名字里的"RAG"，是"检索增强生成"（Retrieval-Augmented Generation）的缩写。这个概念最初来自自然语言处理领域——当一个语言模型被问到某个具体问题时，与其让它凭"记忆"回答，不如临时去查询一个外部知识库，把相关资料取来作为参考，再生成回答。这样做的好处是：模型不必把所有知识都硬塞进自己的参数里，而是可以按需调用外部信息，回答也更准确、更可靠。

CityRAG把这个思路搬到了视频生成领域。它背后维护着一个巨大的街景数据库，里面存储了来自真实世界的地理标注街景视频帧。当用户指定一个地点和一条路径时，系统不是让AI凭想象生成那条街道，而是先从数据库里检索出沿途的真实街景影像，把这些真实影像作为"地理空间条件"输入给视频生成模型。模型在生成视频时，就有了一份关于这个地方"长什么样"的真实参考，从而保证生成的建筑、道路、路口结构与现实吻合。

与此同时，用户提供的第一张图片（可以是自己拍的照片，也可以是从网上找的图片，甚至可以是经过AI改造的图片，比如把夏威夷的街景改成下雪的样子）则承担着另一个角色：它决定了视频的"氛围"——是白天还是黑夜，是晴天还是雨天，路上有没有车和行人，以及这些元素是什么样子的。

两者结合起来，就形成了CityRAG最核心的能力分工：真实地理结构来自数据库里的真实街景，而光照、天气、动态元素则来自用户提供的第一张图片。模型的任务，是把这两套信息融合起来，生成一段既忠于现实地理又符合用户指定氛围的视频。

**四、训练数据的巧妙设计：同一地点，不同时刻**

要让模型真正学会"从真实街景里提取地理结构，同时从第一张图片里提取氛围"，光靠系统设计是不够的，还需要数据来教会它做这件事。

研究团队收集了来自十座城市的550万张街景全景图，包括巴黎、雅典、安克雷奇、海德拉巴、费城、旧金山、圣胡安、火奴鲁鲁、伦敦和圣保罗，涵盖了多大洲、多气候带的多样场景。其中前八座城市用于训练，后两座（伦敦和圣保罗）作为测试集，用于评估模型在从未见过的城市上的表现。

数据构建的核心技巧，是寻找"同一地点、不同时刻"的配对序列。具体而言，研究团队在数据库里筛选这样的组合：沿同一条路径行进的两段街景视频，两段视频的行驶轨迹在空间上高度重合（平均距离不超过5米），但拍摄时间不同——可能是同一天的早晨和下午，也可能是相隔数月的两次采集。经过筛选，最终得到130万张用于训练的全景图。

这种配对设计的妙处在于：当模型看到两段"几乎在同一个地方拍的"视频时，它能观察到哪些东西是稳定不变的（建筑外墙、道路布局、路口结构），哪些东西是随时间变化的（路上的车辆、行人、光照强度、天空颜色）。通过大量这样的配对样本反复训练，模型逐渐学会了区分"这个场景的骨架"和"这个场景的当下状态"——前者来自地理，后者来自时间。

**五、模型架构：三条信息流的协同**

在具体的技术实现上，CityRAG是在一个已经训练好的顶尖图片转视频模型（Wan 2.1，参数量140亿）基础上做的微调。Wan 2.1本身由一个时空变分自编码器（VAE）和一个基于扩散Transformer（DiT）的生成模型组成——前者负责把图像压缩成紧凑的"内部表示"，后者负责从噪声中逐步生成清晰的视频帧。

CityRAG在这个基础上引入了三条额外的信息流。

第一条是"第一帧图像条件"，沿用了Wan 2.1原有的机制：用户提供的第一张图片经过VAE处理后，与待生成视频的噪声潜变量在通道维度上拼接，作为生成的起点和氛围参考。

第二条是"轨迹条件"。用户指定的运动路径被表示为一系列4×4的相机外参矩阵（可以理解为记录了每一帧相机在空间中的位置和朝向的数字表格）。这些矩阵经过压缩、通过两层神经网络处理后，以残差叠加的方式注入到Transformer的每一层，为生成的每一帧提供精确的视角控制。坐标系采用地心固连坐标系（ECEF），单位为米，因此不同城市、不同路段的轨迹数据都在同一套尺度下表示，保证了跨城市的一致性。

第三条也是最关键的一条，是"地理空间条件"。检索到的真实街景视频帧经过VAE压缩后，通过交叉注意力机制（cross-attention）注入到生成模型中。具体做法是：把原有的自注意力模块复制一份，独立训练，把真实街景帧的压缩表示作为键（Key）和值（Value），把待生成视频的噪声潜变量作为查询（Query）。这样，待生成视频的每一帧都可以"参考"整段真实街景视频的完整内容，而不只是当前时刻对应的那一帧——这对于处理两段视频在时间上不对齐的情况至关重要。

在训练时，真实街景条件视频的长度会随机变化（在61到81帧之间），这迫使模型学会从整段视频里提取全局的场景结构信息，而不是依赖逐帧的像素对齐。同时，由于街景数据的行进方向大多是笔直向前，研究团队通过随机裁切全景图的水平朝向来增强旋转方向的多样性，使模型能够泛化到各种转弯角度。

在训练细节上，分类器自由引导的无条件概率设为10%，轨迹条件和地理空间条件各自独立随机丢弃，使得两者都能在单独使用时仍然有效。优化器选用了Muon，学习率固定为1e-5，在32块A100 GPU上训练约一周、约两万次迭代。

**六、推理时的RAG流水线：从"想去哪"到"看见那里"**

用户使用CityRAG的完整流程分为四步，循环进行，可以无限延伸。

第一步，用户选定一个地点，并提供一张用于初始化场景氛围的图片。这张图片可以是从数据集里随机挑选的，也可以是用户自己拍的，甚至可以是经过AI改图处理的——比如把火奴鲁鲁的夏日街景改成积雪覆盖的冬日场景。

第二步，用户输入一段行进轨迹（比如"沿着这条路往前走，然后在第三个路口右转"）。系统根据这段轨迹的地理坐标，从街景数据库里检索出沿途最接近的真实街景视频，作为地理空间条件。

第三步，把第一张图片、轨迹信息和检索到的真实街景视频一并输入到训练好的CityRAG模型，生成一段73帧、480p分辨率的视频（约10秒）。

第四步，把刚生成的视频的最后一帧作为新的第一帧图片，把当前位置更新为轨迹的终点，回到第二步继续生成下一段视频。通过这种方式不断衔接，理论上可以生成任意长度的漫游视频。

在实际运行中，数据库里存储的真实街景路径不一定能完全覆盖用户指定的任意轨迹。遇到需要转弯但数据库里只有直行路径的情况，CityRAG会从两段不同方向的真实街景视频里各取一部分，拼接成一段代理条件视频。尽管这段拼接后的条件视频在衔接处会有画面跳转（相当于摄像机视角突然旋转了90度），模型依然能够生成连贯自然的视频输出，说明它已经真正学会了从地理空间条件中提取场景结构，而不是机械地复制条件视频的像素。

**七、实验结果：与同类方法的对比**

由于CityRAG所做的任务在此之前没有完全对应的开源基线方法，研究团队从三个相关方向各选了一个代表性方法来做对比。

第一个对比方向是"图片转视频加相机控制"，选用的是Gen3C——一个最先进的、能够指定摄像机轨迹的视频生成模型，它以驾驶仿真为其应用场景之一。第二个方向是"视频转视频加相机控制"，选用了Gen3C的另一种用法和TrajectoryCrafter——这类方法的思路是把一段已有视频重新渲染成另一个视角。在CityRAG的对比设置中，研究团队把检索到的真实街景视频输入给这些方法，让它们按照目标轨迹重新渲染。第三个方向是"视频转视频加风格迁移"，选用了AnyV2V——它能够把一段视频改造成另一张参考图片的风格。在对比设置中，真实街景视频作为输入视频，用户的第一张图片作为风格参考。

定量评估方面，研究团队使用了来自三维场景重建领域的标准指标：PSNR（峰值信噪比，衡量像素级别的重建准确性）、SSIM（结构相似性，衡量图像结构的保留程度）和LPIPS（学习感知图像块相似度，衡量人眼感知层面的相似性）。由于研究的重点是静态建筑和道路的还原，还额外计算了屏蔽掉动态物体（车辆和行人）后的静态版本指标（PSNR-S、SSIM-S、LPIPS-S）。此外还包括FID（Fréchet起始距离），用于评估生成视频的整体视觉质量。

在所有七项指标上，CityRAG均优于所有对比方法，且差距尤其体现在感知类指标上。以LPIPS为例，CityRAG得到0.504，而最接近的对比方法Gen3C（I2V）为0.654，差距相当显著。FID方面，CityRAG为16.55，而所有对比方法均在47到61之间，说明生成视频的整体视觉自然度远高于其他方法。

定性对比方面，研究团队展示了三个典型测试场景，每个场景都对现有方法构成挑战。第一个场景中，第一张图片和真实街景视频呈现出不同的天气与交通状况——CityRAG生成的视频始终保持第一张图片里的天气，前方的黑色轿车在转弯时消失又重新出现，行为自然连贯，而其他方法或者停在原地不动，或者忽视了第一张图片里的天气信息。第二个场景中，真实街景视频因为等待让行停了下来，但用户指定的轨迹要求继续前进——CityRAG按照轨迹继续前行，并准确渲染出在地理条件视频的第10秒才出现的建筑结构（而当时生成视频才到第7秒），说明模型确实从整段条件视频里提取了超越当前时刻的全局场景信息，而不是简单地逐帧复制。第三个场景要求摄像机在原地旋转180度，CityRAG准确完成了这一动作并渲染出合理的纹理细节。

用户研究方面，共有20位用户参与评测，分别就三个维度对各方法打分：视觉质量、是否是第一张图片的自然延续，以及是否忠于真实物理地点。结果显示，CityRAG是唯一一个同时在"自然延续第一帧"和"忠于真实地点"这两个维度上得分较高的方法——其他方法要么只能做到其中一条，要么两条都做不好。

**八、灵活性与局限性**

CityRAG展现出了几个值得单独提及的灵活性特征。轨迹条件和地理空间条件不需要精确对齐：即使真实街景视频里的车辆陷入拥堵、与用户指定的轨迹完全不同步，模型也能按照轨迹指令生成正确的视频。在极端旋转测试中，模型成功完成了360度旋转（是训练集中最大旋转量的两倍），说明轨迹条件的泛化能力超出了训练分布。

当然，这篇论文也坦诚地列出了当前系统的几个不足之处。自回归生成时，两段视频之间的衔接仅依靠上一段的最后一帧，没有引入专门的长程一致性机制，长距离漫游后可能出现累积漂移。数据偏差方面，由于街景采集的硬件和传感器限制，数据库里几乎没有雪天、雨天和夜晚的场景，导致模型在这些条件下的泛化能力受限（尽管用户可以通过第一张图片来"引导"出夜晚效果，但效果仍有上限）。文本控制方面，微调后的模型对新的文字提示不再响应，目前只能使用固定的场景描述提示词，这一功能的恢复被列为未来工作方向。

**九、这件事对我们意味着什么**

说到底，CityRAG做的事情可以用一句话概括：它给AI视频生成装上了一双"记得真实世界长什么样"的眼睛。

这项能力的意义，在于它把两件此前只能二选一的事情同时做到了：生成的视频既忠于真实地理，又能灵活适应各种光照、天气和动态场景。这个组合对于自动驾驶仿真、机器人训练、虚拟旅游、城市规划可视化等一系列依赖"真实但可控"场景的应用，都有潜在的推动价值。

从技术路径来看，CityRAG也提供了一个有趣的示范：当你有一个巨大的、地理标注的真实世界数据库时，与其把它全部压进模型参数，不如设计成一个可以在推理时动态检索的外部记忆库。这种设计让模型可以随着数据库的扩展而自然升级，不需要重新训练整个模型。

当然，还有很多路要走。如何在更长的漫游过程中保持场景的连贯性，如何补充更多天气和时间条件的数据，如何重新让文本控制生效，都是这个研究方向下一步需要解决的问题。但作为一个起点，CityRAG已经相当清晰地勾勒出了"AI踏进真实世界"这件事的轮廓。

---

Q&A

Q1：CityRAG生成的视频是真实的街道影像吗？

A：不完全是。CityRAG生成的是AI合成的视频，但建筑、道路和路口结构来自真实存在的街景数据。可以理解为：视频的"骨架"（建筑和道路）是真实的，而光照、天气、车辆和行人则是根据用户提供的第一张图片重新生成的。最终视频是合成内容，不是直接播放的原始街景录像。

Q2：CityRAG需要哪些输入才能生成视频？

A：用户需要提供两样东西：一是一张用来定义场景氛围的图片（可以是任何街景照片，甚至是AI改过的图）；二是一条想要行进的路径（通过地图上的坐标指定）。系统会自动从内部的街景数据库里检索对应地点的真实街景，结合用户输入生成视频，用户不需要自己准备街景资料。

Q3：CityRAG和普通的AI视频生成有什么本质区别？