
这项由英伟达(NVIDIA)主导的研究发布于2026年6月2日,论文编号为arXiv:2606.03159v1,分类在计算机视觉领域(cs.CV)。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。
**研究概要:一辆永远不会真正出事故的练习车**
自动驾驶汽车要上路,必须先经历成千上万种危险情况的磨练。但真正的问题在于,你不可能真的让一辆自动驾驶汽车去体验暴风雪、逆行大卡车、突然冲出的孩子……这些事情在现实中发生,代价是无法承受的。所以工程师们长期以来的解决方案,是建造"虚拟驾驶场"——用计算机模拟出逼真的道路环境,让车载AI在里面反复练习。
然而现有的虚拟驾驶场有一个根本性的局限:它们本质上是对真实拍摄素材的"复刻"。就像一张精心拍摄的全景照片,你可以在里面四处张望,却无法拍到没有被镜头记录过的角落。如果自动驾驶汽车的行驶轨迹偏离了当初拍摄时的路线,虚拟场景就会开始出现模糊、破洞、幽灵般的重影——这些"瑕疵"恰恰会让AI做出错误判断。更关键的是,极端天气、罕见的危险物品、特殊的行人行为,这些在现实中极难收集到素材的场景,在这类复刻式虚拟场中根本不存在。
英伟达的工程师们决定换一条路走:与其复刻现实,不如训练一个能够"凭空创造"现实的AI,让它根据驾驶指令,实时生成逼真的行车视频画面。这个系统被命名为**OmniDreams**——直译过来,就是"全能造梦者"。
OmniDreams的核心思路是:给它看过足够多的真实驾驶场景,让它像一位经验丰富的导演那样,理解"一辆车往左转时,路面、行人、其他车辆会发生什么变化",然后在模拟测试时,根据自动驾驶AI当下的操作,即时"导演"出对应的画面。这不是复刻,而是创作。
---
**一、从"照片复原"到"即兴创作"——为什么旧方法已经不够用**
以往的虚拟驾驶场,专业上称为"基于神经重建的模拟器",工作原理可以用一个简单的比方来理解:工程师们开着采集车在真实道路上行驶,用多个摄像头把沿途的一切记录下来,然后用这些视频素材"重建"出一个三维虚拟场景——类似于用大量照片拼接出一个可以自由移动视角的立体全景图。
这种方法的优点是逼真。因为素材来自现实,所以场景里的每一块砖头、每一盏路灯都是真实存在过的。工程师可以在这个"照片拼接"的世界里做各种假设性测试,比如把某辆车的行驶路线改一改,看看自动驾驶AI会如何反应。
但问题来了:拼接照片终究是拼接照片。一旦自动驾驶AI的行驶路线偏离了当初采集车走过的轨迹——哪怕只是偏了几十厘米——场景就开始"破损"。更严重的是,采集车从未经历过的场景,比如路面积雪三十厘米、一头麋鹿突然横穿马路、前方车辆货物散落一地,这些在虚拟场中根本无从生成。自动驾驶AI因此永远无法在模拟环境中接受这些"极端考题"的测验。
英伟达的研究团队意识到,要解决这个问题,需要的不是"更好的复刻技术",而是一个能够真正"理解世界运作规律"的生成式AI。OmniDreams由此诞生。
---
**二、造梦机器的"前世今生"——OmniDreams从哪里学来本领**
OmniDreams并非从零开始训练。英伟达以自家已有的一个强大视频生成基础模型**Cosmos**作为起点——这个模型已经通过大量互联网视频学会了"世界看起来该是什么样子"的基本常识。然后,研究团队对Cosmos进行了专门针对驾驶场景的"强化训练",让它从一个懂得生成各种视频的通才,变成一个精通道路、车辆、行人、信号灯、天气变化的驾驶场景专家。
训练数据的规模相当可观。研究团队使用了两个主要数据集:一个叫做RDS,包含了来自北美、欧洲、亚洲共15个国家的真实驾驶视频,总计约16600小时、300万个视频片段;另一个叫做RDS-HQ-1M,是一个更精细、更高质量的版本,包含约114万个视频片段、接近5000小时的驾驶素材。这些视频由7个同步摄像头拍摄,分辨率为1080p,帧率每秒30帧,覆盖城市、郊区、高速公路、乡村等各种道路环境,包括白天、夜晚、雨天、雪天等不同气候条件。
但光有视频还不够。研究团队还为每一个视频片段提取了与之配套的"结构化信息"——用计算机视觉技术识别出视频里的车道线、斑马线、交通标志、路灯,以及每一辆车、每一个行人的三维位置和运动轨迹,并将这些信息转化成一种精确的地图标注。与此同时,团队还使用了一个大型视觉语言模型(类似于能看图说话的AI助手)为每段视频生成文字描述,记录当时的天气、光线、路况、交通密度等环境特征。
这些"视频+结构化地图+文字描述"的三元组合,正是OmniDreams在生成画面时所依赖的核心原料。在数据质量控制方面,团队也下了不少功夫:剔除传感器数据异常的片段、剔除标注质量存疑的片段、用AI检测并去除镜头出现色差等视觉瑕疵的片段,最后还对内容过于重复的片段(比如大量直线高速公路行驶素材)进行去重降权处理,确保训练数据足够多样和高质量。
---
**三、造梦机器的工作方式——它如何"实时导演"行车画面**
OmniDreams最核心的能力,是在自动驾驶AI做出每一个操作决策的瞬间,立刻生成对应的车窗外画面。这要求它必须做到两件事:第一,画面必须逼真,细节上能够以假乱真;第二,画面必须实时,不能让自动驾驶AI等待太久。
为了达到这两个目标,OmniDreams采用了一种叫做"自回归生成"的工作方式。可以把它理解成电影摄影师的工作流程:不是先把整部电影都拍完再放映,而是一边拍一边放,上一秒拍好的画面立刻成为下一秒拍摄的参考。每当自动驾驶AI发出一个操作指令(比如"向左微调,减速"),OmniDreams就以这个指令、当前的场景状态、以及刚刚生成的画面作为依据,立刻生成接下来的一小段新画面(通常是约0.27秒,对应8帧图像)。
要让这种方式保持画面的长期一致性,OmniDreams使用了一种叫做"KV缓存"的技术机制。用更通俗的方式来说,就像一位导演随身携带着一本"拍摄日志",记录着过去每一个场景的关键视觉信息。每次生成新画面时,AI都会翻阅这本日志,确保新场景与过去发生的一切在视觉上保持连贯——同一栋建筑不会突然换了颜色,同一辆车不会莫名其妙地消失又出现。
OmniDreams同时提供两种版本:单摄像头版本(OmniDreams-SV),只生成正前方摄像头的画面;多摄像头版本(OmniDreams-MV),同时生成前方宽角、前方长焦、左侧斜角、右侧斜角共四路摄像头的同步画面。多摄像头版本的难点在于,四路画面必须保持空间上的一致性——同一辆前方车辆,在正前方摄像头和斜侧方摄像头里的大小、位置、光影必须完全对得上。为此,研究团队设计了一种"跨视角注意力机制",让AI在生成每一个摄像头画面时,同时参考其他摄像头的生成状态,确保整体一致。
---
**四、让AI知道"现在该画什么"——三种指挥信号的协同工作**
OmniDreams在生成画面时,接受三类输入信号的共同指挥,就像一位导演同时依赖剧本、现场地图和演员的即兴发挥来决定镜头如何运动。
第一类信号是文字描述。工程师可以用自然语言告诉OmniDreams当前的环境条件,比如"夜间,城市街道,轻微降雨,路灯明亮"。OmniDreams会根据这段文字,调整画面的光线、色调、能见度和雨水效果。这意味着工程师只需要修改一段文字,就能让同一段驾驶路线在不同天气条件下被反复测试,而不需要真的等到下雨天去重新采集素材。
第二类信号是"世界场景地图",这是OmniDreams的核心创新之一。这张地图不是普通的地图,而是一种实时更新的结构化信息图层,包含了当前路段的车道线、斑马线、交通信号灯、路牌的精确位置,以及场景中每一个动态物体(其他车辆、行人、骑行者等)的三维位置、尺寸和运动方向,用彩色方框(蓝色代表车辆、紫色代表斑马线、黄色代表车道线等)精确标注在与摄像头视角对齐的图像上。更重要的是,这张地图还编码了自动驾驶AI当下的操控意图——它接下来要向哪里走、走多快。OmniDreams以这张地图作为"场景蓝图",确保生成的画面在空间结构上与真实物理世界完全对应。
第三类信号是视觉历史缓存——也就是前面提到的"拍摄日志"。依靠这三类信号的协同,OmniDreams能够生成既符合当前操控指令、又与过去场景保持连贯、又具备指定环境特征的逼真画面。
---
**五、训练的多个阶段——从"全能学生"到"驾驶专家"**
OmniDreams的训练并非一步完成,而是经历了多个循序渐进的阶段,每个阶段各有侧重。
第一阶段,研究团队在Cosmos基础模型之上,用大规模的RDS驾驶数据集进行"中期训练",让模型学会驾驶场景的基本视觉规律:道路该是什么样的、车辆该如何运动、光影该如何随时间变化。这个阶段的模型是双向生成的,也就是说,它可以参考前后帧的信息来生成中间帧,质量很高,但无法做到实时响应。
第二阶段是多摄像头适配训练。研究团队向模型中加入了"视角身份编码"——一个专门告诉AI"你现在在生成哪个摄像头的画面"的信号——并训练模型在不同摄像头之间保持空间一致性。
第三阶段是将双向生成改造为单向的自回归生成(专业上叫做"扩散强迫"训练),使模型能够像流水线一样,依次、实时地生成每一帧画面,而不是一次性生成一大段视频。
第四阶段是加入世界场景地图控制能力,让模型能够根据结构化的场景信息精确控制画面内容。
最后一个关键阶段是"蒸馏"——用一种叫做"自我强迫"(Self Forcing)的技术,将原本需要多步骤迭代才能完成的图像生成过程压缩到只需两步,同时纠正长期生成中积累的误差。蒸馏之后,OmniDreams的生成速度大幅提升,画面质量却几乎没有明显下降。为了让长时间连续生成(比如超过20秒的驾驶视频)保持稳定,团队还设计了一种"渐进式教师"策略:先用能处理较长时间上下文的"长程双向模型"作为教师,对蒸馏后的模型进行进一步调优,帮助它在长时间生成时不积累视觉漂移误差。
---
**六、速度到底有多快——实时生成的技术秘密**
OmniDreams之所以能做到实时生成,背后有一整套精心设计的推理加速机制。
在单摄像头模式下,一块英伟达GB300显卡就能以每秒68帧的速度生成720p分辨率的画面——要知道,人类肉眼分辨流畅视频只需每秒30帧,68帧意味着有超过一倍的性能余量。在四摄像头模式下,使用16块GB300显卡组成的计算集群,能达到每个摄像头每秒105帧的生成速度,生成一个约0.15秒的16帧画面包仅需151毫秒。
加速的手段主要有几个方向。在注意力计算上,OmniDreams采用"局部时间窗口"策略,不让AI回顾太早之前的帧,而是只关注最近的24到32帧,大幅降低了计算量。在多GPU并行上,研究团队设计了一种三维并行分割策略,沿着摄像头视角轴、时间轴和空间轴三个方向同时分配计算任务,充分利用多卡协作的优势。在编译优化上,团队使用了CUDA图技术,将AI模型的每一步计算预先编译成固定的执行流程,消除了每次生成时重复规划计算步骤的额外开销。此外,KV缓存的更新被安排在独立的计算线程中进行,不占用主流程的响应时间。
研究团队还将这些加速技术打包成了一个名为**FlashDreams**的开源推理框架,并验证了它在其他类似架构(如Wan2.1)上同样有效,最高可带来接近2.5倍的速度提升。
---
**七、闭环模拟系统——造梦机器如何融入真实测试流程**
OmniDreams的价值,在于它能够无缝嵌入一个完整的"闭环模拟"系统中。所谓闭环,意味着自动驾驶AI的每一个决策都会影响它下一秒看到的画面,而不是像看电影一样被动地接受固定的视频流。
英伟达搭建的这个闭环系统由三个核心组件构成。其一是**Alpamayo 1**,这是英伟达开源的自动驾驶策略模型,相当于"驾驶员AI",负责根据看到的画面决定下一步操作(方向盘转多少、踩油门还是踩刹车)。其二是**AlpaSim**,这是英伟达的开源自动驾驶模拟器,相当于"交通管理员",负责管理场景中其他车辆和行人的行为、维护整个场景的物理状态、并将驾驶员AI的操控指令传递给OmniDreams。其三便是**OmniDreams**本身,作为"虚拟摄像师",根据AlpaSim传来的场景状态和操控指令,实时生成画面返回给Alpamayo。三者形成一个紧密咬合的循环:驾驶员AI操控,交通管理员更新状态,摄像师生成新画面,再交给驾驶员AI观察……如此往复。
在工程实现层面,这个系统面临了一些实际挑战。由于OmniDreams运行在多个GPU上,它需要以独立服务的形式运行,通过网络协议与其他组件通信,而不能简单地作为代码库被其他程序调用。研究团队为此设计了一套基于gRPC(一种高效的远程过程调用协议)的通信机制,让OmniDreams作为一个独立的视频生成服务器存在,接受来自AlpaSim的请求、返回编码后的视频帧。此外,由于OmniDreams每次生成的是一小"块"连续帧(而非逐帧生成),AlpaSim需要预先规划好这一小块时间内所有代理(车辆、行人等)的轨迹,再打包发送给OmniDreams进行生成,这要求系统中的各个组件在时序上高度协调。
---
**八、把世界模型变成驾驶员——World-Action Model的初步探索**
研究中还有一个特别有趣的实验:英伟达的研究人员发现,OmniDreams在学会"理解世界、生成画面"的过程中,积累了大量关于驾驶场景的深层视觉理解。于是他们尝试了一个大胆的问题:如果在OmniDreams的基础上做一点改造,它能不能直接变成驾驶员?
答案是肯定的。研究团队在OmniDreams的单摄像头版本(约20亿参数)的基础上,加入了轨迹预测模块——具体做法是:在原有生成画面的AI结构中,插入一种特殊的"历史信息令牌",让模型在观察过去4帧画面的同时,预测未来6.4秒内自动驾驶车辆应该走的路径(以每秒10个路径点、共64个路径点的形式输出)。训练时,画面生成任务和路径预测任务同时进行,共享同一套视觉理解能力。
推理时,只需一次前向计算就能完成,不需要真正生成新画面,因此速度极快。这个被称为"世界-行动模型"(World-Action Model,WAM)的新系统,在英伟达发布的物理AI自动驾驶NuRec数据集上进行了评测:与完整的Alpamayo 1.5驾驶策略模型(约100亿参数)相比,WAM的参数量只有其五分之一,却在多项安全指标上都取得了更好的成绩。具体来说,总碰撞率从6.9%降低到了4.2%,前向碰撞从1.0%降到0.9%,侧向碰撞从0.6%降到0.4%,追尾碰撞从5.3%大幅降到3.0%。这一结果表明,一个专门学会"理解和想象世界"的模型,其内部积累的视觉知识可以直接赋能驾驶决策,而不需要为此再建立一个巨大的专门模型。
---
**九、给复刻式场景"打补丁"——OmniDreams作为画面修复工具**
除了作为独立的生成式模拟器,OmniDreams还可以与传统的"复刻式模拟器"协同使用,担任后者的"画面质检修复员"。
当自动驾驶AI的行驶路线偏离原始采集轨迹时,复刻式场景会出现各种视觉瑕疵——模糊、缺失的区域、幽灵般的叠影、错误的几何形状。研究团队对OmniDreams进行了专门的后训练,使其能够接受这些"有瑕疵的复刻帧"作为输入,并以极少的步骤(从瑕疵画面本身开始去噪,而非从纯噪声开始)生成干净、自然的修复版本,同时保持场景的空间布局和驾驶相关结构不变。在实际测试中,这种修复方案能够有效去除复刻场景中的视觉破损,使传统复刻式模拟器在偏轨场景下的画面质量显著提升。
---
**十、模拟测试的硬核成绩单——数据证明了什么**
研究团队对OmniDreams进行了多维度的量化评测,使用了5000个从未参与训练的保留视频片段作为测试集,其中特意平衡了各类罕见场景的比例:骑行者、行人、摩托车、手推车、大货车、挂车、雨天、雪天、雾天、夜间、隧道、铁路道口、施工区域、事故现场等。
在画面质量方面,蒸馏后的最终版OmniDreams在FVD(一种衡量生成视频与真实视频分布相似度的标准指标,数值越低越好)上得分24.8,优于之前的中间版本;在跨帧几何一致性(Temporal Sampson分数)上得分1.90;在场景结构保真度方面,用专业目标检测模型对OmniDreams生成画面进行3D车辆检测,检测精度(LET-AP)达到0.400,车道线识别F1值达到0.828——这些数字表明,生成的画面在结构上非常接近真实场景,能够支撑后续的感知和决策任务。
在长时间连续生成方面,研究团队对20秒长的驾驶视频进行了分段质量评测,把20秒切成四个5秒的窗口分别评分。使用"渐进式长程教师"策略之后,视频从第0-5秒到第15-20秒的质量衰减(FVD从95.5升到268.4)远小于仅用短程教师时的衰减幅度(FVD从109.3升到409.2),证明了长程一致性策略的有效性。
在与复刻式模拟器NuRec的对比测试中,研究团队用501个同时具备两种模拟器所需数据的场景,分别以OmniDreams和NuRec作为渲染后端,测试了四种不同的自动驾驶策略模型。结果表明,在OmniDreams和NuRec两种模拟环境下,四种策略模型的性能排名保持一致——性能最强的WAM在两种环境下都排第一,性能最弱的单摄像头Alpamayo 1.5在两种环境下都排最后。这意味着OmniDreams作为测试平台,与真实世界的参考(NuRec贴近原始录制)得出的结论是一致的,可以作为可靠的测试代理。
进一步对比两种模拟器的画面真实度随行驶路线偏离程度的变化,结果非常清晰:当行驶路线与原始采集路线相差超过2米时,NuRec生成画面的FVD急剧攀升(画质急速下降),而OmniDreams的FVD保持相对平稳,在偏离4米以上的情况下仍维持在125左右,而NuRec已经恶化到207——两者之间出现了82.2的FVD差距。这正是生成式模拟器在偏轨场景下的核心优势所在。
---
**十一、那些"照片里不存在的场景"——极端情况的生成能力**
OmniDreams还具备生成"从未发生过"的极端场景的能力,这是传统复刻式模拟器根本无法实现的功能。
通过修改文字描述和世界场景地图,工程师可以轻松地对同一个驾驶场景进行多种反事实变体的生成:把晴天改成大雪、把路上的行人改成骑行者、把白天改成夜晚并加上路锥、修改自动驾驶车辆的行驶路径……在这些变化中,场景中未被修改的部分(道路几何、远处建筑、静态背景)保持视觉稳定,只有被指定修改的元素发生变化。
在更极端的情况下,研究团队还尝试了"超出分布的物体建模"——也就是在第一帧画面中插入正常驾驶数据集里几乎不会出现的物体(论文展示了恐龙模型和长颈鹿等奇特物体),然后让OmniDreams生成这些物体持续出现在场景中的连续视频。为了让这种生成更自然,研究团队对OmniDreams进行了特别的"动态方框随机丢弃"训练——有意地让模型不总是依赖场景地图中的动态物体方框来判断物体位置,使模型学会从视觉历史中推断物体的持续存在和运动,从而能够优雅地处理场景地图中没有对应记录的插入物体。
---
说到底,OmniDreams做的事情,就是帮助自动驾驶研发从"只能在真实拍摄过的路上测试"进化到"可以在任何可以描述的场景中测试"。暴风雪中的十字路口、路面散落的不明物体、突然跳出的骑行者……这些以往只能"等待偶然"的极端考题,现在可以按需生成、反复播放。与此同时,它还展示了一种非常有趣的可能性:一个足够深刻地理解世界的AI,不需要额外长得更大,就可以同时成为优秀的驾驶决策者。
如果你对这项研究的技术细节感兴趣,可以在arXiv平台上通过编号arXiv:2606.03159查阅完整论文,所有的模型架构图、训练曲线和量化数据都可以在那里找到。
---
**Q&A**
Q1:OmniDreams和普通自动驾驶模拟器有什么本质区别?
A:普通自动驾驶模拟器(如NuRec)是把真实拍摄的道路场景"复刻"成三维模型,只能在拍摄过的路线范围内模拟,一旦车辆偏离原始轨迹就会出现画面破损。OmniDreams则是一个生成式AI,能根据当前驾驶操作实时"创造"画面,不依赖预先拍摄的素材,可以生成暴风雪、罕见障碍物等现实中极难采集的极端场景。
Q2:OmniDreams的实时生成速度能达到多少?
A:在单摄像头模式下,一块英伟达GB300显卡可达每秒68帧,720p分辨率,远超人眼分辨流畅视频所需的30帧。在四摄像头同步模式下,使用16块GB300显卡的集群可达每个摄像头每秒105帧。每生成一个约0.15秒的画面包(16帧,四路同步)只需151毫秒。
Q3:World-Action Model(WAM)是怎么用OmniDreams做驾驶决策的?
A:研究团队在OmniDreams基础上加入了轨迹预测模块,让模型在观察历史驾驶画面的同时,直接预测未来6.4秒内应该走的路径(64个路径点)。推理时不需要真正生成新视频画面,只需一次前向计算即可输出驾驶轨迹。这个仅有约20亿参数的WAM在碰撞率等安全指标上超过了参数量是其5倍的Alpamayo 1.5驾驶模型。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。