微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

英伟达与北大联手破解自动驾驶"两难困境"：让AI司机既聪明又快速的秘密武器

自动驾驶块扩散模型轨迹规划优化

英伟达与北大联手破解自动驾驶"两难困境"：让AI司机既聪明又快速的秘密武器

作者：科技行者

2026-06-02 16:16

分享至：

Fast-dDrive是英伟达等机构联合提出的自动驾驶AI系统，通过分章节块扩散与脚手架推测解码，在Waymo测试集上实现最低轨迹误差，推理速度较自回归基线快11.8倍。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-02 16:16 • 科技行者

这项由英伟达、北京大学、香港大学和麻省理工学院联合推进的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.23163，感兴趣的读者可通过该编号检索完整原文。研究的核心成果被命名为**Fast-dDrive**，它试图回答一个困扰自动驾驶行业多年的根本问题：能不能让车载AI既反应足够准确，又跑得足够快？

要理解这个问题的难度，可以先想象这样一个场景。你雇了一位私人司机，这位司机有两种工作风格。第一种司机极其谨慎，每次做决定都要仔仔细细地把每一个细节想清楚，路线规划无懈可击，但思考太慢，当你需要他在三秒内紧急避让时，他还在推演第一步该往哪里打方向盘。第二种司机反应飞快，脑子里闪过整条路线就直接踩油门，但因为没有逐步推敲，偶尔会出现莫名其妙的失误，在路上突然走岔了方向。Fast-dDrive的目标，就是培养出一位既快又准的第三类司机。

一、两种旧方案，各有致命短板

现有的自动驾驶AI大致分为两个流派，就像两种截然不同的烹饪哲学。

第一个流派叫做"自回归"方案，可以理解为"一个字一个字往外说"的厨师。这位厨师做菜时，每放一种调料都要先尝一下味道，再决定下一步放什么。这样做出来的菜逻辑严密，每一步都承接上一步。放在自动驾驶里，就是AI每次只预测轨迹上的一个点，把这个点预测完了，再根据结果预测下一个点。这种方式的问题在于，如果第一个点预测得有一点点偏差，这个偏差会随着每一步的叠加越来越大，就像打台球时初始角度偏了一度，球滚到最后可能就完全不在你预想的落点上了。更麻烦的是，这种"每次只动一步"的工作方式让芯片非常低效——车载计算芯片大部分时候都在等待而不是在计算，就像一台高性能跑车却只能在停车场里一米一米地挪动。论文中的数据显示，这类方案在一台英伟达H100芯片上，每秒只能处理约51.6个词元（可以粗略理解为"计算单位"），延迟高达将近8秒。

第二个流派是全序列扩散方案，这类方案的哲学恰好相反，更像是"一次把所有调料全部倒进锅里再慢慢调整"的厨师。AI会先把整段输出（包括对路面状况的感知、推理解释、以及未来轨迹）全部随机打乱，然后经过多轮迭代，逐渐把这堆乱码还原成有意义的内容。这种方法的好处是可以让整段输出在全局范围内相互参考，理论上更连贯。但它带来了两个严重问题。首先，因为整段输出都是"同时在调整"的，计算机无法缓存已经算好的部分，每次迭代都要从头算一遍，速度反而比自回归方案还要慢。其次，当AI对路面状况的感知描述和最终轨迹规划处于同一个"大锅"里一起搅动时，就可能出现论文所称的"逻辑泄漏"——规划出来的轨迹会反过来"污染"AI对当前路面的感知描述，就好比厨师还没尝到食材的原味，就已经被最终成品的期望口感带着走了，本末倒置。

二、Fast-dDrive的核心思路：分区域、有先后、保缓存

Fast-dDrive的解法，可以用一个具体的比喻来理解：把整个自动驾驶输出过程比作一本分章节的剧本。

这本剧本固定分为四章，顺序绝对不能颠倒。第一章是"关键目标感知"，AI要判断周围有没有行人、有没有其他车辆、路面是否湿滑等十二项基本情况。第二章是"解释与推理"，AI用自然语言说清楚自己当前对路面的理解。第三章是"宏观行为决策"，AI决定是加速还是减速、是直行还是转弯。第四章才是"轨迹规划"，给出未来五秒内五个具体的空间坐标点。

Fast-dDrive的关键创新在于：在每一章内部，AI可以像第二个流派那样"整体思考"，让这一章内部的所有词元相互参考、共同优化；但在章与章之间，必须严格按照第一章→第二章→第三章→第四章的顺序推进，前一章完全确定后才能开始下一章，绝不允许后面章节的内容影响前面章节的判断。这样就从根本上杜绝了"逻辑泄漏"：轨迹规划的结果永远不会反过来篡改AI对路面的感知描述。

与此同时，由于每章内部是整体处理的，而章节之间是顺序推进的，计算机就可以把已经完成的章节结果缓存起来（这在技术上叫做KV缓存），后续章节在计算时直接复用，不需要重新计算。这相当于剧本每写完一章，就把这章的内容保存好，下一章直接接着写，而不用每写一个字都把整本剧本从头读一遍。

三、脚手架技术：让AI只专注于真正需要思考的地方

在Fast-dDrive的四章剧本中，研究团队发现了一个很有意思的规律：剧本里有大量内容其实是固定不变的"格式框架"，比如JSON格式的大括号、引号、键名等标点符号和关键词。这些内容就像建筑工地上的脚手架，在每一次施工中都是完全一样的结构，不需要工人费心去"设计"，直接搭好就行。

具体来看，在总共404个需要输出的词元中，有124个是这样的"脚手架词元"，占比约30%。研究团队干脆把这些词元预先填好，直接告诉AI"这些位置的内容是固定的，你不需要思考"，让AI把全部精力集中在剩下280个真正需要预测的"价值词元"上。这个策略不仅减少了约30%的计算量，还带来了一个额外的好处：输出的格式百分之百合法，永远不会出现括号不匹配、键名拼错之类的格式错误。

更进一步，研究团队为四个章节分别设置了不同的学习权重和不同的"练习难度"。因为第四章的轨迹规划直接决定汽车怎么开，搞错了可能出事故；而第二章的解释文字写得不够优美，最多只是表达不够流畅，不会有安全风险。所以在训练阶段，AI在轨迹和宏观行为这两章上犯错的惩罚会被放大——对应的损失权重分别设置为3.0和2.0，而感知和解释两章的权重只有1.0和1.5。同时，轨迹章节被设置为"高难度练习模式"，在训练时故意给它更大比例的遮盖（遮盖更多词元），迫使AI在这个最关键的部分练得更加扎实。这两项机制只在训练阶段生效，推理时没有任何额外开销。

四、两种推理模式：一个看速度，一个看质量

正因为训练时同时保留了两种能力——扩散式的"整体联想"能力和自回归式的"逐步验证"能力——Fast-dDrive在实际使用时可以根据需要选择两种不同的工作模式。

第一种叫做"章节扩散模式"。在这种模式下，AI对每一章进行多轮迭代优化，逐渐把这一章的内容从随机乱码还原成有意义的预测结果，然后缓存好这一章，继续处理下一章。整个过程纯粹依赖扩散式思维，不调用逐步验证能力。这种模式的优点是思考过程具有一定的随机性，可以产生多种不同的可能轨迹，为后续的多轨迹采样提供了基础。

第二种叫做"脚手架推测解码模式"，这是Fast-dDrive的主打推理方式，也是性能最强的一种。它的工作流程分为三步，整个过程一环扣一环。第一步，对于每个处理块，所有属于"脚手架"的固定词元直接无条件接受，完全跳过计算，相当于把预先知道答案的题目全部跳过。第二步，扩散头（具有双向视野的那部分AI）对这个块里所有真正需要预测的词元，在一次前向传播中同时生成草稿答案——就像一位学生拿到试卷后快速浏览所有题目，然后同时在草稿纸上把所有题目的初步答案都写下来。第三步，自回归头（具有严格因果视野的那部分AI）从左到右逐个检查草稿答案，如果认可就接受，一旦发现不认可的地方就用自己的答案替换，并且丢弃后续所有草稿答案，同时还能额外"奖励"接受一个额外词元。整个流程让每个块只需要两次前向传播（一次草稿、一次验证），无论块的大小如何，都是两次。实测显示，这种模式每步能提交约4.9个词元，每秒处理210.4个词元，延迟仅1.9秒，相比自回归基线快了4倍以上。

五、用"分叉路线"换取更准确的轨迹

Fast-dDrive还提出了一种低成本的精度提升手段，逻辑简单但效果明显。

核心思路基于一个统计学中的基本原理：如果你问100个人同一道估算题，他们的答案可能各有偏差，但这100个答案的平均值会比任何一个单独的答案都更接近真实值，因为各人随机犯的错误会相互抵消。Fast-dDrive把这个原理用在了轨迹预测上。

具体操作是这样的：前三章（感知、解释、宏观行为）的内容是确定性的，每次运行结果完全一样，因此它们对应的计算缓存也完全一样。所以只需要计算一次前三章，然后把这份计算结果"分叉"出N份拷贝，在第四章（轨迹规划）阶段让这N份拷贝各自独立地加入一点随机性，生成N条略有差异的轨迹。最后把这N条轨迹取平均，得到最终输出。由于每次"分叉"之后只需要额外计算一个很短的第四章，而不是重新跑完整的四章，额外计算成本非常小。

研究结果显示，当N取4时，轨迹的平均偏移误差（ADE@5s，即5秒内轨迹与真实路径的平均距离偏差）相比单次推理有可观改善，而耗时仅约翻倍（因为只有短小的第四章被重复了四次）。论文中还展示了一个典型案例：四条分叉轨迹在近处几乎重合，越到远处（五秒末尾的位置）分歧越大，但它们的均值轨迹与真实参考路径高度吻合——这完美地验证了"平均消除随机误差"的统计原理。

六、在两个权威测试集上的成绩单

研究团队在两个行业内认可的公开测试集上对Fast-dDrive进行了评估。

第一个是Waymo开放数据集的端到端驾驶子集（WOD-E2E），这个数据集专门收录了各种极端的长尾驾驶场景，比如道路施工、异常天气、罕见交通状况等。衡量指标主要有两个：ADE（平均位移误差，就是预测轨迹和真实路径的平均距离偏差，越小越好）以及RFS（评分员反馈分数，是一种人工评估指标，分越高越接近真人驾驶员的判断）。在测试集上，Fast-dDrive（脚手架推测解码模式）的3秒ADE达到1.254米、5秒ADE达到2.907米，是所有对比方法中最低的两个数字。加入N=4多轨迹平均后，这两个数字进一步降至1.240米和2.821米。RFS方面，Fast-dDrive在扩散类方法中排名最高。与此同时，速度上同比自回归基线快了4倍，同比全序列扩散方案快了6倍。集成到一个名为SGLang的高性能推理框架后，借助更底层的计算图优化，整体吞吐量达到每秒608.5个词元，延迟仅0.67秒，相比自回归基线整整快了11.8倍，而精度几乎没有损失（RFS从7.931微降至7.914）。

第二个测试集是nuScenes，这是一个以城市常规驾驶场景为主的经典数据集。评估指标是L2误差，即在1秒、2秒、3秒三个时间点上预测位置和真实位置的欧式距离。Fast-dDrive在这三个时间点的误差分别为0.12米、0.33米、0.50米，平均L2误差0.32米。这个成绩比自回归带推理的系列（如DriveVLM的0.40米、AutoVLA的0.48米）好了一大截，甚至比不带任何自然语言推理的纯规划系统（如BEV-Planner的0.35米）还要好，相比同为扩散类的dVLM-AD（0.41米）提升了22%。

七、消融实验：拆开来看哪部分在起作用

为了证明各个组件的必要性，研究团队做了一系列"拆掉某个零件看会怎样"的对照实验。

在训练策略的验证上，研究团队测试了四种组合：什么都不加（基线）、只加章节重要性加权损失（IWL）、只加章节自适应噪声调度（SNS）、两者都加。结果显示，只加IWL时，ADE@5s从2.028降到2.003，RFS从7.735升到7.855，改善明显；只加SNS时效果稍弱，ADE@5s反而略微上升到2.050，但RFS也有一定改善达到7.807；两者同时使用时ADE@5s为2.034，RFS达到最高的7.916，说明两个机制在某种程度上是互补的，分别从不同角度优化了训练效果。

在推理模式的对比上，脚手架推测解码模式（SS）在速度和精度上均优于普通自推测解码模式（Self-Spec），原因就是脚手架词元的自动接受减少了约30%的验证计算量，同时章节对齐的块划分让草稿阶段的上下文更完整、草稿命中率更高。章节扩散模式（SD）的速度介于两者之间，精度略低于推测解码模式，但其随机性恰好为多轨迹平均采样提供了可利用的多样性，是一个实用的替代选项。

八、五个真实驾驶场景的实际表现

论文附录提供了五个来自Waymo真实场景的案例演示，从中可以直观感受Fast-dDrive的实际能力。

第一个场景是夜间无障碍左转。路面完全空旷，没有其他车辆、行人或特殊交通元素。AI正确识别出这是一个无干扰场景，在"宏观行为"章节输出加速左转，并生成了一条平滑向左弯曲的轨迹，五秒末端的横向偏移约10.72米，与真实参考轨迹高度吻合。

第二个场景是跟随皮卡车直行。前方有一辆皮卡，AI正确将其标记为"关键目标：附近车辆=是"，判断宏观行为为"保持速度+跟随车道"，并输出一条较长的直行轨迹（五秒末端约前进80米），与真实路径的纵向范围一致。

第三个场景是多车道道路右转。AI正确判断为"保持速度+右转"，输出的轨迹五秒末横向偏移达到-17米，弧度与真实参考路径紧密贴合，从正面摄像头视角一直延伸到右侧摄像头视角区域。

第四个场景是绿灯通过信号交叉口。AI正确识别出前方信号灯处于绿色状态，将其标记为"关键目标：交通元素=是"，并在推理文字中明确说明"信号灯当前为绿，允许通行"，输出直行加速轨迹，与真实路径方向完全一致。

第五个场景也是整个演示视频中的核心案例：雨天停车标志路口左转。AI同时识别出停车标志和湿滑路面两个关键因素，在感知章节同时标记"交通元素=是"和"天气状况=是"，在宏观行为章节输出"减速+左转"，推理文字中明确提到"路面湿滑，制动距离增加，需在转弯前确保安全停车或让行"。输出的轨迹呈现出明显的减速弯曲弧线，与真实参考路径高度吻合。

归根结底，Fast-dDrive在这个领域做了一件看起来简单、做起来极难的事：它没有"二选一"地在速度和精度之间妥协，而是通过把输出结构的先验知识编码进模型的训练和推理设计中，让两者同时变得更好。把已知不变的格式框架固定下来、让AI专注于真正需要推理的内容，这个思路本身并不复杂，但把它系统地贯穿进训练目标、推理算法和测试时的缩放策略，才形成了这篇论文的完整贡献。对于自动驾驶工程师来说，这套方案提供了一条实际可走的路径：在不需要更大模型、不需要更强芯片的前提下，通过更聪明的结构设计，把现有3B参数规模的视觉语言模型推向接近实时的车载部署边界。对于更广泛关注AI应用的读者来说，这个研究也提示了一个普适原则：当AI的输出具有已知结构时，把这个结构明确地告诉AI，往往能同时带来效率和质量上的双重收益，而不必在两者之间做取舍。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.23163查阅完整论文。

---

Q&A

Q1：Fast-dDrive和普通自动驾驶AI相比，为什么速度能快这么多？

A：Fast-dDrive通过三个机制实现提速。首先，它预先填好了输出中约30%的固定格式符号，AI不需要"思考"这些内容。其次，它把整个输出分成四个有顺序的章节分别处理，每完成一章就把结果缓存起来，后续章节直接复用，不用重复计算。第三，它用扩散头快速生成草稿，再用自回归头批量验证，相比一个字一个字地生成，每步能确认约5个词元，综合加速超过10倍。

Q2：多轨迹平均采样会不会让车开得更保守或者路线变奇怪？

A：不会。多轨迹平均采样只在第四章（轨迹规划）阶段引入随机性，而且只是在AR验证器中使用非零温度采样，前三章（感知、推理、宏观行为）仍然是确定性的。平均之后得到的轨迹是多个合理轨迹的中心值，实验数据显示它比任何单条轨迹都更接近真实参考路径，不会产生"折中出奇怪路线"的问题。

Q3：Fast-dDrive需要激光雷达或高精地图吗？

A：不需要。Fast-dDrive只使用普通摄像头图像、车辆自身的速度加速度等状态数据，以及一条简单的自然语言导航指令（比如"下一个路口左转"）。在WOD-E2E测试中使用三个前向摄像头，在nuScenes测试中只用一个前向摄像头的历史三帧，完全不依赖激光雷达、毫米波雷达或高精度地图。

自动驾驶块扩散模型轨迹规划优化

分享至