
这项由英伟达、北京大学、香港大学和麻省理工学院联合推进的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.23163,感兴趣的读者可通过该编号检索完整原文。研究的核心成果被命名为**Fast-dDrive**,它试图回答一个困扰自动驾驶行业多年的根本问题:能不能让车载AI既反应足够准确,又跑得足够快?
要理解这个问题的难度,可以先想象这样一个场景。你雇了一位私人司机,这位司机有两种工作风格。第一种司机极其谨慎,每次做决定都要仔仔细细地把每一个细节想清楚,路线规划无懈可击,但思考太慢,当你需要他在三秒内紧急避让时,他还在推演第一步该往哪里打方向盘。第二种司机反应飞快,脑子里闪过整条路线就直接踩油门,但因为没有逐步推敲,偶尔会出现莫名其妙的失误,在路上突然走岔了方向。Fast-dDrive的目标,就是培养出一位既快又准的第三类司机。
一、两种旧方案,各有致命短板
现有的自动驾驶AI大致分为两个流派,就像两种截然不同的烹饪哲学。
第一个流派叫做"自回归"方案,可以理解为"一个字一个字往外说"的厨师。这位厨师做菜时,每放一种调料都要先尝一下味道,再决定下一步放什么。这样做出来的菜逻辑严密,每一步都承接上一步。放在自动驾驶里,就是AI每次只预测轨迹上的一个点,把这个点预测完了,再根据结果预测下一个点。这种方式的问题在于,如果第一个点预测得有一点点偏差,这个偏差会随着每一步的叠加越来越大,就像打台球时初始角度偏了一度,球滚到最后可能就完全不在你预想的落点上了。更麻烦的是,这种"每次只动一步"的工作方式让芯片非常低效——车载计算芯片大部分时候都在等待而不是在计算,就像一台高性能跑车却只能在停车场里一米一米地挪动。论文中的数据显示,这类方案在一台英伟达H100芯片上,每秒只能处理约51.6个词元(可以粗略理解为"计算单位"),延迟高达将近8秒。
第二个流派是全序列扩散方案,这类方案的哲学恰好相反,更像是"一次把所有调料全部倒进锅里再慢慢调整"的厨师。AI会先把整段输出(包括对路面状况的感知、推理解释、以及未来轨迹)全部随机打乱,然后经过多轮迭代,逐渐把这堆乱码还原成有意义的内容。这种方法的好处是可以让整段输出在全局范围内相互参考,理论上更连贯。但它带来了两个严重问题。首先,因为整段输出都是"同时在调整"的,计算机无法缓存已经算好的部分,每次迭代都要从头算一遍,速度反而比自回归方案还要慢。其次,当AI对路面状况的感知描述和最终轨迹规划处于同一个"大锅"里一起搅动时,就可能出现论文所称的"逻辑泄漏"——规划出来的轨迹会反过来"污染"AI对当前路面的感知描述,就好比厨师还没尝到食材的原味,就已经被最终成品的期望口感带着走了,本末倒置。
二、Fast-dDrive的核心思路:分区域、有先后、保缓存
Fast-dDrive的解法,可以用一个具体的比喻来理解:把整个自动驾驶输出过程比作一本分章节的剧本。
这本剧本固定分为四章,顺序绝对不能颠倒。第一章是"关键目标感知",AI要判断周围有没有行人、有没有其他车辆、路面是否湿滑等十二项基本情况。第二章是"解释与推理",AI用自然语言说清楚自己当前对路面的理解。第三章是"宏观行为决策",AI决定是加速还是减速、是直行还是转弯。第四章才是"轨迹规划",给出未来五秒内五个具体的空间坐标点。
Fast-dDrive的关键创新在于:在每一章内部,AI可以像第二个流派那样"整体思考",让这一章内部的所有词元相互参考、共同优化;但在章与章之间,必须严格按照第一章→第二章→第三章→第四章的顺序推进,前一章完全确定后才能开始下一章,绝不允许后面章节的内容影响前面章节的判断。这样就从根本上杜绝了"逻辑泄漏":轨迹规划的结果永远不会反过来篡改AI对路面的感知描述。
与此同时,由于每章内部是整体处理的,而章节之间是顺序推进的,计算机就可以把已经完成的章节结果缓存起来(这在技术上叫做KV缓存),后续章节在计算时直接复用,不需要重新计算。这相当于剧本每写完一章,就把这章的内容保存好,下一章直接接着写,而不用每写一个字都把整本剧本从头读一遍。
三、脚手架技术:让AI只专注于真正需要思考的地方
在Fast-dDrive的四章剧本中,研究团队发现了一个很有意思的规律:剧本里有大量内容其实是固定不变的"格式框架",比如JSON格式的大括号、引号、键名等标点符号和关键词。这些内容就像建筑工地上的脚手架,在每一次施工中都是完全一样的结构,不需要工人费心去"设计",直接搭好就行。
具体来看,在总共404个需要输出的词元中,有124个是这样的"脚手架词元",占比约30%。研究团队干脆把这些词元预先填好,直接告诉AI"这些位置的内容是固定的,你不需要思考",让AI把全部精力集中在剩下280个真正需要预测的"价值词元"上。这个策略不仅减少了约30%的计算量,还带来了一个额外的好处:输出的格式百分之百合法,永远不会出现括号不匹配、键名拼错之类的格式错误。
更进一步,研究团队为四个章节分别设置了不同的学习权重和不同的"练习难度"。因为第四章的轨迹规划直接决定汽车怎么开,搞错了可能出事故;而第二章的解释文字写得不够优美,最多只是表达不够流畅,不会有安全风险。所以在训练阶段,AI在轨迹和宏观行为这两章上犯错的惩罚会被放大——对应的损失权重分别设置为3.0和2.0,而感知和解释两章的权重只有1.0和1.5。同时,轨迹章节被设置为"高难度练习模式",在训练时故意给它更大比例的遮盖(遮盖更多词元),迫使AI在这个最关键的部分练得更加扎实。这两项机制只在训练阶段生效,推理时没有任何额外开销。
四、两种推理模式:一个看速度,一个看质量
正因为训练时同时保留了两种能力——扩散式的"整体联想"能力和自回归式的"逐步验证"能力——Fast-dDrive在实际使用时可以根据需要选择两种不同的工作模式。
第一种叫做"章节扩散模式"。在这种模式下,AI对每一章进行多轮迭代优化,逐渐把这一章的内容从随机乱码还原成有意义的预测结果,然后缓存好这一章,继续处理下一章。整个过程纯粹依赖扩散式思维,不调用逐步验证能力。这种模式的优点是思考过程具有一定的随机性,可以产生多种不同的可能轨迹,为后续的多轨迹采样提供了基础。
第二种叫做"脚手架推测解码模式",这是Fast-dDrive的主打推理方式,也是性能最强的一种。它的工作流程分为三步,整个过程一环扣一环。第一步,对于每个处理块,所有属于"脚手架"的固定词元直接无条件接受,完全跳过计算,相当于把预先知道答案的题目全部跳过。第二步,扩散头(具有双向视野的那部分AI)对这个块里所有真正需要预测的词元,在一次前向传播中同时生成草稿答案——就像一位学生拿到试卷后快速浏览所有题目,然后同时在草稿纸上把所有题目的初步答案都写下来。第三步,自回归头(具有严格因果视野的那部分AI)从左到右逐个检查草稿答案,如果认可就接受,一旦发现不认可的地方就用自己的答案替换,并且丢弃后续所有草稿答案,同时还能额外"奖励"接受一个额外词元。整个流程让每个块只需要两次前向传播(一次草稿、一次验证),无论块的大小如何,都是两次。实测显示,这种模式每步能提交约4.9个词元,每秒处理210.4个词元,延迟仅1.9秒,相比自回归基线快了4倍以上。
五、用"分叉路线"换取更准确的轨迹
Fast-dDrive还提出了一种低成本的精度提升手段,逻辑简单但效果明显。
核心思路基于一个统计学中的基本原理:如果你问100个人同一道估算题,他们的答案可能各有偏差,但这100个答案的平均值会比任何一个单独的答案都更接近真实值,因为各人随机犯的错误会相互抵消。Fast-dDrive把这个原理用在了轨迹预测上。
具体操作是这样的:前三章(感知、解释、宏观行为)的内容是确定性的,每次运行结果完全一样,因此它们对应的计算缓存也完全一样。所以只需要计算一次前三章,然后把这份计算结果"分叉"出N份拷贝,在第四章(轨迹规划)阶段让这N份拷贝各自独立地加入一点随机性,生成N条略有差异的轨迹。最后把这N条轨迹取平均,得到最终输出。由于每次"分叉"之后只需要额外计算一个很短的第四章,而不是重新跑完整的四章,额外计算成本非常小。
研究结果显示,当N取4时,轨迹的平均偏移误差(ADE@5s,即5秒内轨迹与真实路径的平均距离偏差)相比单次推理有可观改善,而耗时仅约翻倍(因为只有短小的第四章被重复了四次)。论文中还展示了一个典型案例:四条分叉轨迹在近处几乎重合,越到远处(五秒末尾的位置)分歧越大,但它们的均值轨迹与真实参考路径高度吻合——这完美地验证了"平均消除随机误差"的统计原理。
六、在两个权威测试集上的成绩单
研究团队在两个行业内认可的公开测试集上对Fast-dDrive进行了评估。
第一个是Waymo开放数据集的端到端驾驶子集(WOD-E2E),这个数据集专门收录了各种极端的长尾驾驶场景,比如道路施工、异常天气、罕见交通状况等。衡量指标主要有两个:ADE(平均位移误差,就是预测轨迹和真实路径的平均距离偏差,越小越好)以及RFS(评分员反馈分数,是一种人工评估指标,分越高越接近真人驾驶员的判断)。在测试集上,Fast-dDrive(脚手架推测解码模式)的3秒ADE达到1.254米、5秒ADE达到2.907米,是所有对比方法中最低的两个数字。加入N=4多轨迹平均后,这两个数字进一步降至1.240米和2.821米。RFS方面,Fast-dDrive在扩散类方法中排名最高。与此同时,速度上同比自回归基线快了4倍,同比全序列扩散方案快了6倍。集成到一个名为SGLang的高性能推理框架后,借助更底层的计算图优化,整体吞吐量达到每秒608.5个词元,延迟仅0.67秒,相比自回归基线整整快了11.8倍,而精度几乎没有损失(RFS从7.931微降至7.914)。
第二个测试集是nuScenes,这是一个以城市常规驾驶场景为主的经典数据集。评估指标是L2误差,即在1秒、2秒、3秒三个时间点上预测位置和真实位置的欧式距离。Fast-dDrive在这三个时间点的误差分别为0.12米、0.33米、0.50米,平均L2误差0.32米。这个成绩比自回归带推理的系列(如DriveVLM的0.40米、AutoVLA的0.48米)好了一大截,甚至比不带任何自然语言推理的纯规划系统(如BEV-Planner的0.35米)还要好,相比同为扩散类的dVLM-AD(0.41米)提升了22%。
七、消融实验:拆开来看哪部分在起作用
为了证明各个组件的必要性,研究团队做了一系列"拆掉某个零件看会怎样"的对照实验。
在训练策略的验证上,研究团队测试了四种组合:什么都不加(基线)、只加章节重要性加权损失(IWL)、只加章节自适应噪声调度(SNS)、两者都加。结果显示,只加IWL时,ADE@5s从2.028降到2.003,RFS从7.735升到7.855,改善明显;只加SNS时效果稍弱,ADE@5s反而略微上升到2.050,但RFS也有一定改善达到7.807;两者同时使用时ADE@5s为2.034,RFS达到最高的7.916,说明两个机制在某种程度上是互补的,分别从不同角度优化了训练效果。
在推理模式的对比上,脚手架推测解码模式(SS)在速度和精度上均优于普通自推测解码模式(Self-Spec),原因就是脚手架词元的自动接受减少了约30%的验证计算量,同时章节对齐的块划分让草稿阶段的上下文更完整、草稿命中率更高。章节扩散模式(SD)的速度介于两者之间,精度略低于推测解码模式,但其随机性恰好为多轨迹平均采样提供了可利用的多样性,是一个实用的替代选项。
八、五个真实驾驶场景的实际表现
论文附录提供了五个来自Waymo真实场景的案例演示,从中可以直观感受Fast-dDrive的实际能力。
第一个场景是夜间无障碍左转。路面完全空旷,没有其他车辆、行人或特殊交通元素。AI正确识别出这是一个无干扰场景,在"宏观行为"章节输出加速左转,并生成了一条平滑向左弯曲的轨迹,五秒末端的横向偏移约10.72米,与真实参考轨迹高度吻合。
第二个场景是跟随皮卡车直行。前方有一辆皮卡,AI正确将其标记为"关键目标:附近车辆=是",判断宏观行为为"保持速度+跟随车道",并输出一条较长的直行轨迹(五秒末端约前进80米),与真实路径的纵向范围一致。
第三个场景是多车道道路右转。AI正确判断为"保持速度+右转",输出的轨迹五秒末横向偏移达到-17米,弧度与真实参考路径紧密贴合,从正面摄像头视角一直延伸到右侧摄像头视角区域。
第四个场景是绿灯通过信号交叉口。AI正确识别出前方信号灯处于绿色状态,将其标记为"关键目标:交通元素=是",并在推理文字中明确说明"信号灯当前为绿,允许通行",输出直行加速轨迹,与真实路径方向完全一致。
第五个场景也是整个演示视频中的核心案例:雨天停车标志路口左转。AI同时识别出停车标志和湿滑路面两个关键因素,在感知章节同时标记"交通元素=是"和"天气状况=是",在宏观行为章节输出"减速+左转",推理文字中明确提到"路面湿滑,制动距离增加,需在转弯前确保安全停车或让行"。输出的轨迹呈现出明显的减速弯曲弧线,与真实参考路径高度吻合。
归根结底,Fast-dDrive在这个领域做了一件看起来简单、做起来极难的事:它没有"二选一"地在速度和精度之间妥协,而是通过把输出结构的先验知识编码进模型的训练和推理设计中,让两者同时变得更好。把已知不变的格式框架固定下来、让AI专注于真正需要推理的内容,这个思路本身并不复杂,但把它系统地贯穿进训练目标、推理算法和测试时的缩放策略,才形成了这篇论文的完整贡献。对于自动驾驶工程师来说,这套方案提供了一条实际可走的路径:在不需要更大模型、不需要更强芯片的前提下,通过更聪明的结构设计,把现有3B参数规模的视觉语言模型推向接近实时的车载部署边界。对于更广泛关注AI应用的读者来说,这个研究也提示了一个普适原则:当AI的输出具有已知结构时,把这个结构明确地告诉AI,往往能同时带来效率和质量上的双重收益,而不必在两者之间做取舍。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.23163查阅完整论文。
---
Q&A
Q1:Fast-dDrive和普通自动驾驶AI相比,为什么速度能快这么多?
A:Fast-dDrive通过三个机制实现提速。首先,它预先填好了输出中约30%的固定格式符号,AI不需要"思考"这些内容。其次,它把整个输出分成四个有顺序的章节分别处理,每完成一章就把结果缓存起来,后续章节直接复用,不用重复计算。第三,它用扩散头快速生成草稿,再用自回归头批量验证,相比一个字一个字地生成,每步能确认约5个词元,综合加速超过10倍。
Q2:多轨迹平均采样会不会让车开得更保守或者路线变奇怪?
A:不会。多轨迹平均采样只在第四章(轨迹规划)阶段引入随机性,而且只是在AR验证器中使用非零温度采样,前三章(感知、推理、宏观行为)仍然是确定性的。平均之后得到的轨迹是多个合理轨迹的中心值,实验数据显示它比任何单条轨迹都更接近真实参考路径,不会产生"折中出奇怪路线"的问题。
Q3:Fast-dDrive需要激光雷达或高精地图吗?
A:不需要。Fast-dDrive只使用普通摄像头图像、车辆自身的速度加速度等状态数据,以及一条简单的自然语言导航指令(比如"下一个路口左转")。在WOD-E2E测试中使用三个前向摄像头,在nuScenes测试中只用一个前向摄像头的历史三帧,完全不依赖激光雷达、毫米波雷达或高精度地图。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。