
这项由小米具身智能团队主导开展的研究,以arXiv预印本形式于2026年4月20日公开发布,编号为arXiv:2604.18486v1,研究方向涵盖计算机视觉与自动驾驶推理规划。有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。
**开车时,大脑在做什么?**
每次你开车拐弯,你的大脑都在飞速运转:前面那辆车在减速吗?路口的红灯快变了吗?左边那辆车会不会突然并道?你要综合所有这些信息,才能决定踩油门、踩刹车,还是打方向盘。这个思考过程看起来很自然,但对于一台自动驾驶的汽车AI来说,想做到同样的事情,却要付出巨大的代价——时间代价。
传统的自动驾驶AI在做决策时,会先把脑子里的"想法"一字一句地写出来,就像一个学生考试时先在草稿纸上列出解题步骤,然后再在答题纸上写答案。这种"先想清楚再行动"的方式,学术上叫做"链式推理"(Chain-of-Thought,简称CoT),它的好处是准确,但问题也很明显:太慢了。一辆车在高速公路上跑,如果AI每次决策都要先写几十个字的"思考过程",那等它想好了,可能已经追上前面的车了。
正是为了解决这个矛盾,小米具身智能团队提出了一个名为OneVL的新框架。它的核心思想可以用一句话概括:**把"写草稿"的过程压缩成"脑子里一闪而过的念头",但同时确保这个念头足够聪明、足够准确。** 更神奇的是,OneVL还能在事后"翻译"出自己的推理过程,让人类工程师看懂它在想什么。
---
**一、为什么"想得慢"是个要命的问题**
先来搞清楚现有方法的困境。当前主流的自动驾驶AI,在预测下一步轨迹之前,会生成一大段文字推理,比如"前方左侧车道有一辆大货车正在以较快速度靠近,右侧有行人即将进入斑马线,当前绿灯还有8秒……综上所述,应当减速并保持车道"。这段推理很有道理,对提升驾驶准确性也确实有帮助,但生成它需要花费相当长的时间。
研究团队在测试中发现,采用完整文字推理的AI(也就是"AR CoT+Answer"这种模式),在NAVSIM这个主流自动驾驶测评平台上,每次决策平均需要6.58秒。而如果直接跳过推理、只输出答案("AR Answer"模式),则只需要4.49秒。两者差了将近两秒钟。在真实驾驶场景里,两秒钟可以让一辆车行驶将近60米,足以发生严重事故。
于是有人想到了一个折中方案:既然显式写出推理太慢,那能不能把推理过程"藏起来",让AI在内部悄悄想一想,不把思考过程写出来,直接输出答案?这类方法被称为"隐式推理"或"潜在链式推理"(Latent CoT)。已有几个代表性方法,包括COCONUT、CODI和SIM-CoT,都在尝试这条路。
然而问题来了:这些隐式推理方法在自动驾驶场景下,表现反而比什么都不想的"直接输出答案"还要差。在NAVSIM测试中,COCONUT得了84.84分,CODI得了83.92分,SIM-CoT得了84.21分,而什么推理都不做的直接预测得了87.47分。换句话说,这些"偷懒的思考者"不但没帮上忙,还帮了倒忙。
为什么会这样?小米团队给出了一个深刻的诊断:这些方法把推理压缩成了语言的压缩,而语言本身就已经是对真实世界的一层抽象。用语言来描述"前方有车",跟真正看到一辆车相比,丢失了太多空间和动态信息。用压缩后的语言来进行自动驾驶决策,就像是让一个从未开过车的人,仅凭听别人描述路况来控制方向盘——听上去没问题,但细节全丢了。
---
**二、OneVL的核心思路:给AI配两个"会说话的翻译官"**
OneVL的设计思路,可以用一个厨师的比喻来理解。一位顶级厨师在烹饪时,并不会每次切菜都停下来大声背诵菜谱——他的手艺已经融入了肌肉记忆和直觉之中。但如果你问他"你刚才为什么要加这一勺盐",他能立刻给你一个清晰的解释。而且,他在烹饪过程中,脑子里其实已经"看见"了这道菜做好之后的样子。
OneVL就是要让AI做到同样的事情。它给AI配备了两种特殊的"代号牌":一种叫视觉潜变量(Visual Latent Token),另一种叫语言潜变量(Language Latent Token)。这些代号牌本身不是完整的文字,更像是大脑里一闪而过的"念头编码"——非常紧凑,却包含了丰富的信息。
为了确保这些"念头编码"里真的装了有用的东西,OneVL配备了两个"翻译官"。第一个翻译官是**语言辅助解码器**,它的工作是把语言潜变量里的信息解码成人类能读懂的文字推理。第二个翻译官更有意思,叫做**视觉辅助解码器**,它的工作是把视觉潜变量里的信息解码成未来0.5秒和1秒之后的路面画面——也就是说,AI需要"脑补"出马上要发生的场景长什么样。
这第二个翻译官,正是整个设计的精髓所在。因为要预测出未来的画面,AI就必须真正理解现在的路况:前面那辆车开得有多快?它会不会变道?路面是不是在弯道上?所有这些动态的、空间的信息,都必须被压缩进那些"视觉念头编码"里,否则画面就根本画不出来。这就像是,只有你真正理解了一道数学题的解法,你才能预测出下一步算式的结果——没办法靠蒙。
关键在于,这两个翻译官只在训练阶段存在,在实际上路时会被直接丢弃。AI上路后,只需要把那些经过充分训练的"念头编码"直接填入推理流程,然后一步输出驾驶轨迹。这种方式叫做"预填推理"(Prefill Inference),整个过程的速度和什么都不想就直接给答案的方式几乎一样快,在NAVSIM测试中仅需4.46秒,与直接预测的4.49秒几乎没有区别。
---
**三、AI怎么学会"想"而不说出来:三阶段训练流程**
理解了OneVL的设计思路之后,还有一个关键问题:怎么把它训练出来?这就像培养那位顶级厨师——你不能第一天就让他在比赛级别的压力下完成一道顶级菜肴,而是需要循序渐进地打磨技艺。
OneVL的训练分为三个主要阶段,在正式进入这三个阶段之前,还有一个预备步骤。
预备步骤是让视觉辅助解码器"自学看世界"。在这一步,这个解码器完全独立于整个AI系统,只靠当前帧的画面特征来预测下一帧画面。它要学会:给我看现在的路况,我来猜接下来路面会变成什么样子。这一步用了约13040个优化步骤,批量大小为256。这就像是让一个学生先反复看交通视频,培养他对道路动态的基本直觉,才能在后续训练中更好地配合整个系统。
第零阶段(Stage 0)是主模型热身。在这个阶段,核心的视觉语言模型(基于Qwen3-VL-4B-Instruct构建)开始学习把那些"念头编码"嵌入到推理流程中,同时完成轨迹预测任务。这一步的目的是让模型建立起基础能力:当你看到那些代号牌时,你要学着用它们来思考,而不是无视它们。这个阶段训练了2个完整的数据轮次,学习率为4×10??。
第一阶段(Stage 1)是两个翻译官的专门培训。在这个阶段,主模型被冻结——也就是说,核心AI暂时停止更新,保持稳定状态。只有两个辅助解码器在训练:语言辅助解码器学着把编码解读成文字,视觉辅助解码器学着把编码解读成未来画面。这就像是先把厨师的手艺固定下来,然后专门训练两个记录员如何把他的操作准确记录下来,而不会因为记录过程本身影响厨师的判断。这个阶段训练了1个数据轮次,学习率为1×10??。
第二阶段(Stage 2)是全面联合微调。三个部分——主模型、语言解码器、视觉解码器——同时更新,相互影响。来自两个解码器的"翻译质量"反馈,会倒流回主模型,让主模型进一步优化那些"念头编码"的质量。这个阶段训练了5个数据轮次,学习率为1×10??。正是在这一阶段,视觉辅助解码器施加的"必须能看见未来"的压力,迫使主模型的视觉潜变量真正编码进了时空动态信息。
研究团队特别测试了"如果跳过这三个阶段,直接端到端联合训练会怎样"。结果非常惨烈:PDM评分从88.84分跌到了67.13分,下降了超过21分。进一步检查训练过程发现,直接联合训练会导致梯度爆炸,初始梯度范数高达378.22(而正确的三阶段训练保持在0.28),视觉解码器生成的"未来画面"也完全是胡乱的噪声,与输入画面毫无关系。
---
**四、在四个测试场地上,OneVL的成绩单是什么样的**
研究团队在四个不同的自动驾驶测评平台上对OneVL进行了全面测试,这四个平台覆盖了从普通城市道路到极端特殊场景的广泛情况。
第一个测试平台是NAVSIM,这是一个从真实驾驶数据中提取的大规模测评平台,使用PDM评分来综合衡量轨迹安全性、舒适度和行驶效率,分数越高越好。OneVL在这里拿到了88.84分,不仅超过了之前所有使用隐式推理的方法(COCONUT最高84.84分),还超过了最好的显式推理方法(88.29分),更超过了此前文献中最强的两个参考模型:AdaThinkDrive(8B参数规模,86.20分)和LaST-VLA(8B参数规模,87.30分)。而OneVL只用了4B参数,却做到了更好的成绩。
第二个测试平台是ROADWork,这个平台专门测试在道路施工区域行驶的能力——到处是锥桶、临时标识、不规则车道划分,还有穿着荧光背心的工人。这类场景在普通测评中几乎看不到,但在真实驾驶中却极为常见。使用ADE(平均位移误差,越低越好)和FDE(终点位移误差,越低越好)来衡量。OneVL取得了12.49像素的ADE和28.80像素的FDE,而之前的最强专用方法YNet为22.68和80.78,差距非常显著。
第三个测试平台是Impromptu,它收集了八个真实驾驶数据集中的"非常规情景",比如道路边界不清晰、临时交通规则变更、奇怪的障碍物出现等。OneVL的ADE为1.34米、FDE为3.70米,超过了该平台原始论文中的自带模型(1.60米和4.28米),以及所有同等规模的对比方法。在更细致的时序误差分析中,OneVL在1秒、2秒、3秒、4秒的预测上均为最优,平均L2误差仅为1.01米。
第四个测试平台是APR1,它引入了一种叫做"因果链注释"(Chain of Causation)的推理标注,要求AI不只是预测轨迹,还要理解决策背后的因果逻辑。OneVL在这里取得了2.62米的ADE,优于对比基准Cosmos-Reason(2.86米,参数量10B,还使用了额外的强化学习训练)。在FDE指标上,OneVL为7.53米,略逊于Cosmos-Reason的7.42米,这个微小差距研究团队解释是因为Cosmos-Reason额外使用了强化学习来优化,属于不同量级的投入。
---
**五、AI的"脑补画面"长什么样,推理文字又质量如何**
OneVL的一个特别之处在于,它能在推理结束后让两个辅助解码器输出可以被人类理解的内容,从而实现可解释性。
在视觉层面,研究团队展示了多个测试场景下,视觉辅助解码器生成的"未来画面"。以NAVSIM的一个弯道场景为例,当前画面显示车道右侧临近不可行驶区域,需要向左微调方向。视觉解码器在0.5秒和1秒后生成的画面,忠实地呈现了车辆向左偏移后路面应有的视角变化,道路两侧的建筑物和树木位置关系也符合物理规律,说明AI确实"看见了"即将发生的事情,而不是在胡乱生成。
相比之下,在没有进行三阶段训练的对照组中,相同输入的未来帧预测完全是与场景毫不相关的图像噪声,说明模型没有真正学会动态场景建模,而是走了捷径,记住了某些常见画面的表面特征。
在语言层面,研究团队对NAVSIM测试集的500个样本进行了文字推理质量的量化评估,设计了三个指标。第一个是"元行动准确率":每段推理最后会得出一个高层决策,如"保持速度并维持车道",这个决策的预测准确率越高越好。第二个是"语义相似度评分"(STS Score),用一个专门用来判断两段话是否意思相近的AI模型来打分。第三个是"AI裁判评分"(LLM-as-Judge Score),让谷歌的Gemini模型扮演裁判,根据场景图像、标准答案推理文字和模型输出推理文字,从感知准确性、动态预测、决策合理性、语言流畅性四个维度打分。
在这三项评估中,OneVL的语言辅助解码器在元行动准确率上达到了71.00,超过SIM-CoT的67.20;在语义相似度上达到78.26,在AI裁判评分上达到79.13,均高于SIM-CoT的76.25和78.73。相比之下,完整显式推理的方法(AR CoT+Answer)仍然保持最高,三项分别为73.20、79.75和81.86,但这是以慢得多的速度为代价的。
---
**六、视觉监督为什么比语言监督更重要:一个有意思的发现**
消融实验(也就是"依次去掉某个零件,看性能如何变化"的测试)揭示了一个很有意思的规律。
去掉视觉辅助解码器后,PDM评分从88.84跌到87.97,下降了0.87分。去掉语言辅助解码器后,PDM评分从88.84跌到88.53,下降了0.31分。两者都有贡献,但视觉监督的贡献将近是语言监督的三倍。
原因在于,自动驾驶本质上是一个空间预测任务,而不是一个语言理解任务。"前方有车"这句话和真正"看到"前方的车,对于规划轨迹来说,提供的信息密度完全不在一个量级上。视觉解码器要求AI预测出未来场景的像素级表现,这意味着潜变量必须编码车辆的位置、速度、方向,道路的几何形状,以及它们随时间的变化关系——任何信息的缺失都会导致"画面不对"的直接反馈。语言推理则更多是提供语义层面的锚点,让模型知道自己在干什么,但无法替代空间动态信息。
这个发现对整个隐式推理领域的意义在于,当你试图把一个需要多模态理解的任务压缩到一个紧凑的表示空间里,那个压缩目标本身的质量决定了最终性能的上限。语言只是世界的影子,视觉世界模型才是更接近因果本质的压缩目标。
---
**七、面向真实部署:用极小的代价换极快的速度**
研究团队还探索了一个更激进的部署方案:在整个系统上额外挂载一个轻量级的MLP(多层感知机)预测头,直接从最后一个潜变量的隐藏状态回归出轨迹坐标,完全绕过自回归文字生成。
这个方案的延迟只有0.24秒,折合成频率约为4.16Hz,达到了车载实时系统的基本要求。代价是PDM评分从88.84降到了86.83,下降了约2分。但这个86.83分的成绩,仍然超过了LaST-VLA的87.30分?不,等一下——86.83确实低于LaST-VLA的87.30,但LaST-VLA是一个8B参数的模型,使用的是完整自回归推理,延迟远高于0.24秒。在实际部署中,一个以4Hz持续稳定决策的轻量模型,往往比一个偶尔给出高质量答案但延迟不可接受的重型模型更有实用价值。
这也意味着OneVL实际上提供了两种部署选项:一种是保留自回归轨迹生成、获得最高精度的完整模式(4.46秒,88.84分);另一种是接上MLP预测头、牺牲约2分精度换取18倍速度提升的超轻量模式(0.24秒,86.83分)。工程师可以根据实际车辆的计算资源和任务要求灵活选择。
---
**八、四个测试平台用到的数据和标注是怎么来的**
OneVL在训练时需要三类监督信号:轨迹标注(来自各数据集本身)、文字推理标注(需要额外构建)和未来帧视觉标注(通过IBQ视觉分词器离线生成)。
文字推理标注的构建方式因数据集而异。在NAVSIM上,研究团队直接复用了AdaThinkDrive发布的CoT标注,这些标注覆盖了车道识别、关键对象分析(如车辆、行人)和高层驾驶意图的描述。在ROADWork上,团队使用内部开发的流水线,专门针对施工区域场景进行了标注,重点包括危险物识别(锥桶、护栏、临时标识)、非标准车道解读和速度/侧向清除决策的理由。在Impromptu上,基于原数据集已有的问答对,添加了明确的决策标签和根因分析。在APR1上,由于官方未发布CoT标注,研究团队使用公开的APR1-10B模型检查点,对全部训练数据生成了因果链标注,同时对密集的64点轨迹进行了启发式降采样,保留8个关键点以适配自回归生成格式。
视觉标注则更为自动化:使用Emu3.5的IBQ分词器,将每个训练样本的未来两帧图像(+0.5s和+1.0s)离线编码为离散视觉词汇序列,码本大小为131072。这个过程完全不需要额外的推理时间,预先计算完毕后直接作为训练标签使用。
---
归根结底,OneVL解决的问题可以用一句大白话来说清楚:它让自动驾驶AI第一次实现了"思考的速度和不思考一样快,但效果比思考更好"。以往的方案要么快但不准,要么准但太慢,要么试图把思考压缩得很小但反而更差。OneVL用"必须能画出未来"这个硬约束,强迫压缩出来的"念头"里装满了真正有用的时空动态信息,然后在推理时直接用这些念头,两个翻译官静悄悄地消失,整个决策过程快得像闪念。
这项研究对普通人的生活意味着,我们离那辆真正能安全、流畅、实时应对复杂路况的自动驾驶汽车,又近了一步。而且这一步并不是靠堆砌更多的计算资源实现的,而是靠一个更聪明的设计思路。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.18486在arXiv.org上查阅完整论文,所有实验代码和演示页面也可通过论文中提供的项目主页获取。
---
Q&A
Q1:OneVL的推理速度为什么能和"不推理"一样快?
A:OneVL在推理时,会把经过训练的"潜变量代号牌"直接填入输入提示词中(也就是预填方式),这些代号牌在预处理阶段被一次性并行处理,不需要像生成文字那样逐字逐句等待。所以整个过程对延迟几乎没有额外影响,测试显示与完全不推理的直接预测方法相差不超过0.03秒。
Q2:OneVL的视觉辅助解码器生成的未来画面,是真正的视频预测吗?
A:不完全是传统意义上的视频预测。视觉辅助解码器预测的是未来0.5秒和1秒时的场景画面,这些画面以离散视觉词汇序列的形式表示,通过IBQ分词器编码。它的主要目的不是生成视频供人观看,而是作为训练阶段的监督信号,强迫视觉潜变量编码足够丰富的时空动态信息。推理时解码器会被丢弃,生成视觉解释是一个可选的"事后解释"功能。
Q3:OneVL和普通自动驾驶AI相比,最本质的区别是什么?
A:最本质的区别在于OneVL引入了"世界模型监督"。普通隐式推理AI试图压缩语言描述,而语言是对世界的二次抽象,丢失了大量空间动态信息。OneVL通过要求AI能够预测出未来的视觉画面,逼迫其压缩出的"念头"真正理解物理世界的因果动态,而不只是记住语言描述的表面规律。这是性能提升的根本来源。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。