微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

小米汽车团队突破自动驾驶核心难题：一个AI大脑同时掌管理解、感知和规划三大能力

自动驾驶计算机视觉系统架构优化

小米汽车团队突破自动驾驶核心难题：一个AI大脑同时掌管理解、感知和规划三大能力

作者：科技行者

2026-04-13 10:04

分享至：

华中科技大学与小米汽车联合团队突破自动驾驶核心技术瓶颈，开发出UniDriveVLA统一驾驶系统。该系统首次解决了语言理解与空间感知的冲突问题，通过创新的三专家架构和稀疏感知技术，让单一AI系统同时掌握理解、感知、规划三大核心能力，在多项测试中取得领先成绩。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-13 10:04 • 科技行者

想象你在驾车时需要同时做三件事：理解路况和交通信号的含义、精确感知周围车辆和障碍物的位置、制定安全的行驶路线。对人类司机来说，这三种能力看似简单，但对自动驾驶系统而言却是一个巨大挑战。华中科技大学与小米汽车联合团队在2026年4月发表的这项突破性研究，首次成功让一个统一的AI系统同时掌握这三种核心驾驶能力。这项发表于arXiv预印本平台的研究（论文编号：arXiv:2604.02190v1）标志着自动驾驶技术向真正智能化迈出了关键一步。

传统的自动驾驶系统就像一个分工明确但沟通不畅的工厂。负责理解路况的"翻译员"专门解读交通标志和路况信息，负责感知的"观察员"专门识别周围物体的位置，负责规划的"决策者"专门制定行驶路线。虽然每个部门都很专业，但信息在传递过程中容易出现偏差，导致整个系统效率低下。更重要的是，当系统试图让同一个AI大脑同时承担多种任务时，就像让一个人同时做数学题、写作文和画画一样，不同任务之间会相互干扰，反而降低了整体表现。

小米汽车的研究团队发现了这个问题的根源：当AI系统试图同时处理语言理解和空间感知时，就像在大脑中强行混合两种完全不同的思维方式。语言理解需要抽象思维，而空间感知需要精确计算，两者在共享的"大脑空间"中会产生冲突。这种冲突不仅影响感知精度，还会削弱系统原有的语言理解能力。

为了解决这个核心矛盾，研究团队开发了一种全新的架构，称为UniDriveVLA。这个系统的巧妙之处在于采用了"专家分工合作"的设计理念。就像一个高效的医疗团队，内科医生专门负责诊断、影像科医生专门负责检查、外科医生专门负责手术，但三者通过规范化的会诊机制进行协调。UniDriveVLA同样设置了三个专门的"专家"：理解专家负责语言理解和场景解读，感知专家负责识别物体和空间定位，行动专家负责规划驾驶路线。

这种专家分工的核心创新在于"遮罩联合注意力机制"。简单来说，就像医疗会诊时有严格的发言顺序和信息流向规则一样。理解专家首先分析驾驶指令和环境描述，采用类似人类阅读时的"从左到右"顺序处理信息。感知专家可以"听取"理解专家的分析结果，在此基础上进行更精准的空间感知。最后，行动专家综合前两位专家的信息制定驾驶策略。这种设计确保了信息有序流动，避免了不同类型思维之间的相互干扰。

在感知技术方面，研究团队采用了一种"稀疏感知"策略。传统方法就像要求系统记住路上每一粒沙子的位置，而稀疏感知更像一个经验丰富的司机，只关注最关键的信息：前方车辆的位置、道路边界、交通信号等核心要素。这种方法不仅大幅提高了处理效率，还避免了过多空间信息对语言理解能力的干扰。

具体来说，稀疏感知系统通过分析多个摄像头的图像，智能提取关键的空间特征。这些特征像精心筛选的"要点摘要"一样，既保留了足够的驾驶决策信息，又不会让系统的"大脑"负担过重。更重要的是，这些空间信息会被转换为与语言理解兼容的格式，就像将不同语言翻译成统一的通用语言，便于各个专家之间的沟通协作。

为了确保这个复杂系统能够稳定学习和工作，研究团队设计了一个三阶段渐进训练策略。第一阶段像打基础一样，主要加强系统的语言理解能力，使用大量驾驶相关的对话数据和通用视觉语言数据进行训练。第二阶段开始引入感知和规划任务，但采用了一种温和的"低强度训练"方式，避免新任务对原有语言能力造成冲击。第三阶段则专门优化感知专家和行动专家，同时保持语言理解专家的稳定性。

这种渐进训练就像培养一个全能运动员：先让他精通一项基础运动建立身体协调性，然后逐步添加其他运动项目，最后进行专项强化训练。每个阶段都有明确的目标和适度的训练强度，确保运动员在掌握新技能的同时不会失去原有优势。

研究团队在两个权威测试平台上验证了UniDriveVLA的性能。在nuScenes这个基于真实世界数据的开放测试中，系统表现出色，特别是在没有额外车辆状态信息的情况下仍能准确预测行驶轨迹。在Bench2Drive这个模拟环境的闭环测试中，UniDriveVLA获得了78.37分的驾驶评分，在不使用高级训练数据的方法中排名第一，效率指标更是达到了198.86的优异成绩。

更令人印象深刻的是系统在复杂交通场景中的表现。在需要变道超车的场景中，UniDriveVLA的成功率达到80%，在合流场景中达到38.75%。这些数据意味着系统不仅能处理常规驾驶任务，还能应对需要复杂判断的交互式驾驶场景。

除了核心驾驶功能，UniDriveVLA还展现了广泛的多任务处理能力。系统能够同时进行3D物体检测、在线地图构建、运动预测和驾驶相关的问答对话。这种"一专多能"的特性使其更接近人类司机的综合驾驶能力，而不是单一功能的自动化工具。

研究团队还进行了详细的对比实验来验证专家分工设计的有效性。当使用传统的共享参数架构时，系统在不同任务之间出现了明显的"认知冲突"。具体表现为语义理解和空间感知的特征表示逐渐趋于相似，最终几乎变成相同的表示，这意味着系统失去了处理不同类型信息的专业化能力。而采用专家分工的UniDriveVLA成功避免了这种特征融合，保持了各专家的独特性和专业性。

在保持通用视觉理解能力方面，虽然UniDriveVLA在一些通用测试中的表现略低于专门的视觉语言模型，但仍保持了相当不错的水平。这说明系统在专注于驾驶任务的同时，并没有完全牺牲其基础的视觉理解能力，这对于应对驾驶中的突发情况和复杂场景非常重要。

通过组件消融实验，研究团队发现了各个功能模块的重要性。引入车辆状态信息能显著提升轨迹预测精度并降低碰撞率。添加物体检测功能主要改善了安全性，将碰撞率从0.21%降低到0.10%。占据栅格预测则对轨迹精度贡献最大，这表明密集的空间上下文信息对路径规划具有重要价值。

值得一提的是，UniDriveVLA在处理驾驶场景理解任务时表现出强大的语言推理能力。在DriveBench测试中，系统在感知、预测、规划和行为推理四个维度都取得了竞争性的成绩，平均得分达到51.97分。这表明系统不仅能执行驾驶操作，还能理解和解释驾驶决策的逻辑。

这项研究的意义远不止于技术创新。它为自动驾驶领域提供了一个新的发展思路：不是简单地堆叠更多功能模块，而是通过巧妙的架构设计实现不同能力的有机统一。这种"统一而不混乱，分工而不孤立"的设计哲学，可能会启发更多AI系统的发展方向。

从实际应用角度看，UniDriveVLA为未来的自动驾驶系统提供了一个可行的技术路径。传统的自动驾驶系统往往需要大量专门设计的模块和复杂的集成工作，而UniDriveVLA证明了单一统一系统处理多种驾驶任务的可能性。这不仅可以简化系统架构，还可能降低开发和维护成本。

当然，这项研究也面临一些挑战。在运动预测任务上，UniDriveVLA的表现仍有提升空间。此外，如何在保持各专家独立性的同时进一步提升它们之间的协作效率，仍是一个需要继续探索的问题。研究团队也认识到，从开放环路测试到真实道路部署之间还有很长的路要走。

说到底，UniDriveVLA代表了自动驾驶技术发展的一个重要里程碑。它不仅解决了长期困扰领域内的"感知与理解冲突"问题，还为构建更智能、更可靠的自动驾驶系统提供了新的技术方案。虽然距离完全自动驾驶的目标还有距离，但这种将人工智能的语言理解能力与精确的空间感知能力有机结合的思路，无疑为我们描绘了一个更加智能化的交通未来。对于普通消费者而言，这意味着未来的自动驾驶汽车可能不仅仅是一个会开车的机器，而是一个真正理解驾驶情境、能够与乘客自然交流并做出智能决策的驾驶伙伴。

Q&A

Q1：UniDriveVLA为什么要设计三个专门的专家而不是用一个统一的系统？

A：因为让一个AI系统同时处理语言理解和空间感知就像让人同时做数学和写作，不同任务会互相干扰。通过设置理解、感知、行动三个专家，每个专家专注自己的任务，然后通过规范的协作机制交流信息，既保持了各自的专业性，又避免了任务冲突，就像医疗团队分工合作一样高效。

Q2：这个系统在实际道路测试中的表现如何？

A：目前UniDriveVLA主要在nuScenes真实数据集和Bench2Drive模拟环境中测试。在Bench2Drive中获得78.37分驾驶评分，变道超车成功率80%，效率指标198.86，在同类方法中排名第一。不过从实验室测试到真实道路部署还需要更多验证和优化工作。

Q3：稀疏感知和传统感知方法有什么区别？

A：传统感知方法像要求系统记住路上每个细节，而稀疏感知更像经验司机，只关注最关键信息如车辆位置、道路边界、交通信号等。这样既提高了处理效率，又避免过多空间信息干扰语言理解能力，让系统能同时保持空间感知精度和语言推理能力。

自动驾驶计算机视觉系统架构优化

分享至