微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

清华大学联合多校团队重磅发布：让自动驾驶汽车能看、能说、还能开——首份视觉-语言-行动模型全景调研

自动驾驶视觉-语言-行动模型多模态AI

清华大学联合多校团队重磅发布：让自动驾驶汽车能看、能说、还能开——首份视觉-语言-行动模型全景调研

作者：科技行者

2025-07-18 09:36

分享至：

这是首份关于自动驾驶领域视觉-语言-行动模型的全景调研，由清华大学等多校团队完成。研究梳理了让汽车能看、能说、能开的VLA4AD技术发展历程，从早期语言解释器到最新推理增强系统的四个阶段，分析了20多个代表性模型，整理了相关数据集和评估方法，并指出了实时性能、安全验证、多模态融合等关键挑战和未来发展方向。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-07-18 09:36 • 科技行者

这项由清华大学、麦吉尔大学、威斯康星大学麦迪逊分校等多所国际知名院校联合完成的开创性研究，于2025年6月30日发表在计算机视觉顶级期刊arXiv上。该研究的通讯作者包括清华大学的江昆教授和麦吉尔大学的孙立军教授，论文编号为arXiv:2506.24044v1。这份长达19页的综合性调研报告，首次系统性地梳理了自动驾驶领域一个全新的技术方向——视觉-语言-行动模型（VLA4AD），为有兴趣深入了解的读者提供了完整的技术脉络图谱。

想象一下这样的场景：你坐在一辆自动驾驶汽车里，对它说"前面有救护车，让一让"，汽车不仅能听懂你的话，还能看到救护车，并且立即做出合适的避让动作。这听起来像科幻电影情节，但实际上正是当前自动驾驶技术发展的最前沿方向。传统的自动驾驶系统就像一个只会按程序行事的机器人，虽然能识别红绿灯、避开障碍物，但遇到复杂情况时往往显得"木讷"。而这项研究所关注的新技术，则试图让汽车变得更像一个会思考、能交流的智能助手。

过去几十年里，自动驾驶技术的发展历程就像搭积木一样——工程师们把驾驶任务分解成感知、预测、规划、控制等不同模块，每个模块各司其职。这种方法虽然条理清晰，但也带来了一个问题：当一个模块出错时，错误会像多米诺骨牌一样传递下去，最终导致整个系统失效。更重要的是，这种系统很难处理那些程序员事先没有考虑到的特殊情况。

近年来，随着大型语言模型和视觉模型的爆发式发展，研究人员开始探索一个全新的可能性：能否让自动驾驶汽车像人类一样，同时运用视觉、语言和行动能力来处理复杂的驾驶场景？这就是视觉-语言-行动模型的核心理念。这种技术不再把驾驶任务割裂成独立的模块，而是试图在一个统一的框架内，让汽车能够看懂路况、理解指令、进行推理，并直接做出驾驶决策。

研究团队通过深入调研发现，这个领域的发展经历了四个清晰的阶段，就像一个技术逐渐成熟的成长过程。最初，语言模型只是充当"解说员"的角色，帮助解释汽车为什么做出某个决策，但并不直接参与驾驶控制。后来，语言开始作为"中间翻译"，将感知到的信息转换成可理解的计划，再由其他模块执行。接下来，整个系统变得更加一体化，从感知到决策的全过程都在一个模型内完成。最近的发展则更进一步，加入了长期推理和记忆能力，让汽车能够处理更复杂的情况并提供详细的解释。

在技术架构方面，这类系统的设计原理可以比作一个超级智能的司机大脑。首先是"眼睛"——视觉编码器，它不仅能处理普通的摄像头画面，还能整合激光雷达、雷达等多种传感器信息，形成对周围环境的立体理解。这就像人类驾驶时不仅用眼睛看，还会用耳朵听、用身体感受车辆的运动状态。其次是"大脑"——语言处理器，它基于预训练的大型语言模型，能够理解各种形式的指令和查询，从简单的"左转"到复杂的"在确保安全的前提下超越前车"都能处理。最后是"手脚"——行动解码器，它将前面两个部分的输出转换成具体的驾驶动作，可以是精确的方向盘转角和油门刹车控制，也可以是更高层次的轨迹规划。

这种技术的输出方式也很有趣，不再局限于简单的控制信号。有些系统会输出详细的驾驶轨迹，告诉执行模块应该如何移动；有些则直接输出底层控制指令，如方向盘转角和踏板力度；还有一些更高级的系统能够同时输出驾驶动作和自然语言解释，让乘客了解汽车的"思考过程"。

当然，这个领域的发展并非一帆风顺。早期的尝试主要集中在让语言模型扮演"旁观者"角色，类似于一个坐在副驾驶座上的陪练教练，能够观察和评价驾驶行为，但不直接操控车辆。比如DriveGPT-4这样的系统，能够看一张路况照片，然后用文字描述应该采取什么行动，但这种描述往往比较模糊，难以转换成精确的控制指令。更重要的是，处理每一帧图像都需要大量计算，导致系统响应缓慢，无法满足实时驾驶的需求。

随着技术的进步，研究人员开始尝试模块化的方法。这个阶段的系统更像是一个有组织的团队，语言不再只是旁观者，而是成为团队中的重要一员。例如，OpenDriveVLA系统能够接收"在教堂右转"这样的路线指令，然后生成"20米后右转，然后直行"这样的中间指令，最后由专门的轨迹生成器将其转换成具体的行驶路径。这种方法大大提高了系统的可解释性和灵活性，但仍然存在模块间信息传递损失的问题。

真正的突破出现在端到端统一模型的发展阶段。这类系统就像一个天才司机，能够直接从原始的传感器数据跳跃到最终的驾驶动作，中间的推理过程完全在模型内部完成。EMMA系统是这个阶段的代表作，它在Waymo的大规模驾驶数据上进行训练，能够同时处理目标检测和运动规划任务，在闭环测试中展现出比传统分离式系统更好的性能。SimLingo和CarLLaVA等系统则进一步引入了"动作想象"技术，让模型能够在脑海中预演不同驾驶策略的后果，从而选择最优的行动方案。

最新的发展趋势是推理增强型系统，这类系统不仅能够驾驶，还具备了类似人类的推理和记忆能力。ORION系统配备了一个"记忆银行"，能够存储几分钟的观察和行动历史，并由语言模型对这些信息进行总结和分析，生成下一步的行动计划。Impromptu VLA系统则专门针对极端情况进行训练，能够在遇到前所未见的复杂场景时进行链式推理，并给出详细的行动解释。AutoVLA更是将这种推理能力与轨迹规划完美结合，在多个基准测试中都取得了最佳成绩。

为了支撑这些技术的发展，研究社区构建了丰富的数据集和评估体系。BDD-X数据集提供了带有人类解释的真实驾驶场景，成为训练可解释AI系统的重要资源。nuScenes数据集虽然最初专注于感知任务，但其丰富的多传感器数据使其成为VLA系统的重要测试平台。Bench2Drive则提供了专门的闭环测试环境，包含44种不同的驾驶场景，能够全面评估系统的驾驶能力。Impromptu VLA数据集专门收集了8万个极端驾驶场景，每个场景都配有详细的推理链条和时间戳标注，为训练能够处理罕见情况的AI系统提供了宝贵资源。

在训练方法方面，当前主流的做法是采用多阶段渐进式训练。这个过程就像培养一个司机新手，需要循序渐进。首先是预训练阶段，在大规模的图像-文本数据上训练视觉编码器和语言模型，建立基础的视觉-语言理解能力。然后是模态对齐阶段，使用配对的图像-文本-动作数据进行微调，让模型学会将视觉信息、语言指令和驾驶动作关联起来。接下来是场景特化阶段，在特定的驾驶场景和指令上进行针对性训练，并可能加入强化学习来优化安全性和规则遵循。最后是模型压缩阶段，通过参数高效的方法如LoRA适配器、专家混合路由或知识蒸馏来减少计算需求，使模型能够在车载硬件上实时运行。

评估这类系统的挑战在于需要同时考虑驾驶能力和语言能力两个维度。在驾驶方面，研究人员关注闭环成功率、交通违规次数、碰撞率等传统指标，同时也测试系统在恶劣天气、未见过的路况等情况下的泛化能力。在语言方面，则需要评估指令理解的准确性、解释的合理性、多轮对话的一致性等。更重要的是，还需要评估两种能力的耦合程度——系统是否真正理解了语言指令的含义，而不是简单地基于关键词做出反应。

尽管取得了显著进展，但这个领域仍面临诸多挑战。首要问题是鲁棒性和可靠性。语言模型虽然强大，但有时会产生"幻觉"，可能错误地感知不存在的危险或误解俚语表达。比如当有人说"踩油门"时，系统需要理解这是加速的意思，而不是真的要踩什么东西。实时性能也是一个关键挑战，在30Hz的控制频率下运行包含数十亿参数的模型对计算硬件提出了极高要求。

数据标注瓶颈是另一个重要制约因素。训练这类系统需要大量的图像-控制-语言三元组数据，而这种数据的收集和标注成本极高。虽然合成数据可以在一定程度上缓解这个问题，但在覆盖非英语方言、地区性交通习惯、法律术语等方面仍然存在不足。

多模态融合仍然是一个技术难点。当前的工作主要集中在摄像头数据上，激光雷达、雷达、高精地图等信息的融合程度有限。如何在保持系统复杂度可控的同时，有效整合这些异构数据源，仍需要更多探索。

多智能体协调也带来了新的挑战。当多辆配备VLA系统的车辆需要协调行动时，如何设计安全、高效、防篡改的通信协议成为关键问题。系统需要能够验证其他车辆发送信息的真实性，同时对恶意攻击保持鲁棒性。

展望未来，研究人员认为这个领域有几个重要的发展方向。首先是构建专门针对驾驶任务的基础模型，类似于通用语言模型GPT，但专门针对多传感器驾驶数据进行自监督预训练，然后通过少量数据就能适应各种下游任务。神经符号安全内核的发展也很有前景，通过让神经网络输出结构化的行动程序，再由符号验证器执行，可以在保持灵活性的同时提供安全保障。

车队级持续学习是另一个有趣的方向。deployed的车辆可以将遇到的新情况以简洁的语言片段形式上传到云端，形成全车队共享的知识库，实现快速的增量学习。标准化的交通语言也是必要的发展方向，类似于航空业的标准通信用语，需要设计一套受限但精确的消息集合来支持车辆间的协调。

跨模态社交智能将进一步扩展系统的能力边界。未来的系统不仅要处理语言指令，还需要理解手势、表情、路牌等多种信息源，并能够通过灯光、显示屏、喇叭等多种方式与人类进行交互。检索增强规划也展现出巨大潜力，通过实时检索相似的历史驾驶案例来指导当前决策，可以显著提高系统处理长尾事件的能力。

这项综合性调研不仅梳理了当前的技术现状，更重要的是为未来的研究指明了方向。研究团队强调，要实现真正安全、透明、全球部署的VLA4AD系统，需要在可扩展训练、形式化安全分析、人机交互、标准化评估等多个方面取得突破。他们呼吁建立统一的评估协议和开源工具包，促进不同研究团队间的合作和比较。

这项研究的意义不仅在于技术层面的贡献，更在于它为自动驾驶的未来发展提供了一个全新的视角。与其简单地让机器模仿人类的驾驶行为，不如让机器具备理解、推理和交流的能力，成为真正的驾驶伙伴。这种技术路线的成功，将彻底改变我们对自动驾驶汽车的认知，从一个精密的自动化工具变成一个可以理解、可以沟通、可以解释自己行为的智能伙伴。

说到底，这项研究所描绘的未来并不遥远。随着计算能力的提升、数据的积累和算法的改进，我们很可能在不久的将来就能体验到这种会说话、能推理的智能汽车。当然，这个过程中还有许多技术和社会挑战需要解决，但正如研究团队所指出的，这条道路的方向是明确的，前景是光明的。对于普通人来说，这意味着未来的出行将变得更加安全、舒适和智能，我们与汽车的关系也将从简单的工具使用转变为更加自然的人机协作。

Q&A

Q1：VLA4AD是什么意思？它与传统自动驾驶有什么不同？ A：VLA4AD是"视觉-语言-行动模型用于自动驾驶"的缩写。与传统自动驾驶相比，它最大的特点是能够同时处理视觉信息、理解语言指令并做出驾驶决策，就像给汽车装上了"眼睛"、"大脑"和"嘴巴"，能看能听能说还能开，而不是像传统系统那样只能按程序执行预设动作。

Q2：这种技术什么时候能在普通汽车上使用？ A：目前这项技术还处于研究阶段，主要在实验室和仿真环境中测试。虽然已有一些原型系统展现出良好效果，但要在普通汽车上大规模应用，还需要解决计算效率、安全验证、成本控制等问题，预计还需要几年时间才能进入商用阶段。

Q3：VLA4AD系统安全吗？会不会因为"理解错误"造成事故？ A：安全性确实是最大的挑战之一。系统可能会产生"幻觉"或误解指令，这正是研究人员重点关注的问题。目前的解决方案包括加入符号逻辑验证、多重安全检查、渐进式部署等措施。未来的系统会更像有经验的司机，不仅会开车，还会主动识别和避免潜在风险。

自动驾驶视觉-语言-行动模型多模态AI

分享至