
这项由华中科技大学、Mach Drive公司与香港大学联合开展的研究,以预印本形式于2026年4月30日发布在arXiv平台,编号为arXiv:2604.28196。该研究在2025年ICCV会议论文HERMES的基础上大幅扩展,形成了升级版本HERMES++。对自动驾驶技术感兴趣的读者可以通过上述编号查阅完整原文。
自动驾驶汽车需要做两件看似简单、实则极难同时完成的事情:一是看懂眼前的世界(这条路在拐弯吗?前方有没有行人?),二是预判未来会发生什么(三秒后那辆车会开到哪里?路面会不会突然出现障碍?)。现有的技术方案却像两个各有偏科的学生,擅长"理解"的不会"预测",擅长"预测"的又说不清楚"为什么"。这支研究团队决定培养一个"文理兼修"的全能学生,并把这个系统命名为HERMES++。
---
一、两个偏科生的困境:为什么现有方案行不通
以一位刚拿到驾照的新手司机为参照,理解自动驾驶系统面临的尴尬处境会容易许多。这位新手坐在车里,面前有两块屏幕:左边的屏幕专门负责"理解"——它能告诉你"前方是一个环形交叉路口,右侧有行人正在过马路";右边的屏幕专门负责"预测"——它能画出三秒后周围所有物体的位置图。但这两块屏幕彼此独立,互不交流。右边的屏幕不知道左边说的"行人正在过马路"意味着什么,它只是机械地根据过去几帧的运动轨迹计算坐标;左边的屏幕则完全无法告诉你五秒后这个行人会走到哪里。
现有的驾驶世界模型(可以理解为专门负责"预测"这块屏幕的技术)确实能把三维空间里的物体位置预测得相当准确,用的是一种叫做"点云"的方式——把世界描述为无数个三维坐标点组成的稠密集合,就像用沙粒堆砌出一个微型沙盘,完整保留了物体之间的空间关系。然而当你问它"为什么那辆车会向左变道",它完全无法作答,因为它从来没有被训练去理解语义。
与此同时,融合了大型语言模型的视觉理解系统(即专门负责"理解"那块屏幕的技术)能够对驾驶场景进行有声有色的描述,甚至能回答"当前天气对驾驶有什么影响"这类需要推理的问题。但它完全不具备预测能力——它只活在当下这一帧,对"下一秒会发生什么"毫无感知。
这道鸿沟在安全关键场景中代价极高。当一辆车正在超速接近路口时,光"看懂"是不够的,必须同时"看懂"和"预判",而且这两种能力要相互印证、互相增强。HERMES++的核心目标,正是搭建一个让这两种能力真正融合、彼此滋养的统一框架。
---
二、鸟瞰图:为什么要从"天上"看路
要让理解和预测共用同一套语言,首先需要找到一种两者都能接受的"通用表达方式"。研究团队选择了"鸟瞰视图",在技术上称为BEV(Bird's-Eye View)表示。
把它理解为谷歌地图的卫星俯视图会更直观。当汽车周围安装了六个摄像头时,每个摄像头拍到的画面都是斜角透视的,就像六个人各自从不同角度拍了一张照片。这些照片单独看都不完整,拼在一起又会有重叠和缺漏。鸟瞰图的作用,就是把这六张透视照片"翻译"成一张从正上方俯瞰的平面图——所有物体的真实位置、大小和彼此之间的距离都在这张俯视图上得到了准确保留,没有透视带来的变形,也没有遮挡造成的误判。
然而这里有一个工程上的难题:大型语言模型(负责理解语言和场景的AI大脑)在处理信息时,是以"词语块"为单位的,每次能处理的词语块数量是有限的。一张高分辨率的鸟瞰图如果直接塞给语言模型,词语块的数量会超出它的处理上限。研究团队的解决方案是设计一个"压缩机":先把鸟瞰图的空间分辨率压缩到原来的四分之一,同时把信息密度提高四倍,让总信息量不变,但体积缩小到语言模型可以接受的程度。这个过程就像把一箱散装书整理成精装合集——书的内容没有丢失,但占用的空间大幅减少了。
实验数据有力支持了这一选择的正确性。当研究团队对比"直接把六个摄像头画面输入语言模型"和"先转换成鸟瞰图再输入"两种方案时,发现两者在场景理解的文字质量上几乎没有差别,但在三维空间预测准确度上,鸟瞰图方案的误差比直接输入方案低了大约32%。原因在于,六张透视图被压平成词语序列后,空间结构会"坍塌"——语言模型虽然读懂了文字,却失去了立体感,就像把一张精确的三维工程图折叠成一条纸带,折叠过程中三维信息永久丢失了。鸟瞰图则始终以俯视坐标系保存空间关系,压缩之后仍然可以被"展开"恢复成三维结构。
---
三、世界查询:给语言模型装上"预测天线"
有了统一的鸟瞰图表示之后,下一个挑战是如何让语言模型在回答"现在发生了什么"的同时,也能为"未来会发生什么"提供指引。研究团队设计了一种叫做"世界查询"的机制,可以把它理解为一种特殊的"占位符"。
具体来说,假设系统需要预测未来三秒内每隔一秒的场景变化(即t+1秒、t+2秒、t+3秒共三个时刻),研究团队就为这三个时刻分别准备了一组专属的"空白卡片"——每组包含四张,共十二张空白卡片。这些卡片在初始化时不是随机填写的,而是从当前鸟瞰图中提取最突出的空间信息来填写,就像给一位新来的记者提供现场简报,让他们先对基本情况有所了解,再去采访细节。
这十二张卡片随后被混入语言模型处理的整个信息流中——和用户提问的文字、当前鸟瞰图的特征一起,接受语言模型的"阅读和理解"。由于语言模型的注意力机制允许每一张卡片"看到"前面所有已经处理过的信息,这十二张卡片在经过语言模型处理之后,已经不再是空白的了:它们吸收了语言模型对当前场景的理解,被注入了"这个路口通常的交通规律是什么"、"行人在信号灯变红时通常会停步"这类源自大规模训练数据的世界常识。
此外,每张卡片还被叠加了两类时间信息:一类是自动驾驶车辆自身的运动参数(例如,t+2秒时车辆计划向右转弯5度、前进15米),这通过一个专门的神经网络模块转换为高维向量叠加到卡片上;另一类是一个可学习的"帧序号标记",用于区分这张卡片对应的是第一秒还是第三秒。经过这番处理后,这批富含语义和时间信息的世界查询卡片,就成为驱动后续几何预测的核心输入。
实验数据明确展示了这一设计的价值:当研究团队彻底移除这批世界查询时,场景理解的CIDEr评分(衡量回答质量的指标,分数越高越好)从0.720骤降至0.433,三秒后空间预测的误差(用Chamfer Distance衡量,数值越低越好)也从1.436急剧恶化至2.377。这说明世界查询不只是一个可有可无的辅助件,而是连接理解与预测的关键桥梁。
---
四、从现在到未来:时间跨越的传送链路
世界查询提供的是经过语义提炼的稀疏指引,但要生成完整、稠密的未来三维地图,还需要一个专门负责"空间展开"的模块。研究团队将其命名为"当前到未来链路",可以将它理解为一台时间投影机:输入是当前时刻的鸟瞰图特征,输出是未来每个时刻的预测鸟瞰图特征,而中间的投影过程同时受到世界查询、文字语义和车辆运动三重信号的调控。
这台时间投影机内部由多个层叠的注意力模块构成,每个模块执行三个操作。首先是"跨模态注意力",让当前鸟瞰图的每一个空间位置都去查阅世界查询卡片和从语言模型提取的文字摘要——这是"文字注入"机制的核心,语言模型生成的场景描述文字(例如"前方有施工区域,车辆应减速")会被提取为一组向量,作为键值对提供给注意力机制,让空间特征能够"读到"这段描述并调整自身的激活状态。其次是"自注意力",让预测中的未来鸟瞰图的不同空间区域之间相互协调,确保整张预测图的内部一致性。最后是一个"自我运动调制"步骤:车辆的运动参数(加速、转向、制动等)通过一个专门的编码器生成两个调节参数,以乘法和加法的方式直接作用于自注意力和前馈层的输出,相当于给未来预测图打上了一个"已知运动已补偿"的烙印,避免把车辆自身的移动错误地解读为周围环境的变化。
这个自我运动调制机制的重要性可以从一个日常例子来体会:坐在行驶中的火车上拍照,画面中的树木看起来在向后移动,但实际上树是静止的。如果不做运动补偿,预测系统会错误地认为"树木在向后运动",从而在未来预测图中把树画到错误的位置。自我运动调制正是为了纠正这种系统性偏差而设计的。
从消融实验的数据可以看到,在基础注意力结构上依次加入文字注入、自我运动调制,以及将模块深度从3层增加到6层,三秒预测误差分别从1.542逐步降低到1.506、1.442,最终达到1.436。每一个组件都贡献了实质性的提升,而非装饰性的改良。
---
五、几何自律:让预测结果"形状正确"
即便有了高质量的未来鸟瞰图特征,如何确保从这些特征解码出来的三维点云在几何形状上是正确的,仍然是一个独立的挑战。研究团队发现,单纯用"预测的深度和真实深度之差"来训练系统,会导致预测特征图出现明显的射线状伪影——沿着摄像头光轴方向延伸的条纹噪声,并且预测能量会过度集中在车辆正下方的中心区域,而远处的行人和障碍物反而被压制。这种现象就好像一个学素描的学生,只练习了从正面画人脸,遇到侧面或背面就完全不会画了——系统过度拟合了摄像头的视角特性,而忽略了三维世界本身的几何规律。
为了解决这一问题,研究团队引入了一套双层几何约束机制,命名为"联合几何优化策略"。
第一层是显式几何约束,即在最终输出的点云层面施加监督:预测的深度值和真实的深度值之间的绝对差距,被作为损失信号直接反传给整个网络。这一层确保了"看得见的输出"是正确的。
第二层是隐式几何正则化,作用于网络内部的隐藏特征层面。研究团队预先训练了一个独立的"几何特征提取器":把真实的点云输入这个提取器,让它学会将三维几何结构编码为高维特征向量,然后在主网络训练过程中,把这个提取器的参数冻结,用它来提取真实点云的"几何蓝图",再要求主网络预测的特征向量向这份蓝图靠拢。靠拢的方式有两种:一是用余弦相似度损失衡量两个特征向量之间方向上的一致性,确保每一个体素位置上预测特征与真实特征的"朝向"相同;二是用格拉姆矩阵损失衡量整个三维空间中不同区域之间的相关结构是否吻合,就像检查一张布料的织纹是否和参照布料的织纹具有相同的纹理规律,而不只是逐点比较颜色是否相同。
从可视化结果来看,这一双层约束的效果相当显著:只用显式约束训练的系统,其内部特征图充满了从摄像头投影方向射出的条纹,以及在车辆正下方异常集中的高激活区;而加入隐式几何正则化之后,这些伪影几乎消失,特征的空间分布与真实点云的形状高度一致,物体边缘清晰,背景区域响应平稳。在数值上,从仅使用显式约束的Chamfer Distance 1.637,到仅加入余弦相似度损失的1.441,再到两者同时使用的1.436,每一步都有实质性改善。值得特别指出的是,这个几何特征提取器只在训练阶段使用,推理时完全不需要——它不增加任何推理计算开销,相当于一位只在课堂上辅导、不参加考试的老师。
---
六、系统整体流程:从六个摄像头到一段自然对话
将上述所有组件拼合在一起,HERMES++的完整工作流程可以这样描述:六个摄像头拍摄的画面首先经过视觉编码器提取多尺度特征,再通过空间交叉注意力机制融合为一张180×180的鸟瞰特征图,然后经过四倍下采样压缩为4500个词语块大小的序列,和用户的文字提问、十二张世界查询卡片一起输入到语言模型中。语言模型按照自回归方式生成文字回答,同时将语义信息注入世界查询卡片。随后,当前到未来链路接收当前鸟瞰特征和已注入语义的世界查询,在车辆运动信号的调制下,生成t+1、t+2、t+3秒三个未来时刻的鸟瞰特征。最后,一个可微分的"BEV到点云渲染器"将每个时刻的鸟瞰特征展开为三维体素表示,通过隐式符号距离函数建模场景几何,沿每条激光雷达射线积分得到深度值,最终转换为三维点云。训练时,联合几何优化策略同时约束渲染输出和内部特征;推理时,几何特征提取器被移除,系统纯粹依靠已学到的内部表示来完成预测。
整个训练过程分三个阶段完成。第一阶段专注于建立几何感知能力:先自监督预训练几何特征提取器,再用多视角图像重建当前时刻点云来训练视觉编码器和渲染器,使系统具备基本的"看图建模"能力。第二阶段专注于视觉与语言的对齐:先只训练连接视觉和语言的投影层,利用一种图像遮挡增强技巧将训练数据量扩充七倍,缓解数据稀缺问题;再全面解冻所有参数(语言模型部分使用低秩适应技术以控制计算量),用高质量场景描述数据精调。第三阶段是统一联合训练:将场景理解和未来预测两个任务放在同一个损失函数下同时优化,让两个任务互相促进。
---
七、性能表现:数字背后的真实含义
在标准的nuScenes自动驾驶数据集上,研究团队将HERMES++与一系列专精模型进行了系统比较。在三秒未来点云预测任务上,HERMES++的Chamfer Distance为1.01(使用1.8B规模语言模型时)或0.97(使用3.8B规模时),而此前专门为这一任务设计的DriveX(2025年ICCV会议成果)为1.10,ViDAR(2024年CVPR会议成果)为1.73。换句话说,HERMES++比DriveX的误差低了约8.2%,比ViDAR低了约41.6%,而且HERMES++并不是纯粹的几何预测专家,它同时还在做场景理解。
在OmniDrive-nuScenes数据集的场景理解任务上,HERMES++的CIDEr评分达到0.749(1.8B版本)或0.772(3.8B版本)。作为对比,同样使用7B规模语言模型但依赖三维检测框和车道线作为额外监督信号的Omni-Q得分为0.686,OmniDrive-2D为0.671。HERMES++在没有使用任何检测或地图辅助监督的情况下,超越了所有依赖额外监督的专精理解模型。
在NuScenes-QA视觉问答基准上,HERMES++达到61.3%的准确率,超过了依赖激光雷达深度传感器的CenterPoint+MCAN方案的59.5%,以及同样基于摄像头的Omni-Q的59.2%。
在DriveLM图形化视觉问答基准上,HERMES++的综合最终评分为0.59,与挑战赛冠军方案NVIDIA团队并列,而在预测准确率单项上以0.83分超过了Omni-Q的0.78分。
在开环运动规划任务上,HERMES++在仅有文字指令和几何预测监督(没有任何感知监督)的情况下,平均L2轨迹误差为0.37米,碰撞率为0.29%,均处于当前最优水平附近,显示出几何世界模型中天然蕴含的规划潜力。
与其会议版本HERMES相比,HERMES++在3秒预测误差上下降了13.7%,理解指标也全面提升。这一提升来自于三项新增设计的共同贡献:联合几何优化策略、文字注入机制、以及自我运动调制。
---
八、模型规模的影响:越大越强
研究团队还系统地考察了语言模型规模对整体性能的影响。使用InternVL2系列的0.8B、1.8B、3.8B三个规模版本,结果显示出清晰的正向关系:规模越大,两个任务的性能都在提升。3.8B版本相比0.8B版本,3秒预测误差从1.434下降到1.255,降幅达12.5%;CIDEr评分从0.708提升至0.742。
此外,研究团队还测试了三种不同架构的语言模型(InternVL2、Qwen3、Llama-3.2)作为骨干,发现HERMES++在所有三种架构上都能获得有竞争力的性能,验证了框架本身对语言模型类型不依赖的通用性。InternVL2在这三者中表现最好,研究团队认为这与其视觉-语言对齐预训练策略特别适合BEV这种结构化视觉表示有关。
---
九、局限与展望
研究团队在论文中坦承了两个有待改进的方向。第一,如何更充分地利用大型多模态模型(如GPT-4V系列)中已经凝聚的语义先验来改善BEV特征的质量,目前还没有很好的答案——现有方案更多地是把语言模型用作"通道"而非直接利用其内置的视觉知识。第二,HERMES++目前只能生成点云这一种三维表示;如果能同时预测未来的RGB视频、三维体素占用图、甚至语义分割结果,系统对真实驾驶场景的建模能力将会大幅增强。这两个方向都指向一个共同的未来图景:一个能够像人类驾驶员一样,既看懂世界又能预判未来,还能用自然语言解释自己判断依据的真正通用驾驶智能体。
---
归根结底,HERMES++解决的是一个"鱼和熊掌能否兼得"的问题。以往的系统要么擅长看懂场景、要么擅长预测几何,二者合一总是顾此失彼。这项研究通过鸟瞰图作为统一的空间语言、世界查询作为知识传递的载体、时间链路作为从现在到未来的桥梁、以及双层几何约束作为形状正确性的保障,构建出一个真正意义上的"文理兼修"系统。对于普通人而言,这意味着未来的自动驾驶汽车不只是一个沉默的预测机器,而是一个能够解释自己行为、说清楚"我为什么要刹车"的透明决策者,这对于建立公众对自动驾驶的信任至关重要。有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.28196查阅完整论文,代码和模型也将在 github.com/H-EmbodVis/HERMESV2 公开发布。
---
Q&A
Q1:HERMES++的鸟瞰图表示和直接使用摄像头图像输入大语言模型有什么本质区别?
A:直接把六个摄像头画面输入语言模型时,图像被压成词语序列,三维空间关系会永久丢失,类似把立体工程图折成纸带,折叠过程中深度信息消失。鸟瞰图则把六张不同角度的透视图统一变换为从正上方俯瞰的平面坐标系,物体真实位置和相互距离被完整保留,经过四倍下采样压缩后仍可以"展开"恢复三维结构。实验显示,鸟瞰图方案在三维空间预测误差上比直接输入方案低约32%,而在文字理解质量上两者几乎相同。
Q2:HERMES++的联合几何优化策略中,隐式几何正则化具体是怎么工作的?
A:研究团队预先训练了一个独立的几何特征提取器,让它从真实点云中学习三维几何结构的内部表示,然后冻结其参数。主网络训练时,这个提取器为真实点云生成"几何蓝图",主网络的预测特征被要求向蓝图靠拢,分别通过余弦相似度损失衡量逐体素方向一致性、格拉姆矩阵损失衡量全局纹理结构相似性。这相当于一位只在训练阶段辅导、不参加推理的老师,推理阶段该提取器被完全移除,不增加任何额外计算开销。
Q3:HERMES++的世界查询在训练过程中是怎么被初始化和更新的?
A:世界查询在每次前向传播时通过对当前鸟瞰图进行自适应最大池化来初始化,提取最显著的空间信息作为起点,并叠加车辆运动编码和可学习的帧序号标记。这些查询随后进入语言模型的注意力计算流程,通过因果注意力机制读取所有先前词语块的信息,被注入语义和世界常识。来自几何预测分支的损失会通过世界查询反传至语言模型,促使语言模型学会生成对几何预测更有指导价值的查询表示,而理解分支的文字监督也同步更新所有参数,形成双向的梯度流动。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。