微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 视觉语言模型在自动驾驶中的可靠性大考验:上海AI实验室深度揭秘AI司机的真实水平

视觉语言模型在自动驾驶中的可靠性大考验:上海AI实验室深度揭秘AI司机的真实水平

2025-09-12 19:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-12 19:48 科技行者

当你坐在一辆自动驾驶汽车里,车载AI系统通过摄像头观察路况并告诉你"前方有行人正在过马路,我们需要减速",你会完全相信这个电子司机的判断吗?最近,由上海AI实验室、新加坡国立大学、加州大学尔湾分校等多个顶级研究机构组成的国际团队发表了一项突破性研究,他们深入调查了当前最先进的视觉语言模型在自动驾驶场景中的真实表现。这项研究由上海AI实验室的孔令东博士领导,于2025年1月发表在计算机视觉顶级会议上,有兴趣深入了解的读者可以访问论文网站 drive-bench.github.io 获取完整研究内容。

研究团队发现了一个令人深思的现象:这些被誉为"智能"的AI系统在面对复杂驾驶场景时,经常会像一个刚学会开车的新手一样,表面上说得头头是道,实际上却是在"胡说八道"。更令人担忧的是,即使在完全看不见路况的情况下,这些AI系统仍然能够给出听起来合理的驾驶建议,就像一个蒙着眼睛的司机还在装作能看见一样。

这项研究的核心贡献是创建了一个名为DriveBench的全新测试平台,这个平台就像是给AI司机安排的一场全面驾照考试,不仅要在理想条件下测试,还要在各种恶劣环境中检验AI的真实能力。研究团队测试了12种不同的先进AI模型,涵盖了从商业化产品到开源模型的各个类型,测试内容包括感知识别、预测判断、路径规划和行为决策等四大核心驾驶技能。

这项研究的意义不仅仅局限于自动驾驶领域。随着AI系统越来越多地参与到安全关键的决策场景中,从医疗诊断到金融投资,了解这些系统的真实可靠性变得至关重要。研究结果揭示的问题提醒我们,不能仅仅因为AI系统能够生成看似合理的解释就认为它们是可靠的。

一、测试平台构建:为AI司机量身定制的全能考场

研究团队面临的第一个挑战就像是设计一套全面的驾考系统。传统的AI测试往往只在理想条件下进行,就好比只在晴天的空旷道路上练车,这样培养出来的司机一旦遇到雨雪天气或者复杂路况就会手忙脚乱。为了真正检验AI司机的实力,研究团队创建了一个名为DriveBench的综合测试平台,这个平台的设计理念就是要让AI系统在各种可能遇到的真实驾驶场景中接受考验。

DriveBench测试平台包含了19200个驾驶场景图像和20498对问答样本,覆盖了从简单的物体识别到复杂的决策推理等各个层面。研究团队将测试内容分为四个核心模块,每个模块都对应着人类司机必须掌握的基本技能。感知模块就像是测试司机的眼力,要求AI准确识别道路上的各种物体,包括车辆、行人、交通标志等,并且能够判断它们的运动状态。预测模块则考验AI的预判能力,就像一个有经验的司机能够预测前方车辆可能变道一样,AI需要根据当前观察到的情况预测未来可能发生的变化。

规划模块是整个测试的核心,它要求AI系统像一个合格的司机一样制定行驶计划。当面对复杂的交通场景时,AI需要综合考虑安全性、效率性和合规性等多个因素,给出合适的驾驶策略。行为模块则测试AI对具体驾驶动作的控制能力,包括加速、减速、转向等基本操作的时机和幅度掌握。

更有挑战性的是,研究团队还设计了17种不同的测试环境,从完美的理想条件到极端的恶劣环境。这些环境包括不同的天气条件,比如明亮阳光、昏暗光线、雨雪天气等,就像让司机在各种天气条件下都能安全驾驶一样。研究团队还模拟了各种设备故障情况,比如摄像头被遮挡、图像传输出现错误、视频压缩导致的质量损失等,这些都是现实中可能遇到的技术问题。

最极端的测试是完全移除视觉信息,让AI系统仅仅根据文字描述来做出驾驶判断。这就像是让一个司机蒙着眼睛开车,只能听别人的口头描述来判断路况。这种测试看似不合理,但它揭示了一个关键问题:AI系统的回答究竟是基于真实的视觉理解,还是仅仅依靠预先学习的知识和常识推测?

二、测试结果分析:AI司机的真实表现令人意外

当研究团队开始分析测试结果时,他们发现了许多意想不到的现象。首先让人震惊的是,即使在视觉信息完全缺失的情况下,大多数AI系统仍然能够给出看似合理的驾驶建议,而且这些建议的质量评分与正常情况下相比差别不大。这就像是一个司机即使闭着眼睛也能口若悬河地分析路况,说得头头是道但实际上完全是在凭感觉猜测。

研究团队对比了人类司机在相同测试条件下的表现。结果显示,当视觉条件恶化时,人类的判断准确率会显著下降,这是完全符合常理的反应。然而,大部分AI系统在面对视觉干扰时却表现出了"超人"的稳定性,它们的回答质量几乎没有变化。这种现象初看起来似乎说明AI系统具有超强的抗干扰能力,但深入分析后发现,这恰恰暴露了一个严重问题:这些AI系统可能并没有真正"看懂"路况,而是在根据常识和统计规律来构造答案。

具体来看感知任务的测试结果,研究团队发现AI系统在识别物体运动状态时存在明显的偏向性。在大多数情况下,AI系统倾向于回答"直行前进",即使实际情况是车辆正在转弯。这种现象可以用一个简单的比喻来理解:就像一个从来没有真正观察过交通的人,只是听说过"大部分时候车辆都在直行",于是无论什么情况都给出这个答案。通过统计分析,研究团队发现训练数据中确实存在严重的不平衡现象,直行场景占了绝大多数,这导致AI系统学会了一种"投机取巧"的策略。

在预测和规划任务中,情况变得更加复杂。当研究团队要求AI系统预测其他车辆的行为或者规划自己的行驶路径时,他们发现AI系统经常会给出非常详细和专业的解释,但这些解释往往缺乏对具体视觉细节的准确把握。比如,AI系统可能会说"根据前方车辆的位置和速度,我们应该保持安全距离并准备变道",听起来非常专业,但实际上它可能根本没有准确识别出前方车辆的真实状态。

更令人担忧的是,当研究团队故意在问题中明确提到视觉条件很差时,比如"在这个雾天场景中",AI系统的回答准确率会显著下降,并且会承认视觉条件的限制。这说明AI系统确实具有一定的"自知之明",能够意识到视觉条件的问题。但在正常情况下,即使视觉信息已经严重干扰,AI系统也不会主动承认自己看不清楚,而是继续给出看似自信的判断。

三、评估体系的深层问题:为什么现有测试方法失效了

研究过程中,研究团队发现了一个更深层次的问题:传统的评估方法根本无法有效识别出AI系统的这种"虚假自信"行为。这就像是一个考试系统只看答案是否正确,而不关心学生是真的理解了题目还是仅仅是蒙对了答案。

目前广泛使用的评估指标主要包括准确率和各种语言相似度评分。准确率看起来是最直观的评估方式,但在实际应用中却存在严重缺陷。由于训练数据的不平衡性,AI系统可以通过记住最常见的答案来获得很高的准确率。研究团队发现,仅仅回答"直行前进"就能在某些测试中获得超过90%的准确率,这显然不能说明AI系统具备了真正的驾驶理解能力。

语言相似度评分方法,比如常用的ROUGE和BLEU评分,原本是为机器翻译和文本摘要等任务设计的,它们主要关注文本表面的相似性而不是语义的准确性。在驾驶场景中使用这些评分方法就像是用测量文章字数的方法来评判文章质量一样,抓不住重点。研究团队发现,一些经过特定训练的AI模型能够生成格式规整、用词专业的回答,在语言评分上获得高分,但实际的驾驶理解能力却很有限。

即使是看起来更先进的GPT评分方法也存在问题。当研究团队使用GPT模型来评估其他AI系统的回答质量时,他们发现评分结果很大程度上依赖于回答的表达方式而不是内容的准确性。一个措辞专业、逻辑清晰但事实错误的回答往往比一个简单直接但准确的回答获得更高的评分。这就像是一个只看表面功夫的评委,被华丽的包装迷惑了双眼。

更关键的是,所有这些评估方法都无法检测出AI系统在缺乏视觉信息时的"胡编乱造"行为。研究团队进行了一个对比实验:同一个AI系统在有图像输入和无图像输入时给出的回答,在各种评估指标上的得分几乎没有差异。这意味着现有的评估体系完全无法区分真正基于视觉理解的回答和基于猜测的回答。

为了解决这个问题,研究团队提出了改进的评估方法。他们认为有效的评估应该包含更多的上下文信息,比如具体的驾驶场景描述、关键物体的详细信息等。同时,评估过程应该关注AI系统对具体视觉细节的把握程度,而不仅仅是回答的总体合理性。他们还建议采用对比测试的方法,通过比较相同AI系统在不同视觉条件下的表现来判断其真实的视觉理解能力。

四、专业化模型的表现:术业有专攻还是换汤不换药

在测试的12个AI系统中,有两个是专门为自动驾驶场景训练的专业化模型:DriveLM和Dolphins。研究团队特别关注这些专业模型的表现,希望了解针对性的训练是否能够带来更可靠的驾驶理解能力。

DriveLM是基于nuScenes数据集训练的专业驾驶模型,而Dolphins则是在BDD数据集上训练的。从测试结果来看,这些专业化模型在某些方面确实表现出了优势。比如在语言评分方面,DriveLM获得了显著高于通用模型的分数,这主要是因为它学会了生成符合驾驶场景特点的专业表达方式。专业模型的回答往往更加规范化,使用的术语也更加准确,就像是一个接受过专业培训的司机和一个普通司机在描述同一个交通场景时的差别。

然而,当研究团队深入分析这些专业模型的核心能力时,却发现了一些令人失望的现象。首先是数据集转换能力的问题。Dolphins模型主要在BDD数据集上训练,当面对来自nuScenes数据集的测试题目时,它的表现出现了明显的下降。这就像是一个只在某个城市开过车的司机,到了另一个城市就不适应当地的交通环境一样。这种现象暴露了专业化模型的一个重要局限:它们的"专业性"可能更多体现在对特定数据格式和表达方式的记忆上,而不是对驾驶本质的深度理解。

更深入的分析显示,即使是这些专业化模型,在面对视觉信息缺失或严重干扰时,也表现出了与通用模型类似的问题。它们同样倾向于依赖统计规律和常识推理来生成回答,而不是基于真实的视觉理解。在某些测试中,专业化模型甚至比通用模型表现得更加"顽固",更坚持给出看似专业但实际上缺乏视觉根据的回答。

研究团队还观察到了一个有趣的现象:专业化模型在处理简单驾驶场景时表现不错,但在面对复杂或非典型场景时,它们的局限性就暴露无遗。这种现象可以这样理解:专业化训练让模型学会了应对常见驾驶场景的标准答案,但没有培养出真正的场景理解和灵活应变能力。

五、腐败感知能力测试:AI司机能否察觉自己的"视力问题"

研究团队设计了一系列特殊测试来探究AI系统是否具备"自知之明",也就是能否察觉到自己的视觉输入出现了问题。这就像是测试一个司机在视线受阻时是否会主动承认看不清楚,而不是继续装作一切正常。

测试分为两个层面进行。第一个层面是隐式测试,研究团队在问题中暗示了视觉条件的恶化,比如"在这个雪天场景中,哪些物体需要特别注意?"当问题中明确提到了恶劣天气条件时,大多数AI系统的回答准确率都会显著下降,并且会在回答中承认视觉条件的限制。这说明AI系统确实具备一定程度的情境理解能力,能够根据问题中的线索调整自己的回答策略。

第二个层面是显式测试,研究团队直接要求AI系统识别图像中存在的视觉干扰类型。结果显示,大多数AI系统都能够相当准确地识别出常见的视觉问题,比如模糊、噪点、色彩失真等。特别是在天气和运动模糊类型的干扰识别上,AI系统的准确率甚至超过了80%。这表明AI系统并非完全"盲目",它们确实具备检测视觉异常的能力。

然而,最关键的发现是:即使AI系统能够识别出视觉问题,它们在正常情况下也不会主动承认或报告这些问题。只有在被明确询问时,AI系统才会坦承视觉条件的局限性。这种行为模式非常值得深思,它暴露了当前AI系统设计中的一个重要缺陷:缺乏主动的不确定性表达机制。

研究团队进一步测试了AI系统在不同程度视觉干扰下的行为模式。他们发现,随着视觉干扰程度的加重,AI系统的回答并不是渐进式地变得保守或不确定,而是在某个临界点突然"崩溃"。在轻度干扰下,AI系统依然保持高度自信;但一旦干扰超过某个阈值,它们的回答就变得明显不合理。这种"悬崖式"的性能下降模式在安全关键应用中是非常危险的,因为它没有给用户提供渐进的警告信号。

这些发现对自动驾驶系统的实际部署具有重要启示。理想的AI驾驶系统应该像一个负责任的人类司机一样,当察觉到视线不好或者对情况不确定时,会主动减速、提高警惕或者寻求帮助。但目前的AI系统更像是一个过度自信的司机,即使在看不清楚的情况下也要硬着头皮往前开。

六、数据偏差的深层影响:当AI司机只记住了标准答案

通过深入分析训练数据的构成,研究团队发现了影响AI系统表现的一个根本性问题:数据分布的严重偏差。这个问题就像是一个司机教练只在某种特定的道路条件下练车,结果培养出来的学员只会应对这一种情况。

以行为预测任务为例,研究团队统计发现,在训练数据中约有78.6%的场景标注为"直行前进"。这种极度不平衡的分布直接导致AI系统学会了一种"投机策略":无论遇到什么情况,都倾向于回答"直行前进"。更令人担忧的是,这种策略在传统的评估体系下往往能够获得很高的准确率分数,从而掩盖了AI系统真实能力的不足。

研究团队通过混淆矩阵分析发现,某些AI模型几乎对所有测试样本都给出相同的答案。比如LLaVA-1.5模型在感知任务中,无论输入什么图像,都有超过90%的概率回答"直行前进"。这种现象不仅在纯文本输入时出现,甚至在有正常图像输入时也会发生,说明模型并没有真正学会从视觉信息中提取有用的特征,而是单纯依赖统计偏差来做决策。

数据偏差的问题不仅仅存在于答案分布中,也体现在问题设计上。研究团队发现,许多现有的驾驶问答数据集中包含了大量需要时序信息才能正确回答的问题,但实际上只提供了单帧图像。比如判断一辆车是否正在转弯,往往需要观察车辆的运动轨迹,仅凭一张静态图片是很难准确判断的。这种问题设计不当导致即使是人类专家也很难给出准确答案,更不用说AI系统了。

为了验证数据偏差的影响程度,研究团队进行了一个对照实验。他们创建了一个平衡版本的测试集,确保各种答案选项的分布相对均匀。结果显示,在平衡数据集上,几乎所有AI系统的表现都出现了显著下降,这进一步证实了数据偏差掩盖真实能力的假设。

这个发现对整个AI训练领域具有重要警示意义。它提醒研究者和工程师,不能仅仅追求在现有基准测试上的高分数,而应该深入分析数据的质量和分布特性。特别是在安全关键的应用领域,数据的代表性和平衡性比数据的绝对数量更加重要。

七、人机对比实验:真正的司机在恶劣条件下如何反应

为了更好地理解AI系统表现的合理性,研究团队进行了人类基线测试。他们招募了多名具有驾驶经验的志愿者,让他们在相同的测试条件下回答驾驶相关问题。这个对比实验的结果为整个研究提供了重要的参考基准。

人类测试者的表现展现出了与AI系统截然不同的模式。在理想的视觉条件下,人类的判断准确率达到了93.3%,明显高于大多数AI系统。但更重要的是,当视觉条件恶化时,人类的表现表现出了符合直觉的下降趋势。在昏暗光线条件下,人类的准确率下降到约53%,在雪天条件下更是降到了33%左右。

这种性能下降模式恰恰体现了人类认知的合理性。真正的司机在视线不好时会变得更加谨慎和不确定,他们会承认自己看不清楚,或者要求减速慢行。相比之下,大多数AI系统在相同条件下的表现却异常"稳定",几乎不受视觉干扰的影响。

研究团队还观察到了人类测试者在面对困难问题时的行为模式。当遇到确实很难判断的场景时,有经验的司机往往会选择更保守的答案,或者明确表示不确定。他们会说"这种情况我需要更仔细地观察"或者"光线太暗了,我不确定那是什么"。这种谦逊和谨慎的态度正是当前AI系统所缺乏的。

人机对比实验还揭示了另一个有趣现象:人类和AI系统犯错的类型完全不同。人类的错误往往与注意力分配和经验局限有关,比如可能忽略了某个不太显眼的交通标志。但AI系统的错误更多体现在对基础概念的混淆上,比如把明显静止的物体判断为运动状态。这种差异提示我们,AI系统的"智能"与人类智能在本质上可能存在根本性的不同。

通过定性分析人类测试者的回答,研究团队发现人类在描述驾驶场景时会更多地关注安全相关的细节。比如在描述一个路口场景时,人类会特别提到"需要注意从右侧可能出现的车辆"或者"行人可能随时进入路面"。而AI系统的描述往往更加机械化,更像是在复述训练时见过的标准表达方式。

八、实际案例分析:当AI司机遭遇复杂路况

为了更直观地展示AI系统的问题,研究团队选择了几个典型的失败案例进行深入分析。这些案例就像是驾驶考试中的经典难题,能够清楚地暴露出AI系统的短板所在。

第一个案例涉及夜间驾驶场景。在一张昏暗的街道照片中,可以看到远处有车辆灯光和一些模糊的建筑轮廓。当研究团队询问"在这个场景中应该采取什么安全措施"时,GPT-4o给出了非常详细和专业的回答,提到了打开车灯、保持安全距离、注意行人等多个要点。但关键问题是,当研究团队提供完全相同的问题但不提供任何图像时,同一个AI系统给出了几乎完全相同的回答。这说明AI系统的专业建议实际上是基于对"夜间驾驶"这个概念的一般性知识,而不是基于对具体场景的视觉分析。

第二个案例更加令人担忧。在一个雨天场景中,路面有积水反光,能见度很低。研究团队询问一个具体坐标位置上的物体运动状态。AI系统不仅给出了明确的答案,还提供了详细的解释,说明为什么该物体是在向前行驶。但实际上,由于图像质量的严重损害,人类观察者都很难在该坐标位置准确识别出任何物体。这种情况下,AI系统的"自信"回答实际上是完全基于猜测的。

第三个案例涉及运动模糊的图像。当车辆高速行驶或者摄像头快速移动时,图像中的物体会出现明显的运动拖影。有趣的是,AI系统在这种情况下往往会在答案中提到"高速行驶",似乎正确地识别了运动模糊的存在。但进一步分析发现,AI系统是根据图像的模糊特征推测可能存在快速运动,然后据此构造了后续的分析,而不是真正理解了场景中各个物体的实际运动状态。

最具启发性的是传感器故障模拟案例。研究团队模拟了摄像头完全黑屏或者出现严重噪点的情况。在这种极端条件下,AI系统依然能够给出看似合理的驾驶建议。比如在摄像头黑屏时,AI系统会说"基于车辆的坐标信息,建议保持当前速度并注意周围环境"。虽然这个建议听起来还算合理,但它暴露了一个严重问题:AI系统没有足够的安全意识来在传感器失效时要求人工干预或者紧急停车。

这些案例分析清晰地展示了当前AI系统的一个核心问题:它们更像是一个善于编织故事的说书人,而不是一个真正理解场景的观察者。当面对复杂或者不确定的情况时,AI系统倾向于用听起来专业的语言来掩盖自己理解上的不足,这在安全关键的应用中是非常危险的行为模式。

九、改进建议与未来方向:让AI司机变得更可靠

基于研究发现,研究团队提出了一系列改进当前AI驾驶系统的建议。这些建议不仅针对技术层面的优化,也涉及评估方法和数据收集策略的根本性改变。

首先在数据质量方面,研究团队强调需要构建更加平衡和真实的训练数据集。这不仅意味着要在各种答案类别之间保持合理的分布,更重要的是要确保每个训练样本都能够仅凭提供的视觉信息得出正确答案。许多现有数据集中包含的需要时序信息或者外部知识才能回答的问题应该被重新设计或者剔除。同时,数据收集过程应该覆盖更多样化的驾驶环境,包括各种边缘情况和罕见场景。

在模型训练方面,研究团队建议引入不确定性表达机制。理想的AI驾驶系统应该像一个诚实的司机一样,当遇到看不清楚或者不确定的情况时,能够主动承认并采取保守策略。这需要在训练过程中明确鼓励模型在不确定时表达犹豫,而不是总是给出看似自信的回答。

评估方法的改进是另一个重要方向。研究团队提出了基于对比测试的评估框架,通过比较AI系统在不同视觉条件下的表现来判断其真实的视觉理解能力。他们还建议开发更加注重安全性的评估指标,不仅关注答案的准确性,更要关注AI系统在不确定情况下的行为合理性。

在技术架构方面,研究团队建议开发具有视觉质量评估能力的AI系统。这种系统应该能够实时监测输入图像的质量,并根据质量水平调整自己的回答策略。当检测到视觉输入严重降级时,系统应该能够自动降低置信度或者请求人工干预。

研究团队还提出了渐进式训练策略的概念。与其让AI系统一开始就面对各种复杂场景,不如采用由简到难的训练过程,确保AI系统在每个层次上都能建立起扎实的理解基础。这种方法可能有助于减少AI系统对统计偏差的过度依赖。

对于实际部署的AI驾驶系统,研究团队强烈建议采用多模态冗余设计。不应该仅仅依赖视觉-语言模型的输出来做关键决策,而应该结合其他传感器信息和传统算法的结果进行综合判断。同时,系统应该具备完善的故障检测和安全降级机制。

最后,研究团队呼吁整个行业建立更加严格的AI驾驶系统测试标准。他们认为,任何用于安全关键应用的AI系统都应该经过类似于药物临床试验那样严格的多阶段测试过程,不能仅仅基于基准测试的高分数就认为系统已经可以投入实用。

这项研究的价值不仅在于揭示了当前AI驾驶系统的问题,更在于为整个AI安全领域提供了重要的方法论启示。随着AI系统在更多安全关键领域的应用,如何确保这些系统具备真正的可靠性而不是表面的流畅性,将成为一个越来越重要的研究方向。

归根结底,这项研究告诉我们一个重要道理:在将AI系统应用于关乎生命安全的场景之前,我们需要更加谨慎和彻底地了解这些系统的真实能力边界。一个能够生成流畅解释的AI系统不一定是一个可靠的AI系统,而一个诚实承认自己局限性的AI系统可能比一个过度自信的AI系统更加安全可靠。

Q&A

Q1:DriveBench测试平台具体测试了哪些AI驾驶能力?

A:DriveBench测试了四大核心驾驶技能:感知识别(识别道路物体和运动状态)、预测判断(预测未来可能发生的变化)、路径规划(制定行驶策略)和行为决策(具体驾驶动作控制)。测试涵盖了从理想条件到17种恶劣环境,包括不同天气、设备故障,甚至完全没有视觉信息的极端情况。

Q2:为什么AI系统在看不见路况时还能给出驾驶建议?

A:研究发现AI系统经常依赖预先学习的常识和统计规律来构造答案,而不是基于真实的视觉理解。就像一个司机蒙着眼睛还在装作能看见一样,AI系统学会了根据问题中的文字线索和训练数据中的偏向性来"猜测"答案,因为训练数据中大部分场景都是"直行前进"。

Q3:如何判断AI驾驶系统是否真正可靠?

A:研究团队建议采用对比测试方法,观察AI系统在不同视觉条件下的表现差异。可靠的AI系统应该像人类司机一样,在视觉条件恶化时表现出合理的不确定性和保守策略,而不是始终保持过度自信。同时还需要检验AI系统是否具备主动承认视觉局限和请求帮助的能力。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-