微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI机器人"看见"不等于"知道":北卡罗来纳大学团队揭示视觉AI在空间判断上的致命盲区

AI机器人"看见"不等于"知道":北卡罗来纳大学团队揭示视觉AI在空间判断上的致命盲区

2026-06-04 12:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-04 12:35 科技行者

这项由北卡罗来纳大学教堂山分校与谷歌研究院联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.30557。研究围绕视觉语言模型(简称VLM,可以理解为能"看图说话"的AI系统)在空间推理任务中的一个关键盲区展开:当AI所看到的画面不足以支撑判断时,它究竟会如何应对?

这个问题乍一听似乎有些学术,但放到现实场景里,你会立刻感受到它的重量。假设一辆自动驾驶汽车的摄像头被一棵大树遮住了行人,或者一台负责仓库分拣的机器人因为角度问题,把两个尺寸不同的包裹看成了一样大——如果这些AI系统不知道自己"看不清楚",仍然信心满满地给出答案,后果可能相当严重。北卡罗来纳大学的研究团队正是针对这一问题,构建了一套名为SPATIALUNCERTAIN的测试框架,系统地检验当前最先进的AI模型在"不确定时是否懂得说不知道"这件事上,表现究竟如何。

---

一、当AI像个永远不说"我不知道"的人

日常生活中,我们都见过这样的人:无论被问什么问题,他们总能滔滔不绝地给出答案,哪怕心里完全没有把握。这种行为在人际交往中顶多令人烦躁,但如果是负责操控机器人手臂、规划导航路线或识别医学图像的AI系统表现出同样的行为,麻烦就大了。

研究团队想要测试的,正是当前一批顶尖AI系统是否会犯这个毛病。他们选取了八款来自开源和商业领域的视觉语言模型进行测试,包括商业巨头推出的GPT-4o、GPT-5-mini、GPT-5.4、Gemini-2.5-Flash、Gemini-3.0-Flash,以及开源社区中性能领先的Qwen2.5-VL-7B、Qwen2.5-VL-32B和InternVL3-8B。这些模型代表了目前业界能用到的最高水平。

测试的核心思路可以用一个简单的比喻来理解。假设你正在通过一扇磨砂玻璃窗观察隔壁房间,有人问你"那张椅子和桌子,哪个更靠近窗户?"如果玻璃是透明的,你当然能看清楚;但如果玻璃严重模糊,或者视角偏了导致你看到的画面产生了透视扭曲,那么正确的回答应该是"我看不清楚",而不是随便猜一个。研究团队想知道的就是:这些AI系统,在类似情况下,会不会给出"我看不清楚"这个诚实的答案?

---

二、构建"障眼法"测试场——SPATIALUNCERTAIN是怎么工作的

为了科学地测试这个问题,研究团队没有直接拿现实世界的模糊照片去考验AI,因为那样太难控制变量。他们的做法更像是一个精密的实验室实验:先用一套叫做Holodeck的系统,自动生成240个虚拟的三维室内场景,涵盖卧室、厨房、博物馆、美容院等43种不同类型的房间,再通过另一个叫做AI2-THOR的虚拟渲染引擎,从各种角度为这些场景拍摄照片。

这样做的好处是,研究人员可以精确控制每一个变量。同一个房间,同一批家具,只改变摄像机的位置,或者往场景里加一个遮挡物——这样产生的问题,就能明确归因于观察条件的变化,而不是场景内容的差异。

研究团队在这个框架中设计了两类"障眼法"。第一类叫做遮挡,顾名思义,就是在摄像机和目标物体之间插入另一个物体,把目标遮住一部分或者全部。比如,一台冰箱被一个储物柜挡住了大半,这时候再问AI"冰箱在桌子的左边还是右边",AI根本无从判断,正确答案应该是"无法确定"。第二类叫做透视歧义,原理稍微复杂一些。当我们从一个偏向某侧的角度看两个相同尺寸的物体时,靠近摄像机的那个会显得更大——这是正常的透视效果,但它会让AI产生误判,以为两个物体大小不同。在这种情况下,如果问AI"这两幅画一样大吗",AI凭视觉看到的信息实际上是误导性的,正确做法同样是回答"无法确定"。

整个数据集共包含10322道问答题:其中6608道来自遮挡场景,3714道来自透视歧义场景,涵盖四种空间推理问题类型——物体是否可见、相对位置关系、远近深度排序,以及大小和形状比较。所有场景在正式使用前还经过了7位人工标注员的仔细审核,确保遮挡场景确实构成了有效遮挡,透视场景确实产生了视觉误导。

---

三、AI的测试成绩单:看得见不等于判断准

测试结果相当清晰地揭示了两个系统性的问题。

先说遮挡场景。在那些目标物体清晰可见、没有任何遮挡的"干净"观察条件下,各模型的表现普遍不错,能够正确回答空间问题。但一旦目标物体被完全遮住,问AI那些理应回答"无法确定"的问题,情况就急转直下。以"无法确定"这个选项的正确率来衡量,各模型的平均得分大约在30%左右——而随机猜测的得分预期约为23%。换句话说,很多模型在面对明显遮挡的情况时,仍然会自信地给出一个具体答案,而不是承认自己看不清楚。

InternVL3-8B在可回答问题上得分最高(61.7%),但遮挡情况下的"无法确定"正确率仅有7.3%,几乎和随机猜测没有差别。这就好比一个考生,做会做的题答得很好,但遇到不会的题不知道空着,反而乱填一通。Gemini-2.5-Flash在遮挡识别上表现相对最好,达到45%,但其可回答准确率只有56.1%,低于其他几个模型——也就是说,它更倾向于保守地说"不知道",但因此也错过了一些本可以正确回答的题目。

透视歧义场景的结果更令人忧虑。在那些因为视角偏斜导致视觉信息具有误导性的问题上,正确识别"这个问题无法从当前视角可靠作答"的准确率,多数模型只有个位数——Gemini-2.5-Flash甚至只有2.4%,InternVL3-8B仅有1.1%。这意味着,当画面呈现的视觉信息本身是错误的引导时,模型几乎无一例外地被"带偏"了,跟着错误的视觉线索给出了自信但错误的答案。

这两类问题揭示出一个共同的症结:这些AI系统缺乏对自身观察质量的评估能力。它们能处理视觉信息,但不能判断这些视觉信息是否足够可靠。就像一个人能看地图,但不知道这张地图是否已经过时。

---

四、更进一步的考验:AI能不能找到一个"更好的观察角度"?

研究团队还设计了一个更有趣的测试维度。现实中,当一个人意识到自己的观察角度有问题时,自然的反应是换个角度再看看。那么AI能做到这一点吗?

为此,研究团队设计了两个关联任务。第一个叫"视角选择":直接给AI展示五张候选照片(其中一张是从理想角度拍摄的参考视图,另外四张都是有偏差的角度),让AI选出哪张最适合用来判断两个物体的实际大小。第二个叫"先放弃再选视角":先只给AI看那张有问题的偏斜照片,让它回答关于大小的问题——如果AI足够聪明,它应该先回答"无法确定";然后再展示那五张候选照片,让AI选出哪张能帮助回答这个问题。只有两步都答对,才算全对。

在第一个纯粹的视角选择测试中,GPT-5.4的表现令人印象深刻,正确率达到70.9%;GPT-5-mini也有53.7%。这说明,当被明确告知"请选一个好角度"时,较强的模型确实能理解什么样的视角更有参考价值。

然而,一旦加上"先判断当前视角是否可靠"这一前置步骤,各模型的表现急剧下滑。GPT-5.4从70.9%跌至22.6%,GPT-5-mini从53.7%跌至18.0%,Gemini-3.0-Flash从50.3%跌至仅2.4%。这个断崖式的下滑说明,模型的瓶颈不在于"知道什么角度好",而在于"意识到当前角度有问题"。它们在第一步就失败了——没能识别出当前视角的局限性,因此根本不会触发"去找更好角度"的行为。

这个发现有着很强的实践意涵。在真实的机器人或自动驾驶场景中,系统不可能每次都被明确告知"你现在的视角有问题,请换一个"。它必须能够自主判断当前观察是否可靠,然后主动寻求更好的信息来源。而目前的测试结果表明,这种主动的观察质量评估能力,在现有模型中几乎付之阙如。

---

五、画面的双刃剑:有时候"看见"反而是一种干扰

研究团队还做了一个对比实验,专门探讨视觉信息本身对模型判断的影响。他们把每道题分成两种条件来测试:一种是只给文字提示(比如"场景中有一个冰箱和一个桌子,冰箱在桌子的左边"),另一种是文字加图片。

结果呈现出一个有趣的不对称性。在遮挡场景中,加入图片信息对模型整体有所帮助——既能提高可回答问题的准确率,也能帮助模型更好地识别遮挡情况。比如,Gemini-3.0-Flash在加入图片后,遮挡识别正确率从14.3%提升到44.1%,提升了近30个百分点。

但在透视歧义场景中,情况正好相反。加入图片后,模型识别"这道题无法从当前视角可靠作答"的正确率,反而大幅下降。GPT-5.4在这一指标上从44.3%跌至22.6%,下降了近22个百分点;Gemini-3.0-Flash从42.1%跌至6.3%,下滑超过35个百分点。这意味着,那些具有误导性的视觉画面,非但没有帮助模型判断,反而强化了它们的错误信心,压制了它们本来可能存在的一点怀疑倾向。

这个发现颇为反直觉。通常我们会认为,"有图有真相",加入视觉信息总是更好。但研究告诉我们,如果视觉信息本身包含了系统性的误导(比如透视扭曲),它就像一条错误的线索,会让AI侦探自信地走向错误的结论。真正可靠的系统,应该能区分"我看到了什么"和"我看到的这些是否可以信赖"——而这正是当前模型的薄弱环节。

---

六、能不能修好这个缺陷?提示词调教与微调训练的效果对比

面对这两个系统性缺陷,研究团队尝试了两种补救思路:一种是调整提示词(也就是改变给AI的"指令说明"),另一种是直接用相关数据重新训练模型。

先说提示词调教的效果。研究团队设计了两种提示词。"标准提示词"直接告诉AI根据视觉证据选出最佳答案,允许选"无法确定"但不特别强调。"结构化推理提示词"则要求AI在回答前先完成两个检查:目标物体是否清晰可见?当前视角是否可靠?只有两项都满足,才继续给出具体答案,否则就选"无法确定"。

使用结构化提示词后,GPT-5-mini在遮挡场景中识别"无法确定"的正确率从7.8%大幅提升至30.4%,看起来相当可观。但代价是,它在可回答问题上的正确率从64.7%降到了54.7%,相当于捡了芝麻丢了西瓜。Gemini-2.5-Flash的改善幅度则非常有限,"无法确定"识别率仅从45.0%微升至48.7%,而可回答准确率同样有所下滑。这说明仅靠修改指令,无法从根本上解决问题——它更像是给AI戴上了一副"多疑的眼镜",让它更倾向于说不知道,但并没有真正提升它对观察可靠性的判断能力。

再说微调训练。研究团队用LoRA这种轻量级的微调方法,在Qwen2.5-VL-7B模型上进行了实验,训练出三个变体。第一个只用遮挡场景数据训练,第二个只用透视歧义数据训练,第三个将两类数据混合训练。

结果很清晰。只用遮挡数据训练的模型,在遮挡场景的"无法确定"正确率(39.3%)甚至略低于基础模型(41.0%),而且完全不能提升透视场景的表现。只用透视数据训练的模型,在透视场景上大幅提升("无法确定"正确率从42.9%跃升至86.8%),但遮挡场景的识别能力反而从41.0%暴跌至7.7%——产生了明显的负迁移效应。只有混合训练的模型,同时在遮挡和透视两个维度上都取得了显著改善,遮挡可回答准确率提升至70.3%、"无法确定"正确率达到62.8%,透视可回答准确率88.8%、"无法确定"正确率76.9%,并且解决了提示词调教中出现的回答准确率下滑问题。

这说明,"知道自己不知道"这种能力是可以通过训练习得的,但训练数据必须足够多样,覆盖不同类型的不确定性情境。只见识过一种"看不清楚"的情况,不足以培养出真正通用的观察可靠性评估能力。

---

七、这项研究告诉我们什么,又还没有解决什么

说到底,这项研究做了一件很有价值的事:它用一套严格的、可复现的测试框架,揭示出当前AI视觉系统中一个普遍存在但此前缺乏系统评估的盲区。在人们热衷于测试AI能不能答对更多问题的同时,研究团队转换了视角——他们问的是:AI在应该说"我不知道"的时候,究竟有多少次说了"我知道"?

答案令人警醒。在遮挡场景中,各模型平均大约有70%的错误机会(本该说不知道却给出了具体答案);在透视歧义场景中,这一比例更高,接近90%甚至更多。这些数字背后,是现实世界中潜在的安全隐患——尤其在机器人操作、自动驾驶、医疗辅助决策等高风险领域。

当然,这项研究本身也存在一定局限。测试使用的是虚拟三维环境生成的合成图像,虽然有很好的控制性,但与真实世界的复杂性仍有差距。遮挡和透视歧义只是观察可靠性的两种典型情形,现实中还有光线不足、运动模糊、传感器噪声等更多干扰因素,这些都有待未来研究继续探索。此外,目前的测试框架聚焦于单次静态的空间判断,而真实的机器人任务往往需要连续的多步决策——如何将观察可靠性评估延伸到这类长时序场景,同样是一个开放的研究方向。

混合训练的结果已经给出了一个积极的信号:这种能力是可以习得的,而且一旦习得,不必以损失回答准确率为代价。这意味着,未来构建更安全、更可靠的AI视觉系统,是完全可期的目标——前提是训练数据的设计要更全面地覆盖各种"不确定"情境,而不是只考察模型会不会答题,还要考察它知不知道什么时候不该答。

有兴趣深入了解这项研究的读者,可以通过论文编号arXiv:2605.30557查阅完整原文。

---

Q&A

Q1:SPATIALUNCERTAIN测试框架是用真实照片测试的吗?

A:不是。SPATIALUNCERTAIN使用的是虚拟三维室内场景生成的合成图像,通过Holodeck系统自动生成场景布局,再用AI2-THOR渲染引擎从不同角度拍摄。这样设计的好处是可以精确控制遮挡程度和摄像机角度,确保测试结果能准确归因于观察条件的变化,而非场景内容的差异。研究者也指出,这种合成环境可能无法完全覆盖真实世界的复杂性,是该研究的一个局限。

Q2:为什么视觉信息在透视歧义场景中反而会让AI表现更差?

A:因为那些存在透视扭曲的图像本身包含了系统性的视觉误导——靠近摄像机的物体看起来更大,这是正常的透视效果,但它使两个实际相同大小的物体看起来不一样。AI会根据这些视觉信息给出自信的答案,却不会意识到这个视角本身是有问题的。加入图片后,错误的视觉线索反而压制了模型可能存在的不确定性倾向,导致识别"无法确定"的正确率大幅下滑,比纯文字输入时还要低。

Q3:混合训练为什么比单独训练某类场景效果更好?

A:单独用遮挡数据或透视数据训练时,模型只学会了识别某一种"看不清楚"的模式,遇到另一类情境时不仅无法迁移,甚至会产生负面干扰。而混合训练让模型同时接触两种不同性质的不确定性——一种是信息缺失(遮挡),一种是信息误导(透视歧义)——这促使模型学习到更通用的"评估观察是否可靠"的能力,而不是只记住某种特定的表面特征。这种多样性训练最终在两类场景上都取得了显著改善,且不以损失回答准确率为代价。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-