微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

AI机器人"看见"不等于"知道"：北卡罗来纳大学团队揭示视觉AI在空间判断上的致命盲区

视觉语言模型空间推理不确定性感知

AI机器人"看见"不等于"知道"：北卡罗来纳大学团队揭示视觉AI在空间判断上的致命盲区

作者：科技行者

2026-06-04 12:35

分享至：

研究发现当前顶尖视觉AI在图像遮挡或视角偏斜时仍会自信给出错误答案，揭示了AI空间判断中"过度自信"的系统性盲区，并证明通过多样化训练可以习得"不确定时说不知道"的能力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-04 12:35 • 科技行者

这项由北卡罗来纳大学教堂山分校与谷歌研究院联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.30557。研究围绕视觉语言模型（简称VLM，可以理解为能"看图说话"的AI系统）在空间推理任务中的一个关键盲区展开：当AI所看到的画面不足以支撑判断时，它究竟会如何应对？

这个问题乍一听似乎有些学术，但放到现实场景里，你会立刻感受到它的重量。假设一辆自动驾驶汽车的摄像头被一棵大树遮住了行人，或者一台负责仓库分拣的机器人因为角度问题，把两个尺寸不同的包裹看成了一样大——如果这些AI系统不知道自己"看不清楚"，仍然信心满满地给出答案，后果可能相当严重。北卡罗来纳大学的研究团队正是针对这一问题，构建了一套名为SPATIALUNCERTAIN的测试框架，系统地检验当前最先进的AI模型在"不确定时是否懂得说不知道"这件事上，表现究竟如何。

---

一、当AI像个永远不说"我不知道"的人

日常生活中，我们都见过这样的人：无论被问什么问题，他们总能滔滔不绝地给出答案，哪怕心里完全没有把握。这种行为在人际交往中顶多令人烦躁，但如果是负责操控机器人手臂、规划导航路线或识别医学图像的AI系统表现出同样的行为，麻烦就大了。

研究团队想要测试的，正是当前一批顶尖AI系统是否会犯这个毛病。他们选取了八款来自开源和商业领域的视觉语言模型进行测试，包括商业巨头推出的GPT-4o、GPT-5-mini、GPT-5.4、Gemini-2.5-Flash、Gemini-3.0-Flash，以及开源社区中性能领先的Qwen2.5-VL-7B、Qwen2.5-VL-32B和InternVL3-8B。这些模型代表了目前业界能用到的最高水平。

测试的核心思路可以用一个简单的比喻来理解。假设你正在通过一扇磨砂玻璃窗观察隔壁房间，有人问你"那张椅子和桌子，哪个更靠近窗户？"如果玻璃是透明的，你当然能看清楚；但如果玻璃严重模糊，或者视角偏了导致你看到的画面产生了透视扭曲，那么正确的回答应该是"我看不清楚"，而不是随便猜一个。研究团队想知道的就是：这些AI系统，在类似情况下，会不会给出"我看不清楚"这个诚实的答案？

---

二、构建"障眼法"测试场——SPATIALUNCERTAIN是怎么工作的

为了科学地测试这个问题，研究团队没有直接拿现实世界的模糊照片去考验AI，因为那样太难控制变量。他们的做法更像是一个精密的实验室实验：先用一套叫做Holodeck的系统，自动生成240个虚拟的三维室内场景，涵盖卧室、厨房、博物馆、美容院等43种不同类型的房间，再通过另一个叫做AI2-THOR的虚拟渲染引擎，从各种角度为这些场景拍摄照片。

这样做的好处是，研究人员可以精确控制每一个变量。同一个房间，同一批家具，只改变摄像机的位置，或者往场景里加一个遮挡物——这样产生的问题，就能明确归因于观察条件的变化，而不是场景内容的差异。

研究团队在这个框架中设计了两类"障眼法"。第一类叫做遮挡，顾名思义，就是在摄像机和目标物体之间插入另一个物体，把目标遮住一部分或者全部。比如，一台冰箱被一个储物柜挡住了大半，这时候再问AI"冰箱在桌子的左边还是右边"，AI根本无从判断，正确答案应该是"无法确定"。第二类叫做透视歧义，原理稍微复杂一些。当我们从一个偏向某侧的角度看两个相同尺寸的物体时，靠近摄像机的那个会显得更大——这是正常的透视效果，但它会让AI产生误判，以为两个物体大小不同。在这种情况下，如果问AI"这两幅画一样大吗"，AI凭视觉看到的信息实际上是误导性的，正确做法同样是回答"无法确定"。

整个数据集共包含10322道问答题：其中6608道来自遮挡场景，3714道来自透视歧义场景，涵盖四种空间推理问题类型——物体是否可见、相对位置关系、远近深度排序，以及大小和形状比较。所有场景在正式使用前还经过了7位人工标注员的仔细审核，确保遮挡场景确实构成了有效遮挡，透视场景确实产生了视觉误导。

---

三、AI的测试成绩单：看得见不等于判断准

测试结果相当清晰地揭示了两个系统性的问题。

先说遮挡场景。在那些目标物体清晰可见、没有任何遮挡的"干净"观察条件下，各模型的表现普遍不错，能够正确回答空间问题。但一旦目标物体被完全遮住，问AI那些理应回答"无法确定"的问题，情况就急转直下。以"无法确定"这个选项的正确率来衡量，各模型的平均得分大约在30%左右——而随机猜测的得分预期约为23%。换句话说，很多模型在面对明显遮挡的情况时，仍然会自信地给出一个具体答案，而不是承认自己看不清楚。

InternVL3-8B在可回答问题上得分最高（61.7%），但遮挡情况下的"无法确定"正确率仅有7.3%，几乎和随机猜测没有差别。这就好比一个考生，做会做的题答得很好，但遇到不会的题不知道空着，反而乱填一通。Gemini-2.5-Flash在遮挡识别上表现相对最好，达到45%，但其可回答准确率只有56.1%，低于其他几个模型——也就是说，它更倾向于保守地说"不知道"，但因此也错过了一些本可以正确回答的题目。

透视歧义场景的结果更令人忧虑。在那些因为视角偏斜导致视觉信息具有误导性的问题上，正确识别"这个问题无法从当前视角可靠作答"的准确率，多数模型只有个位数——Gemini-2.5-Flash甚至只有2.4%，InternVL3-8B仅有1.1%。这意味着，当画面呈现的视觉信息本身是错误的引导时，模型几乎无一例外地被"带偏"了，跟着错误的视觉线索给出了自信但错误的答案。

这两类问题揭示出一个共同的症结：这些AI系统缺乏对自身观察质量的评估能力。它们能处理视觉信息，但不能判断这些视觉信息是否足够可靠。就像一个人能看地图，但不知道这张地图是否已经过时。

---

四、更进一步的考验：AI能不能找到一个"更好的观察角度"？

研究团队还设计了一个更有趣的测试维度。现实中，当一个人意识到自己的观察角度有问题时，自然的反应是换个角度再看看。那么AI能做到这一点吗？

为此，研究团队设计了两个关联任务。第一个叫"视角选择"：直接给AI展示五张候选照片（其中一张是从理想角度拍摄的参考视图，另外四张都是有偏差的角度），让AI选出哪张最适合用来判断两个物体的实际大小。第二个叫"先放弃再选视角"：先只给AI看那张有问题的偏斜照片，让它回答关于大小的问题——如果AI足够聪明，它应该先回答"无法确定"；然后再展示那五张候选照片，让AI选出哪张能帮助回答这个问题。只有两步都答对，才算全对。

在第一个纯粹的视角选择测试中，GPT-5.4的表现令人印象深刻，正确率达到70.9%；GPT-5-mini也有53.7%。这说明，当被明确告知"请选一个好角度"时，较强的模型确实能理解什么样的视角更有参考价值。

然而，一旦加上"先判断当前视角是否可靠"这一前置步骤，各模型的表现急剧下滑。GPT-5.4从70.9%跌至22.6%，GPT-5-mini从53.7%跌至18.0%，Gemini-3.0-Flash从50.3%跌至仅2.4%。这个断崖式的下滑说明，模型的瓶颈不在于"知道什么角度好"，而在于"意识到当前角度有问题"。它们在第一步就失败了——没能识别出当前视角的局限性，因此根本不会触发"去找更好角度"的行为。

这个发现有着很强的实践意涵。在真实的机器人或自动驾驶场景中，系统不可能每次都被明确告知"你现在的视角有问题，请换一个"。它必须能够自主判断当前观察是否可靠，然后主动寻求更好的信息来源。而目前的测试结果表明，这种主动的观察质量评估能力，在现有模型中几乎付之阙如。

---

五、画面的双刃剑：有时候"看见"反而是一种干扰

研究团队还做了一个对比实验，专门探讨视觉信息本身对模型判断的影响。他们把每道题分成两种条件来测试：一种是只给文字提示（比如"场景中有一个冰箱和一个桌子，冰箱在桌子的左边"），另一种是文字加图片。

结果呈现出一个有趣的不对称性。在遮挡场景中，加入图片信息对模型整体有所帮助——既能提高可回答问题的准确率，也能帮助模型更好地识别遮挡情况。比如，Gemini-3.0-Flash在加入图片后，遮挡识别正确率从14.3%提升到44.1%，提升了近30个百分点。

但在透视歧义场景中，情况正好相反。加入图片后，模型识别"这道题无法从当前视角可靠作答"的正确率，反而大幅下降。GPT-5.4在这一指标上从44.3%跌至22.6%，下降了近22个百分点；Gemini-3.0-Flash从42.1%跌至6.3%，下滑超过35个百分点。这意味着，那些具有误导性的视觉画面，非但没有帮助模型判断，反而强化了它们的错误信心，压制了它们本来可能存在的一点怀疑倾向。

这个发现颇为反直觉。通常我们会认为，"有图有真相"，加入视觉信息总是更好。但研究告诉我们，如果视觉信息本身包含了系统性的误导（比如透视扭曲），它就像一条错误的线索，会让AI侦探自信地走向错误的结论。真正可靠的系统，应该能区分"我看到了什么"和"我看到的这些是否可以信赖"——而这正是当前模型的薄弱环节。

---

六、能不能修好这个缺陷？提示词调教与微调训练的效果对比

面对这两个系统性缺陷，研究团队尝试了两种补救思路：一种是调整提示词（也就是改变给AI的"指令说明"），另一种是直接用相关数据重新训练模型。

先说提示词调教的效果。研究团队设计了两种提示词。"标准提示词"直接告诉AI根据视觉证据选出最佳答案，允许选"无法确定"但不特别强调。"结构化推理提示词"则要求AI在回答前先完成两个检查：目标物体是否清晰可见？当前视角是否可靠？只有两项都满足，才继续给出具体答案，否则就选"无法确定"。

使用结构化提示词后，GPT-5-mini在遮挡场景中识别"无法确定"的正确率从7.8%大幅提升至30.4%，看起来相当可观。但代价是，它在可回答问题上的正确率从64.7%降到了54.7%，相当于捡了芝麻丢了西瓜。Gemini-2.5-Flash的改善幅度则非常有限，"无法确定"识别率仅从45.0%微升至48.7%，而可回答准确率同样有所下滑。这说明仅靠修改指令，无法从根本上解决问题——它更像是给AI戴上了一副"多疑的眼镜"，让它更倾向于说不知道，但并没有真正提升它对观察可靠性的判断能力。

再说微调训练。研究团队用LoRA这种轻量级的微调方法，在Qwen2.5-VL-7B模型上进行了实验，训练出三个变体。第一个只用遮挡场景数据训练，第二个只用透视歧义数据训练，第三个将两类数据混合训练。

结果很清晰。只用遮挡数据训练的模型，在遮挡场景的"无法确定"正确率（39.3%）甚至略低于基础模型（41.0%），而且完全不能提升透视场景的表现。只用透视数据训练的模型，在透视场景上大幅提升（"无法确定"正确率从42.9%跃升至86.8%），但遮挡场景的识别能力反而从41.0%暴跌至7.7%——产生了明显的负迁移效应。只有混合训练的模型，同时在遮挡和透视两个维度上都取得了显著改善，遮挡可回答准确率提升至70.3%、"无法确定"正确率达到62.8%，透视可回答准确率88.8%、"无法确定"正确率76.9%，并且解决了提示词调教中出现的回答准确率下滑问题。

这说明，"知道自己不知道"这种能力是可以通过训练习得的，但训练数据必须足够多样，覆盖不同类型的不确定性情境。只见识过一种"看不清楚"的情况，不足以培养出真正通用的观察可靠性评估能力。

---

七、这项研究告诉我们什么，又还没有解决什么

说到底，这项研究做了一件很有价值的事：它用一套严格的、可复现的测试框架，揭示出当前AI视觉系统中一个普遍存在但此前缺乏系统评估的盲区。在人们热衷于测试AI能不能答对更多问题的同时，研究团队转换了视角——他们问的是：AI在应该说"我不知道"的时候，究竟有多少次说了"我知道"？

答案令人警醒。在遮挡场景中，各模型平均大约有70%的错误机会（本该说不知道却给出了具体答案）；在透视歧义场景中，这一比例更高，接近90%甚至更多。这些数字背后，是现实世界中潜在的安全隐患——尤其在机器人操作、自动驾驶、医疗辅助决策等高风险领域。

当然，这项研究本身也存在一定局限。测试使用的是虚拟三维环境生成的合成图像，虽然有很好的控制性，但与真实世界的复杂性仍有差距。遮挡和透视歧义只是观察可靠性的两种典型情形，现实中还有光线不足、运动模糊、传感器噪声等更多干扰因素，这些都有待未来研究继续探索。此外，目前的测试框架聚焦于单次静态的空间判断，而真实的机器人任务往往需要连续的多步决策——如何将观察可靠性评估延伸到这类长时序场景，同样是一个开放的研究方向。

混合训练的结果已经给出了一个积极的信号：这种能力是可以习得的，而且一旦习得，不必以损失回答准确率为代价。这意味着，未来构建更安全、更可靠的AI视觉系统，是完全可期的目标——前提是训练数据的设计要更全面地覆盖各种"不确定"情境，而不是只考察模型会不会答题，还要考察它知不知道什么时候不该答。

有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2605.30557查阅完整原文。

---

Q&A

Q1：SPATIALUNCERTAIN测试框架是用真实照片测试的吗？

A：不是。SPATIALUNCERTAIN使用的是虚拟三维室内场景生成的合成图像，通过Holodeck系统自动生成场景布局，再用AI2-THOR渲染引擎从不同角度拍摄。这样设计的好处是可以精确控制遮挡程度和摄像机角度，确保测试结果能准确归因于观察条件的变化，而非场景内容的差异。研究者也指出，这种合成环境可能无法完全覆盖真实世界的复杂性，是该研究的一个局限。

Q2：为什么视觉信息在透视歧义场景中反而会让AI表现更差？

A：因为那些存在透视扭曲的图像本身包含了系统性的视觉误导——靠近摄像机的物体看起来更大，这是正常的透视效果，但它使两个实际相同大小的物体看起来不一样。AI会根据这些视觉信息给出自信的答案，却不会意识到这个视角本身是有问题的。加入图片后，错误的视觉线索反而压制了模型可能存在的不确定性倾向，导致识别"无法确定"的正确率大幅下滑，比纯文字输入时还要低。

Q3：混合训练为什么比单独训练某类场景效果更好？

A：单独用遮挡数据或透视数据训练时，模型只学会了识别某一种"看不清楚"的模式，遇到另一类情境时不仅无法迁移，甚至会产生负面干扰。而混合训练让模型同时接触两种不同性质的不确定性——一种是信息缺失（遮挡），一种是信息误导（透视歧义）——这促使模型学习到更通用的"评估观察是否可靠"的能力，而不是只记住某种特定的表面特征。这种多样性训练最终在两类场景上都取得了显著改善，且不以损失回答准确率为代价。

视觉语言模型空间推理不确定性感知

分享至