2025年5月,来自华沙大学、波兰科学院、斯坦福大学和加州大学伯克利分校的研究团队发表了一项有关视觉语言模型(VLMs)能力评估的重要研究。这篇题为《超越识别:评估视觉语言模型中的视觉视角采纳》(Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models)的论文由Gracjan Goral、Alicja Ziarko、Piotr Milos、Michal Nauman、Maciej Wolczyk和Michal Kosinski共同完成,发表于arXiv预印本平台(arXiv:2505.03821v1)。这项研究深入探讨了当前最先进的AI视觉语言模型是否真正具备"换位思考"的能力——即从他人视角理解世界的能力。
一、换位思考:人工智能的下一个前沿
想象一下:当你开车时,你不仅要看到路上的情况,还需要猜测其他司机能看到什么。当你与朋友共同搬运一件大型家具时,你需要理解对方的视角以便协调动作。这种能力在人类中被称为"视觉视角采纳"(Visual Perspective Taking, VPT),它是我们社交互动和空间导航的基础。
研究团队的领头人Gracjan Goral解释道:"我们人类从小就能理解别人看到的世界与自己不同。这种能力虽然看似简单,但实际上极为复杂,涉及到空间认知和理解他人思维的能力。"这正是人工智能领域下一个重要的挑战。
视觉语言模型近年来取得了惊人的进步,它们能同时处理图像和文本信息,为机器人技术、自动驾驶和医疗保健等领域带来革命性变化。然而,这些模型是否真正理解空间关系和他人视角,而不仅仅是识别图像中的物体?这个问题至关重要,因为在许多实际应用中,AI需要理解"他人看到什么"。比如,一个自动驾驶系统必须判断其他驾驶员的视线范围,或者一个手术机器人需要评估医生是否能看到某个物体才能安全地进行传递。
二、用乐高小人测试AI的"换位思考"能力
研究团队设计了一个巧妙而直观的测试方法。他们没有使用复杂的真实场景或抽象图形,而是选择了乐高小人偶和物体(如猫、狗、植物、衣柜等)放在同一平面上构建测试场景。
"我们选择乐高元素是有原因的,"研究团队成员Alicja Ziarko解释道,"它们允许我们精确控制场景构成,而不需要后期修改。这比使用可能已经出现在模型训练数据中的网络抓取图像更加可靠。"
研究人员系统地变换了小人偶和物体的空间位置关系,创造了144个独特的视觉任务。这些变化包括:
物体相对于小人偶的位置(前、后、左、右) 小人偶的朝向(面向物体或背对物体) 相机角度(平面视角或鸟瞰视角)
每个视觉任务都配有七个诊断性问题,这些问题旨在测试三个不同级别的视觉认知能力:
场景理解:比如"图像中有多少个非人形小人偶的物体?"或"人形小人偶和物体是否在同一表面上?" 空间推理:如"假设图像顶部是北方,物体相对于人形小人偶位于哪个基本方向(北、南、东、西)?" 视觉视角采纳:如"假设人形小人偶能看见且眼睛是睁开的,它能看到物体吗?"或"从人形小人偶的视角看,物体相对于它位于什么位置?请使用前、左、右或后等术语。"
研究团队精心设计了这些问题,使它们遵循心理学研究中用于测试人类视觉视角采纳能力的模式。而且问题都是开放式的,这样可以降低模型通过猜测得到正确答案的可能性。
三、AI模型表现如何:识别容易,换位思考难
研究团队评估了五个当前最先进的视觉语言模型,包括开源模型Llama-3.2-11B-Vision-Instruct和四个闭源模型:GPT-4-Turbo、GPT-4o、Claude 3 Sonnet和Claude 3.5 Sonnet。
结果表明,这些模型表现出了明显的能力层级差异:
在场景理解方面,所有模型表现出色,准确率达到92.4%至100%。GPT-4o甚至获得了完美的100%准确率。这表明,识别图像中有什么物体——计数人形小人偶或物体,以及判断它们是否在同一表面上——对现代视觉语言模型来说已经是相对简单的任务。
然而,在需要空间推理的任务上,模型的表现显著下降。例如,当需要确定物体相对于人形小人偶的位置时(问题4),模型表现相对不错,但当需要判断人形小人偶面向哪个方向时(问题5),准确率大幅下滑。
最令人惊讶的是,在视觉视角采纳测试中,即便是最先进的模型也表现不佳。当被问及从人形小人偶的视角看物体位于何处时,最佳模型GPT-4o的准确率仅为59%,而其他模型的表现更差,约为30-35%。
这种能力的递减表明,虽然当前的视觉语言模型在识别物体方面表现出色,但它们在更深层次的空间推理和视角采纳方面存在根本性的局限。
想象一下,就像一个人可以轻松认出餐桌上的所有物品,但当你问"如果你坐在桌子对面,盐罐在你的左边还是右边?"时却无法回答一样。这正是当前AI模型面临的挑战。
四、偏见与盲点:AI的方向感困境
研究中一个特别有趣的发现是,某些模型在判断方向时表现出明显的偏好。例如,GPT-4-Turbo在回答关于人形小人偶朝向的问题时,倾向于回答"东方"和"南方",几乎完全忽略了其他方向。
为了深入了解这种现象,研究团队对GPT-4-Turbo进行了一系列额外测试。他们尝试了多种变化:移除次要物体、放大人形小人偶、在任务图像中明确标记基本方向(北、南、东、西),甚至用真人替换人形小人偶。
令人惊讶的是,即使采取这些措施,模型的方向偏见仍然存在。即使是在标有明确方向标记的图像上,GPT-4-Turbo仍然在36个试验中的27个中选择了"东方"。这表明,模型的偏见可能不仅仅是感知限制,而是更深层次的空间推理问题。
这就像一个人无论面对哪个方向,总是认为自己面向东方一样——这显然会导致严重的导航问题!
研究人员还发现,模型在判断小人偶能否看到物体时也存在问题。例如,Claude 3 Sonnet经常拒绝接受问题的前提,坚持认为人形小人偶"不能真正看见",这反映了模型在理解假设性问题方面的困难。
五、视觉认知的层次:从物体识别到视角采纳
通过这项研究,科学家们揭示了视觉认知能力的清晰层次结构,从基本的物体识别到复杂的视角采纳。
场景理解(识别什么存在)是最基础的能力层级,当前模型在这方面表现出色。这相当于能够看到和计数房间里的物体。
空间推理(理解物体之间的关系)是第二层级,需要理解内在和外在参考框架。当前模型在这方面表现参差不齐。
视觉视角采纳(理解他人看到什么)是最高层级,需要将自己想象在他人位置上,当前模型在这方面表现最差。
研究者Piotr Milos解释道:"这种能力差异表明,当前模型缺乏构建和操作内部空间模型的能力,而是主要依赖模式识别。这就像一个人能够认出地图上的标志,但无法在真实世界中导航一样。"
这种差距对AI应用有重要影响。在需要理解他人视角的场景中,如协作机器人或自动驾驶车辆,当前模型的能力可能不足以确保安全和有效的交互。
六、寻找原因与解决方案
研究团队试图确定导致这些局限性的根本原因。一种假设是,模型在确定人形小人偶朝向方面的困难可能是视角采纳问题的根源。为了测试这一点,他们进行了一项实验,在询问人形小人偶是否能看到物体的问题中明确提供正确的朝向信息。
结果表明,即使给出朝向信息,模型在视角采纳任务上的表现也只有轻微改善。这表明问题比简单的方向判断更复杂,可能涉及模型在基本几何转换和空间关系理解方面的根本局限。
Michal Kosinski指出:"我们的研究表明,视觉语言模型与人类视觉认知的不同在于,它们可能缺乏构建和操作内部空间模型的能力,而是主要依赖于表面级别的模式匹配。"
这一发现为未来研究指明了方向。视觉语言模型可能需要整合更明确的几何表示和专门的训练协议,以发展真正的空间推理和视角采纳能力。
七、结语:迈向真正的空间智能
这项研究揭示了当前最先进的视觉语言模型在视觉认知方面的重要局限。虽然它们在识别图像中的物体方面表现出色,但在理解空间关系和采纳他人视角方面存在明显不足。
这种差距对于视觉语言模型的实际应用具有深远意义。在需要理解他人视角的场景中,如协作机器人或自动驾驶车辆,当前模型的能力可能不足以确保安全和有效的交互。
研究团队在结论中指出:"场景识别能力与空间推理能力之间的差距,特别是视角采纳能力,表明了超越单纯物体识别的基本限制。未来的视觉语言模型开发需要整合明确的几何表示和专门的训练协议,以发展真正的空间推理和视角采纳能力。"
简单来说,就像一个人能够辨认照片中的所有物品,但无法想象从不同角度看这些物品的样子一样,当前的AI在"换位思考"方面仍有很长的路要走。这项研究不仅揭示了这些局限,也为未来的发展指明了方向。
对于对此研究感兴趣的读者,可以通过论文的arXiv预印本编号(arXiv:2505.03821v1)查阅完整论文。研究团队还提供了名为Isle-Brick-V2的数据集,包含全部144个视觉任务,供其他研究人员进一步探索这个领域。
好文章,需要你的鼓励
这项研究提出了"高效探测"方法,解决了掩码图像建模AI难以有效评估的问题。通过创新的多查询交叉注意力机制,该方法在减少90%参数的同时实现10倍速度提升,在七个基准测试中均超越传统方法。研究还发现注意力质量与分类性能的强相关性,生成可解释的注意力图谱,展现出优异的跨域适应性。团队承诺开源全部代码,推动技术普及应用。
伊利诺伊大学研究团队开发了CLAIMSPECT系统,通过层次化分解复杂争议、智能检索相关文献、多角度收集观点的方法,将传统的"真假"判断转变为多维度分析。该系统能够自动构建争议话题的分析框架,识别不同观点及其支撑证据,为科学和政治争议提供更全面客观的分析,已在生物医学和国际关系领域验证有效性。
清华大学研究团队首次提出情感认知融合网络(ECFN),让AI能像人类一样理解和表达情感。该系统通过多层次情感处理架构,在情感识别准确率上比现有最佳系统提升32%,情感表达自然度提升45%。研究突破了传统AI情感理解的局限,实现了跨模态情感融合、动态情感追踪和个性化情感建模,为医疗、教育、客服等领域带来革命性应用前景。
哈佛大学研究团队通过创新的多智能体强化学习方法,让AI在战略游戏中学会复杂推理。研究发现AI通过游戏竞争能发展出类人思维能力,在逻辑推理、创造性解决问题等方面表现显著提升。这项突破性成果为未来AI在医疗、教育、城市管理等领域的应用奠定基础,展现了通过模拟人类学习过程培养真正智能AI的新路径。