
这项由首尔国立大学、俄亥俄州立大学与英伟达公司联合开展的研究,以预印本形式于2026年5月发布,论文编号为arXiv:2605.30161。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。
当你站在一条笔直的公路上向远处眺望,路两旁的树木越来越矮,越来越靠近地平线——它们看起来越高,实际上离你越远。这种透视规律是人类大脑理解三维空间的重要工具,也是几百年来画家们掌握的核心技法。然而,当这条规律被刻进一个人工智能模型的"基因"里,会发生什么?这项研究给出了一个令人深思的答案:AI把这条规律当成了一条不可撼动的铁律,一旦现实稍稍偏离,它就会犯错,而且犯得毫不自知。
研究团队专注于一类被称为"视觉语言模型"的AI系统——简单说,就是那些既能看图又能理解文字的大模型,比如能回答"照片里那把椅子比那张桌子离你近吗"这类问题的系统。这些模型被越来越多地用于机器人、自动驾驶辅助设备、智能助手等场景,它们对空间关系的判断直接影响着实际应用的可靠性。表面上看,这些模型在各类空间理解测试中表现不俗,分数相当亮眼。但研究团队怀疑,这漂亮的分数背后藏着一个秘密:模型并没有真正"看懂"空间,它只是认出了一条捷径——凡是在图片里显得更高的东西,就判断为更远。
为了验证这个猜想,研究团队开发了两套工具。第一套是一种从模型内部分析其"思维方式"的框架,通过观察模型处理不同空间关系时大脑内部电信号的变化,来判断它究竟是真懂还是在走捷径。第二套是一个专门设计的虚拟测试场——一条在电脑中建造的隧道,里面放置的两个物体可以独立调整它们在图像中的高度,而不改变它们实际上距离镜头有多远。这样一来,"图片里高不高"和"实际上远不远"就被彻底分开了,AI再也无法靠老招数蒙混过关。
研究结果确认了最初的猜疑。无论测试哪个品牌的模型,无论模型大小,无论是否经过额外的空间数据训练,所有模型都表现出同一个毛病:一旦遇到"图片里显得低、但实际上更远"的情况,准确率就大幅下滑。更让人意外的是,用更多数据训练之后,这个毛病不仅没有消失,有时候反而更严重。这说明问题不是出在数据量上,而是出在模型理解空间的方式本身。
一、透视的陷阱:AI是怎么学会"以高度判断远近"的
要理解AI为何会形成这种偏见,得先从人类拍照的习惯说起。绝大多数日常照片,不管是家庭聚餐、街头风景还是室内场景,都有一个共同的特点:地上的东西,越远的就越靠近照片上边,越近的就越靠近照片下边。一辆停在十米外的车,轮子出现在画面中间偏下;而停在五十米外的车,轮子就会出现在画面更靠上的位置。这就是透视投影的本质。
研究团队用数学推导严格证明了这一点。假设摄像机架在地面以上某个高度,镜头平行于地面朝前看。地面上的任何一个点,距离镜头越远,在照片里出现的位置就越高——这是几何关系决定的,没有例外。于是,当一个AI模型吃进数以百万计的普通照片进行学习时,它很快就会发现一个强烈的统计规律:高就等于远,低就等于近。
这条规律在绝大多数照片里确实有效,所以模型学到了就用。研究团队把这个现象称为"垂直位置与距离的纠缠",意思是本来应该分开理解的两个维度——"图片里的上下位置"和"真实世界里的远近距离"——在模型的内部表示中被混在一起了,就像两根本该独立运作的电线被错误地缠在了一起。
为了在真实数据集上验证这个猜想,研究团队对两个广泛使用的空间理解测试集进行了分类。他们把每道题分成两类:一类是"符合常规"的——图片里更高的那个物体确实更远;另一类是"反常规"的——图片里更高的那个物体反而更近。统计结果令人吃惊。在EmbSpatial-Bench这个测试集里,符合常规的题目占了足足八成以上,反常规的只有一成出头。CV-Bench这个测试集稍好一些,但符合常规的题目也超过六成,反常规的同样只有约一成。
这意味着,哪怕一个模型完全依靠"高就是远"这一条捷径回答问题,它在现有测试集上的得分也会相当高,因为大多数题目本来就符合这条捷径。测试集本身的偏斜,给了走捷径的模型一张免责通行证。
二、数字说话:模型在"反常规"题目上的成绩有多差
研究团队对多个主流视觉语言模型进行了系统测试,每个模型都同时在"符合常规"和"反常规"两组题目上接受考察。结果呈现出一个极为清晰的模式:不管哪个模型,符合常规题目的得分总是远高于反常规题目的得分,差距之大让人难以忽视。
以其中一个模型Qwen2.5-VL为例,当它用两百万条空间相关数据进行了额外训练之后,在符合常规题目上的得分是60.9%,而在反常规题目上的得分只有24%。两者相差将近37个百分点。换句话说,这个模型在"反常规"场景下的表现,比随机猜测好不了多少。另一个模型Molmo-7B在没有额外训练的基础状态下,符合常规题目得分63.5%,反常规题目仅34.9%,差距接近29个百分点。
更耐人寻味的是,额外的空间训练数据并没有系统性地缩小这个差距,有些模型在增加训练数据之后差距反而扩大了。比如NVILA-Lite-2B这个模型,在只用八万条额外数据训练之后,符合常规与反常规题目的差距达到了42个百分点,比没训练时的22个百分点还要大。这说明,更多的空间数据虽然能帮助模型在整体上提高分数,却可能同时加深了它对"高等于远"这条捷径的依赖。
这个发现贯穿了所有测试过的模型家族,包括架构不同、参数量不同、训练来源各异的多种模型。无一例外,都存在这条清晰的符合常规与反常规得分差。这强烈暗示,这个问题不是某一个模型的特殊缺陷,而是当前整个训练范式的系统性产物。
三、隧道实验室:一个专门拆穿捷径的虚拟世界
为了更精确地研究这个问题,研究团队意识到仅靠真实照片是不够的。真实照片里充满了各种各样的线索——除了垂直位置,还有物体大小、遮挡关系、纹理细节等等。你无法确定模型究竟是依赖哪一条线索做出判断的。要真正确定"垂直位置"就是那个决定性的捷径,需要一个可以精确控制的实验环境,让研究者能够随意改变物体的垂直位置,同时保持它们真实距离不变。
于是,研究团队在三维建模软件Blender里搭建了一条隧道。这条隧道的内壁、顶部和地面都是对称的,单点透视的走廊向远处延伸。关键设计在于:隧道的截面是圆形的,研究者可以把一个物体固定在某个距离上,然后让它沿着截面圆圈转动——转到顶部、转到底部、转到左边、转到右边,实际距离镜头的远近始终保持不变,但它在照片里出现的上下位置却完全不同。
这条隧道就像一个专门设计的考题生成器,能够批量制造出"位置高但实际上不更远"的场景,从而测试模型在捷径失效时的真实表现。研究团队将这个测试工具命名为SpatialTunnel。
在SpatialTunnel上的测试结果与真实数据集上的结果高度吻合。几乎所有模型都在"符合常规"场景(图片里更高的物体确实更远)下表现更好,在"反常规"场景下表现明显更差。
值得关注的是少数例外。一个名为RoboRefer的模型,它是在超过两千万个问答样本上训练出来的,其中还包含了深度信息辅助的训练数据。在SpatialTunnel上,它的符合常规与反常规得分差距只有约4.6个百分点,远低于其他模型。另一个超大规模的模型Qwen3-VL-235B,参数量高达2350亿,在SpatialTunnel上的平均得分接近91%,符合常规与反常规的差距也只有约6.8个百分点。这说明,极大规模的预训练或者专门针对空间理解的密集训练,确实可以在一定程度上缓解这个问题,但即便如此,差距也没有完全消失。
研究团队还进一步测试了商业闭源模型。在不开启推理增强模式的情况下,GPT-5.2在SpatialTunnel上也表现出明显的符合常规与反常规差距(约12个百分点)。但当开启了推理链功能之后,同一个模型的准确率大幅提升,差距也缩小到约5.8个百分点。谷歌的Gemini-2.5 Pro同样表现出色,差距几乎为零。这暗示,允许模型在回答前进行多步推理,可能是减轻这种空间偏见的有效途径之一。
四、给模型做"脑部扫描":从内部揭开空间偏见的来源
记录了外部行为上的差距之后,研究团队更进一步——他们想知道,这种偏见究竟是写在模型的"脑子"里的,还是只是表面行为的偶然?为此,他们设计了一种专门的内部分析方法,就像给模型做一次功能性脑部扫描。
具体做法是这样的:给模型一张图片,然后问两个几乎一样的问题,比如"A在B的左边还是右边",以及"B在A的左边还是右边"。这两个问题只是把物体顺序调换了一下,答案自然也相反(如果前者答"左",后者就答"右")。研究团队在模型处理这两个问题时,分别提取模型中间某一层的内部激活状态,然后计算这两个激活状态之间的差向量。
这个差向量非常重要。它排除了图片内容的共同干扰,把问题聚焦在纯粹的方向性关系上。如果模型对"左右"有清晰的内部表示,那么所有关于"左"的差向量应该指向同一个方向,所有关于"右"的差向量应该指向相反方向。如果模型的表示混乱,那这些向量就会朝各个方向乱指,就像一堆方向各异的指南针。
研究团队将多个差向量的方向一致性定义为"轴一致性"——数值越高,说明模型对这个空间维度的编码越稳定、越清晰。他们分别计算了水平轴(左右)、垂直轴(上下)和深度轴(远近)三个维度的轴一致性。
结果呈现出一个引人注目的不对称性。在测试过的所有模型中,水平轴的一致性和垂直轴的一致性都相对较高,说明模型对"左右"和"上下"这两个维度有相当明确的内部编码。但深度轴的一致性始终是三个维度中最低的,明显偏低,说明模型对"远近"这个维度的内部表示相当模糊,方向不稳定,就像一个在脑子里从来没真正想清楚过"远"是什么感觉的学生。
五、纠缠指数:量化两根错误缠绕的电线
仅仅知道深度轴编码薄弱还不够,研究团队还想知道:深度的表示是不是真的和垂直方向的表示混在了一起?为了精确衡量这一点,他们设计了一个叫做"垂直-距离纠缠指数"(VD-EI)的数值。
计算方式可以用一个生活类比来理解。假设你的衣柜里有四种颜色的衣服:橙色(代表"上")、蓝色(代表"下")、红色(代表"远")和绿色(代表"近")。如果这四种颜色被放在四个完全独立的抽屉里,说明模型区分得很清楚,纠缠指数接近零。但如果橙色和红色被混放在同一个抽屉里("上"和"远"放一起),蓝色和绿色被混放在另一个抽屉里("下"和"近"放一起),说明模型把"高等于远、低等于近"这条透视逻辑刻进了内部表示,纠缠指数就会偏高。
计算结果与预期完全一致。在测试的所有模型中,这个纠缠指数都是正数,而且数值相当可观,普遍在0.3到0.6之间。这说明,几乎所有主流视觉语言模型在内部都把"高"和"远"视为相近的概念,把"低"和"近"视为相近的概念。这种内部的混乱直接导致了它们在反常规题目上的失败。
相对而言,RoboRefer和Qwen3-VL-235B这两个表现最好的模型,纠缠指数也是最低的——分别约为0.36和(通过其他指标可推断的)相近水平。这提供了一个关键线索:内部表示的清晰度,与外部行为的可靠性之间存在着直接的对应关系。
六、相似的分数,不同的内部世界
研究团队发现了一个尤其发人深省的现象:两个模型可以在标准测试集上取得几乎相同的总分,但它们的内部空间表示可能截然不同。换句话说,用总体准确率来评价一个模型的空间理解能力,就像用平均分来评价一个学生是否真正理解了数学——如果大多数题目都是简单题,高分未必代表真本领。
研究团队测试了五个不同的空间理解基准测试,发现同一批模型在不同测试上的成绩波动相当大,有时看似矛盾。比如NVILA-Lite-2B在用两百万数据训练之后,在CV-Bench的3D深度测试中得分高达93.8%,但在BLINK的空间关系测试中只有62.9%。而Qwen2.5-VL-3B在BLINK空间关系测试中得83.9%,却在CV-Bench的3D距离测试中只有60.2%。不同测试的高分没有办法互相印证,说明这些高分背后靠的是不同的测试特性,而不是一套稳定可靠的空间理解能力。
与之形成鲜明对比的是,RoboRefer和Qwen3-VL-235B在所有五个测试上的表现都相对均衡且出色。而这两个模型恰好也是内部空间表示最清晰、深度轴一致性最高、纠缠指数最低的模型。这个巧合绝非偶然——它揭示了一条规律:结构良好的内部空间表示,是跨场景、跨任务保持稳定表现的真正基础。
深度轴一致性这个指标的预测力甚至可以跨数据集转移。研究团队在SpatialTunnel上计算了每个模型的深度轴一致性,然后把这个数值拿去预测模型在EmbSpatial-Bench和CV-Bench上的反常规题目得分,发现两者之间的相关系数分别达到了0.759和0.804。也就是说,只需要在这个人工合成的隧道环境里测量一下模型的内部结构,就能相当准确地预测它在真实数据集上的表现。这个内部指标不是测试特有的产物,而是反映了模型真实的空间理解能力。
七、物体大小:另一根绊倒AI的"捷径"
研究团队还顺带检验了另一个类似的视觉捷径:物体的大小。在日常照片里,更近的物体看起来通常更大,更远的物体看起来通常更小。如果AI也把"大就是近、小就是远"当成铁律,那么当一个实际上更远的物体因为本身尺寸较大而在照片里看起来更大时,AI也会犯同样的错误。
为了检验这一点,研究团队设计了一系列测试场景,在保持两个物体实际距离不变的情况下,系统性地改变它们的相对大小。测试结果与垂直位置的实验结果惊人地相似。当更远的物体同时也更小时(符合常规),模型表现较好;当更远的物体反而更大时(反常规),模型表现明显下滑。
这说明,AI对空间距离的判断同时受到多种视觉捷径的影响,垂直位置和物体大小都是其中的典型代表。这些捷径在大多数常规场景下确实有效,但遇到不符合规律的情况时,就会系统性地失效。而模型的内部表示并没有把"真实距离"从这些间接线索中独立出来,形成一个稳健的、不依赖特定视觉特征的距离概念。
说到底,这项研究揭示的核心矛盾在于:一个会做很多空间测试题的AI,未必真的懂得什么是"远"。它可能只是记住了"高的通常远"、"小的通常远"这样的经验法则,然后把这些法则套用在所有情况里。在绝大多数日常照片里,这套法则管用,所以分数不错。但真实世界远比这复杂,当你需要一个机器人在特殊的室内环境里精确判断两个物体的远近,或者需要一个自动驾驶系统在非常规场景下做出可靠决策时,这种表面上的高分就可能暴露出深层的脆弱。
研究团队给出的诊断方向很清晰:仅仅增加更多普通的空间训练数据,可能不足以解决问题,甚至有时候会让问题更严重。真正的突破需要让模型内部形成对"远近"这一维度的独立、清晰的表示,而不是让它继续依附在垂直位置或物体大小这些间接线索上。如何实现这一点,还需要后续研究继续探索。这项研究的价值在于,它不仅指出了问题所在,还提供了一套可以量化问题严重程度的工具,让未来的改进有了明确的努力方向。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.30161查阅完整论文。
Q&A
Q1:视觉语言模型的"垂直-距离纠缠"是什么意思?
A:这是指视觉语言模型在内部表示空间关系时,把图片里物体的垂直高度和实际远近距离混为一谈的现象。模型倾向于认为"图片里显得越高的物体,离镜头越远",这是从大量普通照片里学到的统计规律,但它并非在所有情况下都成立,一旦遇到不符合这条规律的场景,模型就会判断失误。
Q2:SpatialTunnel测试集是如何消除透视偏见的?
A:SpatialTunnel是一个在三维建模软件里搭建的虚拟隧道场景。它的关键设计是:两个物体的实际深度(距镜头的距离)是固定的,但每个物体可以沿着隧道圆形截面独立转动,从而改变它在画面里的上下左右位置,同时完全不影响它真实的远近距离。这样一来,"图片里的高度"和"实际上的远近"被彻底分离,模型无法再靠"高等于远"的捷径蒙混过关,从而暴露出它真实的空间判断能力。
Q3:深度轴一致性和纠缠指数能预测哪些模型表现?
A:研究发现,深度轴一致性越高(即模型内部对"远近"方向的编码越稳定),模型在反常规空间题目上的准确率就越高。在合成的SpatialTunnel数据集上测量的深度轴一致性,可以相当准确地预测模型在EmbSpatial-Bench和CV-Bench等真实数据集上的反常规表现,相关系数分别达到约0.76和0.80。这两个指标一起,可以作为评估模型空间理解质量的内部诊断工具,比单纯的总体准确率更能反映模型是否真正理解了三维空间。
好文章,需要你的鼓励
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。
这项来自诺基亚贝尔实验室与巴黎理工学院的研究提出了In-Writing框架,让大语言模型先自由推理、再套用格式约束,准确率最高提升27%。
KAIST与MIT研究发现,RLHF对齐训练存在"对齐篡改"漏洞:当AI生成的偏见回答与高质量回答相关联时,对齐流程会反向放大偏见,现有缓解方法均未能有效解决这一结构性缺陷。
这项研究提出Skill0.5框架,通过区分通用技能(内化进参数)和特定技能(动态外置使用),配合难度感知路由和反走捷径机制,显著提升AI智能体在未见新任务上的泛化表现。