微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当AI也搞不清楚"前左轮"和"后右轮"的区别——马克斯·普朗克信息学研究所等机构提出的SOCO基准测试

当AI也搞不清楚"前左轮"和"后右轮"的区别——马克斯·普朗克信息学研究所等机构提出的SOCO基准测试

2026-06-08 12:03
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-08 12:03 科技行者

这项由马克斯·普朗克信息学研究所(隶属萨尔兰信息学园区)、CISPA亥姆霍兹信息安全中心以及弗莱堡大学联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2605.31597v2。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

一、当AI认识了"轮子",却分不清哪个是哪个

你有没有想过,当我们说一个人"真正认识"一辆自行车,意味着什么?对大多数人来说,认识一辆自行车,不只是知道它叫"自行车"这个名字,也不只是能把它和摩托车或者汽车区分开来。真正认识它,意味着你能清楚地指出它的左手把和右手把、前轮和后轮、车座和踏板——而且不管这辆自行车是红色的还是蓝色的,不管它是新的还是锈迹斑斑的,不管你从什么角度看它,你都能稳稳地认出那些对应的部件。

现在,把这个挑战交给目前最强大的人工智能视觉模型,结果会怎样?研究团队发现,答案有些出乎意料:这些模型能认出"轮子"这个概念,但往往搞不清楚眼前的这个轮子到底是前左轮、前右轮,还是后左轮。更有意思的是,当你让它把一辆汽车的某个部件,和一辆公共汽车上对应的部件对应起来时,很多模型就开始犯难了。

这个问题,就是这篇论文想要测量和解决的核心:我们到底该如何衡量AI对物体结构的"真正理解"?研究团队为此专门打造了一套名为SOCO的基准测试系统,并且发现了一系列现有模型的盲点。这不只是学术圈内的技术讨论,而是直接关系到机器人抓取物体、自动驾驶汽车识别路上的行人和障碍物、以及医疗影像分析等实际应用场景。

二、现有的"考试题目"出了什么问题

在理解SOCO的创新之前,先要弄清楚研究者们发现的老问题在哪里。

过去几年,研究者们已经有了一些用来测试AI视觉理解能力的"标准考题",其中最广为人知的叫做SPair-71k。这个数据集包含71000张图片对,涵盖18种物体类别,算是当时的行业标准。此外还有PF-PASCAL、PF-WILLOW、MISC210K等数据集,各有侧重。

但这些"考题"有一个共同的根本缺陷:它们混淆了两件本质上不同的事情。

一件事是"认出同一个局部概念"。比如,看到一辆自行车,能认出"这里有一个轮子"。另一件事是"搞清楚这个概念在整个物体里的具体位置"。比如,这个轮子是前轮还是后轮?是左边的还是右边的?

更严重的问题是,这些旧数据集的关键点标注方式相当随意和混乱。有些关键点是纯粹根据几何形状定义的,比如"电视机边框的中间点"或者"船身轮廓的中点"——这些点和真正有意义的语义概念毫无关系,不同人标注的结果可能完全不同。对于那些有大量形态变化的物体类别(比如船,形状千变万化),或者那些有高度对称性的物体(比如花瓶、花盆),这种基于几何的标注方法更是会产生严重的歧义。举一个具体的例子:在现有数据集里,"火车"这个类别的关键点定义就前后不一致,有时候"末端"指火车头那边,有时候又指车尾那边。

另一个重大缺失是,这些旧数据集都只在同一类物体内部测试对应关系——汽车配汽车,椅子配椅子。但真实世界里,汽车和公共汽车、卡车在很多部件上是相通的。如果AI能真正理解"轮子"这个概念,它应该能把汽车的前左轮和公共汽车的前左轮对应起来。现有测试完全忽略了这种跨类别的迁移能力。

再加上,没有任何一个现有数据集为关键点提供了自然语言描述,使得无法对大型视觉-语言模型(就是那种既能看图又能理解文字的模型,比如GPT-4V)进行系统性评估。

三、SOCO:一套有"分类树"的新考试体系

研究团队设计SOCO(语义物体对应关系数据集)的核心思路,是先建立一个清晰的"分类框架",然后在这个框架上收集数据、设计测试。

这个框架把"理解物体"这件事分成了三个层次,就像是从认识"轮子"这个词,到搞清楚是哪个轮子,再到跨越不同车型都能对上号这三个递进的阶段。

第一个层次叫做"概念对应"(CC),测试的是能不能认出同一个局部概念。给你看两辆不同的自行车,你能不能把"手把"和"手把"对应起来?注意,这里不要求分清楚是左手把还是右手把,只要认出"这两个地方都是手把"就算过关。这个任务相对容易,但对于那些有多个相同部件的物体(比如有四条腿的椅子),正确答案可能不唯一。

第二个层次叫做"语义物体对应"(SOC),要求更高。不仅要认出是同一个概念,还要确定是物体上的哪个具体位置。给你看两辆自行车,要把左手把和左手把对应,右手把和右手把对应,不能搞混。这时候,答案是唯一的——每个关键点只有一个正确的对应点。要完成这个任务,AI必须既懂得"手把是什么",还要明白"在这辆车的坐标系里,左边和右边意味着什么"。

第三个层次叫做"跨类别语义物体对应"(Cross-SOC),挑战最大。要把一辆汽车的前左轮和一辆公共汽车的前左轮对应起来,或者把一辆拖拉机的前左轮对应上去。这需要AI能够抽象出"前左轮"这个概念,并理解它在不同形态的车辆上是如何体现的。

为了支撑这三个层次的测试,研究团队建立了一个横跨100个物体类别的关键点分类体系,把这100类物体组织成四个大类:交通工具(31类,包括汽车、公交车、火车、飞机、自行车等)、手持物品(20类,包括吉他、小提琴、电锯、手枪等)、家具(9类,包括椅子、桌子、床等)以及动物(40类,覆盖了大量哺乳动物和鸟类)。

每一个关键点都用一个"元组"来描述:物体类别是什么、涉及的概念是什么、这个概念点在部件内的位置、这个部件在整个物体上的位置。比如,"公交车前左轮的中心点"这个关键点,就用(公交车,轮子,中心,前左)这四个要素来唯一确定。这种标注方式彻底消除了歧义,任何人按照这套规则标注,结果都应该是一致的。

四、4000张图、100万对应关系:数据是怎么收集的

光有框架还不够,还需要大量高质量的标注数据。研究团队的数据收集工作相当扎实。

所有图片都来自著名的ImageNet数据集,这是计算机视觉领域最重要的图像库之一,包含了海量日常物体的图片。对于人造物体类别,研究团队借助ImageNet3D数据集已有的二维和三维标注信息来辅助工作;对于动物类别,则利用了Animal3D数据集中已有的动物关键点标注。筛选标准很严格:图片必须包含有效的姿态信息,画面中只能有一个主要物体,而且物体必须足够大。

每个物体类别选取40张图片,确保覆盖不同的拍摄角度、不同的形态变化和不同的个体差异。100个类别乘以40张,一共4000张图片。

人造物体的关键点标注工作通过亚马逊的众包平台(Amazon Mechanical Turk,AMT)进行,但设计了严格的质量控制流程。研究团队专门开发了一个用户友好的标注界面,里面内置了关键点参考卡——告诉标注者这个关键点应该在哪里,长什么样。每一张图片由三位合格的标注者独立完成,结果经过去除异常值后取中位数合并。所有标注都经过了人工复核,确保一致性和准确性。

质量检验的结果相当令人满意:标注者之间的差异,用图像最大边长的百分比来衡量,中位数只有0.85%——大约只有一两个像素的误差。在人工复核阶段,65.4%的标注只需要做细微调整,仅有6.8%需要较大修正(主要是因为某些标注者混淆了"左"和"右"的约定)。

最终,通过在同类别图片之间配对(要求至少有三个共享关键点),研究团队生成了约73000对"语义物体对应"图像对,包含约56万组关键点对应关系。跨类别配对则更加庞大,由于类别之间的配对组合数量巨大,最终生成了约130万对跨类别对应关系。加上同样图像对生成的"概念对应"数据,整个数据集覆盖超过100万组对应关系。

每个关键点还配套了一句自然语言描述,比如"公交车前左轮的中心点"。这些描述按照统一模板生成,确保表述一致,也为后续测试语言-视觉模型奠定了基础。

五、14个顶级AI模型一一接受"驾照考试"

有了这套完整的测试体系,研究团队挑选了14个当前最具代表性的视觉基础模型来参加这场"驾照考试"。评分标准叫做PCK(正确关键点百分比):预测出来的关键点位置,如果落在真实位置方圆一定范围(以物体包围框最大边长的10%为半径)之内,就算答对了,最终计算答对比例。

这14个模型来自不同的技术路线。DINO家族(包括DINOv1、DINOv2、DINOv3)是用自监督学习训练的,没有人工标注的监督信号,只靠图像自身的内在结构来学习特征。iBOT和I-JEPA也是自监督模型,但训练方式各有特点。C-RADIOv3和DUNE是从其他强大模型"蒸馏"出来的,学生模型继承了老师模型的能力。SD 2.1是大名鼎鼎的Stable Diffusion扩散模型,最初是用来生成图像的,这次被用来提取特征。CroCov2是专门针对多视角重建任务训练的。MAE是一种"遮住图像的一部分,让模型学着把它补全"的自监督方法。PIXIO是把这种补全式学习大规模扩展后的结果。CLIP则是用大量图文对训练的,学会把图像和对应的文字描述对应起来。PE-Spatial是PerceptionEncoder的空间感知变体,用了非常大规模的对比学习数据。QWEN-L是多模态大语言模型Qwen2.5-VL的视觉编码器部分。

测试在三种难度下进行,对应前面介绍的三个层次:概念对应(CC)、语义物体对应(SOC)和跨类别语义物体对应(Cross-SOC)。每种测试抽取固定的2万对图像进行评估,确保每个类别的比例均衡。

六、最强模型也过不了的关:被数据揭示的三大盲点

测试结果展现出了一幅相当清晰的图景,可以用三条核心发现来概括。

第一条发现:强大的语义识别能力,不代表对物体几何结构的理解。

这一点在所有模型上都表现得非常一致。以DINOv2为例,它在概念对应(CC)任务上的得分高达78.9分,算是相当强了。但切换到语义物体对应(SOC)之后,分数掉到了60.4分,直接跌了18.5分。这个跌幅说明,DINOv2能认出"这里有一个轮子",但经常搞不清楚这个轮子是前轮还是后轮、左边还是右边。

更有趣的是,这个跌幅随着模型整体能力的增强而增大,而不是减小。换句话说,越聪明的模型,在这个问题上暴露出来的差距反而越大——因为它们在概念识别上爬得越高,几何感知能力的短板就越明显。

进入跨类别对应(Cross-SOC)测试之后,分数进一步下滑。DINOv2的跨类别得分是55.0,比概念对应低了近24分。排在第二位的DINOv3,CC得分69.7,SOC得分55.5,Cross-SOC得分49.4,同样呈现出阶梯状下滑。

相比之下,像MAE和CroCov2这样主要做图像补全或重建的模型,无论在哪个层次上分数都很低(大约10分左右),接近随机猜测。这些模型学到的是"怎么把一张图修好",而不是"图里的物体部件叫什么、在哪里"。

反观Stable Diffusion(SD 2.1),它的整体分数中等,但在专门测试几何感知能力的SOC-geo(只看模型能不能区分同一概念的不同几何实例,比如区分前轮和后轮)测试中,SD 2.1的得分高达66.96分,超过了DINOv2的60.97分。这说明图像生成模型在某种程度上学到了比判别式模型更多的空间几何信息,因为生成图像本身就需要准确理解物体各部件的空间位置。

第二条发现:不同物体类别对模型的挑战程度差异悬殊。

四个大类在SOC测试上的表现很不一样。家具类别对所有模型来说都是最难的,DINOv2在家具上的SOC得分只有45.5,但CC得分却高达77.5,差距超过32分。这很容易理解——椅子有四条腿,桌子也有四条腿,这些腿在外观上几乎一模一样,模型很难根据局部外观来判断这到底是哪一条腿。

交通工具类别的情况类似,因为车辆通常有左右对称的多个相同部件(四个车轮、多个车门窗)。动物类别的跌幅相对小一些——毕竟动物不同部位的外形差异更明显,头和尾巴很难搞混。手持物品类别居中。

另外,在家具类别的SOC任务上,DINOv3(59.9分)明显超过了DINOv2(45.5分),尽管DINOv2在整体上表现更好。这提示不同的训练方式会带来不同的优势,综合排名掩盖了很多有价值的信息。

第三条发现:密集的自监督学习目标比全局对齐的目标更有利于语义对应。

DINO家族的模型在概念对应任务上表现突出,说明它们的自监督目标促使模型学到了强健的局部语义特征。与此对比鲜明的是CLIP——CLIP用大量图文对进行对比学习,训练目标是让整张图像的全局特征和对应文字描述对齐,结果它在CC任务上只有24.9分,比DINOv2低了54分。

这个发现的含义是:为了认识"整张图描述了什么"(比如"这是一张草地上有一只狗的图片")而训练的模型,和为了精确定位"图里某个具体部件在哪里"而训练的模型,学到的是不同类型的表示。前者擅长全局理解,后者擅长局部定位。

有意思的是I-JEPA,它只在ImageNet-1k这个相对较小的数据集上训练,却在SOC任务上取得了46.3分,表现出相当不错的结果。这也许和SOCO数据集本身来自ImageNet有关——I-JEPA对这些图像的"熟悉度"更高。

七、语言模型来参加视觉考试,结果如何

SOCO的另一个重要贡献是系统性地测试了那些既能看图又能理解文字的大型视觉-语言模型(LVLMs)。参与测试的模型包括LLaVA-OV-7B、InternVL3.5-8B、Qwen2.5-VL(3B和7B两个版本)、Qwen3-VL(4B和8B两个版本)以及GPT-4o。

测试形式被设计成四选一的选择题:在目标图像上标记四个候选关键点A/B/C/D,问模型"哪一个是正确的对应点"。为了防止模型靠猜答案的顺序来作弊,每道题用四种不同的选项排列问四遍,只有四次都答对才算真正答对。这种严格的评分方式叫做CircularEval协议。随机猜测的期望分数是25分。

测试分三种情境进行。第一种(Vis.)是纯视觉模式:在来源图像上用红色箭头标出查询关键点,让模型根据这个视觉提示找到目标图像上对应的点。这是最直接的跨图像视觉对应测试。第二种(Vis.+Desc.)在视觉提示的基础上额外提供文字描述。第三种(Desc.)完全去掉来源图像,只给文字描述,让模型在目标图像上找到被描述的关键点。

结果揭示了一个非常一致的规律:所有测试的模型,在纯文字描述模式下的表现都明显好于纯视觉模式,而加了文字描述之后的表现也好于纯视觉模式。Qwen2.5-VL-7B在纯视觉模式下只有19.4分(仅比随机猜测高出不到8分),切换到文字描述模式后跳升到39.1分。LLaVA-OV-7B在纯视觉模式下只有可怜的2.9分,远低于随机猜测水平,这意味着它甚至在主动犯错;但用文字描述之后,它能达到24.3分。Qwen3-VL-8B是所有测试语言模型中表现最好的,文字描述模式下达到54.0分。

这个规律的含义很深刻:当前的大型视觉-语言模型,更擅长的是"看到文字描述,在图里找到对应的东西",而不是"看着一张图上标出的点,再在另一张图上找出对应点"。前者是一种语言引导的定位能力,后者是一种纯粹的视觉对应能力,两者有本质区别。

然而,把语言模型和视觉模型放在同样的四选一协议下比较时,对比更加触目惊心:DINOv2适配成四选一模式后得分高达81.0分,比最强的语言模型Qwen3-VL-8B的54.0分还高出近27分。这说明,即便是不懂语言的纯视觉模型,在精确的视觉特征匹配上依然远强于那些既能看图又能说话的多模态模型。

研究团队还额外测试了不同视觉提示标记(用什么形状、什么颜色来标注关键点)对语言模型表现的影响。结果发现,红色箭头是最有效的组合,各种变体之间的差距在几个百分点以内。

八、SOC得分能预测模型在其他任务上的表现吗

研究团队做了一个很有价值的扩展实验:把SOC评分和多种其他下游任务的表现相关联,看看谁更能预测一个模型的"综合表现"。

参与这个横向比较的一共有37个视觉模型。除了SOC测试,每个模型还在以下任务上进行了评估:语义分割(在ADE20K数据集上测量能否准确划分图像中不同物体的区域)、三维物体检测(在ARKitScenes数据集上测量能否准确定位室内物体的三维位置)、三维姿态估计(在ImageNet3D数据集上测量能否准确推断物体的三维朝向)、多视角几何对应(在NAVI数据集上测量能否在不同视角的图像之间建立精确的几何对应)、零样本跟踪(在TAP-Vid-DAVIS数据集上测量能否在视频中准确追踪指定点的运动)、深度估计和表面法线预测(在NYUv2数据集上测量对单张图像的三维几何理解)。还有一个对照指标:ImageNet k近邻分类准确率,也就是传统上用来衡量模型表现的"标准考试"。

用统计学中的皮尔逊相关系数来衡量SOC分数和各任务分数之间的相关程度,结果非常清晰。SOC分数和多视角几何对应任务的相关系数高达0.943,和零样本跟踪的相关系数是0.907,和三维物体检测的相关系数是0.892,和三维姿态估计的相关系数是0.692,和语义分割的相关系数是0.629,和深度估计的负相关系数是-0.798,和表面法线预测的负相关系数是-0.737(这两个负相关很正常,因为这两个任务的评分方式是误差越低越好,所以和代表能力越强越好的SOC分数呈负相关)。

相比之下,ImageNet kNN分类准确率和这些任务的相关系数要低得多,比如和多视角几何对应只有0.266,和零样本跟踪只有0.286,甚至95%置信区间都包含了0,说明对某些任务来说,ImageNet分类准确率根本不能可靠地预测表现。

这个发现对AI研究社区有很强的实践意义:花大量计算资源在ImageNet上做评估,可能并不是最高效的评估方式。在零样本(不需要额外训练)的前提下做一次SOC测试,能以更低的成本对模型在密集视觉任务上的能力给出更准确的预测。

九、这一切对机器人和未来AI意味着什么

说到底,这项研究为什么值得关注?

机器人要在真实世界里工作,就必须能够可靠地理解物体的结构——不仅要认出"这是一把椅子",还要能准确区分这把椅子的哪条腿是哪条腿,甚至能把之前处理过一把椅子时学到的知识,迁移到另一把形状不同的椅子上。自动驾驶汽车需要精确理解道路上其他车辆的各个部件,才能准确预测它们的行为。医疗影像AI需要精确定位器官上的特定解剖位置,而不只是认出"这是心脏"。

SOCO揭示的问题,正是这些应用场景里最容易出错的地方:模型认得概念,但定位不准;在同一类物体上表现不错,但换一类相关物体就失效了;靠文字描述能找到目标,但靠视觉提示找不到。

归根结底,这个数据集和基准测试体系的价值,不只在于给现有模型"打分",更在于指明了改进的方向——哪些能力还欠缺,哪些测试更能预测实际表现,以及如何构建对物体结构真正具有理解力的下一代视觉模型。

当然,这项研究本身也有局限。数据只覆盖了稀疏的关键点,无法评估密集的像素级对应能力。图片全部来自ImageNet,对训练过ImageNet的模型可能存在一定优势偏差。关键点的文字描述是按模板生成的,更丰富的自然语言描述可能进一步提升语言模型的表现。跨类别对应也只限于该论文定义的层级体系内,更遥远的类比迁移(比如"扳手的把手"和"水龙头的把手"之间的迁移)还超出了当前框架的覆盖范围。这些都是未来继续探索的空间。

有兴趣深入了解这套测试体系的读者,可以通过arXiv编号2605.31597查询完整论文,数据集和代码也已在genintel.github.io/SOCO/上公开。

Q&A

Q1:SOCO基准测试和SPair-71k等旧数据集的核心区别是什么?

A:SOCO的核心区别在于引入了三层递进的测试体系:概念对应、语义物体对应和跨类别语义物体对应,并为每个关键点提供了基于"物体类别+概念+几何位置"的统一标注框架。旧数据集(如SPair-71k)往往把"认出同一部件"和"区分该部件的具体位置"混在一起评分,且不支持跨类别测试,也没有自然语言描述,无法系统评估大型视觉-语言模型。

Q2:为什么DINOv2这类自监督视觉模型在语义物体对应上比CLIP表现好很多?

A:因为两类模型的训练目标根本不同。CLIP的目标是让整张图像的全局特征和对应文字对齐,擅长理解"这张图整体描述了什么"。DINOv2的自监督目标让它去学习图像局部区域的内在结构特征,结果学到了更精准的局部语义表示,在精确定位物体部件时具备明显优势。CLIP在概念对应上得分24.9,DINOv2高达78.9,差距超过54分。

Q3:SOC评分为什么能比ImageNet分类准确率更好地预测模型在跟踪、分割等任务上的表现?

A:因为SOC测试的核心能力——在外观、视角变化下精确定位和匹配物体部件——和跟踪、分割、三维检测等密集视觉任务所需的能力高度重叠。ImageNet分类准确率衡量的是全局语义识别,而大多数实际视觉任务需要的是局部、空间和结构层面的理解。在37个模型的横向比较中,SOC与多视角几何对应的相关系数高达0.943,而ImageNet kNN与该任务的相关系数仅有0.266。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-