微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 MMSI-Bench:上海人工智能实验室打造的多图像空间智能新基准,揭示AI与人类空间认知的巨大差距

MMSI-Bench:上海人工智能实验室打造的多图像空间智能新基准,揭示AI与人类空间认知的巨大差距

2025-06-04 10:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-04 10:15 科技行者

你有没有想过,当人工智能需要理解并推理多张图片之间的空间关系时,它的表现如何?例如,当你走进一个房间,拍了几张不同角度的照片,然后问AI:"从门口进入时,床相对于书桌的位置在哪个方向?"——这类看似简单的问题,对于最先进的人工智能模型来说竟然是一个巨大的挑战。

上海人工智能实验室的研究团队在2025年5月发布的这篇论文《MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence》,系统性地研究了当前多模态大语言模型(MLLMs)在理解多图像空间关系方面的能力,并建立了一个全新的评测基准。该研究由上海人工智能实验室的司寒杨、徐润森(项目负责人)、谢一曼、杨思赫、李墨、林静丽、朱晨明、陈晓晨、段昊东、岳祥宇、林大华、王泰和庞江淼领导完成,目前已在arXiv上公开,正在接受审稿。

让我们想象一下在生活中的场景:你走进一个陌生的房间,拍了几张不同角度的照片,然后想确定房间里各个物品之间的空间关系。这对人类来说是相当简单的任务——我们可以轻松地将不同图片中的信息整合起来,在脑海中重建整个场景的布局。但对AI而言,这却是一个极具挑战性的任务。

在当前人工智能快速发展的背景下,多模态大语言模型(如GPT-4V、Claude和Gemini)已经在单图像理解方面取得了显著进展。然而,研究团队发现,现有的评估基准主要集中在单图像的空间关系理解上,缺乏对多图像空间推理能力的全面评估。这就好比只考察AI能否认出单张照片中的物体,而没有测试它能否将多张照片拼凑成一个完整的空间概念。

为了填补这一研究空白,研究团队倾注了300多个小时,从超过12万张候选图像中精心挑选并构建了1000个高质量的问答对,覆盖了室内场景、自动驾驶、机器人操作等多种现实环境。每个问题都经过精心设计,确保只有通过对多张图像的空间关系进行推理才能得出正确答案。

研究结果令人吃惊:即使是最先进的人工智能模型,在这些空间推理任务上的表现也远远落后于人类。OpenAI的最新模型o3在测试中仅达到41%的准确率,而最好的开源模型只有约30%的准确率,相比之下,人类测试者的准确率高达97%。这56%的差距清晰地表明,即使是当今最先进的人工智能,在多图像空间推理能力上与人类相比仍有很长的路要走。

更进一步,研究团队还通过详细分析,揭示了AI模型在空间推理中面临的四大主要挑战:识别错误(无法正确识别图像中的物体)、重叠匹配和场景重建错误(无法将不同图像中的相同物体关联起来)、情境转换推理错误(在不同参考物之间进行空间关系转换时出错)以及空间逻辑错误(在空间关系的逻辑推理中犯错)。

这项研究不仅揭示了当前AI模型在空间智能方面的局限性,也为未来研究提供了明确的改进方向。随着人工智能日益融入我们的日常生活,提升其空间推理能力将对自动驾驶、家用机器人、增强现实等众多领域产生深远影响。

一、多图像空间智能:一项被忽视的核心能力

空间智能是人类最基本的认知能力之一。想象一下,当你走进一个陌生的房间,即使只看到部分景象,你也能在脑海中构建出这个空间的大致布局,推断出看不到的区域可能有什么。例如,你站在卧室门口,能看到床和窗户,虽然看不到卫生间,但根据看到的线索,你能大致推测卫生间可能在哪个方向。这种能力对我们在日常生活中导航和与环境互动至关重要。

多模态大语言模型(MLLMs)作为人工智能的前沿发展,近年来在语言理解和视觉分析方面取得了长足进步。这些模型可以看图说话,回答关于图像内容的问题,甚至可以描述简单的空间关系,比如"猫在桌子上"或"椅子在沙发旁边"。但研究团队发现,当需要整合多张图像的信息并进行空间推理时,这些模型却表现得相当有限。

研究者将这一挑战形象地比喻为拼图游戏:如果给你一块拼图,你只能看到局部图案;但如果给你多块相连的拼图,你就能推断出更完整的画面。现有的AI评估基准大多只关注"单块拼图"的理解,而忽视了"拼接多块拼图"的能力,这正是MMSI-Bench希望填补的空白。

上海人工智能实验室的研究团队由六位3D视觉研究人员组成,他们深知空间理解对于未来的智能系统,特别是那些需要在物理世界中导航和操作的系统(如自动驾驶汽车、家用机器人)有多么重要。正如论文中所强调的:"空间智能是多模态大语言模型在复杂物理世界中运行的核心能力。"没有这种能力,AI就无法有效地在真实环境中导航和互动。

现有的评估方法主要集中在单图像空间关系的理解上,比如判断"椅子在桌子前面"或"书在架子上"这类简单的空间关系。然而,现实世界的空间理解要复杂得多:我们需要跨越多个视角,追踪物体和自身的移动,关联那些从未在同一帧中共同出现的实体。正如我们在导航陌生城市时需要将地图信息与实时观察结合起来一样,真正的空间智能需要整合多个来源的视觉信息。

二、MMSI-Bench:如何构建一个全面的空间智能测试基准

打造一个既多样化又挑战性,同时又准确无误的基准测试并非易事。想象一下,你要设计一套考试题目,既要确保题目覆盖各种知识点,又要保证每道题都有明确的答案,还要让题目具有足够的难度——这正是研究团队在构建MMSI-Bench时面临的挑战。

研究团队采取了与以往不同的方法。以往的许多基准测试依赖模板化的问题生成或从已有注释中自动提取问题,这种方法虽然高效,但往往缺乏多样性和覆盖面。MMSI-Bench则采用了完全人工设计的方式,由专业研究人员精心构建每一个问题。

具体来说,研究团队首先定义了十个基础空间推理任务类型,涵盖了三个核心空间元素(相机/观察者、物体和区域)之间的位置关系、属性和运动。这些任务类型包括:

相机与相机之间的位置关系(例如:"当我拍摄第二张图片时,相对于第一张图片的位置在哪里?")、相机与物体之间的位置关系("拍摄第二张图片时,黑色门相对于我的位置在哪里?")、相机与区域之间的位置关系("拍摄最后一张图片时,打印区域相对于你的位置在哪个方向?")、物体与物体之间的位置关系("鹿头装饰品在神话雕像的西侧,那么房间里的壁画相对于雕像的方向是?")、物体与区域之间的位置关系("学习室的白板挂在北墙上,那么墙上的画相对于学习室中心的位置在哪个方向?")、区域与区域之间的位置关系("床尾的粉色长凳在床的东侧,浴室相对于卧室的位置在哪个方向?")、测量属性("墙上的油画和镜子下方的桌子,哪个更长?")、外观属性("从俯视角度看,图像中可见的建筑部分是什么形状?")、相机运动("图像是从第一人称视角连续拍摄的,相机朝哪个方向旋转?")和物体运动("相机朝后方,赛车朝哪个方向移动?")。

除了这些基础任务外,研究团队还设计了多步推理任务,将多个基础任务串联起来形成更具挑战性的长链问题。例如:"当我从图3中的门进入时面朝南,灯相对于椅子的位置在哪里?"这类问题需要推理者首先确定自己的位置和朝向,然后分析灯和椅子相对于自己的位置,最后计算出灯相对于椅子的位置关系。

整个数据集的构建过程非常严谨。六位3D视觉研究人员花费了300多个小时,从超过12万张候选图像中筛选出合适的图像组合。每个问题都经过精心设计,确保只有通过对多张图像进行推理才能得出正确答案。问题采用四选一的多项选择形式,每个问题都配有详细的推理过程解释。

为了确保数据质量,研究团队实施了严格的质量控制流程。三位额外的审核员系统地检查所有数据,剔除任何含有歧义(由于语言歧义或视觉信息不足)、答案不正确,或者可以仅使用单张图像或常识就能回答的问题。这种严格的质量控制确保了基准测试的可靠性和挑战性。

最终的MMSI-Bench包含1000个高质量的问答对,涵盖了从室内场景到自动驾驶、机器人操作和日常活动等多种现实环境。数据来源多样,包括ScanNet、Matterport3D(室内3D场景)、nuScenes、Waymo(自动驾驶)、AgiBot-World(机器人)、DTU(场景重建)、DAVIS 2017(视频分割)和Ego4D(第一人称视频)等多个公开数据集。

三、当前AI模型的空间智能水平:惊人的差距

如果把空间智能比作一场考试,那么当前最先进的AI模型表现如何呢?研究团队对34种广泛使用的多模态大语言模型进行了全面评估,包括最新的专有模型(如OpenAI的o3、GPT-4.5、Claude-3.7-Sonnet等)和开源模型(如Qwen2.5-VL、InternVL3、LLaVA-OneVision等)。

评估结果揭示了一个惊人的事实:即使是最先进的AI模型,在多图像空间推理方面的表现也远远落后于人类。最好的专有模型OpenAI的o3仅达到41.0%的平均准确率,最好的开源模型Qwen2.5-VL-72B只达到30.7%的准确率,而人类测试者的准确率高达97.2%。这表明,在多图像空间推理能力上,AI与人类之间存在着巨大的差距。

具体来看,不同类型的空间推理任务对AI模型构成了不同程度的挑战。大多数模型在相机-相机位置关系、属性测量和区域-区域位置关系上表现相对较好,而在相机运动理解上表现最差。例如,对于开源模型来说,在相机运动任务上的准确率普遍低于25%,几乎接近随机猜测的水平(25%)。

多步推理任务也是模型的一大难点。大多数模型在多步推理任务上的表现低于单步任务,表明整合多个推理步骤对当前AI模型来说仍然是一个挑战。例如,o3模型在多步推理任务上的准确率为41.0%,而在位置关系、属性和运动等单步任务的平均表现略高。

有趣的是,研究发现,简单地增加模型参数量并不能显著提高空间推理能力。例如,Qwen2.5-VL-72B的准确率仅比Qwen2.5-VL-32B高3%,InternVL3-78B比InternVL3-1B仅高1.5%。更令人惊讶的是,NVILA-15B的表现超过了大多数拥有70多亿参数的模型。这表明,目前提高多模态大语言模型空间推理能力的瓶颈可能主要在于数据质量和多样性,而非简单地增加模型规模。

研究团队还尝试了各种提示技术,看是否能提升模型的空间推理能力。他们采用了广泛使用的零样本思维链(Chain-of-Thought)方法,在提示中添加"让我们一步一步思考"这样的引导语,以及使用视觉提示技术,通过在图像之间绘制对应点来显式地指示跨图像关系。然而,这些技术的效果有限,对某些模型带来了轻微的性能提升,而对另一些模型则导致性能下降。

这些发现表明,当前多模态大语言模型在多图像空间推理方面存在根本性的局限,这些局限难以通过简单的提示技术来克服。正如研究者所指出的:"当前模型仍然缺乏利用这些线索的基本空间智能:它们可能无法认识到需要识别图像之间的重叠来建立空间关系,或者即使识别了重叠,也难以重建实际场景。"

四、剖析AI的空间推理困境:四大关键障碍

为了深入理解当前AI模型在多图像空间推理中面临的具体挑战,研究团队对模型的推理过程进行了详细分析。想象一下你在教一个孩子解决数学题,当他做错了,你需要找出他具体在哪一步出了问题——是没理解题意,还是计算错误,或是概念混淆?研究团队对AI模型进行了类似的"诊断"。

通过分析GPT-4o模型在MMSI-Bench上的表现,研究者识别出四种主要的错误类型:

首先是识别错误(Grounding errors)。这类错误发生在模型无法正确识别或定位图像中的相关物体或细节时。就像戴着模糊眼镜看世界,模型可能会错误地分类物体或错误判断物体的位置,这直接影响了它基于实际图像内容进行推理的能力。例如,模型可能无法正确识别图像中的梯子,或者错误判断梯子的位置。

第二类是重叠匹配和场景重建错误(Overlap-matching and scene-reconstruction errors)。这类错误出现在模型无法识别并匹配代表真实场景中相同位置或物体的对应点时,以及在基于这些跨图像关系隐式重建底层场景时遇到困难。就像拼图游戏,模型需要认识到两张不同图片中的同一棵树实际上是同一棵树,否则就无法正确重建场景布局。

第三类是情境转换推理错误(Situation-transformation reasoning errors)。当模型在推理不同参考物之间的空间方向关系,或者在相对方向(如左右)和绝对方向(如东南西北)之间进行转换时出错,就会发生这类错误。这就像我们在导航时需要将"左转"转换为"向东"这样的能力,模型在这种转换中常常出错。

第四类是空间逻辑错误(Spatial-logic errors)。模型在空间逻辑推理中可能表现出多种错误,包括:(1)臆造不存在的空间关系;(2)错误应用空间关系的传递性——例如,给定A在B的东边,B在C的东边,模型错误地推断A在C的西边;(3)在运动推理中错误地选择参考物,如使用另一个移动的物体作为参考点来判断物体的运动状态。

研究团队进一步开发了一种自动化错误分析管道,利用人类标注的推理过程作为参考,来系统地诊断模型在整个基准测试中的错误类型。这种分析显示,即使当最终答案正确时,推理过程中仍可能存在重大错误。在各种错误类型中,重叠匹配和场景重建错误在所有模型中占比最大,表明这是未来提升空间智能的一个明确方向。

有趣的是,研究者发现,单纯提供正确答案对于有效评估推理过程帮助有限。当只给出正确答案而没有标注的推理步骤时,GPT-4o与人类评估者的判断只有53.6%的一致性;而当提供了人类标注的推理步骤后,一致性提高到了71.8%。这突显了高质量人类标注在进行可靠自动化错误分析中的重要作用。

五、空间智能的未来:从MMSI-Bench看AI发展方向

MMSI-Bench的研究不仅揭示了当前AI模型在空间推理方面的局限性,也为未来研究指明了方向。正如研究者在论文中指出的:"MMSI-Bench揭示了当前MLLMs与人类水平空间智能之间的实质性差距,为未来研究提供了宝贵的北极星。"

这种差距不仅仅是学术上的兴趣点,而是对AI实际应用的重要限制。想象一下,一个家用机器人需要理解"帮我从厨房的左边柜子里拿一个杯子"这样的指令,或者一辆自动驾驶汽车需要理解"在前方十字路口右转后的第二个路口左转"——这些任务都需要强大的空间推理能力,尤其是在多个视角和时间点之间整合信息的能力。

研究团队提出,提升模型的空间推理能力可能需要多方面的努力:

首先,需要更高质量、更多样化的训练数据。当前的研究发现,简单增加模型规模带来的收益有限,这表明数据质量和多样性可能是关键因素。特别是,开源模型在相机运动任务上的普遍低表现可能是因为它们缺乏标注良好的第一人称运动数据。

其次,可能需要改进模型架构或训练范式。研究发现,现有的提示技术对提升空间推理能力效果有限,这表明可能需要在模型架构或训练方法上进行更根本的创新。例如,可以考虑引入特定的空间关系建模组件,或者设计能更好地捕捉和推理跨图像空间关系的训练任务。

第三,利用MMSI-Bench提供的详细推理过程进行监督学习或微调也是一个潜在的改进方向。这些人类标注的推理步骤提供了空间推理的显式示例,可以帮助模型学习更好的推理策略。

最后,结合3D表示或几何理解可能也是一个有前途的方向。目前的多模态大语言模型主要基于2D图像理解,缺乏对3D几何的明确建模。结合3D表示或几何理解可能有助于模型更好地重建场景结构并进行空间推理。

六、展望:空间智能对未来AI的意义

MMSI-Bench的研究不仅是对当前AI空间推理能力的一次全面评估,也为我们思考AI未来发展提供了一个窗口。空间智能是人类认知的基础能力之一,它使我们能够在物理世界中有效导航和互动。随着AI系统越来越多地融入我们的日常生活,无论是家用机器人、智能助手还是自动驾驶车辆,它们都需要具备强大的空间理解和推理能力才能真正有用。

MMSI-Bench的研究表明,即使是当前最先进的AI模型,在多图像空间推理方面与人类相比仍有巨大差距。这一差距提醒我们,尽管AI在许多方面取得了令人印象深刻的进展,但在某些基础认知能力上仍有很长的路要走。

同时,这项研究也为未来工作提供了明确的方向。通过识别具体的错误类型和挑战,研究者为提升AI的空间推理能力提供了具体的目标。MMSI-Bench作为一个综合基准,不仅可以用来评估当前模型的能力,也可以作为开发新模型和方法的指导。

在更广泛的背景下,这项研究也引发了关于AI认知能力本质的思考。空间推理需要整合多个信息源,建立一致的心理表征,并在这一表征基础上进行推理——这些能力超越了简单的模式识别,触及了真正的"理解"领域。探索如何赋予AI这些能力,不仅对实际应用有价值,也可能为我们理解认知本身提供新的视角。

上海人工智能实验室的这项研究,通过提供MMSI-Bench这一严格评估基准,为多图像空间推理这一关键AI能力的研究开辟了新的道路。正如论文的结束语所示:"我们希望MMSI-Bench能够成为社区的宝贵资源,加速朝向更具空间能力和鲁棒性的多模态AI系统的进展。"

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-