微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 SpatialScore:多模态空间理解的统一评测基准——上海交通大学AI团队如何挑战大模型的3D空间感知能力

SpatialScore:多模态空间理解的统一评测基准——上海交通大学AI团队如何挑战大模型的3D空间感知能力

2025-05-28 08:09
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-28 08:09 科技行者

**为什么我们需要关注AI的空间理解能力?** 假设你正在超市购物,让你的AI助手告诉你"哪一盒牛奶离你更近"或"转弯后右侧第二个货架是什么",这些看似简单的问题,实际上涉及复杂的3D空间理解能力。尽管当前多模态大语言模型(MLLMs)在回答"这是什么"、"谁在画面中"等语义问题表现出色,但它们是否真正理解空间关系、相机运动和物体距离等几何特性呢?

这正是由上海交通大学人工智能学院的吴昊宁、黄晓等人,联合上海AI实验室在2025年5月提出的研究"SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding"所要探索的核心问题。这篇发表在arXiv上的研究(arXiv:2505.17012v1)围绕一个关键问题展开:**现有的多模态大语言模型是否真正具备3D空间感知和理解能力?**

想象一下,如果你让AI告诉你"桌子和沙发之间的距离有多远",或者"基于这两张照片,相机是如何移动的",大多数现有模型往往会茫然不知所措。这是因为真正的空间理解需要模型不仅能"看见"画面中的物体,还要理解它们在三维空间中的位置、方向和相互关系。就像人类在现实世界中导航一样,需要直觉理解空间几何关系。

这项研究的重要性不仅在于评估当前AI模型的空间理解能力,更在于为未来的模型发展提供明确方向。设想一下,如果家用机器人或自动驾驶汽车无法准确理解"左转"、"前方两米"这样的空间指令,后果将会多么严重。

研究团队的贡献主要包括四个方面:首先,他们创建了专门评估视觉几何感知能力的VGBench基准测试;其次,他们整合了11个现有数据集,提出了迄今为止最全面的空间理解评测基准SpatialScore;第三,他们开发了名为SpatialAgent的多代理系统,集成9种专业工具来增强空间理解能力;最后,他们通过大量实验揭示了当前模型在空间推理方面仍然存在的挑战,同时证明了SpatialAgent的有效性。

让我们一起深入了解这项研究如何为AI注入"空间感",以及这对未来AI应用有何重大意义。

一、为什么现有AI模型缺乏空间理解能力?

想象你站在一个陌生的房间里,仅凭一张照片,你可以立刻判断哪个物体离你更近,哪个物体放在另一个物体的上方,甚至能大致估计物体间的距离。这种空间感知能力对人类来说是如此自然,但对AI模型却是巨大挑战。

在传统计算机视觉研究中,3D视觉几何感知被认为是一个"已解决"的问题(尽管依赖优化算法),有着完善的工具和严谨的数学基础。近期研究已经通过前馈神经网络重新激活了这些经典方法。然而,这些进展仍局限于纯视觉范式,缺乏与语言理解的整合和统一的评估协议。

现有的评测基准主要存在两个关键限制:一是任务过于简单,主要关注表面的空间相关查询(如基本物体存在或位置关系),忽略了严格的视觉几何理解(如相机姿态和动态);二是评估范围狭窄,通常是片面的,考虑简单问题(如是/否判断),单一模态输入(如静态图像),或孤立技能(如距离或大小估计),缺乏衡量整体空间推理能力的统一框架。

上海交通大学的研究团队发现,尽管现有多模态大语言模型在语义理解和逻辑推理方面取得了令人印象深刻的进展,但在处理空间几何问题时表现不佳。例如,当被要求估计物体距离、判断相机运动方向或计算同一物体在不同视角下的位置时,这些模型往往给出错误或不一致的答案。

这种情况就像一个能流利描述周围环境但无法准确判断距离和方向的导游——表面上看似懂得很多,但实际应用价值有限。正如研究团队所言:"集成语义理解与空间几何感知将成为多模态大语言模型的下一个演化步骤。"

二、VGBench与SpatialScore:全面评估空间理解能力的新基准

为了系统评估AI模型的空间理解能力,研究团队首先开发了VGBench,这是一个专门设计用于评估视觉几何感知能力的基准测试。

VGBench的构建过程非常精细。研究团队从ScanNet、ScanNet++、CA-1M和WildRGB-D等数据集中随机选取了约300个场景,这些场景都带有精确的3D注释(如深度图和3D边界框)。随后,他们结合预定义的问题模板与大语言模型改写,构建了开放式问答对,确保问题的多样性。为了便于定量评估,他们还将部分开放式问答转换为判断和多选格式,采用三种策略生成既合理又具挑战性的干扰选项。

想象VGBench就像一个空间智力测试,包含了各种视觉几何感知任务,例如:

1. 相机参数估计:就像要求AI判断"拍照人站在什么位置,镜头朝哪个方向" 2. 深度估计:要求AI判断"哪个物体离相机更近"或"这个区域的平均深度是多少米" 3. 距离估计:要求计算两个物体中心之间的实际距离 4. 单应矩阵估计:判断两张图片之间的几何变换关系 5. 物体位置:确定3D空间中物体的精确位置 6. 姿态估计:判断相机在两个位置之间的相对旋转和平移 7. 点跟踪:识别同一个3D点在不同图像中的对应位置

VGBench最终包含6000个高质量样本,涵盖判断题、多选题和开放式问答格式。这就像给AI模型出了一套全面的空间几何测试题,测试它们是否真正理解三维世界的规则。

在VGBench的基础上,研究团队进一步整合了11个现有的空间相关数据集,构建了名为SpatialScore的全面空间理解基准。这些整合的数据集包括MMVP、RealWorldQA、SpatialSense、VSR、SpatialBench、CV-Bench、QSpatialBench、3DSRBench、VSI-Bench,以及BLINK和MMIU中的空间相关子集。

想象SpatialScore就像一所完整的空间理解学校,包含各种难度和类型的课程。总共有28,093个样本,分为8大类别:

1. 计数:要求AI数出场景中特定物体的数量 2. 物体定位:确定物体在2D或3D空间中的位置 3. 3D位置关系:理解物体之间的相对位置关系 4. 深度与距离:估计物体的深度或物体之间的距离 5. 物体属性:判断物体的大小、形状、方向等属性 6. 相机与图像变换:理解相机运动和图像变换 7. 点/物体跟踪:跟踪多帧图像或视频中的点或物体 8. 其他:包括各种不属于上述类别的空间理解任务

此外,研究团队还精心策划了SpatialScore-Hard子集,包含1,400个特别具有挑战性的样本。这些样本是通过严格流程筛选出来的:首先识别至少16个不同规模的多模态大语言模型(从1B到78B参数)都无法给出正确答案的样本,并且要求至少有两个大型模型(32B+参数)在每个样本上失败。这些候选样本经过手动验证并在各类别间平衡,形成了一个能更好揭示当前模型在空间理解方面局限性的集中子集。

如果把VGBench比作专业的空间几何考试,那么SpatialScore就是一套全面的空间理解评估系统,而SpatialScore-Hard则是其中特别具有挑战性的高级测试题。这三者共同构成了迄今为止最全面、最多样化的空间理解评测基准。

三、SpatialAgent:增强空间理解能力的多代理系统

发现问题后,研究团队并未止步于评估,而是提出了一个创新的解决方案——SpatialAgent,这是一个专为空间理解设计的多代理系统。

想象SpatialAgent就像一个专家团队,每个专家负责空间理解的不同方面,共同合作解决复杂的空间问题。这个系统集成了9种专业工具,涵盖2D感知、运动与变换、相机与几何、以及辅助工具四大类别。

在2D感知方面,SpatialAgent使用RAM++进行开放词汇表物体识别,OWLv2进行准确的物体检测和定位,SAM2进行实例分割以细化定位并量化物体比例。结合深度线索和现实世界先验知识,这些工具使系统能够可靠地估计物体的物理尺寸。

在运动与变换方面,系统集成了RAFT光流估计算法,用于分析多帧序列或视频中的运动。这有助于相机运动分析,结合2D感知模块,还能实现物体级和区域级运动跟踪。此外,系统利用OpenCV中的SIFT算法进行特征匹配和单应性估计,支持点跟踪和图像对齐任务。

对于相机与几何方面,SpatialAgent集成了VGGT用于从单帧或多帧输入估计相机参数(内参和外参),DepthAnythingV2用于使用特定领域模型(室内/室外)进行深度估计,以及OrientAnything用于估计3D物体方向,便于细粒度空间关系推断。

最后,辅助工具包括基本图像操作(如裁剪、调整大小)和数值计算工具。专门的Terminate动作用于整合工具输出并标志推理完成。此外,系统还采用目标提示工程来增强开源多模态大语言模型(如Qwen2.5-VL、InternVL3)的逐步推理能力。

SpatialAgent的工作方式有两种不同的范式:Plan-Execute(计划-执行)和ReAct(推理-行动)。

Plan-Execute范式就像是先制定详细的行动计划,然后按步骤执行。具体来说,系统先由计划者(planner)生成工具调用计划,然后执行者(executor)按顺序执行计划并获取工具输出,最后总结者(summarizer)根据工具输出和原始输入生成最终响应。这种方法在高效制定和执行计划方面表现出色,但预先确定的执行路径可能在复杂场景中牺牲精度。

ReAct范式则更像是一个迭代推理过程,通过动态规划适应中间输出。系统由观察者(observer)、执行者(executor)和总结者(summarizer)组成,维护一个记录所有中间交互的内存模块。观察者根据原始输入和完整交互历史生成下一个动作,执行者相应处理,这个迭代过程持续到观察者输出Terminate动作,触发总结阶段。ReAct范式通过动态规划展现出更好的灵活性,但由于其迭代性质,效率可能较低。

这两种范式通过精心设计的提示词驱动,各有优势:Plan-Execute高效但可能缺乏灵活性,ReAct灵活但效率较低。总体而言,SpatialAgent就像一个由多个专家组成的团队,根据不同的问题类型选择最合适的工作方式,大大提升了现有模型的空间理解能力。

四、实验结果:当前模型的空间理解能力如何?

研究团队在SpatialScore基准上对25个代表性模型进行了广泛实验,这些模型参数规模从1B到78B不等,包括InternVL2.5、InternVL3、Kimi-VL、Qwen2.5VL、LLaVA-OneVision、LLaMA-3.2V等通用多模态大语言模型,以及SpaceQwen2.5VL、SpatialBot和SpaceLLaVA等专为空间理解微调的模型。

实验结果令人深思:即使是最先进的模型,在空间理解任务上的表现也远非完美。在VGBench上,最佳模型InternVL3-78B的总体准确率仅为43.53%,这表明当前模型在视觉几何感知方面存在显著局限。特别是在涉及单应矩阵、相机参数、3D重建以及距离/深度估计的任务上,表现尤为不佳。

在SpatialScore整体基准上,最佳模型InternVL3-78B的准确率为60.17%,虽然表现较好,但仍有很大提升空间。有趣的是,更大的模型通常表现更好,这表明随着参数规模增加,空间推理能力确实有所提升。然而,即使是最大的模型,其绝对性能仍然有限,说明在全面空间理解方面仍有很大改进空间。

此外,专为有限空间相关数据微调的模型(如SpaceQwen2.5VL-3B、SpaceLLaVA-13B)表现出较差的泛化能力,在多样化且具挑战性的SpatialScore基准上表现不佳。这就像一个只学会了某一种特定道路导航的司机,在陌生复杂环境中容易迷失方向。

在2D vs 3D推理方面,虽然现有模型能适度处理基本2D空间任务(如物体定位),但在3D空间推理方面表现明显较差,特别是在需要视觉几何感知的任务上,如相机参数预测和图像变换(单应矩阵)。

在SpatialScore-Hard子集上的表现更加突出地揭示了当前模型的局限性。即使是开源和专有模型(如商业API)在这个具有挑战性的子集上也表现不佳,进一步强调了这些样本的难度。

与此相比,研究团队提出的SpatialAgent展示了显著的改进。即使使用Qwen2.5VL-7B和InternVL-8B等紧凑模型作为代理核心,SpatialAgent也能提升它们的空间理解能力,超越所有开源模型,甚至在几个类别中超过专有系统。这些改进归功于SpatialAgent的结构化、工具调用框架,验证了其系统化、工具增强的推理框架在复杂空间任务中的决定性优势,特别是在那些需要精确视觉几何和多步推理的任务中。

具体来说,在SpatialScore-Hard上,SpatialAgent-Intern-PE(使用Plan-Execute范式)的总体准确率达到46.08%,远高于未增强的InternVL3-78B(21.79%)和商业API如GPT-4o(30.57%)。这表明通过集成专业工具和结构化推理,即使相对小型的模型也能在空间理解任务上取得显著进步。

然而,即使是SpatialAgent,偶尔也会失败,通常是由于工具执行次优或对中间结果的误解(例如,混淆深度与物体距离)。这些局限性预计会随着多模态大语言模型理解能力的提升和工具箱设计的改进而减少。

总的来说,这些实验结果既揭示了当前模型在空间理解方面的持续挑战,又证明了SpatialAgent的有效性。虽然通过工具增强方法取得了显著进步,但空间理解领域仍需要基础性的架构创新。

五、未来展望:空间智能研究的下一步是什么?

随着人工智能向实体环境应用的不断拓展,空间理解能力将变得越来越重要。研究团队的工作不仅评估了当前模型的能力,还为未来研究指明了方向。

从短期来看,SpatialAgent代表了一种有效的过渡解决方案,通过集成专业工具和结构化推理,显著提升了现有模型的空间理解能力。这种方法可以立即应用于实际场景,如智能家居、机器人导航和增强现实应用。

然而,从长期来看,真正的突破可能需要在模型架构上进行基础创新。就像人类不需要明确计算就能直观理解空间关系一样,未来的AI模型可能需要内建空间几何理解能力,而不仅仅依赖外部工具。

此外,研究团队开发的VGBench和SpatialScore提供了全面评估空间理解能力的标准,这将有助于推动该领域的发展。这些基准测试不仅评估模型当前的能力,还指出了需要改进的具体方向。

在方法论方面,SpatialAgent展示的Plan-Execute和ReAct范式为复杂问题的解决提供了有效框架,可能会影响未来多模态系统的设计。特别是对于需要多步推理和专业工具协作的任务,这种多代理系统方法可能会变得越来越普遍。

具体到应用层面,随着空间理解能力的提升,我们可以期待更自然、更直观的人机交互。例如,能够理解"把这个放在那个旁边"或"朝门的方向走五米然后右转"等自然指令的机器人助手。同样,增强现实应用可以更准确地将虚拟内容融入物理空间,自动驾驶系统可以更好地理解复杂的交通环境。

最后,该研究揭示的一个重要见解是:即使是最先进的模型,在处理需要3D空间感知的任务时仍然存在显著局限。这提醒我们,尽管在语义理解和逻辑推理方面取得了令人印象深刻的进展,AI仍然缺乏人类视为理所当然的某些基本能力。弥合这一差距将是未来研究的关键挑战。

结语

想象一个能够精确理解并导航我们三维世界的AI系统。这不再是科幻小说中的场景,而是随着上海交通大学研究团队的这项开创性工作,正在逐步成为现实。

归根结底,SpatialScore研究的核心贡献在于系统地揭示并解决了当前多模态大语言模型在空间理解方面的局限性。通过构建全面的评测基准,研究团队不仅为我们提供了衡量AI空间智能的标尺,还通过SpatialAgent展示了提升这种能力的可行路径。

对于普通用户来说,这项研究意味着未来的AI助手将能更好地理解我们的空间相关指令。无论是指导你在超市找到特定商品,还是帮助你重新布置家具,或者在陌生城市为你导航,空间理解能力的提升将使AI在日常生活中变得更加实用和自然。

对于研究人员和开发者来说,VGBench、SpatialScore和SpatialAgent提供了宝贵的资源和方法,为未来的模型发展提供了明确方向。这些工具将帮助下一代AI系统不仅能"看见"世界,还能真正"理解"世界的空间结构。

正如研究团队所言,整合语义理解与空间几何感知将成为多模态大语言模型的下一个演化步骤。随着这一进展,AI将离真正的"空间智能"更近一步,这对于从家用机器人到自动驾驶车辆等各种实体AI应用都具有深远意义。

你是否曾想过,当AI不仅能认出画面中的物体,还能理解它们在空间中的确切位置和关系时,会开启哪些新的可能性?随着SpatialScore和SpatialAgent这样的创新研究推动技术边界,这个问题的答案正在逐渐展开。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    LLM情境调节与持续工作流程提示:革新化学分子式的多模态验证技术

    这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。

  • 微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    微生物显微图像分割新突破:复旦大学研究团队借助多模态大语言模型统一显微镜下的"万物分割"

    复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。

  • 用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    用强化学习让大语言模型为汇编代码提速:斯坦福团队的优化探索

    斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。

  • 播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    播放师傅变声魔术:让你的录音遵循参考风格的推理时间优化新方法

    这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-