微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 OmniSpatial:清华、北大等团队联手打造全面评估视觉语言模型空间推理能力的综合基准

OmniSpatial:清华、北大等团队联手打造全面评估视觉语言模型空间推理能力的综合基准

2025-06-07 08:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-07 08:28 科技行者

这项由清华大学、西安交通大学、上海交通大学、北京大学、上海智能研究院和上海人工智能实验室的联合研究团队完成的成果,以孟迪佳、祁泽琨为共同第一作者,李艺教授为通讯作者,发表于2025年6月3日的arXiv预印本平台(arXiv:2506.03135v1)。

一、研究背景:空间推理,AI的"盲区"

你有没有体验过这样的场景:当你让ChatGPT或其他AI助手识别图片中"左边的人"或"右边的物体"时,它们能够轻松应对;但如果你问"如果我站在这个房间的另一角,哪个物体会挡住我的视线?"或者"这个机器人手臂应该如何旋转才能抓住物体?",AI往往会给出错误或模糊的答案。

这正是当前视觉语言模型(VLMs)面临的一个重要挑战——空间推理能力的局限性。空间推理是人类认知心理学中的重要方面,也是现代AI系统的一个主要瓶颈。虽然已有大量研究致力于评估或改进VLMs对基本空间关系的理解,如区分左右、远近和物体计数,但这些任务仅代表了空间推理的最基础层面。

想象一下在现实世界中,当你需要在紧急情况下找到AED(自动体外除颤器)时,仅仅知道它"在门的右侧"是远远不够的——你还需要理解原理图,将地图与实际环境对应起来,并规划一条高效路线。同样地,插入刀具到刀架或折叠纸盒等任务需要对物体旋转、变形和空间兼容性进行推理——这远远超出了简单的物体放置范围。

正是在这一背景下,研究团队提出了OmniSpatial,一个全面评估视觉语言模型空间推理能力的基准测试。

二、OmniSpatial:空间认知的四大维度

从认知心理学的角度来看,复杂的空间推理远不止基本关系那么简单。它还包括动态世界知识推理、与环境或代理的交互空间行为、3D空间结构的逻辑分析,以及视角转换能力。

研究团队将空间推理分为四个关键维度:

**动态推理**:想象你正在观察一个来回摆动的钟摆。动态推理能力让你预测钟摆下一秒的位置,即使画面暂停了。在机器人控制和自动驾驶等领域,这种预测运动和时间变化的能力至关重要,能让系统在动态环境中做出适应性决策。

**复杂空间逻辑**:这就像解魔方或拼图一样,需要高阶的空间关系推理、变换和几何结构理解。例如,想象有一个3D物体的2D展开图,你需要在脑海中"折叠"它,预测最终的3D形状。这种能力对工程设计、机器人操作至关重要。

**空间交互**:这类似于你在拥挤的商场中穿行,需要根据环境约束和目标实时调整路径。在现实应用中,这包括路径规划、避障,以及基于空间反馈的实时决策——就像导航应用需要根据实时交通状况调整路线一样。

**视角转换**:想象你在玩"藏猫猫"游戏,需要预测从其他人的角度能看到什么。这种能力让我们能从不同视角理解空间关系,对导航、社交认知和空间感知至关重要,就像需要理解其他驾驶员视角的交通环境一样。

这四个维度共同构成了OmniSpatial基准测试的框架,涵盖了50个细分任务类别,提供了一个前所未有的全面空间认知评估体系。

三、数据集构建:精心选择的1500多道空间题

与那些聚焦少数任务的大规模基准不同,OmniSpatial优先考虑任务多样性和结构化分类,而非简单地追求数据集规模。研究团队构建了1533个高质量的问答对,这些问题设计用于挑战模型超越简单的模式匹配或统计学习,即使在有限数据的情况下也能严格测试空间推理能力。

**数据来源多样化**:研究团队从网络搜索、标准化测试、驾驶考试问题和现有数据集(包括MME、HOI4D等)中精心筛选数据。这种多样化的来源增强了任务的真实性、复杂性和跨领域泛化能力。

想象一下这些测试场景的丰富多样性:

- 网络搜索的图片涵盖自然环境、建筑和日常生活,增加了视觉复杂性 - 心理学和认知科学的标准化测试提供了科学严谨的空间推理挑战 - 驾驶考试问题引入了现实世界的动态交互,如道路规则理解和运动预测 - HOI4D等数据集贡献了多分辨率、不同光照和视角多样性,以及涉及人-物交互的具身智能任务

为确保全面评估,研究团队将任务分为4大空间推理类型,进一步细分为50个精细任务类别。例如,视角转换任务从简单的空间判断("蓝色运动员的对手的武器在左边还是右边?")到复杂的运动预测("蓝色运动员正在阻挡红色运动员的进攻——接下来会发生什么?")。空间交互任务既包括静态碰撞评估("车辆是否离前面的车太近?")也包括动态环境推理("前方有车门打开——是行人下车吗?")。

研究团队强调了精确的图像-任务对齐在数据集选择和注释中的重要性。每个问答对都经过手动策划并多轮审核,以确保准确性、一致性和最小歧义。与自动注释不同,手动完善保证了视觉场景与空间推理任务之间的高度相关性,增强了OmniSpatial作为未来研究基准的可靠性。

四、改进空间推理能力:两种创新方法

研究团队不仅开发了评估基准,还探索了改进视觉语言模型空间推理能力的方法。

**PointGraph:通过点关系增强空间推理**

第一种方法像是给AI提供了一个"物体分布地图"。研究团队尝试使用Segment Anything Model(SAM)等现有专家模型将图像分割成不同区域。这一过程提取出与图像中多个物体对应的像素簇,使模型能够估计物体中心并更有效地执行后续空间推理任务。

想象一下,这就像是在阅读复杂的城市地图时,有人帮你标出了所有重要地标的确切位置,让你更容易规划路线或判断距离。这种结构化的物体表示方法为模型提供了清晰的空间关系指引。

**SpatialCoT:通过新视角合成增强空间想象**

第二种方法解决了一个更根本的问题:视觉语言模型主要受限于文本推理范式,而人类天生具备强大的空间想象能力,通常称为"心理意象"。

这种空间想象能力在某种程度上对应于物体或场景的新视角合成。幸运的是,最近在3D生成模型方面的进展可以有效执行此类任务。研究团队采用InstantMesh来从输入图像合成新视角,提供额外的视觉线索来增强空间想象。

这就像是当你在脑海中想象房间的另一侧看起来如何,或者物体从背面会是什么样子。通过提供这些额外的"想象视角",模型能够构建更完整的空间理解。

五、实验结果:顶尖模型也未能攻克空间推理

研究团队对现有视觉语言模型在OmniSpatial上进行了全面评估,测试对象包括专有模型和开源模型。结果显示了当前AI系统在复杂空间推理方面的显著局限性。

**整体模型表现**:

1. 专有推理模型如ChatGPT o3和Gemini-2.5-pro表现最佳,总体成功率超过56%;但与人类水平相比仍有显著差距。这些模型需要大量推理时间和tokens。

2. 开源模型也展示了有竞争力的结果,大规模模型如InternVL3-78B和Qwen-VL2.5-72B达到了与GPT-4.1-mini和Gemini-2.0-flash-exp相当的表现。

3. 专用空间推理模型由于数据集覆盖范围和模型容量的限制,在全面基准测试中难以实现实质性改进。

**分类表现差异**:

不同空间推理类别的表现差异尤为显著:

1. 在动态推理和空间交互方面,专有模型表现强劲,表明推理模型在时间理解、空间关系分析和基于地图的理解方面具有高水平能力。

2. 对于几何模式识别和推理等复杂逻辑任务,即使是为扩展思考设计的推理模型也只能达到约30%到40%的准确率,仅略高于随机基线。

3. 当前模型展示出有限的视角转换能力,主要从自我中心视角分析场景,而在想象他人视角方面存在困难。

**PointGraph和SpatialCoT的影响**:

研究还评估了所提出方法的有效性:

1. PointGraph作为GPT-4.1、Gemini-2.5-flash和Qwen-VL2.5-7B的预处理步骤,带来了明显的准确度提升,特别是在动态推理和视角转换方面,验证了集成结构化物体表示的好处。

2. 传统的文本链式思考(Chain-of-Thought)难以带来显著改进。

3. 通过InstantMesh实现的空间链式思考(SpatialCoT)方法在OmniSpatial视角转换测试中表现出显著的性能改进,验证了显式空间想象的有效性。

六、未来发展方向:迈向真正的空间感知AI

OmniSpatial基准测试不仅揭示了当前AI系统在空间推理方面的局限性,还为未来研究指明了方向。研究团队发现,即使是最先进的专有和开源视觉语言模型,在OmniSpatial上的表现也最高仅达到57%的准确率,远低于人类表现的30多个百分点,特别是在几何推理和非自我中心视角转换方面表现不佳。

这些发现表明,我们需要发展更强大的物理和视角感知多模态模型。研究团队的PointGraph和SpatialCoT方法提供了有希望的起点,但要实现真正的空间认知AI,仍需更多创新。

通过系统地揭示这些差距,OmniSpatial为未来的物理和视角感知多模态模型研究提供了严格的评估标准和丰富的错误分析平台。这一基准测试将推动空间推理研究向前发展,最终实现能够在现实世界中有效导航和交互的AI系统。

正如人类需要空间认知来在物理世界中有效导航和交互一样,AI系统也需要掌握这些能力才能实现真正的通用智能。OmniSpatial基准测试向这一目标迈出了重要一步,为研究人员提供了一个系统评估和改进AI空间推理能力的框架。

未来的研究方向可能包括:

1. 进一步探索3D表示和感知在空间推理中的作用 2. 开发更强大的空间链式思考方法 3. 创建能够同时处理多个视角的多模态模型 4. 将空间推理能力与机器人执行任务相结合

随着这些方向的发展,我们离真正理解和导航物理世界的AI系统又近了一步。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-