作为人工智能领域的重要突破,2025年5月23日发表的论文《Multi-SpatialMLLM: Multi-Frame Spatial Understanding with MultiModal Large Language Models》,由来自Meta公司FAIR团队的Runsen Xu、Weiyao Wang、Hao Tang、Xingyu Chen、Xiaodong Wang、Fu-Jen Chu、Matt Feiszli、Kevin J. Liang,以及香港中文大学的Dahua Lin共同完成。该研究成果可通过项目网站 https://runsenxu.com/projects/Multi-SpatialMLLM 获取。这项研究标志着多模态大语言模型在空间理解能力上的重要进展,特别是在多帧图像处理方面取得了突破性进展。
一、研究背景:为什么机器人需要理解空间关系?
想象一下,你与朋友在咖啡厅聊天,轻松地指着桌面上的杯子说:"把那个红色的杯子递给我"。这个简单的请求对人类来说轻而易举,但对人工智能却是一项复杂的挑战。为什么?因为它涉及到空间理解——知道物体之间的相对位置、距离和方向关系。
近年来,多模态大语言模型(MLLMs)在视觉任务上取得了令人瞩目的进步。像GPT-4V、Claude和Gemini这样的模型可以理解图像内容并进行描述,仿佛它们真的"看懂"了图片。然而,这些模型面临一个重要的局限性——它们大多只能处理单一图像的空间理解,就像只能通过一张快照来理解世界,而无法整合多个视角或时间点的信息。
Meta研究团队敏锐地意识到,这种局限性严重阻碍了人工智能在机器人和自动驾驶等实际应用中的表现。试想,如果你让机器人"把餐桌上的盘子拿到厨房",它需要从多个角度理解餐桌和盘子的位置关系,然后规划一条路径,最后准确地抓取盘子。这不仅需要理解单帧图像中的空间关系,还需要整合多帧图像的信息,构建一个连贯的环境理解。
正如研究团队在论文中指出的,现有的多模态大语言模型即使在单图像的空间理解上也常常表现不佳,甚至会混淆基本的左右方向。这种局限性在很大程度上源于训练数据的不足——现有的模型主要在网络上的图像-文本对上训练,这些数据缺乏丰富的空间关系标注。
二、研究核心:如何让AI理解多帧图像中的空间关系?
为了解决这一挑战,Meta研究团队提出了一种全新的框架,旨在赋予多模态大语言模型强大的多帧空间理解能力。他们的方法建立在三个基础能力之上,这些能力共同构成了人类空间理解的基石:
首先是深度感知(Depth Perception)。想象你正在观察一个房间——有些物体离你很近,有些则很远。人类可以轻松判断物体的远近,这种能力对于理解三维空间至关重要。研究团队让AI模型学会从图像中推断物体的相对距离和三维结构。
其次是视觉对应(Visual Correspondence)。当你从不同角度观察同一个物体时,尽管它在图像中的位置和外观可能变化,但你的大脑会自动识别这是同一个物体。这种能力让研究团队的模型能够在不同图像之间匹配重叠区域,建立一致的场景关联。
最后是动态感知(Dynamic Perception)。这包括理解相机(或观察者)的移动和物体的移动。当你在房间里走动时,你能感知自己的移动方向和速度,同时也能察觉哪些物体保持静止,哪些在移动。研究团队让AI模型学会区分并理解这两种不同类型的运动。
研究的关键挑战在于获取足够的训练数据。与先前的研究不同,该团队不仅需要空间数据,还需要时间上对齐的多帧数据。由于手动标注如此大规模的数据既昂贵又费时,研究人员创新性地利用了现有的3D和4D数据集,包括ScanNet(3D室内场景)和TAPVid3D、Aria Digital Twin以及Panoptic Studio等4D数据集。
他们开发了一个数据引擎,通过采样具有均匀重叠分布的图像对,然后将空间和时间对齐的点云反投影到图像上,建立像素级的对应关系。利用这些对应关系以及相机运动和投影信息,研究团队创建了高质量的问答对,涵盖多种空间理解任务。
三、独特创新:超越单一图像的空间理解
研究团队的一个重要创新是打造了"MultiSPA"数据集——首个专注于多帧空间理解的大规模数据集,包含超过2700万个样本。这些样本涵盖了各种3D和4D场景,提供了前所未有的丰富空间理解训练资源。
与先前方法相比,MultiSPA在两个关键方面实现了突破:
首先,它支持多种引用方式。想象你正在指导某人找到房间里的一个物体——你可能会说"桌子上的红色杯子"(语义标签),或者"那个点(指着它)"(视觉点标注),或者"坐标x,y处的物体"(像素坐标)。先前的研究主要依赖单一引用方式,如SpatialVLM使用语义标签,SpatialRGPT使用物体掩码。而MultiSPA支持所有这些引用方式,大大拓展了模型的应用场景。
其次,MultiSPA支持多种输出格式。从定性描述("物体在左侧")到量化数值("物体距离相机3米"),从二维像素位置到三维位移向量,这些多样化的输出使模型能够提供更精确、更丰富的空间信息。
基于这个数据集,研究团队训练了Multi-SpatialMLLM模型。他们选择了InternVL2-8B作为基础模型,采用LoRA(低秩适应)技术进行微调。为了保持模型的多功能性,他们将空间理解数据与一般指令遵循数据混合训练,确保模型在增强空间理解的同时不会丧失其他能力。
四、实验结果:AI的空间理解能力有多强?
研究团队设计了一系列实验,全面评估Multi-SpatialMLLM的性能。结果令人振奋——该模型在多帧空间理解任务上显著超越了基线模型和专有系统。
在MultiSPA基准测试中,Multi-SpatialMLLM的平均准确率达到56.11%,比基础模型提高了35.68个百分点。特别是在定性任务上,如深度比较、相机方向和相机平移方向,模型的准确率达到了74%-90%,远高于基线模型的约50%。
更令人印象深刻的是,尽管Multi-SpatialMLLM只有8B参数,可能远少于Claude-3.5、Gemini-2.0和GPT-4o等闭源模型,但它在多帧空间理解任务上的表现与这些模型相当甚至超越它们。这充分证明了MultiSPA数据集的有效性。
在泛化能力方面,该模型在BLINK基准测试(一个用于评估MLLM感知的多样化基准)上表现出色。尽管BLINK的图像分辨率和分布与训练数据不同,Multi-SpatialMLLM仍在多视图推理和视觉对应等任务上取得了接近90%的准确率,比基础模型提高了26.4%,甚至超过了几个专有模型。这表明模型学到的多帧空间理解能力可以跨数据集迁移。
同时,模型在标准VQA(视觉问答)基准测试上保持了与原始模型相当的性能,证明它没有因为空间理解能力的增强而损失一般性能。
五、多任务协同:空间理解的不同能力如何互相增强?
研究中的一个有趣发现是多任务训练的协同效应。当研究团队仅使用50万个相机运动数据样本进行训练时,模型在相机运动向量预测任务上的准确率为9.3%。而当加入其他任务的数据(总共300万样本)进行联合训练时,准确率显著提升至18.0%。
更令人惊讶的是,即使是来自不同数据源的任务也表现出了这种协同效应。当研究团队比较两种对象运动训练配置时发现:(1)仅使用40万个对象运动样本;(2)使用相同的40万对象运动样本,外加40万来自相机运动、视觉对应和深度估计的样本。结果显示,第二种配置在对象运动子任务上的平均准确率从17.5%提高到了22.04%。
这一发现具有重要意义,因为它表明,空间理解能力的不同方面可以相互增强,而不仅仅是相互竞争。这为未来的研究指明了方向——我们不仅可以通过增加数据量和模型容量来提升性能,还可以通过增加任务多样性来实现更好的泛化能力。
六、涌现现象:复杂空间理解能力的突然出现
研究团队在实验中观察到一个令人着迷的现象——某些空间推理能力似乎是"涌现"的,类似于文本大语言模型中观察到的涌现能力。
为了探索这一现象,研究团队设计了一个挑战性更大的视觉对应任务版本。在默认设置中,第二张图像中的干扰像素是随机选择的,这相对容易。但在困难版本中,干扰像素被刻意选在正确像素附近,要求模型具有更高的辨别能力。
当在这些困难样本上训练不同规模的模型并在简单样本上测试时,研究团队发现只有26B参数的变体(配备了6B视觉编码器和20B语言模型)显著提高了性能,从基线的44.0%提升到82.33%。相比之下,8B和13B模型(后者配备了更大的6B视觉编码器)不仅没有有效学习,反而性能下降。
这一发现暗示,学习困难的空间任务可能需要足够大的模型容量——可能指向多帧空间理解的"涌现"特性。这与文本大语言模型中观察到的现象类似,某些复杂能力只有在模型规模达到一定阈值后才会出现。
七、实际应用:多帧空间理解如何改变机器人学习?
Multi-SpatialMLLM不仅在学术基准上表现出色,在实际应用中也展示了令人印象深刻的能力。研究团队在新收集的机器人手臂堆叠立方体的图像上测试了模型。尽管训练数据中没有包含任何机器人场景,模型仍然能够准确识别静态物体和移动物体。
更重要的是,研究表明Multi-SpatialMLLM可以作为机器人学习中的"多帧奖励标注器"。在机器人学习中,一个关键挑战是如何评估机器人的行为是否达到了目标。通过分析连续帧中物体的移动情况,Multi-SpatialMLLM能够估计物体的位移距离,与地面真实情况保持一致。这为机器人学习提供了一种新的评估方式,特别是对于"将物体移动n米"这样的任务。
八、未来展望:多帧空间理解的更广阔应用
尽管这项研究取得了重要突破,但仍有一些局限性值得关注。首先,大多数实验仅使用两帧图像,未来研究可以探索使用更多帧的情况,进一步增强空间推理能力。其次,尽管观察到了涌现现象的迹象,但需要更深入的研究来明确哪些具体的空间能力会随着模型规模增加而涌现。
未来的研究方向可能包括:进一步扩展训练数据规模和模型容量;探索更多帧的空间理解;将模型应用于更多实际场景,如机器人导航、自动驾驶和增强现实;以及深入研究空间理解能力的涌现特性。
这项研究标志着多模态大语言模型向着更全面的空间理解迈出了重要一步。通过整合深度感知、视觉对应和动态感知,Multi-SpatialMLLM展示了在复杂空间任务上的强大能力,为人工智能在现实世界中的应用开辟了新的可能性。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。