微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 空间智能先行者:清华大学研究团队打造全新视频空间理解模型

空间智能先行者:清华大学研究团队打造全新视频空间理解模型

2025-06-03 17:40
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 17:40 科技行者

在我们每天看视频的时候,大多数人都能轻松理解视频中物体的空间位置关系。比如,当你看到一段家庭室内视频时,你可以立刻知道"沙发在电视的左边"或者"桌子比椅子高"。这种空间理解能力对人类来说非常自然,但对人工智能系统却是一项巨大挑战。

2025年5月,清华大学的吴电坤、刘方夫、洪奕馨和段越琦研究团队在arXiv上发表了一篇题为《Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence》的研究论文。这项研究旨在提升人工智能系统对视频中空间关系的理解能力,让AI也能像人类一样,通过观看普通2D视频就能理解3D空间布局。

在人工智能和计算机视觉领域,多模态大语言模型(MLLM)近年来取得了显著进展,它们能够理解图像和文本等多种形式的信息。像Gemini和GPT-4o这样的商业模型在处理2D视觉任务方面表现出色,但它们在空间智能方面——也就是感知、理解和推理3D场景的能力——仍然存在明显短板。

目前,要让AI系统具备空间理解能力,通常需要提供额外的3D或2.5D数据(如点云、相机参数或深度图)。但在现实生活中,我们大多数时候只能获取普通的2D视频。因此,仅通过2D视频就能实现空间理解的技术——也就是视觉空间智能——变得尤为重要。

清华大学的研究团队意识到,现有的视频大语言模型主要依赖于CLIP范式预训练的视觉编码器,这些编码器擅长捕捉高级语义内容,但在只有2D视频输入的情况下缺乏结构和空间信息。为了解决这个问题,研究团队提出了一种名为"Spatial-MLLM"的全新方法,它能显著提升现有视频大语言模型的视觉空间智能。

一、Spatial-MLLM:空间理解的创新架构

想象一下,你拿到一台全新的相机,但它没有能直接测量物体距离的功能。不过,这台相机有两个镜头:一个专门拍摄物体的外观和颜色,另一个则善于捕捉物体的形状和位置关系。Spatial-MLLM就像这样一个双镜头系统,它通过整合两种不同类型的视觉信息,帮助AI更好地理解视频中的空间关系。

具体来说,Spatial-MLLM采用了一种双编码器架构,包括一个2D视觉编码器和一个空间编码器。2D视觉编码器从现有的视频大语言模型中继承而来,专门负责提取视频中的语义特征,比如识别"这是一张椅子"或"那是一个杯子"。而空间编码器则来自前馈视觉几何基础模型,专门负责提取3D结构特征,帮助理解"椅子在桌子的左边"或"杯子比盘子高"这样的空间关系。

研究团队使用了一个轻量级的连接器将这两种特征整合到一起,形成统一的视觉标记,然后输入到大语言模型中进行推理。这就像一个翻译官,将两种不同"语言"的信息整合成统一的理解。

这种双编码器设计的关键优势在于,它不需要任何额外的3D或2.5D数据输入,只需要普通的2D视频就能实现强大的空间理解和推理能力。

二、空间感知的帧采样策略

当我们看一段视频时,并不是每一帧画面都同等重要。比如,当拍摄者在房间里走动时,有些角度可能显示了更多的空间信息,而有些角度则可能重复或冗余。

由于显存限制,视频大语言模型通常只能处理视频序列中的有限帧数。传统方法通常采用均匀采样,即等间隔地选择视频帧。但这种方法并不理想,因为它可能会错过关键的空间信息,或者选择了过多相似的画面。

Spatial-MLLM提出了一种空间感知的帧采样策略,它能在推理时选择那些最具空间信息量的帧。这就像从一本厚书中只选择最重要的几页来读,但仍能理解整个故事。

具体来说,这个策略首先从视频中均匀采样较多帧(比如128帧),然后利用空间编码器提取这些帧的3D特征,并将它们解码为体素网格。接下来,帧选择任务被重新定义为一个最大覆盖问题:从这128帧中选择16帧,使得它们覆盖的体素总数最大化。研究团队使用贪心算法解决这个问题,确保选择的帧能够最大程度地覆盖场景的空间信息。

三、模型训练与数据集构建

为了训练Spatial-MLLM,研究团队构建了一个名为"Spatial-MLLM-120k"的视觉空间问答数据集。这个数据集包含了约12万个问答对,涵盖了各种空间理解和推理任务,如物体计数、物体大小、房间大小、绝对距离、出现顺序、相对距离和相对方向等。

数据来源主要有三部分:ScanQA数据集的训练集(占比21.26%)、SQA3D数据集(占比21.27%)以及研究团队自己创建的数据(占比57.47%)。所有数据都来自ScanNet训练集中的场景,并且研究团队特别注意避免数据泄露,确保在评估集中使用的场景视频没有出现在训练数据中。

训练过程分为两个阶段。首先是监督微调阶段,研究团队冻结了2D视觉编码器和空间编码器,以保留它们提取丰富语义和结构信息的能力,只训练连接模块和大语言模型主干,使模型能够自适应地融合2D和3D特征,增强其空间理解和推理能力。

第二个阶段是强化学习训练。研究团队首先进行了一个简单的冷启动,帮助模型适应正确的推理格式,然后使用群组相对策略优化(GRPO)来增强模型的长链思维空间推理能力。在这个阶段,研究团队除了应用于所有任务类型的格式奖励外,还引入了任务相关的奖励建模,确保它能准确反映预测答案与真实答案之间的接近程度。

四、实验结果与分析

研究团队在多个基准测试上评估了Spatial-MLLM的性能,包括VSI-Bench、ScanQA和SQA3D。结果表明,尽管Spatial-MLLM只有4B参数,但它在各种视觉空间理解和推理任务上都显著优于现有的开源和商业模型,包括那些参数量远大于它的模型(如32B或72B)。

在VSI-Bench基准测试中,Spatial-MLLM的平均准确率达到了48.4%,超过了所有开源和商业模型,包括Gemini-1.5 Pro(45.4%)和GPT-4o(34.0%)。值得注意的是,Spatial-MLLM只使用了16帧输入,而Gemini-1.5 Pro则是以1 FPS的速率采样视频(在VSI-Bench上平均为85帧)。尽管输入帧数显著较少,Spatial-MLLM仍然取得了3.0%的性能优势。

在ScanQA和SQA3D基准测试中,Spatial-MLLM同样表现出色。在ScanQA上,它在各项指标上都明显优于所有仅使用视频输入的模型,包括BLEU-1(44.4)、METEOR(18.4)和CIDEr(91.8)等。在SQA3D上,Spatial-MLLM的平均EM-1准确率达到了55.9%,EM-R1为58.7%,同样优于其他视频输入模型。

研究团队还进行了消融实验,验证了强化学习训练、Spatial-MLLM架构和空间感知帧采样策略的有效性。结果表明,尽管只进行了小规模的GRPO训练(1,000步),Spatial-MLLM-16仍然获得了性能提升,表明长链思维推理有助于VSI-Bench所需的空间推理能力。

同时,将Qwen2.5-VL-3B和Qwen2.5-VL-7B在Spatial-MLLM-120K数据集上进行微调,虽然这两个模型在微调后都有所改进,但仍然比Spatial-MLLM-SFT-16表现差,这验证了双编码器架构的有效性。

在帧采样方面,增加采样帧数(从8帧到32帧)会提高空间感知帧采样和均匀采样的性能。与均匀采样相比,空间感知帧采样在相同输入帧数的情况下始终表现更佳。

五、Spatial-MLLM的实际应用案例

Spatial-MLLM的空间理解能力在很多实际场景中都有潜在应用。比如,在智能家居系统中,它可以帮助机器人理解"把水杯放在电视旁边的咖啡桌上"这样的指令;在自动驾驶中,它可以帮助车辆理解"前方50米左侧有一个行人正在过马路";在虚拟现实中,它可以增强用户与虚拟环境的交互体验。

研究团队在论文中展示了一些具体的案例。比如,当被问到"如果我站在沙发旁边面对炉子,电视在我的左边、右边还是后面?"时,Spatial-MLLM能够通过分析视频中的空间关系,正确回答"电视在右边"。又如,当询问"这个房间里有多少把椅子?"时,Spatial-MLLM不仅能给出正确的数量,还能解释它是如何识别和计数这些椅子的。

这些例子表明,Spatial-MLLM不仅具备空间理解能力,还能进行自我验证和任务分解,这对于构建可靠的AI系统至关重要。

六、研究局限性与未来展望

尽管Spatial-MLLM在视觉空间理解和推理任务上取得了显著进展,但研究团队也坦诚地指出了一些局限性。首先,还有空间进一步扩大Spatial-MLLM的模型规模和训练数据;其次,目前的研究主要关注视觉空间智能,未来可以探索如何将空间结构信息整合到更广泛的视频理解和推理任务中。

研究团队认为,未来的工作可以朝着几个方向发展:一是扩大模型规模和训练数据,进一步提升性能;二是探索更高级的特征融合策略,如交叉注意力机制;三是将空间理解能力扩展到更多场景和应用中,如机器人导航、增强现实等。

总的来说,Spatial-MLLM代表了视觉空间智能研究的一个重要进展。它通过创新的双编码器架构和空间感知帧采样策略,使AI系统能够仅通过2D视频就理解3D空间关系,这在没有额外3D或2.5D数据的情况下是一个显著突破。这项研究不仅推动了多模态大语言模型的技术边界,也为未来AI系统在真实世界中的应用奠定了基础。

如果你对这项研究感兴趣,可以访问项目主页:https://diankun-wu.github.io/Spatial-MLLM/,获取更多详细信息和代码实现。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-