微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙大团队突破AI"空间智力"难题:机器终于学会在动态世界中"看懂"位置关系

浙大团队突破AI"空间智力"难题:机器终于学会在动态世界中"看懂"位置关系

2025-12-15 09:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-12-15 09:44 科技行者

这项由浙江大学赵洲教授团队领导的突破性研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.18873v1。研究团队还包括来自阿里巴巴集团和上海AI实验室的研究人员,他们共同解决了一个困扰AI领域已久的核心问题:如何让机器在动态变化的3D世界中准确理解空间关系。

想象一下你正在开车,前方有一辆红色轿车正在左转,同时你自己也在向右变道。在这个复杂的动态场景中,人类能够轻松判断自己与那辆红色轿车的相对位置变化,预测两车是否会相撞,并做出相应的驾驶决策。这种看似简单的能力实际上涉及了极其复杂的空间智能:你需要同时追踪自己的运动、其他物体的运动,以及两者之间不断变化的空间关系。

然而,当前最先进的AI系统在面对这类动态空间推理任务时却表现糟糕。现有的视觉语言模型虽然在静态图像理解方面表现出色,但一旦进入动态3D场景,它们就像突然失明的司机一样手足无措。这些AI系统往往会产生严重的"空间幻觉",比如明明是向前行驶却被识别为后退,或者将自己的运动误认为是其他物体的运动。

为了彻底解决这个问题,浙大研究团队提出了"动态空间智能"这一全新概念,并构建了目前最全面的动态空间智能评测基准DSI-Bench。这个基准包含了近1000个精心设计的动态场景视频和超过1700个人工标注的问答对,涵盖了观察者和被观察物体的九种不同运动模式组合。

**一、什么是动态空间智能:从静态照片到动态世界的跨越**

传统的空间智能研究就像让人看着一张张静态照片回答"苹果在桌子的左边还是右边"这样的问题。而动态空间智能则要复杂得多,它需要AI同时理解三个关键要素:观察者(比如摄像头或人眼)在3D空间中的运动、被观察物体的运动轨迹,以及两者之间相对位置关系的实时变化。

研究团队将这种能力比作一场复杂的空间舞蹈。在这场舞蹈中,舞者(观察者)和舞伴(被观察物体)都在不断移动,而舞台(3D场景)也可能在旋转。真正的挑战在于,舞者需要始终知道自己与舞伴的相对位置,即使两人都在快速移动且舞台也在变化。

这种动态空间智能包含了三个核心任务类型。第一类是物体-场景任务,主要考察物体与周围环境的空间关系变化,特别是当观察者处于运动状态时这种关系如何演变。第二类是观察者-场景任务,重点评估系统追踪观察者自身在3D空间中位置变化的能力。第三类是观察者-物体任务,专门测试对观察者与特定物体之间相对关系的理解,比如距离是在拉近还是拉远,朝向是否发生改变。

为了确保评测的公平性和科学性,研究团队还设计了一套巧妙的"时空翻转"策略。这就像给同一个舞蹈动作拍摄多个角度的视频:正常播放、水平翻转、时间倒流、以及水平翻转加时间倒流。通过这种方式,研究团队能够识别AI系统是否真正理解了空间关系,还是仅仅记住了某些视觉模式。

**二、构建史上最全面的动态空间智能测试场:DSI-Bench的诞生**

建立一个有效的AI测试基准就像设计一场全面的驾照考试。你不能只让考生在停车场里直线行驶,而是要设置各种复杂的交通场景:十字路口、环岛、山路、雨天驾驶等等。DSI-Bench正是这样一个"AI空间智能驾照考试场"。

DSI-Bench的数据来源极其丰富多样。研究团队从CameraBench相机运动数据集、Kinetics-700物体运动数据集、SynFMC合成运动控制数据集等多个权威数据源中精心挑选视频片段。为了增加运动模式的多样性,他们还从LLaVA-178K数据集和其他在线资源中补充了大量素材。这种多元化的数据收集策略确保了测试场景能够覆盖现实世界中可能遇到的各种复杂情况。

在数据预处理阶段,研究团队采用了严格的质量控制流程。他们使用PySceneDetect工具将长视频分割成独立的场景片段,然后利用SpatialTrackerV2模型过滤掉那些运动不规律或画面抖动严重的视频片段。最后,人类专家进行最终筛选,确定每个视频的起始和结束时间点。所有视频都被标准化为480p分辨率,过短的片段会被放慢至3秒钟的时长。

问答对的生成过程更是体现了研究团队的细致用心。他们首先人工标注每个视频中观察者和被观察物体的运动模式,然后基于这些标注使用模板化方法构建相机-场景和物体-场景类型的问答对。对于部分视频,研究团队还额外标注了相对距离变化信息,生成相对距离类问答对。所有被观察物体都被标注了朝向信息,使得相对朝向类问答对的构建成为可能。

为了避免动态场景中参考点变化带来的歧义,研究团队遵循了先前研究的惯例,将3D参考点固定在每个视频中观察者或被观察物体的初始位置。所有问答对都经过了人类专家的审核、筛选和优化,确保表述清晰无歧义。

**三、时空翻转策略:揭露AI的"空间幻觉"**

如果说传统的AI测试就像给学生出一道数学题,那么研究团队设计的时空翻转策略就像是给同一道题出了四个不同的变体,来测试学生是否真正理解了数学原理,还是只是死记硬背了答案。

这套策略的巧妙之处在于它能够系统性地暴露AI系统的偏见和错误模式。对于每个原始视频,研究团队都会生成四个变体:标准版本、水平镜像版本、时间倒流版本,以及水平镜像加时间倒流版本。这就像是从四个不同角度观察同一个物理现象,真正理解空间关系的系统应该在所有版本中都给出正确且一致的答案。

举个具体例子,假设原始视频显示观察者向右转,一辆汽车向前行驶。在水平镜像版本中,观察者应该是向左转,汽车仍然向前行驶。在时间倒流版本中,观察者应该是向左转(因为原来的右转被时间倒转),汽车向后行驶。在水平镜像加时间倒流版本中,观察者向右转,汽车向后行驶。

相应的问答选项也会根据变换规则进行对称调整。"向前运动"在时间倒流后变成"向后运动","顺时针旋转"在水平翻转后变成"逆时针旋转"。这种基于规则的对称调整确保了真值标签在所有变体中保持一致性。不过,由于视频倒流会改变参考帧(从第一帧变为最后一帧),某些样本无法仅通过规则替换处理,这些情况需要人类专家逐一检查和修正。

**四、震撼发现:当前AI系统的三大致命缺陷**

研究团队对14个主流AI模型进行了全面测试,结果令人震惊。这些包括GPT-4o、GPT-5、Gemini-2.5-Pro等顶级商业模型,以及Qwen2.5-VL、InternVL-3.5等开源模型在内的AI系统,在动态空间推理方面的表现都远低于预期。

第一个致命缺陷是"前进偏见"。研究团队发现,几乎所有AI模型都过度倾向于选择包含"向前"的答案选项,即使实际情况并非如此。通过统计分析,模型选择"向前"选项的频率远远超过了真实标注中"向前"出现的比例。这就像一个总是认为所有车辆都在向前开的交通观察员,显然无法胜任实际的交通监控工作。

更有趣的是,研究团队通过分析发现,即使面对明显静止的雕像,某些AI模型仍然会坚持认为雕像在"向前移动"。这种现象揭示了一个深层问题:AI模型可能过度依赖了训练数据中的统计偏见,而没有真正学会从视觉信息中推断运动状态。

第二个重大缺陷是AI系统无法区分旋转和平移这两种完全不同的运动类型。在人类看来,这就像分不清原地转圈和向前走路的区别。研究团队发现,当AI尝试判断观察者的运动方向时,它们经常通过分析"场景的哪一部分进入了视野"来进行推理。然而,AI往往无法判断这种视野变化是由观察者的旋转引起的,还是由观察者的位置移动造成的。

这种混淆在实际应用中可能导致严重后果。比如在自动驾驶系统中,如果AI无法准确区分车辆是在转弯还是在变道,就可能做出错误的驾驶决策。

第三个也是最根本的缺陷是"耦合运动推理"。简单来说,就是AI无法独立分析观察者和被观察物体的运动,而是将两者的运动混为一谈。这就像一个舞蹈观众无法分别判断男女舞伴各自的动作,只能看到一团模糊的运动。

研究团队识别出了两种典型的耦合推理模式。第一种是"相对运动误导",即AI在推断观察者运动时,错误地用被观察物体的朝向和运动来代替观察者的实际运动状态,就好像认为观察者和物体总是保持相对静止。第二种是"参考系错误泛化",即AI将观察者和物体之间的相对运动错误地推广到整个场景参考系中。

**五、专业模型的意外表现:几家欢喜几家愁**

有趣的是,那些专门为3D视觉任务设计的专业模型在某些方面表现出了令人意外的优势。比如SpatialTrackerV2和VGGT这样的3D视觉专家模型,在相机位置估计任务上表现相当稳健,在对称性验证测试中的性能下降幅度远小于通用视觉语言模型。

这些专业模型的优势主要体现在它们对经典几何约束的有效利用上。当面对需要精确相机姿态估计的任务时,这些模型能够通过多视角几何、特征点匹配等传统计算机视觉技术获得可靠的结果。它们就像是训练有素的测量员,即使在复杂环境中也能通过专业工具准确测量位置和距离。

然而,这些专业模型也暴露出了明显的局限性。当场景中同时存在观察者运动和前景遮挡时,传统的特征点追踪容易失效,导致束调整(bundle adjustment)阶段的不稳定。更重要的是,这些模型在估算观察者与物体间相对距离方面表现不佳,这可能会间接影响物体运动估计的准确性。

**六、推理能力的悖论:为什么"思考"并没有帮助AI**

研究团队还进行了一个有趣的对比实验:让AI模型在直接回答和先进行推理再回答两种模式下完成相同任务。结果出人意料,大部分模型在"思考"后的表现并没有明显改善,有些甚至变得更差。

这个现象就像让一个不会游泳的人先在岸上分析游泳理论再下水,结果发现理论知识并没有真正帮助他学会游泳。深入分析发现,当前AI模型的推理过程主要依赖于视觉编码器提取的信息,而语言推理无法弥补视觉感知阶段的错误。

更糟糕的是,推理过程有时还会引入额外的偏见。AI模型在推理时往往依赖常识知识,比如"汽车通常向前行驶"或"人们通常朝前看",这些常识在特定情况下可能与实际观察到的现象相矛盾,从而导致错误的结论。有些模型甚至无法正常终止推理过程,而是一直生成无关内容直到达到输出长度限制。

**七、模型规模的陷阱:更大不一定更好**

在模型规模与性能的关系上,研究揭示了一个令人深思的现象。在单样本准确率测试中,较大的模型确实表现更好。比如Qwen2.5-VL的72B版本比32B版本高出2.8个百分点,InternVL3.5的38B版本比8B版本高出2.69个百分点。

但是,当使用更严格的组别准确率测试(要求在四个对称变体中至少答对三个)时,情况却完全逆转了。较大的模型在这种测试中反而表现更差,这表明虽然大模型能够捕捉更细致的细节,但它们并没有消除空间感知和推理中的固有偏见。

这就像一个记忆力很好但逻辑思维有问题的学生,他能够记住更多的细节,在某些题目上表现更好,但在需要逻辑一致性的综合测试中反而暴露了更多问题。这个发现提示我们,当前AI模型的核心问题可能不在于模型规模,而在于更深层的架构和训练方法。

**八、未来之路:向真正的空间智能迈进**

这项研究不仅揭示了当前AI系统在动态空间理解方面的严重不足,更为未来的研究指明了方向。研究团队认为,实现真正的动态空间智能需要从多个方面进行根本性突破。

首先,需要重新设计AI模型的视觉感知架构,使其能够更好地分离和独立处理观察者运动、物体运动和场景结构这三个关键要素。这就像为AI大脑专门设计不同的"神经回路"来处理不同类型的空间信息。

其次,需要开发更加平衡和多样化的训练数据集,减少当前数据中普遍存在的运动模式偏见。这要求研究者们像生态学家一样,仔细调配不同类型运动样本的比例,确保AI系统能够学到真实世界的复杂性。

最后,可能需要将传统计算机视觉的几何约束与现代深度学习方法更好地结合,开发出既能利用经典理论又能适应复杂现实场景的混合方法。

DSI-Bench作为目前最全面的动态空间智能评测基准,将为研究社区提供一个标准化的测试平台。研究团队计划在论文发表后公开所有数据和评测代码,让更多研究者能够参与到这个重要问题的解决中来。

通过这项研究,我们看到了AI在理解动态3D世界方面还有很长的路要走。但正如任何科学进步一样,认识到问题的存在是解决问题的第一步。随着更多研究者的加入和技术的不断进步,我们有理由相信,真正具备动态空间智能的AI系统终将出现,为自动驾驶、机器人导航、增强现实等领域带来革命性的突破。

Q&A

Q1:DSI-Bench是什么,它解决了什么问题?

A:DSI-Bench是浙江大学团队开发的动态空间智能评测基准,包含近1000个动态场景视频和1700多个问答对。它专门测试AI系统在动态3D场景中理解空间关系的能力,解决了当前缺乏标准化动态空间推理测试工具的问题,揭露了现有AI模型在这方面的严重不足。

Q2:为什么当前的AI模型在动态空间理解方面表现很差?

A:研究发现AI模型存在三大致命缺陷:一是"前进偏见",过度倾向于选择"向前"的答案;二是无法区分旋转和平移两种不同运动类型;三是"耦合运动推理",无法独立分析观察者和被观察物体的运动。这些缺陷导致AI在动态场景中产生严重的"空间幻觉"。

Q3:动态空间智能对日常生活有什么影响?

A:动态空间智能是自动驾驶、机器人导航、增强现实等技术的核心能力。比如在自动驾驶中,车辆需要同时理解自己的运动、其他车辆的运动以及相对位置关系的变化。这项研究的突破将直接推动这些技术的安全性和可靠性提升,最终让AI更好地服务于人类的日常生活。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-