
这项由香港中文大学多媒体实验室的孙佩文、郎世强等研究人员领导的研究发表于2025年10月,论文编号为arXiv:2510.09606v1。该研究团队还包括来自Astribot、北京邮电大学、香港科技大学等机构的研究者,有兴趣深入了解的读者可以通过该编号查询完整论文。
当你看着桌上的一颗螺丝钉时,你能立刻判断它大约有几毫米长。当你站在街头仰望摩天大楼时,你也能估算出它大概有几百米高。这种从微观到宏观的空间感知能力,对人类来说似乎是天生的,但对人工智能来说却是一个巨大的挑战。
目前的AI视觉系统就像一个只在室内生活的人,虽然能够很好地识别房间里的家具和物品,但一旦走出房门,面对从显微镜下的细胞到卫星图像中的城市这样跨越六个数量级的空间尺度时,就会变得手足无措。这种局限性严重制约了AI在工业制造、自动驾驶、无人机监测等需要精确空间理解的领域的应用。
香港中文大学的研究团队意识到了这个问题的重要性。在现实世界中,空间推理能力需要跨越从毫米级的精密制造到公里级的城市规划等各种场景。比如,一个工业机器人需要能够精确操作几毫米的零件,同时也要理解整个工厂车间的布局;一辆自动驾驶汽车既要识别路面上的小石子,也要理解几公里外的交通状况。
为了解决这个挑战,研究团队开发了名为SpaceVista的全尺度空间推理系统。这个系统包含三个核心组件:一个包含100万个问答对的大规模数据集SpaceVista-1M,一个专门设计的AI模型SpaceVista-7B,以及一个高精度的评测基准SpaceVista-Bench。
要训练一个能够理解全尺度空间的AI系统,首先需要一个涵盖各种尺度场景的庞大数据库。这就像要培养一个全能的空间感知专家,需要让他见识从显微镜实验室到太空观测站的各种环境。
研究团队面临的第一个挑战是如何获得如此广泛的空间数据。传统的做法是派遣大量人员到各种场景中进行拍摄和标注,但这种方法不仅成本高昂,而且很难保证标注的准确性。特别是对于一些极端尺度的场景,比如工业显微镜下的零件或者无人机拍摄的大范围地形,人工标注往往会出现误差。
为了解决这个问题,研究团队设计了一套自动化的数据构建流水线,就像建造一条智能化的生产线。这条流水线的工作原理类似于一个经验丰富的摄影师团队,每个成员都有自己的专长。
首先,系统会从各种现有的视频数据集中筛选出合适的场景,这些场景涵盖了从桌面的微小物体到户外的大型建筑等各种尺度。接着,专门的深度估计模型会像一个精密的测距仪一样,计算出画面中每个物体到摄像机的距离。同时,物体识别模型会像一个博学的分类专家,准确识别出画面中的各种物体并给它们贴上标签。
为了确保不同帧之间物体识别的一致性,系统还引入了跟踪算法,就像一个专注的观察者,能够在视频的不同帧中准确跟踪同一个物体的位置变化。这样,即使物体在移动或者被部分遮挡,系统也能保持对它的准确识别。
基于这些基础信息,研究团队设计了19种不同类型的空间推理任务。这些任务就像是给AI出的各种空间几何题,从最基础的"数一数画面中有几个苹果",到复杂的"计算这个花园的面积有多大",再到实用的"规划如何将瓶子移动到盒子里"。
每种任务都有其特定的计算流程。以物体计数为例,系统首先会检测出所有的目标物体,然后在视频的各个帧中跟踪这些物体的运动轨迹,最后过滤掉那些模糊不清或者重复计算的物体,得出准确的计数结果。
为了让AI能够像人类一样进行推理,研究团队还为每个答案配备了详细的思考过程。这就像是让AI不仅要给出正确答案,还要解释它是怎么想的。比如,当被问及两个物体之间的距离时,AI会说:"我看到画面中有一扇门,通常门的宽度约为0.6米,以此作为参考,我估算出这两个物体之间的距离大约是5米。"
最终,SpaceVista-1M数据集包含了来自38000个视频场景的100万个问答对,覆盖了从毫米级的桌面小物件到公里级的无人机航拍场景。这个数据集的规模和多样性都远超以往的同类数据集,为训练全尺度空间推理模型提供了坚实的基础。
有了丰富的训练数据,下一步就是设计一个能够有效利用这些数据的AI模型。这个过程就像是为AI设计一个既能看清蚂蚁又能识别大象的特殊眼睛。
传统的AI视觉模型主要依赖语义信息进行理解,就像一个只会看物体名称标签的人。它们能够识别出"这是一把椅子"、"那是一辆汽车",但对于物体的实际大小、相互距离等空间信息却缺乏准确的感知能力。这种局限性在处理跨尺度场景时尤为明显。
为了解决这个问题,研究团队引入了一种名为DINOv3的自监督视觉编码器。这个编码器的特殊之处在于,它不仅能够理解物体的语义信息,还能感知深度、表面法线、纹理模式等几何信息。就像给AI装上了一双既能看见颜色又能感知立体结构的复合眼睛。
但是,简单地将不同尺度的信息混合在一起训练,往往会产生意想不到的问题。研究团队发现,当AI同时学习处理毫米级和米级场景时,经常会出现"知识冲突"的现象。比如,一个在室内场景中看起来很大的物体,在户外场景中可能显得很小,这种尺度差异会让AI产生混淆。
为了解决这个问题,研究团队设计了一种巧妙的"尺度专家"架构。这个架构就像是为AI配备了多个专业顾问,每个顾问都专门负责某个特定尺度范围的空间推理。当AI遇到一个新场景时,系统会首先判断这个场景属于哪个尺度范围,然后激活相应的专家来处理。
具体来说,系统包含了四个不同的尺度专家:微观专家负责处理毫米级的桌面场景,桌面专家处理厘米级的物体操作,室内专家处理米级的房间布局,户外专家则负责十米到公里级的大范围场景。每个专家都经过专门的训练,对其负责的尺度范围有着深入的理解。
为了让这些专家能够协调工作,研究团队还设计了一个智能路由器。这个路由器就像一个经验丰富的调度员,能够根据输入场景的特征,自动选择最合适的专家组合来处理问题。有时候,一个复杂的场景可能需要多个专家同时工作,路由器会协调它们的输出,确保最终结果的准确性。
除了处理视觉信息的能力,研究团队还特别关注AI的推理过程。他们观察到,人类在进行空间推理时通常遵循一定的思维模式:首先识别相关的物体,然后判断整个场景的尺度范围,最后基于这些信息推导出答案。
基于这个观察,研究团队设计了一套"渐进式奖励"机制,就像是为AI设计了一套思维训练课程。这套机制包含三个关键的思维锚点:语义识别、尺度感知和答案推导。
语义识别锚点要求AI首先准确识别出问题中涉及的关键物体。比如,当被问及"红色圆点物体和小工具之间的距离"时,AI必须首先正确识别出哪个是红色圆点物体,哪个是小工具。
尺度感知锚点则要求AI判断当前场景的整体尺度范围。这就像是让AI先确定自己是在看显微镜图像还是在看卫星照片,这种尺度判断对于后续的空间推理至关重要。
答案推导锚点确保AI能够基于前面的识别和判断,逻辑清晰地得出最终答案。整个过程必须环环相扣,每一步都要有充分的依据。
在训练过程中,系统会根据AI在每个锚点上的表现给予相应的奖励。如果AI能够正确识别物体、准确判断尺度并给出合理答案,就会获得高分奖励;如果在某个环节出现错误,奖励就会相应降低。这种机制鼓励AI形成类似人类的系统性思维习惯。
为了准确评估AI的空间推理能力,研究团队还精心构建了一个名为SpaceVista-Bench的评测基准。这个基准的特殊之处在于,它的所有答案都经过了严格的物理世界验证,确保与现实完全一致。
传统的AI评测往往依赖人工标注,但人工标注在空间测量方面容易出现主观偏差。特别是对于一些复杂的空间关系,不同的标注者可能会给出不同的答案。为了避免这个问题,研究团队采用了多种客观的验证方法。
对于微观和桌面场景,研究人员亲自拍摄了50多个不同大小物体的视频,并使用精密测量工具记录了每个物体的准确尺寸和位置关系。这就像是建立了一个标准的物理参考库,确保所有的测量数据都有可靠的依据。
对于室内和户外的大型场景,研究团队则通过查阅权威资料来获得准确数据。比如,对于某个著名建筑的高度,他们会查询官方的建筑资料或者维基百科等可靠来源,而不是依赖主观估计。
对于一些特殊的任务,比如摄像机运动方向判断,研究团队聘请了专业的标注人员进行仔细分析和验证。这些专业人员都经过专门训练,能够准确识别各种复杂的空间关系。
最终,SpaceVista-Bench包含了来自500个独特视频场景的3000个问答对,准确率达到99%。这个基准为评估全尺度空间推理能力提供了一个可靠的标准。
为了验证SpaceVista系统的实际效果,研究团队进行了大量的对比实验。他们将SpaceVista-7B模型与目前最先进的各种AI模型进行了比较,包括GPT-4、Gemini等商业模型,以及各种开源的专业空间推理模型。
实验结果令人印象深刻。在SpaceVista-Bench这个全尺度评测基准上,SpaceVista-7B的表现显著优于所有对比模型。具体来说,它比最好的开源模型高出约6个百分点,比商业模型也有明显优势。
更重要的是,SpaceVista-7B在各个不同尺度上都表现出了良好的性能。无论是处理毫米级的微观场景,还是分析公里级的大范围场景,它都能给出准确的空间推理结果。这种全尺度的一致性正是该系统的核心优势。
研究团队还进行了详细的消融实验,分别验证了系统各个组件的贡献。结果显示,尺度专家架构带来了显著的性能提升,证明了解决跨尺度知识冲突的重要性。渐进式奖励机制也发挥了重要作用,帮助AI形成了更加合理的推理过程。
此外,引入几何信息的自监督编码器也带来了明显的改进,证明了超越语义信息的重要性。这些实验结果充分验证了研究团队设计思路的正确性。
SpaceVista系统的成功开发为多个重要领域带来了新的可能性。在工业制造领域,这种全尺度空间推理能力可以帮助机器人更好地理解复杂的生产环境,从精密的零件装配到整体的生产线布局都能准确把握。
在自动驾驶领域,SpaceVista的技术可以让车辆更好地理解道路环境,既能识别路面上的小障碍物,也能理解整个交通网络的布局。这种多尺度的空间感知能力对于提高自动驾驶的安全性和可靠性具有重要意义。
在无人机和遥感应用中,这种技术可以帮助系统更好地分析大范围的地理信息,从单个建筑物的细节到整个城市的规划布局都能准确理解。这对于城市规划、环境监测、灾害评估等应用都有重要价值。
当然,目前的系统还有进一步改进的空间。研究团队指出,未来可以考虑扩展到更极端的尺度,比如微米级的医疗手术应用,或者更大范围的地理测绘应用。随着技术的不断发展,全尺度空间推理能力将在更多领域发挥重要作用。
说到底,这项研究的意义不仅在于技术本身的突破,更在于它为AI系统提供了一种更接近人类认知的空间理解能力。就像人类能够轻松地在不同尺度之间切换思维一样,AI系统也开始具备了这种灵活的空间感知能力。这种进步不仅推动了人工智能技术的发展,也为解决现实世界中的复杂空间问题提供了新的工具和方法。随着这种技术的不断完善和普及,我们可以期待在不久的将来看到更多智能系统能够像人类一样准确地理解和操作我们周围的空间世界。
Q&A
Q1:SpaceVista系统能够处理哪些尺度范围的空间推理任务?
A:SpaceVista系统能够处理从毫米级到公里级共六个数量级的空间推理任务。具体包括毫米级的精密制造场景、厘米级的桌面物体操作、米级的室内布局理解、十米级的户外环境分析,以及百米到公里级的大范围场景理解,比如无人机航拍和城市规划等应用。
Q2:SpaceVista-7B模型相比其他AI模型有什么优势?
A:SpaceVista-7B的主要优势在于它是首个能够进行全尺度空间推理的AI模型。它不仅能处理传统AI擅长的室内场景,还能准确理解从显微镜级别到卫星图像级别的各种空间关系。在SpaceVista-Bench评测中,它比最好的开源模型高出约6个百分点,并且在各个不同尺度上都保持了一致的高性能表现。
Q3:这项技术在实际应用中有什么用途?
A:SpaceVista技术在多个重要领域都有广泛应用前景。在工业制造中可以帮助机器人进行精密装配和生产线管理;在自动驾驶中可以提高车辆对道路环境的理解能力;在无人机和遥感领域可以用于城市规划、环境监测和灾害评估;在医疗领域可以辅助精密手术操作。这种全尺度的空间理解能力为智能系统在复杂现实环境中的应用提供了重要支撑。
好文章,需要你的鼓励
过去十年,终端厂商比拼的是“性能”和“参数”,如今,竞争的焦点正转向“智能程度”。
Fractal AI Research实验室开发了Fathom-DeepResearch智能搜索系统,该系统由两个4B参数模型组成,能够进行20多轮深度网络搜索并生成结构化报告。研究团队创新了DUETQA数据集、RAPO训练方法和认知行为奖励机制,解决了AI搜索中的浅层化、重复性和缺乏综合能力等问题,在多项基准测试中显著超越现有开源系统,为AI助手向专业研究工具转变奠定了基础。
快手科技与清华大学合作发现当前AI语言模型训练中存在严重的权重分配不平衡问题,提出了非对称重要性采样策略优化(ASPO)方法。该方法通过翻转正面样本的重要性权重,让模型把更多注意力放在需要改进的部分而非已经表现良好的部分,显著提升了数学推理和编程任务的性能,并改善了训练稳定性。