微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

浙大与StepFun联手打造"自我进化"AI：机器人终于能从三维空间里自学空间推理了

空间推理强化学习自进化框架

浙大与StepFun联手打造"自我进化"AI：机器人终于能从三维空间里自学空间推理了

作者：科技行者

2026-04-24 09:05

分享至：

这篇来自浙江大学与StepFun联合团队的研究（arXiv:2604.14144，2026年4月）提出了SpatialEvo框架，让视觉语言模型无需人工标注即可持续提升三维空间推理能力。核心创新是"确定性几何环境（DGE）"——利用三维空间推理答案可从点云和相机位姿直接计算的特性，构建精确无噪声的训练信号，彻底摆脱了传统自进化方法依赖AI投票导致错误固化的问题。系统覆盖16类空间推理任务，让单一模型同时扮演出题者和解题者，配合自适应课程调度器，在九个基准测试上取得了3B和7B两个规模下的最高平均分。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-24 09:05 • 科技行者

这项由浙江大学与StepFun联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.14144，题为《SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments》。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。

一、一个困扰已久的问题：AI为什么总搞不清楚"空间关系"

人类从小就能判断：桌子在椅子的左边，那本书比那个杯子离我近，走廊尽头向右转就能到厨房。这套能力叫"空间推理"，对人类来说几乎不费力气，但对AI来说却是个长期难题。空间推理能力是让机器人在房间里自由导航、让智能助手理解"帮我拿一下茶几上那个红色杯子"这类指令的基础，也是未来具身智能——也就是能在物理世界中行动的AI——最核心的能力之一。

目前主流的做法是给AI喂大量已经标注好的数据：给它看一堆图片，同时告诉它每张图里"沙发在电视机左边""那盏台灯距离相机大概1.2米"。AI通过反复学习这些"题目和答案"，慢慢形成空间感知能力。这条路确实管用，SpatialVLM、SpatialBot、SpatialLadder等一系列模型都沿着这条路取得了不错的成绩。

然而，这条路有一个根本性的瓶颈：数据是死的，模型的成长空间是有限的。一旦标注数据集创建完毕，里面的题目和难度就固定了。如果AI某道题做得很差，数据集不会自动补充更多这类题；如果AI某道题已经全会了，数据集也不会自动提升难度。更麻烦的是，每制作一批新的标注数据，都需要大量人工投入。随着AI能力的提升，这条路会越走越贵、越走越窄。

浙江大学与StepFun的研究团队正是盯住了这个瓶颈，提出了一套名为SpatialEvo的自我进化框架，让AI能在几乎不依赖人工标注的情况下，通过与三维场景环境的交互持续提升自己的空间推理能力。

二、"自我进化"的老问题：用自己给自己打分，能靠谱吗

在自然语言处理领域，"自我进化"的思路已经很成熟了：让AI自己生成问题，自己回答，然后让多个AI版本互相投票，选出最多人赞同的答案作为"标准答案"，再用这个标准答案来训练AI。这种方法叫"模型共识"，听上去很聪明，但有一个致命弱点——它用AI自己的错误来纠正自己。

设想这样一个场景：一班学生都对某道题有同样的误解，然后他们互相抄作业、投票决定哪个答案"最靠谱"。最终被选出来的"标准答案"，不过是那个最流行的错误答案。用这个答案去继续教这班学生，只会让他们把错误学得更牢固。这就是模型共识方法的核心问题——它会把AI群体性的偏见固化下来，而不是纠正它。

SpatialEvo的核心突破，就是发现了一件在空间推理领域独一无二的事情：对于三维空间里的问题，根本不需要AI来当裁判，因为答案可以从物理世界里直接算出来。

三、三维世界里藏着一位永不说谎的裁判

两个物体之间的距离是多少？只需要从它们的三维点云数据里算出各自的边界框，然后求最近点距离，结果是唯一确定的数值，和任何AI的看法无关。站在A点面朝B点，C点在哪个方向？把相机位姿矩阵拿出来做一次坐标变换，答案就出来了，没有任何歧义。哪个物体离相机更近？把三维点云投影到相机图像平面上，比较深度中值就能判断，不需要AI猜测。

这个发现听上去简单，但意义非凡。它意味着，只要有三维场景的底层数据——也就是点云数据和相机位姿序列——就可以构建一个"不会说谎的裁判"，对AI生成的每一道空间推理题进行精确验证，并给出百分之百准确的答案。这个裁判不是另一个AI，它是物理规律本身。

研究团队把这个裁判系统正式命名为**确定性几何环境（Deterministic Geometric Environment，DGE）**。DGE的工作原理类似于一个严格的考官：AI提交一道题，DGE先核查这道题是否在物理上合理、所涉及的场景实体是否真实存在、题目是否有唯一确定的答案；通过核查的题目，DGE直接从几何数据中计算出精确答案；未通过核查的题目，DGE会告知具体的失败原因。整个过程完全自动化，不需要任何人工介入，也不掺杂任何AI的主观判断。

DGE覆盖了16类空间推理任务，涵盖三大方向。第一个方向是多图场景级任务，包括数房间里某类物体的数量、估算某个物体的最大尺寸、计算两个物体之间的实际距离、判断哪个物体离参考物更近、确定"站在A面朝B时C在哪个方向"、以及估算房间的地面面积，这类任务需要AI综合多张图像来理解整个三维场景的布局。第二个方向是单图任务，包括判断单张图片中某物体相对另一物体的方向、估算相机到某物体的距离、以及判断两个物体哪个离相机更近，这类任务考验AI从单张图片中理解透视关系的能力。第三个方向是双图任务，包括判断两张图片对应相机之间的相对位置、判断目标物体相对于拍摄某张图片的相机的方向、判断某个区域相对于相机的方向、估算相机的运动方向、比较同一物体在两张图片中哪张更清晰可见、比较两台相机的高低关系、以及比较两个物体的尺寸大小，这类任务要求AI在不同视角之间保持几何一致性。

四、既当出题老师，又当答题学生：一个模型，两种角色

有了DGE这位"不会说谎的裁判"，SpatialEvo就可以构建起一套完整的自我进化循环。这套循环的巧妙之处在于，整个系统只使用一个AI模型，但让它同时扮演两个角色：出题者（Questioner）和解题者（Solver）。

出题者的工作是观察多张RGB图像——注意，只是普通的彩色图片，不是点云数据本身——然后基于对场景的理解，为指定的任务类型生成一道合理的空间推理题。生成题目之后，DGE立刻介入：它解析题目中提到的实体，检查这些实体在场景中是否真实存在、题目的几何前提是否成立，然后给出"有效"或"无效"的判定。对于有效题目，DGE同时计算出精确答案。

解题者的工作是接收这些题目，仔细看图，一步步推理，给出答案。对于有效题目，答案会直接与DGE计算出的精确答案对比，按照准确程度给分。对于无效题目，解题者需要分析DGE给出的失败原因，解释这道题究竟为什么不合法。这个设计非常聪明：即使是那些被DGE否定的"坏题目"，也不会被浪费——它们变成了帮助模型理解任务规则和几何约束的学习素材。

参数共享的设计带来了一个额外红利。出题者学到的对场景的宏观感知能力，会直接传递给解题者，帮助解题者更好地理解整个三维场景；解题者通过解题获得的几何推理能力，同样反哺给出题者，让它生成更有深度的题目。两个角色之间形成了相互促进的正向循环，而不是相互独立的两个系统。

整个训练过程使用了一种叫做GRPO的强化学习算法，让模型在与DGE不断交互的过程中，通过奖励信号持续调整自己的策略，就像一个学生通过不断做题、得到精确评分、然后调整学习策略来提升成绩一样。

五、奖励信号的精心设计：不只是对错，更是质量

SpatialEvo对奖励信号的设计相当讲究，远不是简单的"对了加分、错了扣分"。

出题者的奖励由两部分构成，权重分别是10%和90%。小权重的那部分是格式分，检查输出是否符合预定的结构要求。大权重的那部分是实质质量分，它本身又是两个子分数的乘积：一个是DGE给出的几何有效性分数，另一个是由轻量语言模型担任评委给出的视觉观察质量分数。这个乘积结构是精心设计的——只有当一道题同时满足"在几何上合法"和"基于充分的视觉观察"这两个条件时，才能获得正面的实质质量分。如果一道题格式上看起来没问题，但出题者其实没有认真观察图像，只是随便编了个题，那么观察质量分会很低，乘积接近零，模型就会学到"光有形式不行，必须真正看懂图"。视觉观察质量的评估只针对出题者的文字描述，不依赖额外的视觉模型，这避免了引入新的不确定性。

对于某些边缘情况，DGE会给出介于0和1之间的有效性分数而非简单的0/1判断。比如，一个场景里某类物体只有1件时，数量问题在形式上有效，但对模型的训练价值有限，此时有效性分数会被设为0.5；深度排序题中两个物体距离相同时，答案虽然存在但缺乏几何辨别度，有效性分数同样是0.5；相机高低对比题中两个视角处于同一水平时，有效性分数直接被设为0，因为这类问题对训练几乎没有贡献。

解题者的奖励同样分为格式分和实质分两部分，权重也是10%和90%。对于有效题目，实质分就是答案与DGE精确结果的吻合程度。对于连续值类任务——比如估算距离是1.3米还是1.4米——使用的是相对误差比较，并设置了从宽松到严格的11个误差容忍阈值，取平均分；对于分类类任务，使用精确匹配，同时对方向类答案做了规范化处理，避免"左前方"和"前左方"这样的同义表达被错误判为不同答案。对于无效题目，实质分由评委对解题者解释内容的质量给出，评委会对照DGE的详细诊断信息，判断解题者是否准确识别了题目不合法的核心原因。

六、让训练自动聚焦弱点：任务调度器的工作原理

SpatialEvo还内置了一个轻量级的任务调度器，专门负责决定每次训练时应该出哪类题目。调度器的逻辑很朴素：哪类任务模型目前做得差，就多出那类题；哪类任务模型已经掌握得比较好，就少出那类题，但不会完全不出。

具体来说，调度器为每类任务维护一个历史准确率的滑动估计，用于计算采样权重。权重与准确率负相关——准确率越低，权重越高，被选中的概率越大。为了防止完全掌握的任务被彻底遗忘，调度器设置了一个最低权重下限，确保即使是最熟练的任务类别也还有一定的出现机会。

这个机制实现了"自适应课程学习"——课程的难度和重点会随着模型能力的变化自动调整，完全不需要人工预先设计任何训练计划。从实验数据中可以清晰地看到这个过程：在训练过程中，"相对方向"任务的采样比例从均匀分配的16.7%逐渐上升到21.8%，"相对距离"任务上升到18.7%，而"房间面积"任务则下降到12.5%，"物体尺寸"任务下降到13.4%。这些数字的变化，忠实地反映了模型在不同任务上的能力差异。

七、实验结果：在九个基准测试上的全面验证

研究团队在9个涵盖空间推理和通用视觉理解的基准测试上对SpatialEvo进行了评估，使用的基础模型分别是Qwen2.5-VL-3B和Qwen2.5-VL-7B两个规模。

SpatialEvo在两个规模下均取得了最高的平均分，3B规模下平均分51.1，7B规模下平均分54.7，超过了所有对比方法。对比方法包括：使用26K静态标注数据集训练的SpatialLadder、使用151K静态数据集训练的SpaceR（以及基于该数据集进行强化学习的SpaceR-SFT和ViLaSR）、以及使用自监督强化学习的Spatial-SSRL。

在最核心的空间推理能力上，SpatialEvo的优势最为突出。VSI-Bench是本研究的主要评测基准，专门测试多视角定量空间推理能力；SpatialEvo在7B规模下得到46.1分，超过SpatialLadder（45.4分）和SpaceR（36.8分）。EmbSpatial测试具身空间理解，SpatialEvo在7B规模下得66.0分，高于ViLaSR（47.8分）和SpaceR（60.3分）。ViewSpatial测试视角依赖的空间推理，SpatialEvo在两个规模下都超过了所有对比方法，3B规模下得42.3分，7B规模下得43.2分。

通用能力方面，SpatialEvo在MMStar（测试通用视觉理解能力）和RealWorldQA（测试真实世界场景的空间理解）上的表现同样稳健。3B规模下MMStar得55.2分，与未训练的基准模型（54.6分）相差无几；7B规模下得62.5分，而重度依赖标注数据的SpatialLadder只有45.8分，ViLaSR只有60.8分。这说明SpatialEvo在提升空间推理专项能力的同时，没有损害模型原本的通用理解能力。

对比方法的崩溃现象非常能说明问题。SpatialLadder和ViLaSR在V-STAR（视频时空推理）基准上的分数暴跌到约36分，而未训练基准模型的分数是74.9分（3B）和78.5分（7B）。这意味着用大规模静态标注数据训练，反而破坏了模型原有的时空推理能力，出现了严重的"遗忘"现象。SpaceR在CoreCognition（核心认知知识）上的分数从基准模型的56.8分跌至29.1分，说明针对特定任务定制的固定奖励函数会压制模型的通用认知能力。SpatialEvo在所有测试配置中都没有出现这种崩溃现象。

八、消融实验：一个个拆掉零件，看哪个最关键

研究团队进行了系统性的消融实验，逐个移除SpatialEvo的不同组件，观察对性能的影响。

移除物理基础（将DGE精确答案替换为多数投票伪标签）造成了最大的性能损失，平均分从54.7骤降至49.6，其中VSI-Bench从46.1崩溃至18.8。这个结果直接验证了论文的核心论点：模型投票机制会将系统性预测偏差固化为伪标签，对于几何密集型任务而言，这种污染是毁灭性的。

移除解题者模块（只保留出题者）使平均分降至51.5，VSI-Bench降至36.6，说明在线几何推导对于内化空间推理能力不可或缺。移除出题者模块（用离线数据替代在线自我出题）使平均分降至53.1，VSI-Bench降至40.2，说明在线自我出题机制本身对性能有显著贡献。移除任务调度器（改为均匀随机采样）只造成了0.3分的轻微下降，但在多轮迭代实验中，调度器的价值会更加明显。

在奖励设计方面，移除出题者的几何有效性奖励导致VSI-Bench从46.1降至41.2，因为无效题目比例上升，流向解题者的有效训练信号减少。移除出题者的视觉观察质量奖励导致轻微但一致的下降（54.5分），说明出题者失去了认真看图的动力，生成的题目缺乏视觉基础，解题者的推理深度也随之变浅。移除解题者对无效题目的解释奖励导致VSI-Bench从46.1降至42.9，ViewSpatial从43.2降至40.9，说明把无效题目转化为学习信号这个设计是有效的。

九、在线进化比静态学习强在哪里：一次受控比较

为了更清晰地展示在线自我进化相对于静态数据学习的优势，研究团队进行了一次严格的受控比较实验，固定使用Qwen2.5-VL-3B模型，固定使用ScanNet数据集，固定六类任务，只改变训练方式。

在强化学习的比较中，SpatialEvo对比使用SpatialLadder数据集进行GRPO强化学习的方法，两者使用完全相同的训练设置。SpatialEvo在VSI-Bench上的平均分达到46.3，高于SpatialLadder强化学习方法的40.1。在监督微调的比较中，研究团队把SpatialEvo在线训练过程中产生的约20K个问答对整理成离线数据集，用于监督微调，并与SpatialLadder（26K）、SpaceR（151K）、Spatial-SSRL（81K）三个静态数据集进行对比。SpatialEvo的离线数据达到了43.9分，高于SpatialLadder数据的43.7分，远高于SpaceR数据的36.3分和Spatial-SSRL数据的28.1分。

这个结果揭示了在线进化的核心优势：静态数据集在创建时就已经固定了训练分布，模型的薄弱点无法得到针对性覆盖；而SpatialEvo通过出题者与DGE的实时交互，持续将训练样本的分布与解题者当前的能力边界对齐，自动实现了"难点重点训练"，这是静态数据集从结构上就无法复制的能力。

十、训练过程中的动态变化：机器学习过程的可视化记录

研究团队记录了训练过程中三条关键曲线的变化，这些曲线生动地展示了自我进化是如何发生的。

出题者奖励曲线显示，几何有效性分数在训练早期就迅速攀升并接近满分，说明出题者很快学会了如何生成物理上合法的题目；视觉观察质量分数则持续缓慢提升，反映了出题者不断深化对场景的理解。解题者奖励曲线显示，准确率奖励稳步上升，而无效题目比例持续下降，说明解题者的几何推理能力在持续积累。场景任务课程动态图是最直观的：六类任务的采样比例从训练开始时的均等分配，随着训练进行逐渐分化，形成了清晰的强弱排序，较难的相对方向和相对距离任务获得了越来越高的采样权重，而较容易的房间面积和物体尺寸任务的权重则逐渐回落。这条曲线证明了课程的自发涌现，完全由模型自己的历史表现驱动，没有任何人工预设。

在四轮迭代实验中，带调度器的SpatialEvo平均分单调递增：第一轮44.2分，第二轮45.0分，第三轮45.1分，第四轮46.1分。而不带调度器的版本在前两轮表现相近（44.2和44.5），但随后停滞甚至小幅下降，第四轮只有43.4分。这说明均匀采样策略在长期训练中无法保持学习效率，而调度器的动态分配能够维持持续改进的动力。

十一、现实局限：这套方法的边界在哪里

研究团队在论文中坦诚地列出了SpatialEvo目前的局限。

最核心的限制是对高质量三维资产的依赖。DGE需要完整的室内场景三维数据——高精度点云重建、标定好的相机位姿参数以及完整的场景覆盖。这些要求目前将SpatialEvo的应用范围限制在静态室内环境，如ScanNet系列数据集所覆盖的场景。在室外场景或存在运动物体的动态场景中，点云稀疏、尺度变化复杂、物体位置不固定等问题都会破坏几何一致性，使得精确答案计算难以保证。

第二个限制来自实体解析的鲁棒性。DGE流水线需要用语言模型从出题者生成的自然语言题目中提取结构化实体，当题目措辞含糊或目标指代不清时，解析错误会沿流水线传播，引入人工标注无法消除的噪声。

第三个限制是对点云质量的敏感性。重建伪影、点云稀疏区域和遮挡都会影响几何算子的精度，比如边界框拟合和深度估计，在连续值任务（如绝对距离和物体尺寸估算）中表现为系统性误差。虽然研究团队在奖励阶段引入了相对误差容忍区间来部分吸收这类噪声，但效果从根本上受限于底层数据质量。

研究团队指出，未来的工作方向包括探索用隐式空间表示或按需几何构建来替代显式点云依赖，以提升系统的可扩展性和对新场景的泛化能力。

说到底，SpatialEvo解决的问题并不复杂：它发现了一件别人没注意到的事——三维空间推理的答案是可以直接从物理世界算出来的，根本不需要AI来当裁判。这个洞察看似简单，但它从根本上绕开了自我进化方法长期以来最大的软肋，把"AI用自己的错误教自己"这个死结彻底解开了。

有了这个突破，一个只有几千个未标注三维场景的数据集，就能变成一个永不耗尽的训练资源库，而且训练的方向始终对准模型最薄弱的地方。这不是技术上的小修小补，而是训练范式上的一次结构性转变——从"喂固定食物"变成了"让模型自己探索食物并得到真实反馈"。

对于普通用户来说，这项研究意味着未来的智能家居助手、服务机器人、自动驾驶系统在理解真实三维空间方面会更加可靠，而且这种可靠性是在持续增长的，不会因为训练数据用完了就停止进步。对研究者来说，这套框架提出了一个更宏观的问题：还有哪些领域存在类似的"物理可验证性"，可以用同样的思路摆脱对人工标注的依赖？这个问题本身，或许比SpatialEvo的具体实现更值得深思。感兴趣深入探讨的读者可以通过arXiv编号2604.14144查阅完整论文。

---

Q&A

Q1：SpatialEvo和普通AI空间推理训练方法有什么本质区别？

A：普通方法用人工标注的固定数据集训练，数据量有限且无法针对模型弱点调整。SpatialEvo的核心不同在于它使用了"确定性几何环境（DGE）"作为裁判——空间推理题的答案可以直接从三维点云和相机位姿数据中精确计算得出，不需要人工标注，也不需要用AI投票来猜测答案。这使得任何未标注的三维场景都能成为训练数据来源，且答案精度有物理保证。

Q2：SpatialEvo中"出题者"和"解题者"是两个不同的模型吗？

A：不是，SpatialEvo只用一个模型，通过不同的提示词让它轮流切换出题者和解题者两种角色。出题者角色负责观察多张图像并为指定任务类型出题，解题者角色负责看图回答这些题目。两个角色共享同一套参数，出题时学到的场景感知能力会帮助解题，解题时积累的几何推理能力也会反过来提升出题质量，形成相互促进的循环。

Q3：SpatialEvo需要大量三维场景数据才能训练吗？

A：相比传统方法，SpatialEvo所需的数据规模并不大。研究团队使用了ScanNet、ScanNet++和ARKitScenes三个数据集合计约4000个场景，构建了包含4365个视觉上下文的训练池。关键在于这些场景被转化为可持续生成训练信号的交互式环境，而非一次性消耗的静态数据，因此效率远高于需要十几万条人工标注的传统方法。不过SpatialEvo目前需要高质量的室内三维重建数据，这在室外或动态场景中还难以直接推广。

空间推理强化学习自进化框架

分享至