微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 GLEAM:复杂3D室内场景中主动建图的可泛化探索策略

GLEAM:复杂3D室内场景中主动建图的可泛化探索策略

2025-05-30 10:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-30 10:01 科技行者

在未知复杂环境中进行探索与建图一直是移动机器人面临的核心挑战。2025年5月,来自香港中文大学和上海人工智能实验室的研究团队(包括陈晓、王泰、李全意、黄涛、庞江淼和薛田凡)在论文《GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes》中提出了一种全新的解决方案。这项研究展示了一种能够适应各种复杂室内环境的可泛化探索策略,项目网站为xiao-chen.tech/gleam。

想象一下,你把一个机器人放在一个从未去过的陌生房子里,要求它自主探索并创建整个房子的3D地图。这就像让一个蒙着眼睛的人在完全陌生的迷宫中找到所有房间并绘制出完整地图一样困难。传统方法往往只能在简单或类似的环境中表现良好,一旦环境变得复杂或截然不同,它们就会迷失方向。

现有的探索策略面临三大挑战:首先,训练数据不足且单一,许多方法仅在不到100个同质场景上训练,无法应对多样化的真实环境;其次,技术框架依赖经验启发式规则来指导探索,如信息增益或布局预测,这些规则在面对多样化障碍布局时难以泛化;第三,训练设置过于简化,如固定起始位置,使策略难以适应复杂互连空间的探索需求。

为了解决这些问题,研究团队首先构建了GLEAM-Bench,这是首个专为可泛化主动建图设计的大规模基准数据集,包含1,152个来自合成和真实扫描数据集的多样化3D场景。基于此,他们提出了GLEAM,一种统一的可泛化探索策略。该策略在不需要任何微调或先验知识的情况下,能够在未见过的复杂场景中进行有效探索,并创建高质量的3D地图。

如图1所示,GLEAM在一个从未见过的Matterport3D真实扫描场景中进行探索,仅使用40个关键帧就实现了83.67%的覆盖率。就像一个聪明的探险家能够凭借对一般环境规律的理解,在任何陌生地形中高效探索一样,GLEAM也展现出了这种能力,而无需专门针对每个新环境进行学习。

在由128个未见过的复杂场景组成的测试集上,GLEAM的表现远超现有方法,实现了66.50%的平均覆盖率(比最佳基线方法高出9.49%),同时提供更高效的轨迹和更准确的建图结果。这就好比普通探险家需要多次尝试才能绘制出一个完整地图,而GLEAM能够一次性高效完成任务。

那么,GLEAM是如何实现这一突破的呢?让我们深入了解其核心设计和工作原理。

一、大规模数据集:GLEAM-Bench的构建

想象一下,如果要训练一个能在任何城市导航的司机,你会让他只在一个小区域练习吗?显然不会。同样,要让探索策略具有强大的泛化能力,就需要在多样化的环境中进行训练。

现有的探索策略大多仅在少量场景上训练,如表1所示,ExploreNav和ANS仅使用20个场景,而OccAnt和UPEN分别使用72和61个场景。这就像只让驾驶员在几条街道上练习,却期望他能在全球任何城市驾驶一样不现实。

为了验证数据多样性的重要性,研究团队在图2中展示了一个有趣的实验:他们将之前最先进的算法ANS和OccAnt在32个包含12个房间的场景上训练,然后分别在10个房间和5个房间的场景上测试。结果显示,这些算法在10个房间的场景中表现尚可,但在仅有5个房间的简单场景中却完全失败了。这证明了它们泛化能力的局限性,就像一个只会在高速公路上开车的司机,反而在简单的乡村道路上迷失方向。

基于这一发现,研究者构建了GLEAM-Bench,这是第一个专为可泛化主动建图设计的大规模基准数据集。该数据集包含1,152个多样化的3D室内场景,其中包括:

合成数据集:ProcTHOR和HSSD提供的精确几何模型和多样化布局。 真实扫描数据集:Gibson和Matterport3D提供的真实世界场景。

这些场景被分为1,024个用于训练和128个用于评估,确保了数据的多样性和复杂性。就像一个在各种地形(城市、乡村、山区、海滨)都受过训练的探险家,能够更好地适应新环境一样,GLEAM通过在这些多样化的场景中学习,获得了强大的泛化能力。

为了支持高效训练,研究团队将这些数据集与NVIDIA Isaac Gym连接,实现了并行感知数据模拟和在线策略训练,即使在复杂场景上也能达到150 FPS的速度。这就像为探险家提供了一个高效的虚拟训练场,让他能够在短时间内积累大量不同环境的探索经验。

二、GLEAM的核心设计:让探索更智能

如图4所示,GLEAM的工作流程就像一个智能探险家在未知环境中的探索过程。首先,它通过深度相机获取观察数据,然后更新全局地图,提取语义自我中心地图,并使用轻量级Transformer分析地图和轨迹历史,预测长期目标。这整个过程由覆盖率奖励指导,鼓励探索者发现更多未知区域。

GLEAM的卓越泛化能力主要来源于三个关键设计:

### 1. 语义地图表示:超越简单几何

传统的探索方法只关注空间的几何信息(占据、自由、未知),就像只看到墙壁和通道的探险家。而GLEAM维护了两种地图:以机器人为中心的语义地图和世界坐标系中的概率全局地图。

语义地图不仅包含基本的几何信息,还包含四种与任务相关的状态:占据、自由、未知和边界。特别是边界信息(已探索区域与未知区域之间的边界)为探索提供了关键线索,就像探险家识别出"这里有一条尚未探索的小路"。

研究者使用LocoTransformer这一轻量级架构来处理这些语义信息,提取任务相关的特征,而不受特定场景结构的限制。这就像给探险家提供了一双能够识别潜在探索路径的"智慧眼睛",无论他身处何种环境。

### 2. 长期目标行动空间:超越局部步骤

想象一下,如果探险家每次只能决定"向前走一步"或"向右转30度",那么规划一条穿越复杂环境的路径将非常困难。传统方法使用这种短期动作空间,不仅训练效率低,还容易产生不平滑的轨迹。

GLEAM采用了一种长期目标行动空间,允许机器人选择远处但可达的目标作为原子动作。系统使用A*规划器验证目标的可达性,确保安全导航。这相当于让探险家能够说"我要去那个看起来有趣的房间",而不是"我先向前走一步,再向右转,再向前..."。

这种设计将全局探索意图与局部导航分离,让机器人专注于高层决策,同时将低层路径安全交给规划器处理。结果是产生了全局连贯且局部平滑的轨迹,覆盖更多未知区域。

### 3. 随机化训练策略:增强适应性

如果探险家总是从同一个起点开始探索,他将难以应对从不同入口进入环境的情况。先前的方法往往在训练时将机器人初始位置固定在场景中心,这隐含地引入了不切实际的先验知识。

GLEAM采用随机初始化策略,在训练和评估时随机设置机器人的初始位置。这就像让探险家从各种不同的入口开始探索,迫使他学习适应不同的起点,而不是依赖固定的探索模式。

此外,GLEAM还采用了场景更新策略,在训练过程中定期更换活跃训练场景,进一步增强了策略的多样性和鲁棒性。这相当于不断将探险家传送到不同的环境中,迫使他快速适应新情况。

三、实验评估:GLEAM的卓越表现

研究团队在GLEAM-Bench的128个未见过的复杂场景上对GLEAM进行了全面评估,结果令人印象深刻。

如表3所示,GLEAM在整体表现上显著优于现有方法:

覆盖率:GLEAM实现了66.50%的平均覆盖率,比最佳基线方法ANM高出9.49%。 曲线下面积(AUC):GLEAM达到57.63%,表明其探索效率更高。 Chamfer距离:GLEAM的距离为0.80m,表明其建图精度更高。

特别值得注意的是,GLEAM在合成数据集(ProcTHOR和HSSD)上表现特别突出,覆盖率达到76.01%。即使在极具挑战性的跨数据集和真实扫描场景(Gibson和Matterport3D)上,GLEAM也保持了约47%的覆盖率,展示了其强大的泛化能力。

如图6所示,与ANM和OccAnt相比,GLEAM能够更全面地探索复杂室内场景,无论是合成场景还是真实扫描场景。这就像一个经验丰富的探险家能够在各种不同的环境中找到最有效的探索路径,而初学者则可能错过许多区域。

四、深入分析:为什么GLEAM如此有效?

为了理解GLEAM卓越性能背后的原因,研究团队进行了一系列消融实验,分析了不同组件和设计选择的影响。

### 1. 训练场景的数量和多样性

如图5所示,随着训练场景数量从32增加到1,024,GLEAM的性能稳步提升:覆盖率从57.9%提高到66.5%,AUC从48.1%提高到57.6%,Chamfer距离从1.05m减少到0.80m。这证明了大规模多样化训练数据对泛化能力的关键作用。

更有趣的是,表4显示,在较少但更复杂的场景(≥10个房间)上训练的策略性能接近在两倍数量的简单场景上训练的策略。这表明场景复杂性与数量一样重要,就像在几个复杂迷宫中练习可能比在许多简单走廊中练习更有效。

跨数据集训练也证明是有益的:结合ProcTHOR、HSSD和Gibson数据集训练的策略比仅使用ProcTHOR训练的策略在AUC和覆盖率上分别提高了2.17%和1.00%。这就像让探险家在不同国家的地形中训练,使他能够更好地适应任何新环境。

### 2. 场景表示和编码器的影响

表5展示了不同场景表示方法的比较:

语义占用地图(包含占据、自由、未知、边界信息)比二进制占用地图(仅包含占据和其他信息)在AUC上高出3.65%,在覆盖率上高出3.58%。这表明加入任务特定的语义信息(如边界类别)使探索决策更加明智。

在特征编码方面,轻量级LocoTransformer编码器明显优于传统的UNet架构,通过跨层注意力机制捕捉长程空间依赖关系。

### 3. 长期行动空间的优势

GLEAM的长期目标规划比短期目标规划表现更佳,这验证了两个关键优势:

集成A*验证的路径连接性自然解决了传统两阶段规划器面临的安全-可达性困境,探索效率提高17.39%(AUC)。 将全局探索决策与局部障碍避免分离保留了行动空间多样性,使策略能够发现非短视的轨迹,覆盖更多未知区域(+17.65%)。

### 4. 训练策略的重要性

表5还显示了训练策略的关键作用:

随机初始化策略比固定初始化在AUC上提高9.68%,覆盖率提高10.45%,强调了多样起始条件对防止特定布局过拟合的重要性。 频繁的场景更新(p=1)比偶尔更新(p=0.05)在覆盖率上高3.33%,AUC高3.73%。

这些结果共同表明,目标时域、初始化多样性和更新频率必须共同优化才能实现强大的泛化能力。

五、面向未来:挑战与机遇

尽管GLEAM在仿真环境中表现出色,但实际部署仍面临一些挑战:

1. 噪声观测:真实世界的传感器不可避免地存在噪声和深度模糊。GLEAM使用概率占用地图来减轻原始输入噪声,但持续的噪声模式仍会在主动建图过程中传播几何误差。

2. 姿态估计:虽然GLEAM在仿真器中获得精确姿态,但在快速相机运动或无纹理区域的实际场景中会产生姿态漂移。这种空间不确定性表现为几何片段错位,特别是在扫描椅子腿或灯臂等薄结构时。

3. 开放环境:与仿真中的有界扫描域不同,真实世界场景通常包含动态扩展的区域(如新开的门)。现有框架难以为无界和动态场景构建内存高效的表示。

为了推进真实世界验证,研究团队评估了GLEAM在传感器噪声容忍度和计算成本方面的表现。通过在推理过程中向观测注入与硬件一致的高斯噪声,他们发现GLEAM保持了强大的鲁棒性,这源于其概率地图通过贝叶斯更新固有地抑制瞬态噪声。

在计算效率方面,GLEAM在配备RTX 3090 GPU的PC上实现了实时推理(104.7Hz),图7的延迟分析展示了其轻量级策略网络和CUDA加速地图更新/A*规划的效率,确保了真实世界中的无缝高频感知和决策。

六、结论与启示

GLEAM代表了主动建图领域的重大进步,通过创新的设计和训练策略解决了长期存在的泛化挑战。这项研究的意义不仅在于提高了覆盖率和建图精度,更在于展示了如何构建真正可泛化的探索系统。

对于研究社区,GLEAM-Bench提供了一个重要工具,使未来的探索策略能够在多样化和复杂的环境中进行训练和评估。对于实际应用,GLEAM提供了一种方法,使机器人能够在各种未知环境中更自主、更高效地探索和建图。

想象一下未来的救援机器人能够自主探索地震后的建筑物,或家庭服务机器人能够在第一次访问时就高效建立新家的地图。GLEAM的技术进步使这些应用更接近现实。

正如一个经验丰富的探险家能够应用其在各种环境中获得的知识来探索任何新地形一样,GLEAM学习了一种通用的探索策略,能够适应各种复杂室内场景。这种泛化能力是未来自主移动机器人的关键能力,使它们能够在未知环境中高效导航和执行任务。

总之,GLEAM不仅提高了主动建图的性能标准,还为构建真正泛化的机器人系统提供了宝贵的见解和方法。随着这一领域的不断发展,我们可以期待更智能、更自主的机器人探索者出现在我们的世界中。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-