微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 高德地图研究院用AI"凭空造出"了整个地球的3D模型,这项技术究竟有多惊人?

高德地图研究院用AI"凭空造出"了整个地球的3D模型,这项技术究竟有多惊人?

2026-06-17 09:47
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-17 09:47 科技行者

这项由阿里巴巴集团旗下高德地图计算机视觉实验室(AMAP CV Lab)主导的研究,以技术报告形式于2026年6月8日发布,论文编号为arXiv:2606.09967,有兴趣深入了解的读者可以通过这个编号查询完整内容。

**地球的3D地图,凭什么这么难做?**

打开手机上的地图软件,你可以看到2D的街道和建筑轮廓;切换到卫星模式,能看到俯瞰视角的地面图像;但如果想要真正的三维城市——可以从任意角度飞进飞出、看清建筑侧面、感受真实空间感——那就是另一回事了。

目前世界上做得最好的三维地球,要数谷歌地球。它的3D城市是靠真实飞机从不同角度拍照,然后用专业软件一点一点"拼"出来的,这个过程就像雕塑家用无数小碎片拼一座精细雕像,耗时费力,造价极高。而且更糟糕的是,飞机拍不到的地方,3D数据就是空白。根据谷歌地球官方数据,非洲大陆能看到3D地形的国家和地区覆盖率只有3.7%,南美洲也仅有17.4%。换句话说,地球上大量区域在3D地图上至今还是一片白地。

高德地图的研究团队提出了一个完全不同的思路:既然人类建造城市的方式有规律可循,建筑的形态、纹理、街道的布局都有内在逻辑,那能不能训练一个AI,让它从一张卫星俯拍图出发,直接"猜"出这块地方的三维样貌?这就是ABot-Earth 0.5的核心野心——用生成式AI,为整个地球凭空造出一套三维模型。

---

一、 "凭空造楼"的底层逻辑:AI如何学会三维世界

要理解这项技术的突破在哪里,先得明白AI是怎么"学会"认识三维世界的。

这里有一个关键的概念叫做"3D高斯泼溅"(3D Gaussian Splatting,简称3DGS)。这个名字听起来像是厨师失手把颜料泼在墙上,但它实际上是目前最先进的三维场景表示方法之一。传统的三维模型是由无数个三角形拼成的"壳",就像用乐高积木搭房子,每块积木有明确的边界和形状。而3DGS不一样,它用的是数以百万计的"模糊椭圆气泡"来描述空间,每个气泡有自己的位置、大小、颜色和透明度。当这些气泡叠加在一起,从任意角度看过去,就能呈现出非常真实的视觉效果。树叶的半透明感、水面的倒影、建筑玻璃幕墙的反光——这些在传统三角形模型里极难处理的效果,用3DGS来表现却游刃有余。

高德团队的第一个重大选择,就是把整个生成式AI框架直接建立在3DGS这种表示方式之上。这意味着AI不是先生成一张照片再"猜"立体结构,而是直接输出数百万个"气泡"的精确参数,原生就是三维的。这在此前的研究中从未有人这样做过。

但AI要"学会"生成三维城市,需要大量的训练素材。你没办法让AI看几张照片就学会建筑学,就像你不能让一个从没见过城市的孩子凭空画出上海天际线一样。所以,研究团队做的第一件大事,是花费巨大精力构建训练数据——真实世界城市的高质量3DGS场景。

---

二、 训练数据从哪里来:一套严苛的"城市建模流水线"

为了让AI学得好,研究团队自建了一套叫ABot-3DGS的重建引擎,用来把现实世界的照片转化成高质量的3D场景。原材料来自三个渠道,三者相互配合,覆盖了从宇宙视角到街头视角的完整画面。

第一类是卫星图像。商业卫星可以从不同的侧斜角度对同一个地区反复拍照,通过视差原理推算出地面的三维结构,这就像你闭上一只眼睛再睁开,靠两眼之间的位置差感知距离的原理。研究团队收集了包括公开的DFC 2019卫星数据集在内的多源卫星影像,通过一个叫FromOrbit2Ground的模块处理。这个模块很有意思:它先用一种特殊的几何计算方式从顶视图中恢复出密闭的城市几何骨架,再用一个AI扩散网络补全建筑侧面的纹理细节——因为卫星从头顶看下去,根本看不到楼房的侧面,这些细节必须靠AI"补全想象"。

第二类是航拍图像。用飞机或无人机携带倾斜摄影相机,从不同方向和角度密集拍摄城市。这是精度最高的数据来源,构成了训练数据的核心。研究团队还引入了公开数据集UrbanScene3D(收录了12.8万张图片,覆盖55平方公里城市区域)和Mill-19等来丰富场景多样性。在有条件的情况下,团队还会加入激光雷达点云数据作为精确的几何参考,进一步提升重建质量。

第三类是地面街景数据。街拍视频、低空无人机footage,以及类似UC-GS这样同时包含无人机和地面视角的公开数据集。这类数据对于补全建筑侧面、门窗细节、路面纹理等地面视角才能看到的内容至关重要。ABot-3DGS有一个跨视角融合能力,能把从天上拍的和从地面拍的图像精确对齐,整合进同一个三维模型里,就像让两个摄影师的素材无缝剪辑成一部电影。

这套重建引擎面临的挑战也是巨大的。城市规模往往覆盖数百平方公里,必须把一个超大场景切成很多独立的小块并行处理,再无缝拼接起来。而且同一个地方不同时间、不同天气、不同季节拍的照片,光线颜色差异巨大,AI需要学会忽视这些"干扰",只学习建筑本身的真实样貌,这就好比让一个素描学生不管照明如何变化,都能画出苹果真实的形状。为此,ABot-3DGS专门开发了多层次的外观变化建模机制,把"光影变化"从"场景本身"里剥离出来;同时还有语义感知优化,对建筑、植被、水面等不同类型的场景内容采用不同的优化策略;动态物体如汽车、行人也会被自动识别并从场景中剔除。

重建出城市3DGS场景之后,还需要把这些场景切割成适合AI训练的小块。团队采用200米×200米的滑动窗口切片,相邻切片之间有重叠区域以提供边界上下文信息。每个切片再用虚拟摄像机矩阵从多个高度、多个俯仰角、多个方向渲染出大量图像,形成监督信号。特别是,还会专门渲染出"模拟卫星视角"的图像,这将在后续训练AI时作为输入条件使用。

数据生成出来还不算完,要过三关质量筛选。第一关在切片层面,检查重建质量(PSNR、SSIM、LPIPS等图像质量指标)、几何准确度、AI视觉语言模型打分和空间完整度,不合格的退回重建。第二关在单张渲染图层面,先过滤掉透明度不足的空洞区域,再用视觉语言模型评估纹理清晰度和伪影数量。第三关在整个数据集层面,做场景类别的均衡采样,防止某种城市形态的数据过多导致AI偏科;同时做语义去重,把太相似的切片合并或剔除,防止AI死记硬背而不是真正学会泛化。

---

三、 生成式AI的四大技术突破:让"凭空造城"成为可能

有了高质量的训练数据,真正的技术挑战才开始。研究团队针对大规模地球级场景生成面临的四个核心难题,各自提出了解决方案。

第一个难题是"表示的鸿沟"。前面提到,现有的AI生成器大多针对3D网格模型(那种用三角形拼成壳的方式)设计,而真实世界的室外环境——满是树叶、水面、玻璃的复杂场景——用3DGS表达更合适,两者之间存在根本性的格式不匹配。ABot-Earth的解决方案是创建一个原生的3DGS生成框架,核心是"压缩-生成"范式:先设计一个编码器,把包含数百万个气泡的3DGS场景压缩成一个紧凑的潜在空间表示(类似于把一部电影压缩成一个很小的"精华提取物");再设计一个解码器,从这个压缩表示还原出完整的3DGS场景。整个生成过程在这个压缩的潜在空间里进行,既保留了3DGS的所有优势,又让计算量变得可控。

第二个难题是"互动性与细节层次"。地球尺度的地图需要支持从整颗行星视角一路缩放到街道层面的无缝体验,同一套数据在远看时不能让你的电脑因为数据量太大而卡死,近看时又必须足够清晰。传统的解决方案是重建完高精度模型之后,再做多层次的降精度处理,这不仅耗时,降精度过程中还会损失质量。ABot-Earth团队的解决方案叫"内在多层次细节解码器"(Inherent Multi-LOD Decoder),把细节层次的生成能力直接内嵌进生成网络本身。模型在生成场景时,天然就输出一个层次化的结构,远看用简化版本,近看自动切换到精细版本,不需要事后处理,也不会有质量损失。

第三个难题是"空间连贯性"。生成千米级别的大场景,不可能一口气生成整块区域,必须分块处理,但每块单独生成的话,交界处往往会出现明显的裂缝和错位,就像拼图拼不严实时边缘对不上的感觉。研究团队提出了一种"无缝滑动窗口推理策略",在生成相邻图块时,会让它们的重叠区域相互参照和融合。具体来说,在图块的过渡区域,相邻图块的生成过程会相互"知晓"对方的状态,精心管理两侧的影响权重,让过渡区域自然融合而不是硬拼接,最终效果就像是一整幅画而不是东拼西凑的马赛克。

第四个难题是"条件信号的跨域鸿沟"。ABot-Earth使用卫星图像作为生成三维场景的条件输入,但问题是,全球各地的卫星图像质量参差不齐——分辨率差异巨大,有的受云层遮挡,有的拍摄角度奇怪,而且卫星图和训练用的航拍图在成像特性上本来就不一样(大气散射、传感器差异等)。研究团队采用了两阶段的跨域条件适应策略:在训练阶段,从训练数据中专门渲染出"模拟卫星视角"的图像,让AI在训练时就见过类似卫星图的输入;在推理阶段(真正使用时),引入一个视觉语言模型作为"翻译适配器",动态分析输入的真实卫星图的具体特性,并据此调整生成参数,确保模型能处理任何来源、任何质量的卫星图像。

---

四、 从算法到星球:如何把3.2万亿个"气泡"送到你的手机屏幕上

有了生成算法,还面临一个庞大的工程挑战:如何把覆盖整个地球的三维数据真正部署成一个可以实时使用的地图服务?

研究团队设计了一个分两步走的工程体系。第一步是全球规模的生产流水线。使用A100显卡进行推理时,一张4K分辨率的卫星图可以对应约1.6公里×1.6公里的地面范围(约2.56平方公里),处理时间大约25分钟。全球已建成区面积约80万平方公里,折合约31.25万个生产任务。在1000张GPU并行运行的集群配置下,全部生产任务预计可在10天内完成,最终输出大约3.2万亿个高斯气泡。

在输入预处理方面,团队特别注意了一个容易被忽视的细节:常用的Web地图坐标系(EPSG:3857,也叫墨卡托投影)在高纬度地区存在严重的面积失真,靠近北极的地区在地图上会被"拉伸"得非常大,实际上对应的地面面积却很小。如果直接用这种坐标系下的图像喂给AI,模型会以为自己在处理比实际大得多的区域,生成结果就会出错。所以流水线会先把多张地图瓦片拼接成连续的地理图像,再根据实际目标地面范围做各向同性的重采样,保证全球任何纬度的输入图像都有统一的地面分辨率。

第二步叫EarthScape,是可扩展渲染流水线,专门解决如何让这3.2万亿个气泡变成可以实时浏览的地图。这个流水线有三个核心环节。

地理对齐环节负责把每个独立生成的图块从各自的局部坐标系转换到统一的地理坐标系。每个图块的所有气泡——包括它们的位置、旋转方向、大小——都会被统一变换到以图块中心为原点的"东北天"本地切平面坐标系(ENU坐标系)下,确保来自不同图块的气泡可以精确拼合在一起,就像把很多块地砖精确铺到同一个地板上,每块地砖的坐标都要对得上。

数据层次化重组环节负责建立多层细节级别的结构。所有气泡被重新分配到标准地图切片层次结构中,从缩放级别14(粗略全局视角)到缩放级别19(精细街道视角),共6个层次。其中精度最高的3层(17-19级)直接由生成模型原生产出,完全不经过降采样,保证最高精度。较低精度的3层(14-16级)则从17级数据出发,用一种基于"巴塔查里亚距离"的统计降采样方法生成——简单说,就是把相互之间最"冗余相似"的气泡合并删除,同时保留整体视觉效果。这个过程完全基于参数的数学运算,不需要渲染图像,可以在CPU上高效运行,并与GPU生成任务并行进行,大幅缩短了总体流水线的延迟。同时还建立了两套空间索引:一套符合国际开放地理空间联盟(OGC)3D Tiles标准规范的索引,兼容通用GIS客户端;另一套是简单的路径约定格式,专门为内容分发网络(CDN)缓存优化。

渲染调度环节则是前两个环节成果的最终体现,与高德地图自研的云境渲染引擎深度集成。渲染引擎每帧根据用户当前的视口位置和视角动态计算需要加载哪些图块、需要哪个精度级别,近处加载19级高精度,远处加载14级粗精度,不同精度层之间有平滑的淡入淡出过渡,避免突兀的画面跳变。整套系统复用了渲染引擎已有的视锥体裁剪和异步流式加载基础设施,实现了对万亿规模全球3DGS数据集的实时交互渲染。

---

五、 和谷歌地球比一比:ABot-Earth赢在哪里、输在哪里

研究团队做了两类评估:一类是与学术界同类方法的纯技术对比,一类是与商业产品的系统级对比。

在纯技术指标上,研究团队使用FID(Fréchet Inception Distance,衡量生成图像与真实图像分布差异的标准指标,数值越低越好)和KID两个指标,与三个学术基线方法做了比较。CityDreamer的FID为97.3,GaussianCity为86.9,EarthCrafter为69.5,而ABot-Earth 0.5的FID是16.1。这是一个大幅度的提升——从69.5降到16.1,差距非常显著。值得一提的是,ABot-Earth的真实图像基准是来自真实世界复杂3DGS重建的渲染结果,这比其他方法使用的简化或合成数据集基准要难得多,也因此让这个结果更有说服力。

与商业产品的对比则更直观。研究团队选取了谷歌地球和Marble(一个闭源的程序化3D世界生成平台)作为参照,从覆盖范围、生成效率、视觉质量和开放性四个维度进行对比。

覆盖范围方面,ABot-Earth的优势最为突出。谷歌地球的3D数据高度依赖物理飞行采集,按照其官方平台数据,在非洲只有3.7%的国家和地区有3D覆盖,在大洋洲是14.3%,北美是17.4%(注:这里指更广泛的国家/地区覆盖率),而ABot-Earth对应的数字分别是68.5%、57.1%、56.5%。欧洲是谷歌地球做得最好的地区,覆盖率达到81.4%,ABot-Earth为88.4%,超过谷歌。论文里特别展示了爱尔兰的案例:谷歌地球因为没有扫描数据,爱尔兰只能显示为一张扁平的2D卫星图;而ABot-Earth凭借单张卫星图,成功生成了有立体感的三维场景。

效率方面,ABot-Earth每平方公里的生成时间不到10分钟,而谷歌地球的传统摄影测量流水线从拍摄到上线往往需要数月乃至数年时间,两者根本不在一个数量级。

视觉质量方面,研究团队还做了一项人工主观评分实验,让参与者分别为"几何准确度"(建筑结构是否正确)、"纹理保真度"(表面细节是否清晰)和"整体美观度"(光线、色彩的整体和谐感)打分。ABot-Earth在美观度上得分高于谷歌地球,研究团队将其归因于生成式AI产生的照片整体色调更和谐、光影感更统一。然而谷歌地球在几何准确度和纹理保真度上仍然占优。研究团队对此坦诚以待:谷歌的重建算法经过多年精心打磨,结合了"曼哈顿世界"几何先验和大量人工后处理,当前的生成式AI在几何精度上与之存在差距,就像第一代AI生成图像(比如早期的生成对抗网络)与专业摄影师的作品之间的差距一样。但团队同时表示,这个差距并非不可逾越,随着技术迭代,生成精度有望持续逼近并最终超越传统重建方法。

开放性方面,谷歌地球只对外提供有限的API接口,原始3D数据用户无法获取。ABot-Earth输出的是标准3DGS格式,可以从任意角度渲染,可以直接导出用于下游应用,在仿真、影视虚拟制作、空间计算等领域具有更大的灵活性。

---

六、 地标的特殊处理:当AI生成遇上精细重建

研究还探索了一个有趣的混合策略。世界上有少数极具辨识度的标志性建筑——埃菲尔铁塔、罗马斗兽场、美国国会大厦——它们与普通城市街区不同,人们对它们的外貌有非常清晰的预期。AI生成的普通住宅区,只要"看起来像住宅区"就够了;但如果AI生成的埃菲尔铁塔和真实的对不上号,用户会立刻察觉。

针对这类地标,研究团队探索了"生成+重建"的混合方案:用经典的从运动估计相机位姿结合多视角立体匹配方法(COLMAP流水线)处理众包图片,为选定地标创建高精度密集重建,再转换成3DGS格式,精确对齐地理位置后,直接合成进AI生成的城市背景环境里。从论文展示的结果图来看,埃菲尔铁塔、斗兽场、国会大厦、凯旋门这四个地标都被成功嵌入到各自所在城市的生成环境中,保留了精细的建筑结构细节,同时与周围生成的城市环境自然融合。

这个混合实验揭示了一个更宏大的可能性:ABot-Earth生成的城市环境不必是静态的、不可更改的成品,它可以作为一个结构化的空间基底,供各种数据和内容叠加融合。城市规划师可以清空一整个街区,替换成规划方案的三维模型;应急指挥中心可以在三维沙盘上叠加火情蔓延的实时数据;商业分析师可以把物流路线和人流热力图投影到真实地理空间里进行决策。ABot-Earth的终极愿景,是从一张会动的三维地图,进化为一个可编辑、可仿真、可运营的空间智能平台。

---

七、 为什么无人机要感谢这项技术:三维仿真与具身AI的未来

除了地图产品本身,ABot-Earth对AI机器人领域也有重要意义。

目前,训练无人机自主飞行、避障、导航的AI需要大量的"飞行经验"积累。问题是,在真实世界里让无人机乱飞来积累训练数据成本太高,而且有安全风险。通常的做法是在虚拟仿真环境里训练,但现有的仿真环境要么是人工建模的假场景(视觉效果不够真实),要么是合成的虚假城市(与真实世界存在较大差距,训练出来的AI搬到真实场景里效果大打折扣),这就是所谓的"仿真到现实"的鸿沟问题。

ABot-Earth提供了一条新路径:由于它生成的三维场景是从真实世界重建数据中学来的,视觉和几何都高度接近真实,可以作为一个高保真的闭环仿真训练平台。在这个平台里训练出来的无人机,面对的视觉输入比传统仿真环境更接近真实飞行时看到的景象,理论上可以大幅减少从仿真到实际部署之间的性能跌落。高德团队在论文里明确指出了这一应用方向,并表示ABot-Earth可以为无人机的飞行控制、避障决策和路径规划算法的训练提供关键的空间先验支持。

---

说到底,ABot-Earth 0.5这项工作的意义,用最直白的话讲就是:把建造地球三维地图这件事,从一个需要动用无数飞机、消耗海量人力和时间的"基建工程",变成了一个只需要卫星图加AI就能完成的"按需生产"过程。它没有在每一项单独的技术指标上都无懈可击,几何精度上与谷歌地球的差距是坦诚存在的;但它开辟的这条路的方向是清晰的:覆盖全球、快速生成、实时交互、开放可编辑。

那些在传统三维地图上至今仍是空白的非洲小城、南美雨林边的村庄、太平洋的岛国——ABot-Earth意味着这些地方终于有机会在三维世界里"存在",而不必等待不知何时才会飞来的拍摄飞机。这件事情,对于那些依靠三维地图规划减灾救援路线的人、需要三维城市数据进行科学研究的人、以及未来每一个希望驾驶无人机送餐的人来说,都有切实的影响。

如果你对这项技术的详细原理感兴趣,可以通过arXiv编号2606.09967查到完整论文,官方演示页面在abot-earth.amap.com,目前已展示覆盖190多个国家、超过300个城市的3DGS世界,并仍在持续扩张中。

---

Q&A

Q1:ABot-Earth 0.5和谷歌地球的3D效果有什么区别?

A:谷歌地球的3D城市是靠真实飞机拍照后"拼"出来的,精度高但只覆盖有飞机实际拍摄过的地区,很多国家根本没有3D数据。ABot-Earth 0.5用AI从卫星图直接生成三维场景,覆盖范围大得多,生成速度也快,但目前在建筑几何精度和纹理细节上与谷歌地球仍有差距,美观度则略高于谷歌地球。

Q2:ABot-Earth 0.5生成的城市3D场景是真实的还是AI"编"出来的?

A:介于两者之间。它不是像游戏引擎那样凭空捏造建筑,而是AI从学习了大量真实城市的三维重建数据后,根据卫星图提供的线索"推断"出三维结构。建筑的大致位置、形态、纹理风格都会跟卫星图吻合,但细节(比如某栋楼几楼有几扇窗)是AI基于学到的规律生成的,不保证与现实完全一致。

Q3:3D高斯泼溅(3DGS)技术和普通三维建模有什么不同?

A:普通三维建模用三角形拼成"壳"来表示物体表面,处理树叶、水面、玻璃这类复杂透明物体时很困难。3DGS用数百万个带颜色和透明度的"模糊椭圆气泡"叠加来表示空间,从任意角度渲染出来都很自然,特别擅长表达这类复杂视觉效果,而且渲染速度快,可以实时交互。ABot-Earth选择直接在这种格式上构建生成式AI,是让系统能处理真实世界复杂场景的关键决策。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-