微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当一张全景照片能"看懂"整个房间——ETH苏黎世等机构开发出全景几何重建框架PaGeR

当一张全景照片能"看懂"整个房间——ETH苏黎世等机构开发出全景几何重建框架PaGeR

2026-06-03 10:33
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-03 10:33 科技行者

这项由苏黎世联邦理工学院(ETH Zürich)、谷歌(Google)、Meta以及Athlence Sports联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.26368。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。

假设你拿着一台能拍全景照片的相机,在客厅里按下快门,得到一张能看到四面八方的360度图像。你希望计算机仅凭这一张照片,就能告诉你房间里每一处的距离、每一面墙的朝向、哪里是天空、哪里是地板——听起来像是科幻故事,但这正是这篇论文想要解决的问题。研究团队将他们的方案命名为PaGeR,全称是"全景几何重建"(Panoramic Geometry Reconstruction),目标是从单张全景图片中同时恢复出场景的深度信息、表面朝向、天空区域,甚至是实际的物理距离。

从日常生活的角度说,这项技术的潜力几乎触手可及。做虚拟家居设计时,你拍一张全景照,软件能自动知道沙发离墙多远;自动驾驶汽车在路口"环视四周"时,能同时理解所有方向的三维结构;游戏或影视公司想要快速重建真实场地的三维模型,同样可以从一张全景照出发。这些应用场景的核心难题,都是如何让计算机真正"理解"全景图像背后的三维空间。

一、全景照片的"天然缺陷"与现有方案的局限

普通人拍照时用的是标准相机,捕捉眼前一个方向的画面。全景相机则像站在一个球的中心往四面八方看,把整个球面的景象"压平"成一张矩形图片,这种压平方式在学术上叫做"等距圆柱投影"(Equirectangular Projection,ERP)。问题在于,这种压平并不均匀——越靠近图片顶部和底部(对应真实场景中的天顶和地面),图像被拉伸得越厉害,就好像把一个地球仪强行撑成一张世界地图,南北极附近的格陵兰岛看起来比实际大了好几倍。

这种不均匀的拉伸,对于那些习惯处理普通照片的人工智能模型来说,是一个巨大的障碍。现有的深度估计"基础模型"——也就是经过海量数据训练、能开箱即用的通用模型——几乎都是针对普通视角的照片设计的。直接把这些模型用在全景图上,就好像让一个只学过中文阅读的人去读繁体字的古文,大体能猜到一些,但细节上总是驴唇不对马嘴。

现有的全景深度估计方法走了另一条路:专门设计适合全景图的新架构,或者直接在全景数据集上从头训练。但这条路有两个大坑:全景图的高质量训练数据极其稀缺,毕竟带精确三维测量的全景数据采集成本很高;而且一旦数据集有限,模型很容易"记住"训练集的特点,换到新场景就水土不服。此外,全景图的等距圆柱投影失真问题,让从普通照片模型迁移知识变得非常困难。

研究团队意识到,与其在一个充满变形失真的坐标系里硬打,不如换一种表示方式,把全景图变成普通照片模型更容易消化的形式。

二、把全景图"切成六张普通照片"——立方体贴图的奇思妙想

解决方案的核心是一个非常直观的想法:把全景球面的景象,投影到一个正方体的六个面上。每个面都相当于一张标准的90度视角的普通照片,分别对应前、后、左、右、上、下六个方向。这种表示方法叫做"立方体贴图"(Cubemap)。

用一个生活中的比喻来说,等距圆柱投影就像把地球仪的表面强行剥下来铺平,而立方体贴图则像把地球装进一个透明正方体盒子里,然后从正中心向外打光,把景象投影到盒子的六个面上。每个面上的图像都是正常透视关系的照片,没有极点附近的夸张拉伸。

这个想法的好处是:现有的多视角三维重建基础模型,本来就是设计来同时处理从不同角度拍摄的多张照片的。把全景图的六个立方体面送进去,在模型眼里就像是从六个不同角度同时拍摄的普通照片,完美匹配了模型的"先天技能"。

研究团队选择在这个立方体贴图框架上,对Depth Anything 3(简称DA3)这个已有的三维重建基础模型进行改造。DA3的核心是一个视觉变换器(Vision Transformer,可以理解为一种特别擅长理解图片全局关系的神经网络结构),它能同时处理多张图片,让不同图片之间的特征相互"对话",从而建立三维理解。把六张立方体面同时输入DA3,同时告诉它每张图的相机朝向参数,模型就能在六张图之间建立空间对应关系,形成对整个360度空间的连贯理解。

不过,六张图拼在一起时,相邻图像的边界处会有一个麻烦:各自独立预测出来的深度,在拼接边界两侧会出现不连续的跳变,就像拼图拼得不整齐,缝隙处露出白边。为了解决这个问题,团队在解码器(负责把内部特征转换成最终预测结果的模块)里引入了"跨面有效填充"技术——在做卷积运算时,不再用默认的零值来填充图像边缘,而是从几何上相邻的另一个立方体面上取实际像素值来填充。这就好像拼图的每一块都知道旁边那块长什么样,自然就能拼得天衣无缝。

三、训练时的"双轨并行"——防止模型"忘记"普通照片的知识

光有好的架构还不够,训练策略同样关键。研究团队面临的一个典型危险是:如果只用全景数据来微调模型,模型可能会"遗忘"它在大量普通照片上学到的丰富三维先验知识,同时又因为全景训练数据大多是合成的(真实全景深度数据太少了),而过度适应合成数据的特点,导致在真实全景图上效果变差。

团队的解决方案是"混合训练":训练时,一批全景图(六个立方体面,启用跨面填充)和一批真实普通照片交替出现。当处理普通照片时,模型只接收一张图像,把它处理成一个90度视角的单面输入,模拟为立方体的某一个面,同时关闭跨面填充,恢复为普通的零值填充。这种双轨并行的训练方式,让模型在向全景领域拓展能力的同时,始终与真实世界的普通照片统计特性保持接触,就像一个学外语的人,不管学得多好,始终记得回家说母语,这样母语的语感就不会退化。

训练数据方面,团队使用了80,000张合成全景图,其中来自Structured3D(一个室内合成数据集)和他们自己创建的PanoInfinigen数据集;同时还混入了10,000张来自ScanNet++和ARKitScenes的真实室内普通照片。每张立方体面以504×504像素的分辨率处理,拼成完整全景图后相当于2K分辨率。

四、PaGeR的"多线程工作"——一次输入,同时输出四种几何信息

PaGeR的另一个特色是多任务并行输出。在共享的变换器主干网络提取完特征之后,研究团队设计了多个专门的"输出头",每个头负责解读不同类型的几何信息,全部在一次前向计算中同时完成。

第一条线是"尺度无关深度"估计。这里的深度指的是图像中每个像素点到相机的距离,"尺度无关"的意思是预测的是相对距离关系,而不是绝对的米数。为什么要先做尺度无关的?因为从单张图片估计绝对距离极其困难,而相对的远近关系相对容易学好。模型在对数空间里输出深度预测(对数空间就是用10的几次方来表示数值,能让几厘米到几十米的巨大范围都被均等对待),同时还输出一个"置信度图",告诉使用者每个位置的预测有多可信。训练时,模型会动态计算一个最优的整体位移,让预测的形状与真实深度对齐,但允许整体比例不同,这样就把"形状是否准确"和"比例是否准确"分开学习。损失函数(衡量预测好坏的评分标准)同时考虑了像素级误差、边缘处的梯度一致性,以及从深度图推算出来的表面法向量与实际朝向的吻合程度。

第二条线是"表面法向量"估计。法向量可以理解为每个表面"朝哪个方向"的箭头——地板的法向量朝上,墙面的法向量朝侧面,圆球的法向量朝外辐射。研究团队专门设置了一个并行的解码分支来估计法向量,这个分支的初始权重来自深度估计分支(因为深度和法向量本来就有数学上的密切联系),最后一层改成输出三维单位向量。训练时用了两个损失:一个是逐像素的余弦相似度损失(测量预测方向和真实方向之间的夹角),另一个是基于VGG网络的感知损失(防止预测结果过于平滑,保留清晰的边界细节)。

第三条线是"绝对度量深度"估计。有了尺度无关的深度,怎么恢复出真实的米数?团队用了一个巧妙的解耦设计:单独训练一个低分辨率的"粗略度量深度"解码器,预测一个低精度的绝对深度图。然后,把这个粗略的绝对深度和高分辨率尺度无关深度在一个稀疏的空间锚点网格上做比较,取中位数差值作为全局尺度因子。用中位数而不是平均数,是为了过滤掉局部异常点(比如天空区域或反射面)的干扰。最终的绝对深度就是把尺度无关深度乘上这个因子。针对室内和室外场景,团队分别训练了独立的度量尺度头,因为室内几米、室外几十米,空间尺度差异巨大,一个头很难兼顾。

第四条线是"天空分割"。天空是无限远的,没有有限的深度值,如果不单独处理,会让深度估计的数值范围发散,严重干扰度量尺度的学习。研究团队设计了一个轻量级的二分类头,把每个像素判断成"天空"或"非天空"。这个头同时利用了中间解码器特征(负责几何线索)和深层编码器提取的语义特征(负责理解"这看起来像天空"),两者融合后通过一个小型卷积解码器输出天空概率图。天空区域的预测结果会被用来遮蔽深度和法向量输出中的对应位置,让这些区域不参与度量尺度的计算。训练时同时用了二元交叉熵损失、焦点损失(对难分类样本加大惩罚)和Dice损失(关注整体分割形状)三种组合。

五、新数据集:PanoInfinigen与ZüriPano

研究团队意识到,现有的全景数据集有很大的盲区:室内场景居多,分辨率偏低,室外高精度数据几乎空白。为此,他们分别创建了两个新数据集。

PanoInfinigen是一个大规模合成数据集,建立在Infinigen这个程序化内容生成框架之上。Infinigen不依赖固定的三维资产库,而是通过算法程序生成场景的几何形状和纹理,因此理论上可以生成无穷无尽的不同场景。团队将其渲染管线扩展到支持360度等距圆柱投影,从20,000个独特场景生成了70,000张全景图,场景范围从厨房、卧室到森林、沙漠都有覆盖。为了补充城市场景,他们还用Blender的iCity城市生成插件制作了20个合成城市环境,渲染出约7,000张室外全景图。所有样本都有像素级精确的深度和法向量真值,分辨率达到4K。

ZüriPano则是一个真实世界的室外评测数据集,使用徕卡RTC360激光雷达扫描仪在瑞士苏黎世的11个城市地点采集了100张全景扫描,覆盖多种建筑风格和开放空间。该设备有效工作距离达130米,支持HDR成像和双次扫描来处理动态遮挡。后处理阶段,团队仔细过滤了天空、玻璃幕墙等区域,留下可靠的密集深度图和有效性掩码。这个数据集填补了长距离室外全景评测基准的空白,专门用来检验模型在复杂城市场景下的远距离精度。

六、实验结果:数字背后的故事

研究团队在多个数据集上与当时最强的一批方法进行了系统比较,覆盖室内的Matterport3D360和Stanford2D3DS,以及室外的ZüriPano。评测指标包括绝对相对误差(AbsRel,越小越好)、均方根误差(RMSE,越小越好)和阈值精度δ?(越大越好)。

在尺度无关深度估计方面,PaGeR在三个数据集上全面领先。在室内的Matterport3D360上,AbsRel从此前最好方法的11.06降到9.67;在Stanford2D3DS上,从7.64降到5.93;最引人注目的是室外ZüriPano,AbsRel从原来最好方法RPG360的18.27降到9.36,几乎减半。这意味着模型在户外城市街道场景中预测距离的相对误差,从将近两成压缩到不到一成。

绝对度量深度方面,PaGeR在ZüriPano上的RMSE(均方根误差)为530.85厘米,相比次优方法DepthAnyCamera的716.38厘米,减少了约26%。在室内数据集上也超越了UniK3D和DAP等近期方法。

表面法向量估计方面,PaGeR在Structured3D数据集上的平均角误差达到5.49度,MSE为174.9,相比此前最优方法PanoNormal的MSE 246.6,降低幅度超过29%。这一评测尤其值得关注,因为所有对比方法都是在该数据集上直接训练的"内域"模型,而PaGeR是在更通用的设置下学习的,仍然超越了这些专门训练的竞争者。

天空分割这条支线任务,直接帮助了整体的深度估计质量。消融实验(就是逐一去掉某个模块,看性能如何变化的对比实验)显示,去掉天空分割头之后,RMSE会出现明显跳升,证明把天空这个"无穷远"区域单独处理确实是必要的。

消融实验还揭示了其他几个关键设计选择的贡献:去掉显式的相机参数条件输入,误差增加最为显著;把对数空间的深度监督换成线性空间,效果下降明显;去掉跨面有效填充,拼接边界处的误差上升;去掉联合透视图训练,模型性能下降。在度量尺度头的设计上,比较了直接预测单个全局标量、密集监督不同下采样率(F=1、2、4、8)等方案,结论是F=4的中等下采样率效果最好——太精细或太粗糙都不理想。

法向量分支的消融实验则表明,冻结视觉变换器主干(不允许法向量损失的梯度流回主干)会导致MSE大幅上升;去掉感知损失会让预测结果过于平滑,丢失边界细节;用随机初始化的解码器代替从深度分支继承权重的解码器,阈值精度最差。

在与原始DA3基础模型的对比上,团队在Replica360_4K数据集上专门评测了拼接边界处的连续性,结果非常直观:DA3的接缝缺陷密度(SDD)为33.71,而PaGeR降到0.94;接缝严重程度(SS)从68.97降到2.31。深度精度上,PaGeR的AbsRel从6.58降到5.93,同时基本消除了拼接瑕疵,这两个改进同时实现,说明架构改进是真正有益的,而非此消彼长的权衡。

七、统一模型与专用模型的得失权衡

团队还专门研究了"一个模型做所有事情"和"每件事单独训练一个模型"之间的差异。结论是:对于尺度无关深度和法向量,统一模型与专用模型的差距相当小,完全可以接受;但对于绝对度量深度,差距就比较明显了——专用度量深度模型的AbsRel在ZüriPano上是18.19,而统一模型的度量头是31.97。

为什么会这样?关键在于梯度流动的问题。在专用度量深度模型里,视觉变换器主干可以完全开放,让度量深度的监督信号一路传回到最底层,模型能在早期特征层面就学会提取度量相关的线索。而在统一模型里,主干必须保持冻结(不允许度量头的梯度流回主干),因为一旦放开,度量深度的梯度会干扰尺度无关深度和法向量的优化,造成全面退化。这是多任务学习中典型的梯度冲突问题,团队坦诚地在论文中指出了这一瓶颈,并提出引入任务特定路由或扩展主干容量作为未来研究方向。

在计算资源方面,PaGeR在单张2K全景图上的推理时间为0.48秒,峰值显存占用12.8GB,可以在一张消费级显卡上运行。与DreamCube的6.06秒和MoGe的36.05秒相比,速度有显著优势;分辨率(1008×2016像素)也明显高于大多数对比方法。训练分两阶段,在8张NVIDIA H200 GPU上,第一阶段(联合训练尺度无关深度和法向量)需要12小时,第二阶段(训练度量尺度头和天空分割头)需要额外8小时。

说到底,PaGeR做了一件用工程智慧解决实际问题的事:不是从零造一个新的全景理解系统,而是用立方体贴图这把"转换器",把全景图变成现有强模型已经熟悉的普通照片格式,再用跨面填充和混合训练来解决拼接缝和领域偏移的副作用,最后用多任务并行输出一次搞定四种几何信息。

这种思路——充分借用已有强大先验,最小化改动,针对性解决遗留问题——在工程实践中往往比"全部推倒重来"更务实高效。当然,正如团队自己指出的,统一模型在绝对度量精度上仍有提升空间,反光材质、透明表面、立方体面边界处的极端情况也还有待进一步改善。

对于任何需要处理全景图三维理解的应用开发者来说,PaGeR提供了一个值得参考的技术路线。有兴趣深入了解的读者,可以通过arXiv编号2605.26368查阅完整论文及开放的代码和数据集。

Q&A

Q1:PaGeR为什么选择立方体贴图而不是直接处理等距圆柱投影的全景图?

A:等距圆柱投影在图片顶部和底部存在严重的几何拉伸失真,会让习惯处理普通照片的AI模型产生很大困惑。立方体贴图把全景图拆成六张普通视角照片,每张都符合标准透视关系,现有基础模型可以直接处理,不需要重新设计架构,同时还能借用模型处理多视角输入的内置能力。

Q2:PaGeR预测的"尺度无关深度"和"绝对度量深度"有什么区别,为什么要分开做?

A:尺度无关深度只告诉你各个位置之间的相对远近关系,比如A比B远两倍,但不知道A到底是2米还是20米。绝对度量深度则给出真实的物理距离,比如某面墙距离相机3.5米。分开做是因为从单张图片学相对形状比学绝对尺度容易得多,先把形状学好,再用独立的低分辨率头来估计全局比例,最后把两者结合,这样互相不干扰,整体精度更高。

Q3:ZüriPano数据集和现有室外全景数据集相比有什么特别之处?

A:ZüriPano用的是徕卡RTC360工业级激光雷达扫描仪,有效测距范围达130米,采集了瑞士苏黎世11个真实城市地点的100张全景扫描,并经过精心后处理滤除了天空和玻璃反射等无效区域。现有室外全景评测基准几乎空白,ZüriPano专门用来检验模型在长距离城市场景中的精度,填补了这一空白。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-