微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 希伯来大学与西湖大学联手,用不到百分之二的"素材",做出同等质量的3D场景重建

希伯来大学与西湖大学联手,用不到百分之二的"素材",做出同等质量的3D场景重建

2026-04-27 12:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-27 12:16 科技行者

这项由耶路撒冷希伯来大学与西湖大学联合完成的研究,于2026年4月以预印本形式发布,论文编号为arXiv:2604.15284,题为《GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens》。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

一、当我们说"让计算机看懂一个房间",到底有多难?

设想这样一个日常场景:你手持手机,围绕客厅走一圈,拍了二三十张照片。现在,你希望计算机仅凭这些照片,就能还原出整个房间的三维样貌——不仅能从你拍过的角度看,还能从任意你没有拍过的角度,生成一张逼真的画面。这件事,在计算机视觉领域被称为"新视角合成",它背后有着极其现实的应用价值:虚拟看房、游戏场景生成、影视特效、机器人导航,乃至未来的元宇宙体验,都离不开它。

在众多实现手段中,有一种叫做"3D高斯泼溅"(3D Gaussian Splatting,简称3DGS)的技术脱颖而出。它的核心思路,是用一堆形状像气泡的椭圆体(数学上称为"高斯基元")来表示场景中的每一块区域。每个气泡都有自己的位置、大小、方向和颜色,当你从某个角度"看"这些气泡时,计算机会把它们投影到画面上,叠加出一张照片。整个渲染过程非常快,接近实时。

然而,如何从多张照片出发,自动、快速地预测出这一套"气泡集合",一直是个难题。现有的主流方法大致分两类:一类是对每个场景反复优化,耗时长达数分钟乃至更久;另一类是"前向推断"——训练一个神经网络,让它读入照片,一次性吐出气泡集合,速度极快。这篇论文关注的,正是后者。

现有前向推断方法的共同问题,用一个比喻来说,就像是一位速记员——每看到一张照片,就立刻把这张照片里的每一个像素"翻译"成一个气泡,然后把所有气泡堆在一起。你拍了10张照片,就堆出10倍的气泡;拍了36张,就堆出36倍。气泡越来越多,重复越来越严重,整个系统越来越臃肿,内存占用飙升,速度也大幅下滑。更糟糕的是,不同照片翻译出的气泡,在三维空间里往往对不齐,导致最终画面出现拼接错误。

这篇论文提出的问题,简洁而深刻:能不能换一种思路,不要"边看边记",而是"先理解全局,再决定怎么记"?

二、一个颠覆常规的想法:先对齐,再解码

研究团队提出的方法叫做GlobalSplat,其核心原则用四个字就能概括——"先对齐,后解码"(Align First, Decode Later)。

回到速记员的比喻。传统方法就像是让速记员看一张照片就抄一张,最后把所有抄本叠在一起。GlobalSplat则不同,它像是让速记员先把所有照片都看完,在脑子里形成一个完整的场景理解,然后才开始动笔,而且无论你给他看多少张照片,他最终只写一份笔记,笔记的长度是固定的。

在技术层面,这份"固定长度的笔记"被称为"全局潜在场景令牌"(Global Latent Scene Tokens)。具体来说,研究团队预先设定了2048个可学习的"令牌",每个令牌是一段512维的向量,可以理解为一个"信息格子"。无论输入多少张照片,网络最终都要把所有照片的信息压缩进这2048个格子里。这个数量是固定的,不随照片数量增加而膨胀。

这个设计直接解决了"气泡数量随照片增多而爆炸"的问题。在原有方法中,输入24张照片可能产生数十万乃至数百万个气泡;而GlobalSplat无论输入12张、24张还是36张,最终产出的气泡数量始终锁定在16384个(约1.6万个)。这不到原有方法百分之二的数量,却能达到相当甚至更好的视觉质量,这正是这项研究最令人印象深刻的地方。

三、网络的"大脑":双分支编码器如何分工合作

有了"先对齐"的思路,下一个问题是:怎么对齐?网络怎么知道,来自不同照片的信息,描述的是场景中的同一个地方?

GlobalSplat的编码器部分,采用了一种被称为"双分支迭代注意力架构"的设计。依然用比喻来解释:这像是两位专家同时审阅同一批照片,一位专注于几何结构(这面墙在哪里、那扇窗有多深),另一位专注于外观纹理(墙是什么颜色、窗帘是什么图案)。两位专家各自整理笔记,最后再汇总。

为什么要分开?研究团队指出,如果让同一个处理流程同时负责几何和外观,网络可能会"取巧"——用漂亮的颜色掩盖不准确的几何结构,导致场景看起来好看,但实际三维形状是错误的。把几何和外观分开处理,强迫网络在结构层面做出正确预测,再用外观信息来润色,最终结果会更可靠。

具体的处理流程是这样的:首先,输入的每张照片被切成8像素×8像素的小块(称为"补丁"),每个补丁被编码成一段特征向量,同时附带上这个补丁所对应的光线方向信息(通过一种叫做"普吕克射线"的数学工具表示)。此外,每张照片还附带了相机的位置和焦距信息,这些信息通过傅里叶编码处理后,被广播到该照片的所有补丁上。这样,每个补丁不仅知道"自己长什么样",还知道"我是从哪个位置、用什么焦距拍的"。

接下来,这2048个潜在令牌分别进入几何分支和外观分支。在每个分支内,令牌通过"交叉注意力"机制去"查询"所有输入照片的补丁特征,提取相关信息;再通过"自注意力"机制,在令牌之间相互传递信息,形成全局一致的场景理解。这个过程重复四轮(称为B=4个编码块),每轮结束后,两个分支的信息通过一个两层混合MLP融合,更新令牌状态,供下一轮使用。

四轮迭代下来,这2048个令牌已经"见过"了所有照片,并在内部形成了一套全局一致的场景描述。此时,一位几何解码器和一位外观解码器分别上场,把令牌中的信息"翻译"成具体的气泡参数:几何解码器负责预测每个气泡的位置、大小、朝向和透明度;外观解码器负责预测每个气泡的颜色,颜色用球谐函数(SH degree 3,每通道16个系数)表示,支持随视角变化的颜色效果。

四、从粗到细的训练课程:让网络先学会"大概对",再学会"精准对"

训练一个神经网络,就像教一个孩子学写字。如果一开始就要求他写出漂亮的行书,他会因为太难而乱写一气,学习效果很差。更好的方式是先学会写笔直的横竖撇捺,再逐步增加书写的精细度。

GlobalSplat引入了一种被称为"从粗到细的训练课程"(Coarse-to-Fine Training Curriculum)的训练策略,正是基于这个道理。具体来说,每个潜在令牌实际上会预测16个候选气泡,但在训练初期,网络被强制把这16个候选气泡"合并"成1个——相当于只能用1个大气泡概括一块区域。随着训练推进,合并数量逐步放开:先是每令牌2个气泡,然后4个,最终稳定在8个。

这种设计有两个好处:第一,训练初期网络可以专注于把场景的整体几何关系搞清楚,不会为了追求细节而忽略全局结构;第二,每次增加粒度时,网络可以在已有的粗略结构基础上进行精细化,而不是从头学起。

合并过程不是简单的平均,而是通过一个"几何条件门控"机制,根据每个候选气泡的重要性打分,用加权方式融合各候选气泡的位置、大小、颜色等属性。不同属性有不同的合并规则:位置和颜色直接加权平均;尺度在对数空间合并,并附加一个体积保持修正项;透明度则通过"透射率"的对数加权计算,确保物理意义正确。每次从粗到细的过渡,还通过线性插值平滑进行,避免训练过程中出现突变。

最终训练稳定后(训练步数超过5万步),网络固定使用每令牌8个气泡,2048个令牌乘以8,正好是16384个气泡,这就是GlobalSplat的标准输出规模。

五、场景归一化与相机预处理:为网络设定一个"统一的坐标系"

在开始编码之前,还有一个重要的预处理步骤——场景归一化。不同场景的相机轨迹可能朝向各异、尺度差异悬殊,如果直接把原始相机姿态喂给网络,网络需要花大量精力去适应各种不同的"坐标习惯",效率极低。

研究团队借鉴了前人的做法,将每个场景的所有相机姿态通过一个相似变换,映射到一个统一的"典范坐标系"中。具体步骤是:首先计算所有相机中心的均值,以及所有相机朝向的均值,由此构造出一个"平均相机"坐标系;然后将所有相机的姿态都相对于这个平均相机重新表达。在尺度上,以所有相机中心之间的最大距离(即相机星座的"直径")为基准,对所有相机的平移向量进行归一化。经过这两步处理后,不同场景的相机布局在统一的坐标空间里具有相似的结构,网络只需专注于理解局部几何细节,不必去"猜"场景在世界中的绝对位置。

六、训练目标:三重损失函数协同监督

GlobalSplat的训练过程通过三个相互配合的损失函数来监督,可以理解为三位"考官"从不同角度检验网络的输出质量。

第一位考官负责"渲染质量",检验预测的气泡集合在指定视角下渲染出的图像,与真实照片有多像。具体用到了两个指标:一是像素级均方误差(逐像素比较亮度差距),二是感知损失(用一个预训练网络提取高层特征,比较两张图像在语义上的相似度,更符合人眼感受)。

第二位考官负责"跨子集一致性",检验从不同子集照片重建出来的场景是否一致。训练时,输入照片会被随机分成两组,两组分别经过独立的前向推断,得到两套气泡集合。然后,这两套集合在相同的目标视角下分别渲染,比较两次渲染得到的深度图和累积不透明度图是否吻合。为了避免两个分支相互"抄作业",这里用到了"停止梯度"技巧——每个分支只把对方的输出当作固定目标,不允许梯度通过对方传播。这个损失的作用,是鼓励网络学到真正反映场景客观结构的表示,而不是依赖于特定子集照片的巧合特征。

第三位考官负责"结构正则化",防止气泡参数出现退化。其中包括一个视锥约束(Frustum Constraint):如果一个气泡跑到了所有输入相机的视野之外,它就会受到惩罚,被推回有效区域。此外还有针对透明度、尺度、旋转和球谐系数的软约束,防止这些参数超出合理范围。例如,透明度正则化会惩罚那些过早变得过于不透明的气泡,因为前景气泡如果太早"堵死",会阻断梯度向后景传播,影响整个场景的学习。

七、实验结果:数字说话,效率与质量兼得

研究团队在两个标准数据集上对GlobalSplat进行了评测:RealEstate10K(包含大量室内外房地产视频,相机沿走廊、房间移动)和ACID(航拍海岸线景观数据集,无界大场景)。评测指标包括PSNR(峰值信噪比,数值越高越好)、SSIM(结构相似度,越高越好)、LPIPS(感知相似度,越低越好),以及气泡数量、显存占用、推断速度和磁盘占用。

在RealEstate10K的24输入视角设定下,GlobalSplat(16K气泡版本)的PSNR达到28.53,SSIM为0.883,LPIPS为0.140。与此形成对比的是,DepthSplat在相同设定下的PSNR仅有19.66,同时使用了157.2万个气泡;GGN的PSNR为18.50,使用38.5万个气泡;C3G(一个与本文同期发表的竞品方法)使用仅2000个气泡,PSNR为23.80;Zpressor使用39.3万个气泡,PSNR为28.51,与GlobalSplat质量相当,但气泡数量是后者的24倍多。如果将GlobalSplat扩展到32K气泡版本,PSNR进一步提升至29.48,超过了所有基于高斯的对比方法(LVSM是一个非高斯方法,其PSNR为27.24,但它无法输出可直接渲染的三维资产)。

在效率层面,对比尤为突出。以24输入视角为基准,GlobalSplat(16K版本)的峰值显存占用仅为1.79 GB,单次前向推断时间为77.88毫秒,磁盘占用仅3.8 MB。而DepthSplat需要29.84 GB显存,推断耗时669.50毫秒,磁盘占用534 MB;Zpressor需要3.70 GB显存,推断耗时194.20毫秒,磁盘134 MB;C3G需要6.04 GB显存,推断耗时387.14毫秒;GGN更是需要25.08 GB显存,推断耗时高达1800.64毫秒。GlobalSplat在所有效率指标上均排名第一。

在零样本跨数据集泛化测试中(即用RealEstate10K训练的模型直接在ACID上测试,不进行任何微调),GlobalSplat同样表现出色。24输入视角下,PSNR为28.03,与Zpressor的28.53相差不大,而远超DepthSplat(20.15)、GGN(20.90)和C3G(22.24)。这说明GlobalSplat学到的表示具有跨场景迁移能力,而不只是对训练数据的过拟合。

此外,研究团队还验证了即使输入视角数量从12增加到36,GlobalSplat的气泡数量始终保持在16K不变,而其他方法的气泡数量则随视角数线性增长——这正是"表示不随输入规模膨胀"这一核心设计目标的直观体现。

八、深入解剖:每个设计选择究竟有多重要?

为了验证各个设计选择的必要性,研究团队进行了一系列消融实验,系统地"拆掉"某一个设计,看看性能会如何变化。

双分支设计的重要性:将双分支编码器替换为单分支(但将参数量增加到90M,与双分支的83.4M相当),PSNR从28.57下降到28.02。这说明性能提升来自于架构本身对几何与外观的解耦,而不是简单的参数量增加。

从粗到细训练课程的重要性:如果从训练开始就直接预测完整的8个气泡(不经历合并阶段),PSNR下降到27.69。由此可见,让网络先在粗粒度下稳定几何结构,对于最终质量有显著帮助。

跨子集一致性损失的重要性:去掉这个损失后,PSNR降至28.15,且视觉上出现更多结构性伪影。这个损失强迫网络学到真正客观的场景结构,而非依赖特定输入子集的巧合。

相机元数据的重要性:如果只使用普吕克射线编码,不附加额外的相机中心位置和焦距信息,PSNR下降到28.30。普吕克射线描述的是光线的方向,但缺乏相机的绝对位置和焦距信息,显式地补充这些信息对大场景下的准确重建有帮助。

研究团队还探讨了"潜在令牌数量"与"每令牌气泡数量"之间的权衡。在总气泡数相同的情况下,增加令牌数量(即扩大信息瓶颈)比增加每令牌气泡数更能提升质量。例如,同样是2048个气泡,用2048个令牌各产1个气泡(PSNR 26.83)远优于用256个令牌各产8个气泡(PSNR 25.25)。同样是32768个气泡,用4096个令牌各产8个(PSNR 29.54)明显优于用2048个令牌各产16个(PSNR 28.58)。这说明,在这个前向推断框架下,场景重建质量的上限主要取决于潜在表示的容量,而非解码端的密度。

九、还有哪些尚未解决的挑战?

任何研究都不是完美的,研究团队在论文中也坦诚地指出了GlobalSplat当前的局限性。

固定气泡预算在某些场景下可能不够用。对于室内房间或有限范围的航拍场景,16K个气泡绰绰有余;但如果面对城市级别的大场景,固定容量的令牌集合可能无法容纳所有细节。未来可以探索自适应或分层的令牌分配策略,根据场景复杂度动态调整。

当前模型只处理静态场景,不支持动态物体。如果场景中有人在走动、风吹树叶等时变元素,现有方法无法处理。将全局场景令牌扩展到时空维度,通过时空交叉注意力捕捉动态变化,是一个很有潜力的研究方向。

极度稀疏输入(仅2至3张照片)时,视差信息不足,网络难以从如此有限的信息中建立准确的全局场景理解。这个问题可以通过引入更强的单目深度先验来缓解,例如结合预训练的深度估计模型提供额外的几何约束。

说到底,GlobalSplat做了一件看起来简单但很反直觉的事情:面对越来越多的输入信息,它选择不扩张,而是压缩。把几十张照片的信息,先压缩进一套固定大小的"全局理解",再从这套理解中解码出场景的三维表示。这个思路让它在质量、速度、内存、存储四个维度同时实现了优势,在当前前向推断三维重建领域确立了一个新的效率标杆。

对于普通人来说,这项研究意味着什么?以后的VR看房、手机AR导航、即时三维扫描等应用,背后可能运行的就是类似GlobalSplat这样的轻量模型——在你举起手机的瞬间,完成整个房间的三维建模,占用极少的内存和存储,在不到一秒的时间里生成你想要的任意视角画面。那个"走一圈就能建模"的未来,正在一步步变成现实。

如果你对这项研究的完整技术细节感兴趣,可以通过论文编号arXiv:2604.15284查阅原文。

---

Q&A

Q1:GlobalSplat用多少个高斯气泡来表示一个场景,为什么这个数量比其他方法少那么多?

A:GlobalSplat默认使用16384个(约1.6万个)高斯基元来表示一个场景,而其他主流方法在输入24张照片时通常需要几十万甚至数百万个基元。数量少的根本原因在于GlobalSplat的"先对齐后解码"策略:它先把所有输入照片的信息压缩进2048个固定的全局令牌,再从令牌解码气泡,不让气泡数量随输入照片数量线性增长。相比之下,传统方法每张照片都直接翻译成一批气泡,照片越多气泡越多。

Q2:GlobalSplat的双分支设计把几何和外观分开处理,这样做有什么实际好处?

A:将几何和外观分开处理,是为了防止网络"用好看的颜色掩盖错误的结构"。如果两者混在一起,网络可能学会用丰富的纹理信息弥补几何预测的不足,导致从训练视角看很好,从新视角看就出现严重变形。分开处理后,几何分支必须独立预测准确的空间结构,外观分支再在正确结构上叠加颜色,最终结果在三维一致性上更可靠。消融实验表明,即使将单分支模型参数量增加到更大,也无法弥补这种结构解耦带来的性能差距。

Q3:GlobalSplat在跨数据集测试中表现如何,是否只在特定场景类型有效?

A:GlobalSplat在RealEstate10K(室内外房地产场景)上训练后,直接在ACID(航拍海岸线无界大场景)上测试,无需任何微调,在24输入视角下依然取得了28.03的PSNR,接近在ACID上专门训练的Zpressor(28.53),远超DepthSplat(20.15)和C3G(22.24)。这说明GlobalSplat学到的是具有泛化能力的场景结构表示,而不是对特定训练数据分布的过拟合,在室内紧凑场景和开阔无界自然场景中均能有效工作。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-