微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

希伯来大学与西湖大学联手，用不到百分之二的"素材"，做出同等质量的3D场景重建

三维重建高斯泼溅前向推断

希伯来大学与西湖大学联手，用不到百分之二的"素材"，做出同等质量的3D场景重建

作者：科技行者

2026-04-27 12:16

分享至：

这项由耶路撒冷希伯来大学与西湖大学联合发表于2026年4月的研究（arXiv:2604.15284），提出了一种全新的前向推断三维高斯重建框架GlobalSplat。其核心思路是"先对齐，后解码"：将多张输入照片的信息先压缩进固定数量的全局潜在令牌，再解码为三维高斯场景，彻底避免了传统方法中气泡数量随输入视角线性膨胀的问题。GlobalSplat仅用1.6万个高斯基元，在推断时间不足78毫秒、峰值显存仅1.79GB、磁盘占用不足4MB的条件下，实现了与使用数十倍气泡的方法相当的视觉质量。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-27 12:16 • 科技行者

这项由耶路撒冷希伯来大学与西湖大学联合完成的研究，于2026年4月以预印本形式发布，论文编号为arXiv:2604.15284，题为《GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens》。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

一、当我们说"让计算机看懂一个房间"，到底有多难？

设想这样一个日常场景：你手持手机，围绕客厅走一圈，拍了二三十张照片。现在，你希望计算机仅凭这些照片，就能还原出整个房间的三维样貌——不仅能从你拍过的角度看，还能从任意你没有拍过的角度，生成一张逼真的画面。这件事，在计算机视觉领域被称为"新视角合成"，它背后有着极其现实的应用价值：虚拟看房、游戏场景生成、影视特效、机器人导航，乃至未来的元宇宙体验，都离不开它。

在众多实现手段中，有一种叫做"3D高斯泼溅"（3D Gaussian Splatting，简称3DGS）的技术脱颖而出。它的核心思路，是用一堆形状像气泡的椭圆体（数学上称为"高斯基元"）来表示场景中的每一块区域。每个气泡都有自己的位置、大小、方向和颜色，当你从某个角度"看"这些气泡时，计算机会把它们投影到画面上，叠加出一张照片。整个渲染过程非常快，接近实时。

然而，如何从多张照片出发，自动、快速地预测出这一套"气泡集合"，一直是个难题。现有的主流方法大致分两类：一类是对每个场景反复优化，耗时长达数分钟乃至更久；另一类是"前向推断"——训练一个神经网络，让它读入照片，一次性吐出气泡集合，速度极快。这篇论文关注的，正是后者。

现有前向推断方法的共同问题，用一个比喻来说，就像是一位速记员——每看到一张照片，就立刻把这张照片里的每一个像素"翻译"成一个气泡，然后把所有气泡堆在一起。你拍了10张照片，就堆出10倍的气泡；拍了36张，就堆出36倍。气泡越来越多，重复越来越严重，整个系统越来越臃肿，内存占用飙升，速度也大幅下滑。更糟糕的是，不同照片翻译出的气泡，在三维空间里往往对不齐，导致最终画面出现拼接错误。

这篇论文提出的问题，简洁而深刻：能不能换一种思路，不要"边看边记"，而是"先理解全局，再决定怎么记"？

二、一个颠覆常规的想法：先对齐，再解码

研究团队提出的方法叫做GlobalSplat，其核心原则用四个字就能概括——"先对齐，后解码"（Align First, Decode Later）。

回到速记员的比喻。传统方法就像是让速记员看一张照片就抄一张，最后把所有抄本叠在一起。GlobalSplat则不同，它像是让速记员先把所有照片都看完，在脑子里形成一个完整的场景理解，然后才开始动笔，而且无论你给他看多少张照片，他最终只写一份笔记，笔记的长度是固定的。

在技术层面，这份"固定长度的笔记"被称为"全局潜在场景令牌"（Global Latent Scene Tokens）。具体来说，研究团队预先设定了2048个可学习的"令牌"，每个令牌是一段512维的向量，可以理解为一个"信息格子"。无论输入多少张照片，网络最终都要把所有照片的信息压缩进这2048个格子里。这个数量是固定的，不随照片数量增加而膨胀。

这个设计直接解决了"气泡数量随照片增多而爆炸"的问题。在原有方法中，输入24张照片可能产生数十万乃至数百万个气泡；而GlobalSplat无论输入12张、24张还是36张，最终产出的气泡数量始终锁定在16384个（约1.6万个）。这不到原有方法百分之二的数量，却能达到相当甚至更好的视觉质量，这正是这项研究最令人印象深刻的地方。

三、网络的"大脑"：双分支编码器如何分工合作

有了"先对齐"的思路，下一个问题是：怎么对齐？网络怎么知道，来自不同照片的信息，描述的是场景中的同一个地方？

GlobalSplat的编码器部分，采用了一种被称为"双分支迭代注意力架构"的设计。依然用比喻来解释：这像是两位专家同时审阅同一批照片，一位专注于几何结构（这面墙在哪里、那扇窗有多深），另一位专注于外观纹理（墙是什么颜色、窗帘是什么图案）。两位专家各自整理笔记，最后再汇总。

为什么要分开？研究团队指出，如果让同一个处理流程同时负责几何和外观，网络可能会"取巧"——用漂亮的颜色掩盖不准确的几何结构，导致场景看起来好看，但实际三维形状是错误的。把几何和外观分开处理，强迫网络在结构层面做出正确预测，再用外观信息来润色，最终结果会更可靠。

具体的处理流程是这样的：首先，输入的每张照片被切成8像素×8像素的小块（称为"补丁"），每个补丁被编码成一段特征向量，同时附带上这个补丁所对应的光线方向信息（通过一种叫做"普吕克射线"的数学工具表示）。此外，每张照片还附带了相机的位置和焦距信息，这些信息通过傅里叶编码处理后，被广播到该照片的所有补丁上。这样，每个补丁不仅知道"自己长什么样"，还知道"我是从哪个位置、用什么焦距拍的"。

接下来，这2048个潜在令牌分别进入几何分支和外观分支。在每个分支内，令牌通过"交叉注意力"机制去"查询"所有输入照片的补丁特征，提取相关信息；再通过"自注意力"机制，在令牌之间相互传递信息，形成全局一致的场景理解。这个过程重复四轮（称为B=4个编码块），每轮结束后，两个分支的信息通过一个两层混合MLP融合，更新令牌状态，供下一轮使用。

四轮迭代下来，这2048个令牌已经"见过"了所有照片，并在内部形成了一套全局一致的场景描述。此时，一位几何解码器和一位外观解码器分别上场，把令牌中的信息"翻译"成具体的气泡参数：几何解码器负责预测每个气泡的位置、大小、朝向和透明度；外观解码器负责预测每个气泡的颜色，颜色用球谐函数（SH degree 3，每通道16个系数）表示，支持随视角变化的颜色效果。

四、从粗到细的训练课程：让网络先学会"大概对"，再学会"精准对"

训练一个神经网络，就像教一个孩子学写字。如果一开始就要求他写出漂亮的行书，他会因为太难而乱写一气，学习效果很差。更好的方式是先学会写笔直的横竖撇捺，再逐步增加书写的精细度。

GlobalSplat引入了一种被称为"从粗到细的训练课程"（Coarse-to-Fine Training Curriculum）的训练策略，正是基于这个道理。具体来说，每个潜在令牌实际上会预测16个候选气泡，但在训练初期，网络被强制把这16个候选气泡"合并"成1个——相当于只能用1个大气泡概括一块区域。随着训练推进，合并数量逐步放开：先是每令牌2个气泡，然后4个，最终稳定在8个。

这种设计有两个好处：第一，训练初期网络可以专注于把场景的整体几何关系搞清楚，不会为了追求细节而忽略全局结构；第二，每次增加粒度时，网络可以在已有的粗略结构基础上进行精细化，而不是从头学起。

合并过程不是简单的平均，而是通过一个"几何条件门控"机制，根据每个候选气泡的重要性打分，用加权方式融合各候选气泡的位置、大小、颜色等属性。不同属性有不同的合并规则：位置和颜色直接加权平均；尺度在对数空间合并，并附加一个体积保持修正项；透明度则通过"透射率"的对数加权计算，确保物理意义正确。每次从粗到细的过渡，还通过线性插值平滑进行，避免训练过程中出现突变。

最终训练稳定后（训练步数超过5万步），网络固定使用每令牌8个气泡，2048个令牌乘以8，正好是16384个气泡，这就是GlobalSplat的标准输出规模。

五、场景归一化与相机预处理：为网络设定一个"统一的坐标系"

在开始编码之前，还有一个重要的预处理步骤——场景归一化。不同场景的相机轨迹可能朝向各异、尺度差异悬殊，如果直接把原始相机姿态喂给网络，网络需要花大量精力去适应各种不同的"坐标习惯"，效率极低。

研究团队借鉴了前人的做法，将每个场景的所有相机姿态通过一个相似变换，映射到一个统一的"典范坐标系"中。具体步骤是：首先计算所有相机中心的均值，以及所有相机朝向的均值，由此构造出一个"平均相机"坐标系；然后将所有相机的姿态都相对于这个平均相机重新表达。在尺度上，以所有相机中心之间的最大距离（即相机星座的"直径"）为基准，对所有相机的平移向量进行归一化。经过这两步处理后，不同场景的相机布局在统一的坐标空间里具有相似的结构，网络只需专注于理解局部几何细节，不必去"猜"场景在世界中的绝对位置。

六、训练目标：三重损失函数协同监督

GlobalSplat的训练过程通过三个相互配合的损失函数来监督，可以理解为三位"考官"从不同角度检验网络的输出质量。

第一位考官负责"渲染质量"，检验预测的气泡集合在指定视角下渲染出的图像，与真实照片有多像。具体用到了两个指标：一是像素级均方误差（逐像素比较亮度差距），二是感知损失（用一个预训练网络提取高层特征，比较两张图像在语义上的相似度，更符合人眼感受）。

第二位考官负责"跨子集一致性"，检验从不同子集照片重建出来的场景是否一致。训练时，输入照片会被随机分成两组，两组分别经过独立的前向推断，得到两套气泡集合。然后，这两套集合在相同的目标视角下分别渲染，比较两次渲染得到的深度图和累积不透明度图是否吻合。为了避免两个分支相互"抄作业"，这里用到了"停止梯度"技巧——每个分支只把对方的输出当作固定目标，不允许梯度通过对方传播。这个损失的作用，是鼓励网络学到真正反映场景客观结构的表示，而不是依赖于特定子集照片的巧合特征。

第三位考官负责"结构正则化"，防止气泡参数出现退化。其中包括一个视锥约束（Frustum Constraint）：如果一个气泡跑到了所有输入相机的视野之外，它就会受到惩罚，被推回有效区域。此外还有针对透明度、尺度、旋转和球谐系数的软约束，防止这些参数超出合理范围。例如，透明度正则化会惩罚那些过早变得过于不透明的气泡，因为前景气泡如果太早"堵死"，会阻断梯度向后景传播，影响整个场景的学习。

七、实验结果：数字说话，效率与质量兼得

研究团队在两个标准数据集上对GlobalSplat进行了评测：RealEstate10K（包含大量室内外房地产视频，相机沿走廊、房间移动）和ACID（航拍海岸线景观数据集，无界大场景）。评测指标包括PSNR（峰值信噪比，数值越高越好）、SSIM（结构相似度，越高越好）、LPIPS（感知相似度，越低越好），以及气泡数量、显存占用、推断速度和磁盘占用。

在RealEstate10K的24输入视角设定下，GlobalSplat（16K气泡版本）的PSNR达到28.53，SSIM为0.883，LPIPS为0.140。与此形成对比的是，DepthSplat在相同设定下的PSNR仅有19.66，同时使用了157.2万个气泡；GGN的PSNR为18.50，使用38.5万个气泡；C3G（一个与本文同期发表的竞品方法）使用仅2000个气泡，PSNR为23.80；Zpressor使用39.3万个气泡，PSNR为28.51，与GlobalSplat质量相当，但气泡数量是后者的24倍多。如果将GlobalSplat扩展到32K气泡版本，PSNR进一步提升至29.48，超过了所有基于高斯的对比方法（LVSM是一个非高斯方法，其PSNR为27.24，但它无法输出可直接渲染的三维资产）。

在效率层面，对比尤为突出。以24输入视角为基准，GlobalSplat（16K版本）的峰值显存占用仅为1.79 GB，单次前向推断时间为77.88毫秒，磁盘占用仅3.8 MB。而DepthSplat需要29.84 GB显存，推断耗时669.50毫秒，磁盘占用534 MB；Zpressor需要3.70 GB显存，推断耗时194.20毫秒，磁盘134 MB；C3G需要6.04 GB显存，推断耗时387.14毫秒；GGN更是需要25.08 GB显存，推断耗时高达1800.64毫秒。GlobalSplat在所有效率指标上均排名第一。

在零样本跨数据集泛化测试中（即用RealEstate10K训练的模型直接在ACID上测试，不进行任何微调），GlobalSplat同样表现出色。24输入视角下，PSNR为28.03，与Zpressor的28.53相差不大，而远超DepthSplat（20.15）、GGN（20.90）和C3G（22.24）。这说明GlobalSplat学到的表示具有跨场景迁移能力，而不只是对训练数据的过拟合。

此外，研究团队还验证了即使输入视角数量从12增加到36，GlobalSplat的气泡数量始终保持在16K不变，而其他方法的气泡数量则随视角数线性增长——这正是"表示不随输入规模膨胀"这一核心设计目标的直观体现。

八、深入解剖：每个设计选择究竟有多重要？

为了验证各个设计选择的必要性，研究团队进行了一系列消融实验，系统地"拆掉"某一个设计，看看性能会如何变化。

双分支设计的重要性：将双分支编码器替换为单分支（但将参数量增加到90M，与双分支的83.4M相当），PSNR从28.57下降到28.02。这说明性能提升来自于架构本身对几何与外观的解耦，而不是简单的参数量增加。

从粗到细训练课程的重要性：如果从训练开始就直接预测完整的8个气泡（不经历合并阶段），PSNR下降到27.69。由此可见，让网络先在粗粒度下稳定几何结构，对于最终质量有显著帮助。

跨子集一致性损失的重要性：去掉这个损失后，PSNR降至28.15，且视觉上出现更多结构性伪影。这个损失强迫网络学到真正客观的场景结构，而非依赖特定输入子集的巧合。

相机元数据的重要性：如果只使用普吕克射线编码，不附加额外的相机中心位置和焦距信息，PSNR下降到28.30。普吕克射线描述的是光线的方向，但缺乏相机的绝对位置和焦距信息，显式地补充这些信息对大场景下的准确重建有帮助。

研究团队还探讨了"潜在令牌数量"与"每令牌气泡数量"之间的权衡。在总气泡数相同的情况下，增加令牌数量（即扩大信息瓶颈）比增加每令牌气泡数更能提升质量。例如，同样是2048个气泡，用2048个令牌各产1个气泡（PSNR 26.83）远优于用256个令牌各产8个气泡（PSNR 25.25）。同样是32768个气泡，用4096个令牌各产8个（PSNR 29.54）明显优于用2048个令牌各产16个（PSNR 28.58）。这说明，在这个前向推断框架下，场景重建质量的上限主要取决于潜在表示的容量，而非解码端的密度。

九、还有哪些尚未解决的挑战？

任何研究都不是完美的，研究团队在论文中也坦诚地指出了GlobalSplat当前的局限性。

固定气泡预算在某些场景下可能不够用。对于室内房间或有限范围的航拍场景，16K个气泡绰绰有余；但如果面对城市级别的大场景，固定容量的令牌集合可能无法容纳所有细节。未来可以探索自适应或分层的令牌分配策略，根据场景复杂度动态调整。

当前模型只处理静态场景，不支持动态物体。如果场景中有人在走动、风吹树叶等时变元素，现有方法无法处理。将全局场景令牌扩展到时空维度，通过时空交叉注意力捕捉动态变化，是一个很有潜力的研究方向。

极度稀疏输入（仅2至3张照片）时，视差信息不足，网络难以从如此有限的信息中建立准确的全局场景理解。这个问题可以通过引入更强的单目深度先验来缓解，例如结合预训练的深度估计模型提供额外的几何约束。

说到底，GlobalSplat做了一件看起来简单但很反直觉的事情：面对越来越多的输入信息，它选择不扩张，而是压缩。把几十张照片的信息，先压缩进一套固定大小的"全局理解"，再从这套理解中解码出场景的三维表示。这个思路让它在质量、速度、内存、存储四个维度同时实现了优势，在当前前向推断三维重建领域确立了一个新的效率标杆。

对于普通人来说，这项研究意味着什么？以后的VR看房、手机AR导航、即时三维扫描等应用，背后可能运行的就是类似GlobalSplat这样的轻量模型——在你举起手机的瞬间，完成整个房间的三维建模，占用极少的内存和存储，在不到一秒的时间里生成你想要的任意视角画面。那个"走一圈就能建模"的未来，正在一步步变成现实。

如果你对这项研究的完整技术细节感兴趣，可以通过论文编号arXiv:2604.15284查阅原文。

---

Q&A

Q1：GlobalSplat用多少个高斯气泡来表示一个场景，为什么这个数量比其他方法少那么多？

A：GlobalSplat默认使用16384个（约1.6万个）高斯基元来表示一个场景，而其他主流方法在输入24张照片时通常需要几十万甚至数百万个基元。数量少的根本原因在于GlobalSplat的"先对齐后解码"策略：它先把所有输入照片的信息压缩进2048个固定的全局令牌，再从令牌解码气泡，不让气泡数量随输入照片数量线性增长。相比之下，传统方法每张照片都直接翻译成一批气泡，照片越多气泡越多。

Q2：GlobalSplat的双分支设计把几何和外观分开处理，这样做有什么实际好处？

A：将几何和外观分开处理，是为了防止网络"用好看的颜色掩盖错误的结构"。如果两者混在一起，网络可能学会用丰富的纹理信息弥补几何预测的不足，导致从训练视角看很好，从新视角看就出现严重变形。分开处理后，几何分支必须独立预测准确的空间结构，外观分支再在正确结构上叠加颜色，最终结果在三维一致性上更可靠。消融实验表明，即使将单分支模型参数量增加到更大，也无法弥补这种结构解耦带来的性能差距。

Q3：GlobalSplat在跨数据集测试中表现如何，是否只在特定场景类型有效？

A：GlobalSplat在RealEstate10K（室内外房地产场景）上训练后，直接在ACID（航拍海岸线无界大场景）上测试，无需任何微调，在24输入视角下依然取得了28.03的PSNR，接近在ACID上专门训练的Zpressor（28.53），远超DepthSplat（20.15）和C3G（22.24）。这说明GlobalSplat学到的是具有泛化能力的场景结构表示，而不是对特定训练数据分布的过拟合，在室内紧凑场景和开阔无界自然场景中均能有效工作。

三维重建高斯泼溅前向推断

分享至