微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

解锁清晰视界：孙中山大学研究团队开创"鲁棒高斯飞溅"技术，让3D场景重建告别干扰物

3D场景重建高斯飞溅技术计算机视觉

解锁清晰视界：孙中山大学研究团队开创"鲁棒高斯飞溅"技术，让3D场景重建告别干扰物

作者：科技行者

2025-06-09 16:57

分享至：

孙中山大学研究团队开发的RobustSplat技术通过两大创新解决3D高斯飞溅重建中的瞬态物体干扰问题：延迟高斯增长策略优先优化静态结构，避免早期对动态物体过度拟合；尺度级联掩码引导方法先利用低分辨率特征实现可靠初始掩码估计，再过渡到高分辨率监督获得精确预测。实验证明该方法在多个挑战性数据集上明显优于现有技术，为真实场景3D重建提供更高质量、无干扰的结果。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-09 16:57 • 科技行者

近日，由孙中山大学傅川宇、陈冠颖等研究人员联合FNii-深圳和香港中文大学（深圳）科学与工程学院的研究团队在arXiv上发表了一篇题为"RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS"的论文（arXiv:2506.02751v1 [cs.CV]，2025年6月3日）。这项研究针对当下最热门的3D场景重建技术——3D高斯飞溅（3D Gaussian Splatting，简称3DGS）存在的一个关键问题提出了创新解决方案。

想象一下，你正试图用手机拍摄一座建筑物的多个角度，希望能将它重建成一个精美的3D模型。但问题来了：拍摄过程中，画面里不可避免地会出现路人、车辆等移动物体（研究中称为"瞬态物体"）。这些移动的干扰物会导致最终的3D重建效果出现奇怪的"幽灵"或模糊区域，严重影响视觉质量。

现有的解决方案往往依赖复杂的特征提取和掩码生成技术，但在重建的早期阶段，由于场景表示尚未完全优化，渲染质量较差，导致无法准确区分静态和动态区域。这就像你在暗室里试图分辨物体形状，但光线太弱，看不清楚是猫还是狗。

研究团队深入分析后发现了一个关键问题：3DGS的"密度增长"过程虽然能提高场景细节捕捉能力，但同时也无意中促进了对瞬态干扰物的拟合。这就像一个过于热情的学习者，不加分辨地记住了所有信息，包括那些应该被忽略的错误内容。

基于这一发现，研究团队提出了"RobustSplat"方法，它包含两个核心设计：一是"延迟高斯增长策略"，优先优化静态场景结构，再允许高斯分裂/克隆，从而减少早期优化中对瞬态物体的过度拟合；二是"尺度级联掩码引导方法"，先利用低分辨率特征相似度监督进行可靠的初始瞬态掩码估计，然后逐步过渡到高分辨率监督，实现更精确的掩码预测。

在多个具有挑战性的数据集上的大量实验表明，RobustSplat比现有方法表现更优，明显展示了该方法的鲁棒性和有效性。简而言之，这项技术让3D场景重建在充满移动干扰物的真实世界环境中变得更加可靠和高质量。

一、从3D高斯飞溅到鲁棒重建：理解问题的本质

想象你正试图拼一幅拼图，但有人不断地偷走一些拼图块又放入一些不属于这幅拼图的块。这就是3D高斯飞溅（3DGS）技术在处理包含移动物体的场景时面临的挑战。3DGS是一种近期备受关注的技术，它能够实现实时、逼真的3D场景渲染，特别适合用于新视角合成和3D建模。

3DGS的工作原理是从多角度拍摄的照片中，通过结构运动（SfM）算法获取稀疏的3D点云，然后将这些点表示为3D空间中的高斯分布（想象成3D空间中的小气泡），并通过优化这些高斯分布的位置、形状、颜色等参数，逐渐构建出完整的3D场景。为了捕捉细节，当某个高斯分布的位置梯度累积超过预设阈值时，它会分裂或克隆，从而增加场景的表现力。

然而，现有方法通常假设场景是静态的，这在现实世界中几乎不可能实现。街道上行走的路人、驶过的汽车、摇曳的树枝，这些瞬态物体破坏了多视角一致性的要求，导致重建结果出现严重的伪影和质量下降。

当前解决这个问题的方法主要有三种：一是基于特定类别的语义掩码（如人和车辆），但这种方法难以泛化到多样化的瞬态物体；二是基于不确定性的掩码，通过考虑光度重建损失最小化中的不确定性，但通常无法可靠地预测运动掩码；三是基于学习的运动掩码，使用神经网络预测运动掩码，以光度残差或特征相似度作为监督信号。

虽然基于学习的方法在瞬态物体过滤方面表现出色，但它们面临一个关键限制：在训练初期，3DGS表示尚未充分优化，导致渲染结果过度平滑，无论是动态区域还是静态区域都存在较大的光度残差和较弱的特征相似性。使用这些不可靠的信号来监督掩码估计会导致不准确的瞬态掩码，小掩码无法完全移除瞬态物体，而过度平滑的早期重建则可能误将静态区域分类为动态区域，阻碍优化并导致欠重建。

研究团队通过详细分析3DGS方法，发现高斯密度增长过程（默认在500次迭代后开始）虽然增强了场景细节捕捉，但无意中也引入了伪影。最初，3DGS能很好地拟合场景的静态部分；然而，随着密度增长的进行，它倾向于过度拟合动态区域，导致被移动物体影响的区域出现伪影。令人惊讶的是，研究团队发现，在普通3DGS中显式禁用密度增长过程能有效缓解这些伪影，产生的结果甚至可与最近的鲁棒方法SpotLessSplats相媲美，而无需任何专门设计。

这是因为，如果没有密度增长，图像重建损失为3D高斯提供的位置梯度有限，主要优化它们的形状和颜色而非位置。因此，初始放置的高斯在位置上保持稳定，降低了过度拟合瞬态元素的风险。然而，没有密度增长也意味着高斯数量不足以表示细节，导致渲染图像在点初始化稀疏的区域显得过于平滑。

二、RobustSplat：智能解锁3D场景中的瞬态干扰

基于上述分析，研究团队提出了一种简单而有效的方法——RobustSplat，用于在充满瞬态物体的真实场景中优化3DGS。这个方法的核心思想可以比作一种"先定大局再增加细节"的策略，就像一位艺术家先勾勒出画作的基本轮廓，确定无误后再逐步添加精细细节。

RobustSplat引入了两个关键设计。首先是"延迟高斯增长策略"，它优先重建3D场景的全局结构，同时明确避免对动态区域进行过早拟合。这就像是先确保拼图的框架正确无误，再考虑添加更多细节。其次，为了改善对重建不足区域的掩码监督信号，同时保持对瞬态区域的敏感性，团队引入了"尺度级联掩码引导方法"。这种方法逐步增加监督分辨率，利用低分辨率特征能更有效地捕捉全局一致性并在早期优化阶段抑制局部噪声的观察结果。

想象一下，当你远离一幅马赛克画时，你更容易看出整体图案；而当你靠近时，你能注意到更多细节但可能失去对整体的把握。同样，低分辨率特征有助于理解场景的整体结构，而高分辨率特征则能捕捉更精细的细节。RobustSplat正是利用了这一特性，在优化的不同阶段使用不同分辨率的特征来指导瞬态掩码的生成。

具体来说，RobustSplat的工作流程是这样的：首先，它基于3DGS框架，从多视角图像中提取场景表示。然后，使用一个神经网络（MLP）根据图像特征预测每个图像中的瞬态掩码。这些掩码用于在训练过程中过滤掉动态区域，使模型能够专注于静态场景的优化。

在优化过程中，RobustSplat采用延迟高斯增长策略，将密度增长的起始时间从默认的500次迭代推迟到10000次迭代。这样做的好处是，模型有足够的时间先优化静态场景的全局结构，再考虑增加更多高斯来表示细节。同时，在早期阶段，为了促进静态区域的优化，掩码MLP被鼓励将所有区域初始分类为静态，然后逐渐过滤出瞬态物体。

另一个创新点是尺度级联掩码引导方法。在高斯密度增长开始之前，RobustSplat使用低分辨率渲染图像计算低分辨率图像残差和特征一致性来监督掩码MLP。一旦密度增长开始，它切换到高分辨率残差和高分辨率特征之间的余弦相似度，确保对瞬态和静态区域进行更精细的区分。

这种方法的优势在于，它能够在保持对瞬态区域敏感的同时，更好地处理早期阶段重建不足的静态区域。低分辨率特征天然地抑制了细节，导致更平滑的颜色残差和特征相似度，这表明在早期阶段使用较低分辨率的残差和特征相似度评估可以提高鲁棒性，允许保留重建不足的静态区域，同时保持对瞬态区域的敏感。

三、实验验证：在真实场景中的卓越表现

研究团队在多个具有挑战性的基准数据集上对RobustSplat进行了广泛评估，以验证其有效性和鲁棒性。他们选择了两个主要数据集：NeRF On-the-go和RobustNeRF。NeRF On-the-go数据集包含12个场景，具有不同的遮挡水平（5%~30%）。其中六个场景被广泛使用，而其余六个是更复杂的场景，在论文中称为NeRF On-the-go II。RobustNeRF数据集则包含四个人工设计的室内场景，每个场景都包含各种类型的干扰物，这些干扰物挑战重建的保真度。

在实现细节方面，RobustSplat沿用了官方3DGS的代码库。在训练过程中，采用与3DGS相同的学习率设置，总训练迭代次数为30000次。MLP由两个线性层组成，使用Adam优化器进行优化（学习率设为0.001）。所有实验都使用固定参数。延迟迭代开始设为10000次，MLP监督项的权重分别为λresidual = 0.5，λcos = 0.5和λreg = 2.0。掩码正则化系数为βreg = 2000。MLP使用的特征从DINOv2中提取，使用ViT-S/14蒸馏的预训练权重。

在掩码引导过程中，最低空间分辨率特征从大小为(224 × 224)的图像中提取，而最高空间分辨率特征则从大小为(504 × 504)的图像中提取。根据现有方法，在NeRF On-the-go和RobustNeRF数据集上应用了因子为8的下采样（在特定场景如arcdetriomphe和patio中为4）。低分辨率残差进一步按额外因子4进行下采样。

研究团队将RobustSplat与多个基线进行了比较，包括原始3D高斯飞溅[16]以及最近的鲁棒方法，如SpotLessSplat[34]、WildGaussians[18]、Robust3DGS[39]和T-3DGS[30]。为确保公平比较，他们使用了这些方法的公开实现，并在所有实验中使用相同的相机矩阵进行评估。性能评估通过视觉比较和定量指标进行，采用PSNR、SSIM和LPIPS来衡量重建质量。

在NeRF On-the-go数据集上的评估结果显示，RobustSplat在所有六个场景的PSNR、SSIM和LPIPS指标上都取得了最佳结果，清晰地证明了该方法的有效性。质量比较显示，基线方法展现出明显的伪影，而RobustSplat成功消除了这些伪影，并实现了更好的细节表现（例如，Patio-high中的窗户以及Fountain中的建筑物）。

在RobustNeRF数据集上的进一步验证显示，RobustSplat在平均指标上取得了最佳性能。虽然在Android场景的PSNR和SSIM指标上略逊于最先进的方法，但仍然保持竞争力。在RobustNeRF数据集的其余三个场景中，RobustSplat显著优于现有方法。质量比较表明，RobustSplat实现了无瞬态的重建，同时保持了清晰的细节。

为了评估RobustSplat方法中每个组件的有效性，研究团队基于3DGS[16]构建了不同组件的模型进行分析。结果显示，与完整模型相比，没有延迟高斯增长的模型在所有平均指标上都出现了明显下降，这再次证明了延迟高斯增长策略在防止3DGS在早期优化阶段拟合瞬态区域方面的有效性。

同样，移除提出的尺度级联掩码引导方法也导致了整体性能的下降。这种下降在Mountain场景中特别明显，这是一个包含大比例天空区域和稀疏初始化点的无界环境，导致早期优化期间的重建过度平滑。研究团队的掩码引导提供了更稳健的监督，从而实现了更准确的重建。

四、深入理解：技术细节与创新点

为了更深入地理解RobustSplat的工作原理，让我们详细探讨一下其核心组件和创新点。首先，3D高斯飞溅（3DGS）的基础是将场景表示为一组3D高斯分布G={gi}Ni=1，其中每个高斯基元gi具有可学习参数，包括平均位置μi、协方差矩阵Σi（用于形状）、不透明度αi以及球谐系数shi（用于视角依赖的颜色）。对于新视角合成，3D高斯被投影到2D并通过可微分光栅化使用alpha混合进行渲染。最终的像素颜色ck通过alpha混合计算：

ck = ∑i=1N ci αi G2Di ∏j=1i-1(1 - αj G2Dj)

其中ci是从球谐系数与视角方向计算得到的颜色。

3DGS通过最小化渲染图像与捕获图像之间的L1损失和SSIM损失进行优化：L = (1 - λ)L1 + λLD-SSIM。在优化过程中，自适应密度控制会根据累积位置梯度幅度周期性地克隆/修剪高斯。

为了处理瞬态物体，RobustSplat遵循最近的工作，使用MLP预测每个图像的瞬态掩码Mt，条件是图像特征ft：Mt = Sigmoid(MLPmask(ft))。估计的掩码随后用于应用排除瞬态区域的掩码光度损失。

最近的工作使用包含强语义信息的特征作为MLP输入（例如，DINOv2、StableDiffusion、SAM）。研究团队的初步实验发现，StableDiffusion特征提供了更强的语义信息，但提取特征的计算成本较高。虽然SAM特征更好地生成具有更准确边界的掩码，但它在定位阴影区域方面存在困难，导致掩码预测不完整。因此，研究团队采用DINOv2特征作为MLP的输入，因为它在计算效率和语义提取能力之间保持了良好的平衡。

MLP权重的优化需要适当的监督。研究团队采用了[34]中引入的基于图像残差信息的图像鲁棒损失Lresidual作为监督之一。为了更好地利用从图像中提取的深度高维特征信息（具有与图像残差不同的特性），他们采用了特征鲁棒损失Lcos，利用渲染图像和捕获图像之间的特征相似度信息。具体来说，他们提取真实图像ft和渲染图像f't的DINOv2特征，并计算它们的余弦相似度图。然后，他们将余弦相似度图转换为[0, 1]范围的值，遵循[18]：Mcos = max(2cos(ft, f't) - 1, 0)，其中如果特征余弦相似度为1，则Mcos将为1；如果相似度小于0.5，则为0。然后，特征鲁棒损失表示为：Lcos = ||Mt - Mcos||。

MLP使用以下损失进行优化：LMLP = λresidualLresidual + λcosLcos，其中λresidual、λcos是图像鲁棒监督和特征鲁棒损失的相应权重。

延迟高斯增长是RobustSplat的第一个关键创新。受观察到在3DGS中禁用高斯密度增长显著改善了低频静态成分学习的启发，RobustSplat引入了延迟高斯增长策略，修改3DGS[16]以延迟优化过程中的高斯密度增长。

为了评估3DGS中高斯密度增长起始时间的影响，研究团队在保持密度增长间隔固定为10000次迭代的情况下，变化了初始密度增长迭代。结果显示，延迟密度增长允许3DGS在早期训练阶段专注于重建静态场景。然而，一旦密度增长开始，新引入的高斯倾向于拟合瞬态物体，导致PSNR指标下降。值得注意的是，较早密度增长的模型表现更差，表明过早的密度增长促进了瞬态物体的拟合。这些结果表明，推迟密度增长有助于模型在适应动态元素之前更好地捕捉静态组件。

将瞬态掩码学习整合到延迟密度增长过程中，可以显著提高重建准确性，利用掩码预测来调节高斯扩展。通过利用掩码预测来调节高斯扩展，这种方法有效地抑制了瞬态伪影并增强了场景保真度。特别是，较晚密度增长开始的变体实现了更准确的结果。这些结果表明，瞬态掩码学习和延迟密度增长协同工作，以增强3DGS优化的稳定性和准确性。

应用瞬态掩码过滤在3DGS中的时机是一个关键方面。在初始训练阶段，渲染图像展现出低质量，具有大的图像残差和较差的特征相似性，导致不准确的掩码估计。为了缓解这一问题，先前的方法要么在预热期后延迟掩码学习（例如，1500次迭代），要么采用随机掩码采样策略。然而，延迟掩码应用会导致瞬态物体被纳入场景，使它们在后期更难以移除。

得益于高斯增长的延迟策略，RobustSplat确保早期阶段的优化仅关注静态场景。为了促进整个场景的静态区域优化，鼓励掩码MLP最初将所有区域分类为静态，并逐渐过滤出瞬态物体。为此，研究团队在掩码MLP的监督中引入了一个正则化项：Lreg = e(- i/βreg)||1 - Mt||，其中i是训练的迭代次数，如果i = 0，则右项为1，并随着i增加而减少。

掩码优化的整体损失表示为：LMLP = λresidualLresidual + λcosLcos + λregLreg，其中λreg是正则化的相应权重。

尺度级联掩码引导是RobustSplat的另一个关键创新。虽然延迟高斯增长策略通过专注于静态区域的优化有效地减轻了瞬态区域的影响，但静态场景在早期阶段的欠重建仍然是一个问题。这个问题源于初始高斯点的稀疏性，特别是在大规模无界室外场景中。因此，这些区域的渲染输出显得过度平滑，导致大的图像残差和低的特征相似性。这反过来又导致掩码MLP将欠重建的静态区域误分类为动态区域。

为了解决这个问题，研究团队旨在使监督信号在早期优化阶段更能容忍欠重建区域。他们观察到，虽然从高分辨率图像提取的高分辨率特征提供了精细的空间细节，但它们受限于有限的接受域和对局部噪声的增加敏感性。相比之下，低分辨率特征更有效地捕捉全局一致性，因为每个补丁集成了更广泛的上下文信息，本质上抑制了特征表示中的局部噪声。

如图6所示，与高分辨率图像相比，低分辨率图像自然地抑制了细节，导致更平滑的颜色残差和特征相似性。这表明，在早期阶段评估较低分辨率的残差和特征相似性可以提高鲁棒性——允许保留欠重建的静态区域，同时保持对瞬态区域的敏感。

基于这一见解，研究团队提出了一种分辨率级联方法，通过从低分辨率到高分辨率的信号过渡逐步细化掩码监督。这种方法有助于掩码MLP在早期优化阶段保留更多的静态区域。

具体来说，在高斯密度增长开始之前，研究团队从3DGS渲染低分辨率图像，计算低分辨率图像残差和特征一致性来监督掩码MLP。一旦密度增长开始，他们切换到高分辨率残差和高分辨率特征之间的余弦相似度，确保对瞬态和静态区域进行更精细的区分。

这些改进共同构成了RobustSplat，一种能够在充满瞬态干扰的真实场景中实现高质量3D场景重建的鲁棒方法。

五、结论与展望：迈向更真实的3D世界

在这项研究中，研究团队引入了RobustSplat，这是一个用于无瞬态3D高斯飞溅的鲁棒框架，有效减轻了动态场景中瞬态物体引起的伪影。基于对高斯密度增长与瞬态物体引起的伪影之间关系的分析，研究团队的方法集成了延迟高斯增长策略（优先考虑静态场景优化）和尺度级联掩码引导方法（用于可靠的瞬态物体抑制）。

通过多个具有挑战性的数据集上的广泛实验，RobustSplat展示了比现有方法更优越的鲁棒性和渲染质量。简而言之，这项技术让3D场景重建在真实世界环境中变得更加可靠和高质量，即使存在各种移动干扰物也能保持清晰细节。

然而，研究团队也指出了当前方法的局限性。RobustSplat目前仅专注于瞬态物体移除，而没有明确处理照明变化，这限制了该方法在更不受控制的环境中的适用性。在未来的工作中，研究团队计划研究照明感知解决方案，通过整合高斯密度增长过程的特性来模拟照明变化。

此外，当前的掩码预测使用DINOv2特征，虽然效率高且在相似对象类别内特征一致性可靠，但其基于补丁的性质在扩展到高分辨率设置时在边缘处引入了不一致性，限制了掩码预测器的有效性。在本研究中，研究团队通过应用核大小为7的膨胀略微扩展了掩码。未来，研究团队将探索集成更具表现力和高效的特征提取器用于掩码学习。

总的来说，RobustSplat为解决真实世界场景中的瞬态干扰问题提供了一个强大的解决方案，为3D高斯飞溅技术在更广泛的实际应用中的部署铺平了道路。随着这一领域的继续发展，我们可以期待看到更多创新，使3D场景重建技术变得更加鲁棒、高效和易于使用，最终为各种应用（从虚拟现实和增强现实到电影制作和游戏开发）提供更真实、更沉浸式的体验。

3D场景重建高斯飞溅技术计算机视觉

分享至