DiMeR：让普通图像转3D更简单，香港科技大学发布全新"解构式"网格重建模型

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

DiMeR：让普通图像转3D更简单，香港科技大学发布全新"解构式"网格重建模型

作者：科技行者

2025-04-27 13:47

分享至：

DiMeR是由香港科技大学研究团队开发的创新3D网格重建模型，通过解构式设计将形状和纹理分离处理。模型使用法线图专门重建几何形状，再用RGB图像生成纹理，成功解决了传统方法中的训练歧义问题。实验表明，它在重建精度上比现有方法提升超过30%，并在多视图重建、单图像转3D和文本到3D生成等多任务中表现出色。这一突破性工作大幅降低了3D内容创作的门槛，为游戏开发、虚拟现实和电影制作等领域提供了强大工具。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-27 13:47 • 科技行者

在3D内容创建越来越受欢迎的今天，如何从普通2D图像快速生成高质量的3D模型一直是个挑战。来自香港科技大学（广州）和香港科技大学的研究团队最近在这一领域取得了重大突破。他们开发的全新模型DiMeR（Disentangled Mesh Reconstruction Model，解构式网格重建模型）刚刚发布于arXiv预印本平台（2025年4月24日，arXiv:2504.17670v1），该模型通过巧妙分离几何形状和纹理信息，大幅提升了3D重建的质量和效率。

你可能会好奇，为什么从普通照片创建3D模型这么困难？想象一下，当你看到一张骰子的照片，有些骰子的点是印在表面上的（纹理），而有些则是凹进去的（几何形状）。当计算机试图理解这些区别时，常常会感到困惑，就像我们有时候看图片也无法确定某个特征是真实凸起还是只是光影效果一样。

这个问题在传统的3D重建方法中一直存在。以前的方法主要使用RGB彩色图像作为输入，但这些图像往往包含了混杂的信息，让计算机难以区分哪些是物体的实际形状，哪些只是表面的颜色和图案。就像给你一张带有复杂花纹的陶瓷碗的照片，你可能很难判断碗表面是否有实际的凹凸，还是只有彩色图案。

DiMeR的创新之处在于它采用了"解构"的思路，将3D重建任务分为两部分：几何形状重建和纹理合成。就像厨师知道先做饭再调味会更容易控制口感和味道一样，DiMeR也认为分别处理形状和颜色更有效率。

研究团队发现，法线图（Normal Maps，记录表面朝向的特殊图像）与3D几何形状有着天然的一致性，能够准确捕捉表面变化，而不受颜色和纹理的干扰。因此，DiMeR创新性地只使用法线图来重建几何形状，再使用RGB图像来生成纹理，大大降低了训练难度，提高了重建质量。

实验结果令人振奋。在Google Scanned Objects（GSO）和OmniObject3D数据集上，DiMeR比现有方法的Chamfer距离（衡量3D重建准确性的指标）提高了超过30%，生成的3D模型更加精确和自然。

不仅如此，DiMeR还展示了惊人的多任务能力，可以应用于多视图重建、单图像转3D，甚至文本到3D生成等多种场景。比如，输入"一个粉色茶壶，对称，弯曲的壶嘴，圆形壶身，平底，圆形盖子，细长手柄"等文本描述，DiMeR就能生成符合要求的精美3D模型。

这项突破性研究不仅为游戏开发、虚拟现实和电影制作等行业提供了强大工具，也为普通创作者打开了更便捷的3D内容创作大门。随着AI技术的不断发展，未来我们可能只需一张照片或一段文字描述，就能轻松创建出精美的3D内容。

一、研究背景：为什么3D重建如此困难？

近年来，随着虚拟现实和游戏产业的蓬勃发展，3D模型的需求量激增。虽然NeRF（神经辐射场）和3DGS（3D高斯散射）等技术已经取得了显著进展，但将这些技术直接转换为网格表示（mesh representation）仍然面临着重大挑战。网格表示是3D模型的一种常见格式，就像是用许多小三角形拼接起来的表面，非常适合用于下游应用，比如游戏和虚拟现实环境。

随着大规模3D数据集（如Objaverse）的出现，前馈式3D生成模型（如LRM，大型重建模型）获得了显著成功。这些模型可以从单张图像直接生成3D模型，大大加快了3D内容创建的速度。然而，香港科技大学的研究团队发现，这些基于RGB图像的方法存在两个关键问题：

首先是训练目标的冲突。研究人员以骰子为例进行了说明：在现实世界中，有些骰子的点是印在表面上的（纹理），而有些则是实际凹陷的（几何形状）。这种矛盾的样本会让神经网络在训练时感到困惑，就像教一个孩子学习时同时给他看两种不同版本的骰子，却不告诉他们哪一种才是"标准答案"，这会严重影响学习效果。

其次是几何信息的模糊性。复杂的纹理常常会掩盖物体的实际几何形状，就像一张贴满图案的墙面，很难从照片中判断墙面本身是否平整。当模型需要从这样的图像中提取几何信息时，往往会产生错误或不精确的结果。

虽然一些现有方法尝试通过整合几何信息来解决这个问题——例如CRM使用点云数据，MeshFormer使用法线图——但这些方法仍然同时使用RGB图像作为网络输入的必要部分，这意味着训练过程中的歧义仍然存在。而且，大多数现有的网格重建方法使用FlexiCubes来提取网格并利用微分光栅化进行优化，这种方法也存在一些局限性，比如其中定义的有符号距离场（Signed Distance Field，SDF）难以应用3D监督，而且其正则化损失会导致训练不稳定。

针对这些挑战，DiMeR团队提出了一种全新的解决思路：如果我们能将形状和纹理的学习完全分开，是否就能获得更好的结果？这就像解题时将复杂问题分解为简单步骤，每一步都更容易解决，最终组合起来得到完整答案。

二、DiMeR的创新架构：解构才是王道

DiMeR的核心创新在于其"解构式"的双流架构设计。就像厨师知道制作精美蛋糕需要先做出完美的蛋糕胚再进行装饰一样，DiMeR也采用了类似的分步策略：先重建物体的几何形状，再添加表面纹理。

几何形状分支：法线图的魔力

DiMeR最大的创新点在于它的几何形状分支仅使用法线图作为输入。这听起来可能有点抽象，我们可以这样理解：法线图就像是一种特殊的"地形图"，它不记录物体的颜色，而是记录每个点表面的朝向。想象你闭着眼睛用手指轻轻抚摸一个物体，你能感受到它的凹凸和形状，这就类似于法线图所包含的信息。

研究者发现，法线图与3D几何形状之间存在天然的一致性。无论是印在骰子表面的点还是实际凹陷的点，在法线图中都会有明确不同的表现。这种一致性为神经网络提供了清晰的学习目标，大大减少了训练过程中的歧义。

在网络结构方面，几何形状分支首先接收K个随机选择视角的法线图和相应的相机参数。选择随机视角而非固定视角是为了增强模型的鲁棒性，就像学习外语时接触各种口音会让你的听力理解能力更强一样。这些法线图通过一个基于视觉转换器（ViT）的法线编码器被编码成特征，然后通过一个三平面解码器（Triplane Decoder）合成三平面特征。三平面就像是从三个不同角度（类似于X、Y、Z三个面）看同一个物体，共同组成一个完整的3D表示。

接下来，模型从这些三平面特征中提取有符号距离场（SDF）网格，并应用FlexiCubes算法来获取网格的顶点和面。与原始FlexiCubes不同，DiMeR简化了网络结构，移除了变形网络和权重网络，这大大降低了计算复杂度，同时实验证明性能并没有明显下降。

在损失函数方面，DiMeR考虑得非常全面。首先，它排除了RGB损失，专注于几何相关的损失，包括法线损失、深度损失和掩码损失。其次，它用eikonal损失（保证SDF梯度为1）替代了FlexiCubes原始的正则化损失，并增加了对SDF网格顶点的直接监督。此外，研究者还引入了一个创新的基于物理渲染（PBR）的损失函数。

这个PBR损失函数的思路很有趣：如果一个物体的几何形状是正确的，那么在不同的光照环境和材质条件下，它应该能正确地渲染出对应的高光和漫反射光照图。就像一个真正的球体在不同光照下会产生特定的反光和阴影，而一个形状不准确的模型则无法正确模拟这些光学效果。通过这种方式，模型学会了生成具有精确几何细节的3D形状。

纹理分支：为骨架穿上彩衣

有了准确的几何形状后，下一步就是添加纹理。DiMeR的纹理分支使用RGB图像作为输入，通过类似的编码-解码结构生成三平面特征，但这次是用于表示纹理场。

具体来说，模型首先将来自几何分支的预测形状进行光栅化，获取每个像素的3D坐标。然后，它在纹理的三平面特征上查询这些坐标，获取每个像素的纹理特征，最后通过一个RGB解码器预测最终的彩色图像。

与几何分支不同，纹理分支只使用RGB损失进行监督。这是因为纹理学习的目标很明确：让渲染出来的图像尽可能接近真实图像。这种简单明了的目标使得训练更加稳定和高效。

三、DiMeR的多才多艺：三大应用场景展示

DiMeR不仅在理论上创新，在实际应用中也展现出令人惊叹的多功能性。研究团队展示了DiMeR在三种不同任务中的应用：多视图重建、单图像转3D和文本到3D生成。

多视图重建：从多角度照片到精确3D模型

多视图重建是DiMeR的基础任务，就像从不同角度拍摄同一个物体的照片，然后组合起来重建完整的3D模型。DiMeR在这一任务上表现出色，得益于它只使用法线图进行几何形状重建的独特设计。

实际应用时，用户可以使用如StableNormal或Lotus等法线预测模型从RGB输入图像中获得法线图，然后将这些法线图输入DiMeR的几何形状分支进行形状重建，同时将原始RGB图像输入纹理分支生成纹理，最终得到完整的3D模型。

在实验中，DiMeR在GSO和OmniObject3D数据集上分别取得了31.7%和29.4%的Chamfer距离改进，F1分数也有显著提升，这意味着生成的3D模型更加准确，边缘和细节更加清晰。

单图像转3D：一张照片重现立体世界

只有一张物体的照片时，DiMeR如何创建完整的3D模型呢？这就像只看到一个人的正面照片，却要描述出他的侧面和背面长什么样——这是一个本质上具有歧义性的问题。

DiMeR的解决方案非常聪明。首先，它使用zero123++这样的2.5D多视图扩散模型来合成物体的多个视角图像。想象一下，给定一张正面照片，模型会"想象"出这个物体从其他角度看起来应该是什么样子。然后，DiMeR使用Lotus或StableNormal等模型从这些合成图像中预测法线图，并将法线图从局部相机坐标系转换到全局坐标系。最后，这些法线图和RGB图像被输入DiMeR进行完整的3D重建。

在单图像转3D的实验中，DiMeR也取得了显著优势，在GSO和OmniObject3D数据集上分别实现了12%和7%的Chamfer距离改进，生成的3D模型更加准确和自然。

文本到3D：想象变为现实

DiMeR的第三个应用场景是文本到3D生成，这可能是最神奇的功能。想象你只需输入"一个战斗机甲，红色、蓝色和黑色混合，头部有一个炮筒"，就能得到一个符合描述的精美3D模型，这不是很酷吗？

DiMeR实现这一功能的方法有两种。第一种方法是先使用文本到图像模型从文本生成RGB图像，然后应用单图像转3D的管道完成重建。第二种方法则更加直接，利用如Kiss3DGen这样的文本到多视图扩散模型，它能同时输出RGB图像和相应的法线图，确保高度的多视图一致性。由于DiMeR支持动态输入视图数量，因此可以直接将Kiss3DGen的四个视图输入DiMeR进行3D模型重建。

研究团队在论文中展示了多个文本到3D生成的精美案例，包括战斗机甲、角头雕塑、粉色茶壶以及戴虚拟现实头盔的人物等，每一个都展现了DiMeR在精确捕捉文本描述细节方面的卓越能力。

四、实验结果：数据证明的优越性

为了验证DiMeR的性能，研究团队在广泛使用的GSO和OmniObject3D数据集上进行了大量实验。这些数据集包含了各种各样的日常物品，从厨具到家具，从电子产品到玩具，为评估模型在不同物体上的表现提供了全面的基准。

在定量评估方面，DiMeR使用了多项指标：

Chamfer距离（CD）：测量重建表面与真实表面的接近程度，类似于测量两个物体表面的平均距离
F1分数：综合评估重建表面的准确性和完整性
PSNR、SSIM和LPIPS：评估渲染图像的质量，对应信号噪声比、结构相似性和感知相似性

实验结果令人振奋。在多视图重建任务中，DiMeR（使用真实法线图）比最先进的方法InstantMesh和PRM在Chamfer距离上分别提升了31.7%和29.4%，这意味着生成的3D模型更加接近真实物体。即使使用预测的法线图（如来自StableNormal的法线图），DiMeR仍然保持了显著的22.0%性能优势。

在单图像转3D任务中，DiMeR同样击败了包括CRM、InstantMesh、PRM和Trellis在内的所有竞争对手。特别值得注意的是，尽管Trellis作为生成式扩散模型能生成高质量的网格，但它常常与输入图像存在一致性问题，例如错误的杯子孔洞数量或柱子数量。相比之下，DiMeR能够准确捕捉这些细节，保持与输入图像的高度一致性。

在定性评估方面，研究者通过对比不同方法生成的3D模型，直观地展示了DiMeR的优势。无论是复杂的建筑结构、精细的机械零件，还是具有复杂曲面的艺术品，DiMeR都能生成更加精确和自然的3D模型，边缘更加清晰，细节更加丰富。

五、消融实验：解构设计的重要性

为了验证各个设计选择的有效性，研究团队进行了一系列消融实验（即移除或替换模型的某些组件，观察性能变化）。

首先是输入解构的重要性。实验比较了三种输入方式：仅RGB、RGB+法线图、仅法线图。结果显示，仅使用法线图作为几何形状分支的输入比混合输入方式取得了显著的性能提升。Chamfer距离从0.041降至0.028，F1分数从0.971提升至0.992。这证实了研究者的假设：法线图与3D几何形状之间确实存在强烈的归纳偏好（inductive bias）。此外，使用法线图还有资源利用方面的优势，因为混合输入会产生更多的特征块，导致GPU内存使用和计算开销增加。

其次是正则化损失的改进。研究者将FlexiCubes原始的正则化损失替换为eikonal损失和3D真值监督，这一改变使Chamfer距离从0.037降至0.028，F1分数从0.975提升至0.992。使用FlexiCubes原始的正则化损失时，训练过程变得不稳定，难以超过10,000次迭代，导致网络收敛不理想。而引入eikonal损失和3D真值后，训练过程稳定下来，模型性能显著提升。

第三是PBR期望损失的贡献。如果光照图在不同的环境光照条件和材质下都能被准确计算，那么预测的网格应该与真实网格非常接近。实验证明，引入PBR损失后，Chamfer距离从0.039降至0.028，F1分数从0.973提升至0.992。这一显著的改进证明了这种新颖的监督信号的有效性。

最后是FlexiCubes中变形和权重MLP的必要性。研究者发现，移除这两个网络后，推理性能几乎没有下降，但计算负担显著减轻（计算开销减少约2.5倍，训练GPU内存占用减少约1.5倍）。因此，DiMeR选择排除这些组件，以便提高空间分辨率和计算效率。

六、DiMeR的局限性与未来展望

尽管DiMeR在多项任务上取得了显著成功，研究团队也坦诚指出了它的一些局限性。

首先，在单图像转3D任务中，受限于2.5D扩散模型的性能，DiMeR的生成质量还有提升空间，包括分辨率和准确性。想象一下，如果为你提供的素材本身就模糊不清，即使你是世界级雕刻大师也难以创作出精美的雕塑。随着2.5D扩散模型的不断改进，DiMeR的表现有望进一步提升。

其次，对于具有高频表面（如砂纸）的物体，由于相对有限的空间分辨率和数据集限制，DiMeR仍然面临挑战。这就像用低分辨率的屏幕难以显示出非常细密的纹理一样，需要更高的分辨率和更丰富的训练数据来解决。

尽管如此，研究团队对DiMeR的未来充满信心。随着法线预测模型的不断进步，DiMeR有望实现更好的结果。此外，该方法的框架也为未来的网格重建研究提供了新的思路，特别是将不同类型的任务解构为更简单的子任务的策略，可能会在更多领域得到应用。

结语：解构思维开启3D创作新时代

归根结底，DiMeR的成功之处在于它的"解构式"思维方式。通过将复杂的3D重建任务分解为几何形状重建和纹理合成两个相对独立的部分，DiMeR不仅提高了重建质量，还增强了模型的鲁棒性和适用性。

这种"解构"的思路其实在我们日常生活中也很常见。就像组装家具时，我们会先搭建框架，确保结构稳固，然后再添加装饰和细节；或者像厨师先做出食物的基本形态和口感，再进行调味和摆盘。把复杂问题分解为更简单的步骤，往往能让我们更有效地解决问题。

DiMeR的研究为3D内容创作开辟了新的可能性。在不久的将来，游戏开发者可能只需提供几张概念图就能生成完整的3D角色模型；电影制作人可以通过文本描述快速创建虚拟场景；普通用户甚至可以通过简单的照片或描述将自己的创意转化为3D打印模型。

随着人工智能技术的不断进步，以及像DiMeR这样的创新模型的出现，3D内容创作的门槛正在逐渐降低，让更多人能够参与到这个过程中来。这不仅丰富了我们的数字世界，也为各行各业带来了新的机遇和可能性。