微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 UniTEX:打破传统纹理生成限制,HKUST和Light Illusion团队带来高保真3D纹理生成新方法

UniTEX:打破传统纹理生成限制,HKUST和Light Illusion团队带来高保真3D纹理生成新方法

2025-06-03 15:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-03 15:16 科技行者

在3D资产创作领域,高质量的纹理生成一直是一个既重要又耗时的环节。想象一下,当你为一个3D模型添加纹理时,就像是给一座刚建好的房子进行装修和上色——这不仅需要专业技能,还需要投入大量时间。而今天我们要介绍的研究成果,可能会彻底改变这一现状。

来自香港科技大学(HKUST)和Light Illusion的研究团队,包括Yixun Liang、Kunming Luo、Xiao Chen、Rui Chen、Hongyu Yan、Weiyu Li、Jiarui Liu和Ping Tan教授,于2025年5月发布了一项突破性的研究成果——UniTEX,一种能够为3D模型生成高保真纹理的全新框架。这项研究发表在arXiv预印本平台上(arXiv:2505.23253v1),有兴趣深入了解的读者可以通过该链接访问完整论文。

近年来,随着扩散模型(Diffusion Models)在图像和视频生成领域的革命性突破,人们自然而然地期待,这种强大的技术同样能够简化3D纹理生成过程。然而,现有的方法大多依赖于先生成多视角纹理图像,然后将这些图像投影到3D模型表面,最后通过UV空间(一种将3D模型表面展开成2D图像的方法)的修复来补全纹理。这种做法虽然能利用强大的2D生成模型,但在处理自遮挡和多视角一致性方面面临诸多挑战,尤其是当纹理投影到3D表面后,常常出现不完整或碎片化的问题。

特别是在处理由生成式AI创建的模型时,基于UV的修复方法表现得尤为挣扎。想象一下,这就像试图用一块平整的布料包裹一个形状复杂的物体——无论如何都会出现褶皱或不匹配的区域。这个问题源于UV映射的根本限制:拓扑歧义性。简单来说,同一个3D模型可以对应多种有效的UV布局,而这些布局不仅取决于几何形状,还高度依赖于顶点/面分布和UV展开算法。

为了解决这个问题,UniTEX团队提出了一种全新的思路:完全绕过UV空间的限制,直接在统一的3D功能空间中表示纹理。他们引入了"纹理函数"(Texture Functions,简称TFs)的概念——这是一种连续的表示方法,可以将任何3D空间点映射到纹理值。你可以把它想象成一个魔法喷雾,无论你在3D空间中的哪个位置喷洒,它都能立即知道那里应该是什么颜色,而这完全基于表面的接近度,与网格拓扑无关。

在此基础上,研究团队开发了一个名为"大型纹理模型"(Large Texturing Model,简称LTM)的基于Transformer架构的模型,可以直接从图像和几何输入预测对应的3D纹理函数。这就像是训练了一位超级画家,它不仅看得懂你的3D模型结构,还能根据你提供的参考图像,精确地将合适的纹理应用到模型的每一个角落。

为了进一步提升纹理生成的整体质量,团队还提出了一种先进的LoRA(Low-Rank Adaptation,低秩适应)训练策略,能够有效地调整大型扩散Transformer模型(DiTs)用于多视角合成。这一策略使他们能够高效地利用如FLUX和SD3等强大的基础模型,从而提升生成纹理的质量,并为其他视觉任务提供可迁移的见解。

通过大量实验,UniTEX团队证明了他们的方法在视觉质量和纹理完整性方面都优于现有方法,为自动化3D纹理生成提供了一个可泛化且可扩展的解决方案。

让我们一起深入了解UniTEX的工作原理,以及它如何彻底改变3D纹理生成的未来。

一、为什么现有的纹理生成方法不够好?

想象你是一位数字艺术家,需要为一个复杂的3D模型创建纹理。传统上,你可能需要花费数小时甚至数天的时间,手动为模型的每个部分绘制纹理。随着人工智能的发展,一些自动化工具开始出现,但它们都面临着一个共同的挑战:如何确保生成的纹理在整个3D模型上保持一致性和完整性。

现有的方法主要依赖于一个两阶段流程:首先生成多视角的纹理图像,然后将这些图像投影到3D模型上。看起来很合理,对吧?但问题来了——当你从不同角度拍摄同一个物体时,有些部分会被遮挡,导致投影后的纹理出现"盲区"。为了解决这个问题,研究人员引入了第二阶段:基于UV的修复。

UV是什么?想象你要把一个橙子的皮剥下来并展平成一张平面图——这就是UV映射的过程。它让我们可以将3D表面表示为2D图像,便于编辑和绘制纹理。然而,正如你可能想象的那样,将球形的橙子皮展平必然会产生拉伸和扭曲,尤其是对于形状复杂的物体。

这就是基于UV的方法面临的根本挑战:拓扑歧义性。同一个3D模型可以有多种不同的UV展开方式,而这些展开方式高度依赖于模型的面分布和展开算法。想象一下,如果你尝试以不同方式剥橙子皮,每次得到的平面图案都会略有不同。这种不确定性使得基于UV的修复模型很难泛化到不同的3D模型上,尤其是那些由生成式AI创建的模型,因为它们通常具有非常不规则的拓扑结构。

研究团队通过实验清楚地展示了这一点。在图2中,我们可以看到,当应用于艺术家创建的"干净"网格时,基于UV的方法(如Paint3D和TexGEN)表现良好。但当面对生成式模型创建的复杂网格时,这些方法就显得力不从心了,无法有效处理那些小而碎片化的区域。

这个问题启发了研究团队思考:如果我们能够完全绕过UV映射,直接在3D空间中定义和生成纹理,会怎么样?

二、UniTEX如何突破传统限制?

UniTEX的核心创新在于它彻底重新思考了纹理表示的方式。传统上,纹理被视为附着在3D模型表面的2D图像,需要通过UV映射来建立3D点和2D纹理之间的对应关系。而UniTEX则采取了一种全新的方法:将纹理定义为整个3D空间中的连续函数。

想象你有一个神奇的颜料瓶,当你想知道3D空间中某一点应该是什么颜色时,只需要问这个瓶子:"这个位置应该是什么颜色?"颜料瓶会立即告诉你答案,而且这个答案仅仅取决于该点与3D模型表面的距离关系,与模型的内部结构或者UV展开方式完全无关。这就是"纹理函数"(Texture Functions,TFs)的基本思想。

具体来说,对于空间中的任意一点,UniTEX首先找到模型表面上最近的点(类似于计算无符号距离函数,UDF),然后获取该表面点对应的纹理值。虽然纹理值是基于表面接近度采样的,但TFs在整个3D体积中都有定义,实现了体积化的纹理表示。

与UV映射不同,TFs不依赖于网格的面分布,而仅仅依赖于表面位置,这使得它能够绕过前面提到的拓扑歧义问题。此外,这种表述还允许将纹理视为3D空间中的平滑连续场——类似于SDF或UDF表示几何形状的方式,但是专注于表示表面的外观。

有了这种表示方法,研究团队将纹理修复/预测框架为一个原生的3D回归任务,模型输入图像和几何信息,直接预测相应的3D纹理函数。为了实现这一点,他们引入了一个基于Transformer的架构——"大型纹理模型"(Large Texturing Model,LTM)。

LTM的工作方式很像一个聪明的艺术家,它同时观察多个视角的图像和几何信息,然后在脑海中构建一个完整的3D理解,最后直接在3D空间中绘制出完整的纹理。通过消除对UV布局的依赖,UniTEX减少了训练数据和实际应用之间的域差距,提供了一个可泛化且可扩展的纹理生成解决方案。

三、UniTEX的两阶段纹理生成流程

UniTEX采用了一个精心设计的两阶段流程,充分考虑了2D扩散模型在多视图生成和3D纹理方法在纹理完成方面的优势结合。正如图3所示,给定一个单一的输入图像和一个无纹理的3D网格,系统首先使用高效的LoRA训练策略微调两个大型扩散Transformer模型(Flux),生成六个正交的、无光照的视图。

你可以把这个过程想象成一个超级摄影师,他能够根据你提供的单一参考照片,自动生成物体从六个不同角度拍摄的"完美"照片,而且这些照片都没有复杂的光照效果,便于后续处理。这些生成的图像还可以选择性地进行超分辨率处理,以获得更高的质量。

在重投影和混合后,这些合成的视图与部分纹理化的几何体一起被输入到"大型纹理模型"(LTM)中,该模型预测相应的完整纹理函数。最终的纹理通过将预测的纹理函数与初始部分纹理化的几何体混合而成。

想象你是一位画家,先用草图勾勒出物体的基本形状和部分颜色(第一阶段),然后根据这些初步信息,你的大脑能够想象出整个物体应该是什么样子,最后你完成了整幅画作(第二阶段)。UniTEX的工作方式与此类似,但它是在3D空间中进行的。

### 3.1 高效的DiT调整策略

在第一阶段,研究团队面临一个独特的挑战:如何有效地调整2D扩散模型用于3D纹理生成?与传统的2D生成不同,3D纹理生成需要显著更多的条件信号。例如,生成六个512×512分辨率的视图图像需要一个参考图像和所有六个视图对应的几何信息(如法线和规范坐标图)。

扩散Transformer(DiTs)严重依赖于上下文学习,所有输入和条件都被联合编码为令牌。这导致令牌输入量大幅增加,增加了训练成本并减慢了收敛速度。

基于最近的研究,如MVDiffusion++和LongLoRA的发现,研究团队提出了一种"丢弃训练策略":在每个训练步骤中,只保留所有令牌的一个子集,扩散Transformer仅基于这些选定的令牌进行条件控制和生成,而不是全部输入令牌。

这种方法减少了对完整图像令牌的依赖,允许模型从部分信息中学习,同时保持任务相关的需求。实验表明,这种方法在相同迭代次数下实现了与全输入微调相当的生成质量,同时显著加速了训练并减少了计算成本。想象一下,这就像是一个学生不需要阅读整本教科书,而是通过学习关键章节就能掌握核心知识。

### 3.2 大型纹理模型(LTM)

前面提到的两阶段纹理方法主要依赖于基于UV的修复,这常常因拓扑歧义而导致次优的纹理质量。在UniTEX中,研究团队提出了"大型纹理模型"(LTM)来回归3D功能空间中的纹理,以绕过拓扑歧义并作为第二阶段的关键组成部分。

LTM的架构如图4所示。基于从第一阶段生成的图像和无纹理/不完整纹理几何体,研究团队首先将它们统一到一个共享的triplane-cube令牌表示中。然后,一个基于Transformer的架构处理这些令牌以提取几何感知特征,这些特征随后通过轻量级MLP解码为颜色。

就像一位精通立体思维的艺术家,LTM能够同时处理多个2D图像和3D几何信息,在脑海中构建一个完整的3D理解,然后直接在3D空间中"绘制"出完整的纹理。

### 3.3 纹理函数——训练目标

与原生3D几何生成或重建不同,后者受益于3D功能空间中定义明确的有符号或无符号距离场(SDF/UDF)作为连续且完整的监督信号,纹理传统上仅定义在3D对象的表面上。

先前的工作通常依赖于表面或体积渲染通过2D投影来监督纹理表示。然而,这种形式的监督本质上是稀疏的,覆盖范围有限,尤其是与几何任务中可用的密集体积监督相比。

受此启发,研究团队提出将纹理从仅限于表面的信号扩展为在整个3D空间中定义的连续体积函数。这允许他们使用在整个体积中密集采样的点来监督纹理模型,提供更丰富和更完整的训练信号。

形式上,他们将纹理函数定义为在3D坐标x上的映射,其中每个纹理值是通过将x正交投影到网格表面Ω上的最近点并查询其对应的颜色来获得的。这个定义自然地与体积几何表示对齐,并使得学习可以在整个3D域中统一进行。

为了更好地理解,图5提供了纹理函数与传统无符号距离函数(UDF)之间的视觉比较。就像UDF定义了空间中每一点到表面的距离,纹理函数定义了空间中每一点应该具有的颜色。

通过这种纹理函数,LTM的训练目标被定义为最小化预测颜色与真实颜色之间的差异,同时添加一个总变差损失以规范化基于网格的3D表示。这种方法不仅提供了与以前方法类似的表面点监督,还将监督扩展到3D空间中的非几何区域。

具体来说,着色区域被扩展到围绕几何体的薄壳(截断后)。这带来了显著的优势:在颜色预测过程中,模型被隐式地鼓励构建对3D对象的体积理解。薄壳的引入减轻了对高精度网格建模的需求,因为模型仍然可以正确查询颜色而无需依赖精确的几何体。此外,完全定义的监督信号有利于学习结构良好的潜在空间并增强模型的泛化能力。

四、实验验证:UniTEX的出色表现

研究团队通过大量实验验证了UniTEX的有效性,并与当前最先进的方法进行了比较。实验分为两个基准测试:艺术家创建的网格和生成式网格。对于艺术家创建的网格,团队从Objaverse和MetaTexGEN提供的测试列表中随机选择了78个网格。对于生成式网格,他们选择了30个图像并使用Craftsman生成用于纹理化的网格。

### 4.1 视觉质量比较

研究团队在多种网格上对UniTEX进行了视觉评估,包括原始扫描、艺术家创建的模型以及来自主流专有3D生成管道(如Tripo、Rodin和Hunyuan 2.5)的输出。

如图6所示,UniTEX在所有基线和网格源上都实现了更好的性能。首先,它能够有效地从着色图像中提取信息以恢复精细的纹理细节,这在面具和佛像示例中清晰可见。其次,它更好地尊重结构几何形状,准确地恢复车辆的门框和把手,同时保持所需的锈蚀风格——这是其他方法所缺乏的能力。此外,UniTEX的纹理展现出更丰富的细节和改进的视觉连贯性,特别是在图中第四和第五列所示的案例中。

### 4.2 纹理修复性能比较

研究团队还评估了整体纹理生成管道的第二阶段的有效性。具体来说,他们使用第一阶段生成的图像作为输入,并比较了不同方法进行纹理修复的效果。他们将方法与最先进的基于UV的方法(包括Paint3D和TexGen)进行了基准测试。

如图7所示(放大查看效果更佳),UniTEX始终获得更好的结果。在第一列中,自动UV展开导致面部出现许多小而碎片化的区域。基于UV的方法难以修复这些区域,导致明显的颜色不一致和较差的结果。相比之下,UniTEX方法产生平滑且连贯的纹理。此外,UniTEX模型更好地尊重纹理集的语义一致性。例如,在第一个案例中,眼镜被无缝地完成,在第二个案例中,肋骨和小徽章都被UniTEX方法准确且连贯地修复。

### 4.3 风格化纹理生成

研究团队还展示了UniTEX在风格化纹理生成方面的应用能力。风格化纹理是指生成的纹理图不仅与3D对象的几何形状对齐,还反映了给定参考图像的视觉风格——如油画、金属效果或卡通着色。如图8所示,UniTEX能够创建逼真且连贯的纹理,同时忠实地适应不同风格样本的外观特征。

### 4.4 定量评估结果

表1显示,UniTEX在两个基准测试中都优于当前最先进的方法。虽然Paint3D在艺术家创建的网格上实现了可比较的CLIP分数,但其在生成模型上的性能显著下降,突显了基于UV映射方法的有限泛化能力。相比之下,UniTEX在两阶段管道中始终产生更强的结果。

此外,表2的结果表明,UniTEX的第二阶段在保持可见区域和完成遮挡区域方面都实现了最佳性能。UniTEX在渲染图像质量方面也表现出色,进一步验证了生成纹理的视觉保真度。这些结果表明,UniTEX提供了比UV空间操作或将纹理纯粹作为2D图像处理的方法更有效的修复范式。

五、消融实验:证明关键创新的有效性

研究团队通过系统的消融实验评估了所提出的所有关键组件,包括比较丢弃训练策略的有效性和纹理函数监督的影响。

### 5.1 丢弃训练策略

研究团队评估了他们提出的丢弃训练策略在纹理生成任务上的有效性。此外,他们还引入了正常估计任务作为补充评估,以研究大型扩散变换器的高级训练策略。

如表3所示,使用丢弃训练可以在3个选择的任务中产生可比的性能,同时显著加速训练。具体来说,在多视图纹理生成任务中丢弃50%的令牌可以节省22.5%的内存成本,并将训练速度提高约44.5%(使用A800 bs=4评估)。这些实验结果表明,这种方法是一种有用的即插即用训练策略,用于微调扩散模型。

### 5.2 纹理函数监督与表面监督的比较

研究团队还评估了在LTM框架中使用纹理函数(TFs)作为监督的有效性。一个直接的替代方案是使用渲染图像或表面采样的RGB值直接监督LTM,就像先前工作中采用的那样。

如表4和图9所示,使用纹理函数监督始终产生优越的性能,实现最高的PSNR和最低的LPIPS,这反映了改进的保真度和感知质量。特别是,最高的PSNRuv分数表明纹理完整性显著增强。这些结果证明了所提出的TFs的有效性。

六、UniTEX的意义与未来展望

UniTEX代表了3D纹理生成领域的一项重大进步。通过重新思考纹理表示的基本方式,研究团队创建了一个框架,不仅能够生成高质量的纹理,还能够有效地处理各种复杂的3D模型,无论它们是由艺术家手工创建还是由AI生成。

这项研究的主要贡献可以总结为三点:首先,提出了纹理函数(TFs),一种连续的3D纹理表示,绕过了UV映射并将纹理建模为完整的空间场;其次,设计了一个基于Transformer架构的大型纹理模型(LTM),可以直接从图像和几何输入预测TFs;最后,开发了一种基于LoRA的策略,有效地调整大型扩散Transformer(DiTs)用于下游任务,实现高质量的多视角合成用于纹理生成。

对于普通用户和创作者来说,UniTEX意味着什么?想象一下,你只需提供一张参考图像和一个3D模型,就能自动获得高质量、完整且风格一致的纹理。这大大简化了3D内容创作过程,使得更多人能够创建专业级别的3D资产,无需深厚的专业知识和长时间的手动工作。

在游戏开发、虚拟现实、电影制作和数字艺术等领域,UniTEX的应用前景非常广阔。它不仅可以加速工作流程,还能提高最终产品的质量和一致性。此外,随着3D内容在元宇宙和虚拟体验中的重要性不断增加,像UniTEX这样的工具将变得越来越重要。

未来的研究方向可能包括进一步提高纹理的细节级别、支持更多类型的风格化纹理、以及将这种方法扩展到更复杂的材质属性,如粗糙度、金属度和法线贴图等。随着大型模型和计算能力的不断发展,我们可以期待看到更加惊人的3D纹理生成结果。

归根结底,UniTEX不仅仅是一个技术突破,它代表了我们如何思考和创建3D内容的范式转变。通过将纹理从表面约束解放出来,视为整个3D空间中的连续函数,UniTEX开辟了一条新的研究路径,可能会影响未来几年3D内容创作的方方面面。

对于想要深入了解这项研究的读者,可以访问项目的GitHub页面(https://github.com/YixunLiang/UniTEX)获取更多信息和代码资源。随着这项技术的进一步发展和应用,我们可以期待看到更多令人惊叹的3D内容创作工具出现,让创意表达变得更加容易和直观。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-