微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Step1X-3D:迈向高保真度可控的三维资产生成新时代

Step1X-3D:迈向高保真度可控的三维资产生成新时代

2025-05-14 12:48
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-14 12:48 科技行者

在人工智能领域突飞猛进的今天,一项来自StepFun与LightIllusions团队的最新研究成果正在为3D内容创作带来革命性变革。这项名为"Step1X-3D:迈向高保真度可控的三维资产生成"的研究于2025年5月12日发表在arXiv预印本平台,论文编号为arXiv:2505.07747v1。研究团队开发了一个开放框架,旨在解决三维生成技术中长期存在的数据稀缺、算法局限和生态系统碎片化等根本挑战。

想象一下,如果我们把当今的生成式AI比作一个正在举办派对的大房子,那么文本生成、图像生成、音频生成和视频生成这四位客人早已在派对上载歌载舞、热闹非凡,而3D内容生成这位迟到的客人则刚刚迈入门槛,还在试图融入这场技术盛会。为什么会这样呢?原因就像是烹饪一道复杂菜肴所面临的挑战:缺乏优质食材(数据稀缺)、烹饪技巧不成熟(算法局限)以及厨具不配套(生态系统碎片化)。

研究团队针对这些挑战,精心设计了一套解决方案,就像是一位经验丰富的厨师精心准备了一场盛宴。他们首先从食材着手,对超过500万个3D资产进行严格筛选和处理,最终精选出200万个高质量数据集,这些数据都经过了标准化处理,确保几何和纹理属性的一致性。接着,他们创新性地设计了一个两阶段的3D原生架构,将混合VAE-DiT几何生成器与基于扩散的纹理合成模块相结合,就像将主厨的独特技艺与精良的厨具完美融合。更令人振奋的是,研究团队承诺将完整开源他们的模型、训练代码和适配模块,这无疑将为3D内容创作社区注入强大动力。

让我们一起深入了解这项令人兴奋的研究,看看它如何重新定义我们创建和体验3D内容的方式。

一、研究背景:3D生成面临的挑战与机遇

如果把生成式AI的发展比作一场赛跑,那么文本、图像、音频和视频生成已经跑在了前头,而3D内容生成却明显落后,还远未达到可投入生产的成熟度。为什么会出现这种情况呢?研究团队通过深入分析,发现了三个关键瓶颈。

首先是数据稀缺问题。就像烹饪需要优质的食材一样,AI生成模型的训练也需要大量高质量的数据。然而,与文本和图像不同,开源的大规模3D数据集非常有限。目前只有ShapeNet(5.1万个样本)、Objaverse(80万个样本)和Objaverse-XL(1020万个样本)这三个超过1万个样本的开源数据集。虽然Objaverse-XL的规模看起来不小,但由于其数据来自网络抓取,质量参差不齐,就像从市场上随机购买的食材,需要经过精心挑选和处理才能用于高质量的"烹饪"。

其次是3D表示的内在复杂性。与其他媒体形式不同,3D对象的几何形状和纹理是解耦的,这使得质量评估变得更加复杂。这就像评价一道菜肴,不仅要看外观,还要考虑口感、香气和营养价值,每个维度都需要专业的评估标准。

最后是生态系统的不成熟。尽管研究进展迅速,但3D生成的生态系统仍然落后,开源解决方案与专有系统之间的差距越来越大。例如,开源模型Trellis由于仅使用50万规模的训练数据集,泛化能力有限。同时,一些先进模型如Hunyuan3D 2.0只提供预训练权重而不开源训练代码,限制了微调的可能性。此外,这些模型通常缺乏商业平台(如Tripo和Rodin)所具备的条件生成支持。数据可用性、可复现性和可控性方面的挑战显著阻碍了3D生成技术的进步。

面对这些挑战,Step1X-3D应运而生。它就像是一位经验丰富的厨师,不仅带来了精选的食材和创新的烹饪技术,还愿意分享完整的菜谱,让更多人能够参与到这场3D创作的盛宴中来。

二、Step1X-3D框架:整体设计与创新之处

Step1X-3D是一个原生3D框架,它将先进的数据处理与创新的两阶段架构相结合。整个系统的工作流程可以想象为一条精心设计的生产线,原材料(3D数据)经过严格筛选和精心加工,最终转化为高质量的成品(3D资产)。

这个框架的数据处理流程从超过500万个3D资产开始,这些资产来自公共数据集(如Objaverse、Objaverse-XL等)和专有收藏。这些数据首先经过严格的多阶段筛选:系统会根据分辨率、法线贴图准确性、材质透明度和表面复杂度等标准剔除低质量的纹理;然后,它会将非封闭网格转换为封闭表示,确保几何一致性,为后续训练提供稳固的监督基础。这个过程就像是从杂乱的原材料中筛选出最优质的部分,最终产生了200万高质量资产的精选数据集,其中约80万个来自公共数据的资产将被公开发布。

在架构方面,Step1X-3D采用了两阶段设计:第一阶段是几何生成,使用混合3D VAE-DiT扩散模型生成截断有符号距离函数(TSDF),随后通过行进立方体算法转换为网格;第二阶段是纹理合成,利用基于SD-XL微调的多视图生成器,以生成的几何体和输入图像为条件,生成视角一致的纹理,并烘焙到网格上。这种集成方法旨在同时解决数据质量、几何精度和纹理保真度方面的关键挑战,为开放、可复现的3D生成研究建立新标准。

几何生成框架采用潜在向量集表示法来编码点云到紧凑的潜在空间,然后通过可扩展的基于感知器的编码器-解码器架构解码为TSDF。为了保留高频几何细节,研究团队引入了锐边采样并整合了来自DoRA的双交叉注意力机制。对于扩散骨干网络,他们改编了FLUX中最先进的MMDiT架构,该架构最初是为文本到图像生成开发的,通过修改其transformer层来处理一维潜在空间。这种VAE-Diffusion混合设计在结构上类似于当代2D生成系统,便于直接将2D参数高效适配方法(如LoRA)转移到3D网格合成。因此,该框架独特地支持在大规模数据集上进行单视图条件预训练,同时保持与已建立的2D微调范式兼容,有效地桥接了2D和3D生成方法。

Step1X-3D的纹理合成管道首先使用Trimesh对Step1X-3D几何输出进行后处理,修复表面伪影(包括非封闭网格、拓扑不规则性和表面不连续性),然后通过xAtlas进行UV参数化。合成过程采用三阶段架构:首先,多视图图像生成扩散模型同时以输入图像和渲染的几何图(法线和位置)为条件,确保视图一致性和几何对齐;其次,纹理空间同步模块集成在去噪过程中,通过潜在空间对齐维持跨视图一致性;最后,通过多视图反投影和后续纹理空间修补完成纹理,解决遮挡伪影并生成无缝UV贴图。这种分层方法确保了整个纹理生成管道中的几何保真度和光度一致性。

通过这种设计,Step1X-3D实现了高保真度的3D资产生成,同时还支持通过图像和语义输入进行增强控制。最重要的是,完整框架——包括基础模型、训练代码和基于LoRA的适配模块——将全部开源,以造福3D研究社区。

三、数据处理:为高质量3D生成铺平道路

在3D生成领域,数据就像是烹饪中的原材料,其质量和处理方法直接影响最终的"菜肴"品质。研究团队深知这一点,因此在数据处理上投入了大量精力,这也是Step1X-3D突破性成果的重要基础。

近年来,Objaverse、Objaverse-XL、ABO、3D-FUTURE和ShapeNet等大规模开源3D数据集的出现,总共提供了超过1000万个3D资产。然而,这些数据集大多来自网络抓取,质量参差不齐,就像是未经筛选的市场食材,直接使用会影响"烹饪"效果。为确保数据适合训练,研究团队实施了一个全面的3D数据处理流程,对原始数据进行彻底预处理,以构建高质量、大规模的训练数据集。

他们的数据筛选过程非常严格,就像一位挑剔的厨师对食材进行层层把关。首先是纹理质量筛选:系统会为每个3D模型渲染6个规范视角的反照率贴图,并转换为HSV色彩空间进行分析。通过分析色调(H)和明度(V)通道的直方图,系统会筛除过暗、过亮或颜色过于均匀的纹理,并计算这六个视图的感知分数,淘汰排名最低的20%样本。

接着是单表面筛选:系统渲染6个规范视角的规范坐标图(CCM),检测单表面几何形状。具体来说,它会检查对应像素在相对视图上是否映射到相同的3D点,如果这种匹配像素的比例超过阈值,则该对象被归类为单表面。

然后是小物体筛选:系统会过滤那些在正面视图中目标对象占据面积太小的数据。这种情况通常出现在两种场景:对象方向不当(例如,仰卧的人形模型,在前视图中只有脚可见),或多对象场景中的远距离对象在标准化后变得太小。具体来说,系统会计算正面视图中有效alpha通道像素的百分比,丢弃覆盖率小于10%的样本。

透明物体筛选也是一个重要环节:系统会排除具有透明材质的对象,因为这些物体通常使用alpha通道平面建模(例如,树叶)。这些透明表面导致渲染的RGB图像与实际几何形状不匹配,对模型训练产生不利影响。筛选方法是检测并移除那些Principled BSDF着色器包含alpha通道的资产。

法线错误筛选同样不可或缺:系统识别并移除具有不正确法线的数据,因为这些错误会在封闭转换过程中创建孔洞。筛选方法是在相机空间中渲染6视图法线图,并通过检查任何法线向量是否与相应的相机位置形成钝角来检测错误法线。

最后是名称和网格类型筛选:系统还会根据名称或网格类型过滤标记为点云的数据,因为这些扫描派生的数据集通常包含噪声几何形状,难以转换为封闭网格。

经过这一系列严格筛选,研究团队从多个来源成功提取了大约200万个高质量3D资产:从原始Objaverse数据集中提取了32万个有效样本,从Objaverse-XL获取了额外48万个,并结合了从ABO、3D-FUTURE和一些内部创建数据中精心挑选的数据。

除了数据筛选,研究团队还优化了网格到SDF的转换流程。训练Shape VAE需要封闭网格,以便从处理后的网格中提取SDF字段作为几何监督。研究团队实现了一个稳健的分类方案,引入了绕数概念,这是一种有效的工具,用于确定点是在形状内部还是外部。对于在体素网格内采样的每一点,系统会计算其广义绕数,考虑值高于经验确定的0.75阈值的点。然后将结果绕数掩码与原始可见性测试通过逻辑与结合,生成用于行进立方体算法的最终占用掩码。实验结果表明,这种方法在Objaverse数据集上实现了20%的封闭转换成功率提升。

对于训练数据转换,研究团队针对VAE和扩散模型分别采用了不同的处理方法。对于VAE,他们采用了锐边采样(SES)策略,将均匀采样点和从显著区域采样的额外点相结合,形成最终点集,作为VAE的输入。对于几何监督,他们采样了三组不同的点及其SDF值:立方体体积内的20万点,网格表面附近阈值为0.02的20万点,以及直接在表面上的20万点。

对于扩散模型的训练,研究团队从20个随机采样的视点渲染每个3D模型,相机仰角在-15°到30°之间,方位角在-75°到75°之间,焦距随机选择自正交投影或透视投影(焦距从35mm到100mm均匀采样)。他们调整相机位置,确保内容约占图像的90%。此外,他们还应用了常见的数据增强,如随机翻转(图像和采样网格)、颜色抖动和-10°到10°之间的随机旋转。

通过这种全面而精细的数据处理,Step1X-3D为高质量3D生成奠定了坚实的数据基础,就像一位厨师通过精心选择和处理食材,为一场盛宴做好了充分准备。

四、几何生成:打造精准3D形状的核心引擎

在我们的日常生活中,如果把3D对象比作一栋房子,那么几何形状就是房子的骨架和结构,而纹理则是墙面的装饰和涂料。Step1X-3D的几何生成模块正是这栋"数字房屋"的建筑师,负责设计和构建稳固、精确的三维结构。

类似于当今流行的2D图像生成方法,Step1X-3D的形状生成模块由两部分组成:一个形状自编码器和一个校正流Transformer。对于采样的点云P,系统首先使用形状潜在集自编码器将其压缩为一维张量,然后使用受Flux启发的一维校正流Transformer训练扩散模型。该框架还支持LoRA等额外组件,提供更大的灵活性。

三维形状变分自编码器的设计灵感来自潜在扩散模型(LDM)的成功。正如一位建筑师需要先绘制紧凑而表达力丰富的蓝图,然后才能开始实际建造一样,系统也需要先将3D形状编码到潜在空间,然后再训练3D潜在扩散模型进行3D生成。

研究团队采用了3DShape2VecSet的设计理念,使用潜在向量集表示法将点云编码到潜在空间,并将它们解码为几何函数(如有符号距离场或占位体)。为了提高可扩展性,他们采用了基于transformer的编码器-解码器架构。此外,他们还结合了DoRA中提出的锐边采样和双交叉注意力技术,以增强几何细节保留能力。

具体来说,他们使用了3DShape2VecSet的下采样变体。与可学习查询不同,他们直接使用点云本身通过最远点采样(FPS)初始化潜在查询。系统首先将傅里叶位置编码与各自的法线信息整合到形状编码器中,形成形状编码器的实际输入。然后,编码器使用两个交叉注意力层和Le个自注意力层处理此输入,将点编码到潜在空间:

Enc(P) = SelfAttn(i)(CrossAttn(S, Puniform), CrossAttn(S, Psalient)),
∀i = 1, 2, . . . , Le.


类似地,系统使用了一个基于感知器的解码器,其架构镜像了编码器,并有一个额外的线性层φO来学习预测在x处的截断有符号距离函数(TSDF)值:

Dec(x|S) = φO(CrossAttn(PE(x), SelfAttn(i)(S))),
∀i = 1, 2, . . . , Ld


其中Ld是形状解码器中自注意力层的数量。给定3D空间中的查询点x和学习到的潜在集S,解码器可以输出其TSDF值。然后训练目标为:

LVAE = Ex∈R³[MSE(Ô(x|S), Dec(x))] + λklLkl


其中Ô(x)是x的真实TSDF值,截断比例设置为2/256。KL散度损失Lkl用于将潜在空间分布正则化为标准高斯分布。随后,系统从规则网格中采样查询点以获取相应的TSDF值,然后使用行进立方体算法重建最终表面。同时,系统也采用分层体积解码来加速推理过程。

Step1X-3D扩散骨干网络沿用了最先进的文本到图像扩散模型架构FLUX的MMDiT结构,但针对一维潜在空间处理进行了修改。在双流块中,潜在标记和条件标记分别通过各自的QKV投影和MLP进行处理,但它们仍然通过交叉注意力进行交互。相反,单流块将两种类型的标记结合起来,使用并行的空间和通道注意机制共同处理它们。这种混合方法允许灵活的特征学习,同时保持高效的跨模态交互。

值得注意的是,为了在不同噪声块中有效引入空间位置信息,FLUX.1使用旋转位置编码(RoPE)来编码每个噪声块内的空间信息。但由于ShapeVAE的潜在集表示缺乏明确的空间对应关系,研究团队移除了潜在集S的位置嵌入,仅保留用于调制目的的时间步嵌入。

对于单图像条件形状生成,系统利用预训练的DINOv2大型图像编码器和寄存器从预处理的518×518分辨率图像中提取条件标记——系统进行背景移除、对象居中/调整大小和白色背景填充,以增强有效分辨率并最小化背景干扰。为捕获语义和全局图像特征,系统连接来自CLIP-ViT-L/14的互补特征。这些组合特征通过每个流块内的并行交叉注意机制注入,实现全局和局部视觉信息的同时处理。

为实现更灵活的3D生成控制,Step1X-3D框架还支持LoRA等参数高效适配方法。基于预训练的单图像条件几何生成模型,系统可以无缝集成LoRA微调,实现对各种3D生成模型的灵活控制。在一项实验中,研究团队收集了约3万个3D模型,并使用Step1O多模态模型基于对称属性和几何细节级别(锐利、正常和平滑)注释每个对象。通过这种方式,系统可以根据用户的特定要求生成具有不同对称性或细节水平的3D形状。

Step1X-3D的几何生成训练采用了流匹配目标,该目标在高斯噪声N(0, I)和数据分布之间构建概率路径,其中校正流的线性采样机制通过直接预测速度场ut = dxt/dt来简化网络训练,该速度场将样本xt向目标数据x1传输,从而提高效率和训练稳定性。建立在SD3的logit-normal采样策略之上,研究团队在训练期间战略性地增加了中间时间步t∈(0, 1)的采样权重,因为这些中间时间坐标在校正流框架中对速度估计提出了更大的预测挑战。最终目标表示为:

L = Et,x0,x1||uθ(xt, c, t) - ut||²


其中c表示条件信号,并采用自适应时间步加权方案。为进一步稳定训练,系统还引入了指数移动平均(EMA)策略,衰减率为0.999,以平滑参数更新。

训练分两个阶段进行:最初,为快速收敛,系统使用大小为512的潜在集,学习率为1e-4,在96个NVIDIA A800 GPU上以1920的批量大小训练10万次迭代。随后,为增强模型容量和精度,系统将潜在集大小扩大到2048,降低学习率至5e-5,将批量大小减半至960,再训练10万次迭代,确保对高维数据空间的稳健适应,同时保持计算效率。

通过这种精心设计的几何生成引擎,Step1X-3D能够生成高度精确和详细的3D形状,为后续的纹理合成奠定坚实基础,就像一位熟练的建筑师完成了房屋的骨架,为后续的装饰工作提供了完美的画布。

五、纹理生成:为3D模型披上精美外衣

如果说几何生成是为3D模型搭建骨架和结构,那么纹理生成则是为这个骨架披上生动、逼真的外衣,让模型真正"活"起来。Step1X-3D的纹理生成模块就像一位才华横溢的服装设计师,能够根据模型的形状和特征,量身定制最合适的"服装"。

一旦Step1X-3D框架生成了未纹理化的3D几何形状,纹理合成就通过多阶段流程完成,如图5所示。首先,原始几何体经过后处理,确保拓扑一致性和结构完整性。然后,系统准备3D资产以进行纹理生成。接下来,在高质量3D数据集上微调多视图图像生成模型,通过法线图和位置图提供几何引导。最后,生成的多视图图像被超分辨率处理到2048×2048分辨率,然后进行UV烘焙,随后通过修补完成纹理贴图。

为实现高保真度的纹理,研究团队对前一几何生成管道生成的网格几何进行了后处理。优化过程主要使用trimesh工具包。具体来说,系统首先验证初始网格的封闭性,在检测到非流形几何的地方实施孔洞填充算法。随后,系统应用重新网格化操作,将每个三角形面分为四个子面,同时执行拉普拉斯表面平滑约束。这种重新网格化程序确保了均匀的拓扑分布,并最小化了UV接缝伪影。最后,系统利用xAtlas参数化框架生成优化的UV坐标,然后将其集成到最终的网格表示中。这种系统的细化管道保证了几何的稳健性,为后续的纹理映射奠定了基础。

与几何生成相比,纹理生成组件不需要数百万的训练样本,而是对纹理质量和美学指标提出了更高的要求。从在第三节中清理的32万个Objaverse数据集中,研究团队进一步筛选出3万个3D资产用于多视图生成模型训练。具体来说,他们使用blender为每个对象渲染了六个视图(前、后、左、右、上、下),以及相应的反照率、法线图和位置图输出,分辨率为768×768。

在单视图到多视图生成方面,给定单视图图像和目标多视图相机姿态(条件定义为C),系统的目标是使用扩散模型DMV生成一致的多视图图像:

I1,2,...,N = DMV(zMV, C)


其中zMV是多视图随机噪声。系统使用预训练的MV-Adapter作为主干,生成分辨率为768×768且一致性更高的多视图图像。MV-Adapter展示了两个显著优势:生成高分辨率图像的能力和增强的泛化性能。高分辨率生成主要通过内存高效的极线注意力实现,这使得在训练过程中批量大小限制下产生768×768分辨率的图像成为可能。卓越的泛化能力源于保留了SD-XL的原始空间自注意力参数,同时引入了三重并行注意力架构,同时解决了泛化能力、多视图一致性和条件遵从性。这种设计在保持基础模型属性和获取专门生成能力之间取得了最佳平衡。

为实现合理精细的纹理生成,系统在多视图生成过程中,除了以提供的单视图输入为条件外,还注入几何信息以促进增强的细节合成和改进纹理与底层网格表面的对齐。具体来说,系统引入了两种几何引导:法线图和3D位置图。法线图保留了对象的精细几何细节,而3D位置图

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-