微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 从复杂到简单:腾讯与清华大学联合打造的PrimitiveAnything如何重塑3D模型创作

从复杂到简单:腾讯与清华大学联合打造的PrimitiveAnything如何重塑3D模型创作

2025-05-09 13:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-09 13:44 科技行者

2025年5月,来自腾讯人工智能平台部(AIPD)和清华大学的研究团队联合发布了一项突破性研究成果——"PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer"。这项研究由腾讯AIPD的叶静文、何宇泽(清华大学联合培养)、周彦宁、朱亦勤、肖开文,清华大学的刘永进以及腾讯AIPD的杨伟和韩晓共同完成。这篇论文已于2025年5月7日发布在arXiv预印本平台上,有兴趣深入了解的读者可以通过项目主页(https://primitiveanything.github.io)获取更多信息。

想象一下,当我们看到一辆汽车时,我们的大脑并不是看到一大堆复杂的曲面,而是自动将其分解为基本的几何形状——车身是一个长方体,轮子是圆柱体,车灯可能是小球体。这种将复杂物体简化为基本几何元素的能力是人类视觉认知中极为重要的一环。而PrimitiveAnything正是受到这种人类认知能力的启发,开发出了一种全新的3D模型生成框架,能够像人类一样,用简单的几何基元(如立方体、圆柱体、球体等)组装出复杂的3D物体。

一、为什么我们需要基元化的3D模型?

在过去几年中,3D内容生成技术取得了惊人的进步。各种各样的表示方法,包括网格模型、点云和神经场等,已经能够快速生成高质量的3D内容。然而,这些表示方法虽然在视觉效果和渲染方面表现出色,却往往缺乏与人类认知过程相符的语义结构和可解释性。

想象一下乐高积木。当孩子们用乐高搭建一个复杂的城堡时,他们不会从一整块材料中雕刻出城堡的形状,而是使用各种形状的积木块一个接一个地拼装。这种构建方式不仅直观,而且便于修改和理解。同样地,基于基元的3D模型表示法就像是数字世界的乐高积木,它允许我们用简单的几何形状(如立方体、圆柱体和椭球体)来组装复杂的3D物体。

传统的3D模型,如细节丰富的网格模型,虽然视觉效果逼真,但难以进行语义理解和编辑。想象你看到一把精美的椅子模型,如果你想修改椅背的高度,在传统模型中,你可能需要移动成百上千个点;而在基元模型中,你只需调整代表椅背的那个立方体的高度参数即可。

此外,基元化模型还有一个重要优势:它们非常轻量级。研究表明,相比传统的网格表示,基元表示能够减少95%以上的存储空间,同时保持几何精度。这使得基元模型特别适合游戏开发和在线多人交互等对资源要求严格的应用场景。

然而,目前的基元抽象方法存在两个主要问题:一方面,基于优化的方法虽然数学上原理清晰,但主要关注几何表面距离的最小化,很少考虑人类抽象逻辑,往往导致语义部件的过度分割;另一方面,基于学习的方法通常在小规模、特定类别的数据集上训练,难以泛化到不同物体类别。如何有效地参数化基元并学习跨多种类别的可泛化抽象概念仍然是一个公开挑战。

二、PrimitiveAnything:重新定义3D模型生成

那么,PrimitiveAnything究竟带来了哪些创新?简单来说,这个框架将形状基元抽象重新定义为一个生成任务,从传统的几何拟合或直接回归方法转向了一种全新的思路。

想象你是一位建筑师,面对一个复杂的建筑设计图纸。传统方法就像是你试图用尺子精确测量每一个细节并逐一复制;而PrimitiveAnything的方法则更像是你观察整个建筑,理解其结构逻辑,然后按照相似的逻辑从头开始搭建一个模型。这种方法更接近人类的思维方式,能够更好地捕捉物体的结构和语义。

PrimitiveAnything的核心思想可以总结为以下几点:

首先,基元表示必须在保持几何精度的同时足够紧凑以便于学习。为此,研究团队使用多种类型的基元(立方体、椭圆柱体和椭球体)在统一的参数化方案下共同表示3D形状。为了解决这种参数化中固有的歧义性并确保稳定的训练,他们开发了一套全面的规则,明确定义了参数排序和原子元素之间的关系,形成了适合学习的结构化序列。

其次,学习框架必须具有足够强的能力来处理具有不同基元数量的复杂形状,同时保持基元类型的通用性以便于扩展。研究团队通过形状条件的仅解码器Transformer架构解决了这一问题,该架构可以生成可变长度的基元序列。该框架的模块化设计将基元类型视为可学习的令牌,无需架构更改即可无缝集成新的基元类型,使其适应不同的基元表示。

简单来说,这就像是训练一位艺术家,通过观察大量人类创作的形状分解作品,学习如何将复杂形状分解为基本几何元素。这种方法使得模型能够学习人类抽象的潜在规则,而不是简单地遵循预设的优化目标。

三、技术实现:如何教会AI像人类一样思考

那么,研究团队是如何实现这一创新框架的呢?让我们深入了解PrimitiveAnything的技术核心。

无歧义基元参数化

首先,我们需要解决的是如何准确地描述基元。想象一下一个立方体,我们可以用它的中心位置、旋转角度和三个轴向的缩放比例来描述它。但这里存在一个问题:由于许多基元(如立方体和圆柱体)具有内在的对称性,不同的参数组合可能产生完全相同的形状。

举个例子,假设我们有一个立方体,它的三个轴的缩放比例是(2,3,4)。如果我们将它绕Z轴旋转90度,同时交换X轴和Y轴的缩放比例,变成(3,2,4),那么最终的形状是完全相同的。这种参数歧义会导致学习过程混乱,因为模型会遇到多种有效的参数组合来表示同一形状。

为了解决这个问题,研究团队提出了一种"无歧义参数化"方法。具体来说,他们考虑了基元的所有可能的对称变换(包括旋转和轴交换),然后选择其中旋转参数L1范数最小的一组作为唯一表示。这就像是在众多等效表达方式中,选择了最简单、最标准的一种,从而消除了歧义,使学习过程更加稳定和高效。

基元变换器

接下来,研究团队设计了一个名为"基元变换器"的网络架构,它由三个关键模块组成:基元编码器、仅解码器Transformer模型和级联基元解码器。

想象一下拼图游戏。当我们拼一幅复杂的拼图时,我们通常会先看整幅图的样子(这就像是形状条件),然后一片一片地放置拼图(这就像是自回归生成过程)。每放一片,我们都会考虑已经放置的部分和整体图像,来决定下一片应该放哪里、是什么形状。

PrimitiveAnything的工作方式类似。它首先使用一个形状编码器处理输入的点云,获取3D形状的特征表示。然后,一个仅解码器的Transformer模型接收这些形状特征和之前生成的基元信息,预测下一个基元的特征。最后,一个级联基元解码器根据这些特征预测基元的具体属性:类型、位置、旋转和缩放。

这种级联设计非常巧妙,它捕捉了基元属性之间的自然相关性:基元类型会影响其可能的位置、旋转和缩放参数,这也与人类组装逻辑相符——先选择类型,确定位置,然后调整旋转和缩放。

自回归基元生成

最后,研究团队将整个基元抽象过程重新构思为一个序列生成任务。具体来说,他们的模型以点云作为输入条件,然后自回归地生成基元序列,直到预测出结束标记为止。

整个训练过程使用三种损失函数:交叉熵损失用于监督离散的基元属性预测,二元交叉熵损失用于指导结束判断,而Chamfer距离损失则确保生成的基元与原始形状在几何上精确对齐。

这就像是教导一个学生通过观察大量示例,学习如何一步步地构建复杂模型。通过不断尝试、比较结果与目标,学生逐渐掌握了人类专家的抽象规则和建模逻辑。

四、令人印象深刻的实验结果

研究团队在多个数据集上进行了广泛的实验,包括他们自己收集的包含人类标注的大规模数据集"HumanPrim",以及公开的ShapeNet和Objaverse数据集。实验结果展示了PrimitiveAnything在几何精度和人类感知对齐方面的优越性。

几何精度评估

在几何评估中,研究团队使用了四个指标:Chamfer距离(CD)、地球移动距离(EMD)、Hausdorff距离和体素交并比(Voxel-IoU)。与优化基础的方法(如EMS和Marching-Primitives)相比,PrimitiveAnything在大多数指标上表现更优。

具体来说,在HumanPrim测试集上,PrimitiveAnything的Chamfer距离为0.0404,明显优于EMS的0.1062和MP的0.0546;在体素交并比上,PrimitiveAnything达到了0.484,大幅超过EMS的0.259和MP的0.201。这表明PrimitiveAnything能够更准确地捕捉原始3D形状的几何细节。

更有意思的是,即使在没有专门为ShapeNet数据集训练的情况下,PrimitiveAnything依然在ShapeNet椅子类别的测试中优于那些专为椅子类别训练的学习方法,展示了其出色的泛化能力。

人类感知对齐

除了几何精度,研究团队还关注基元抽象与人类感知的对齐程度。他们使用了三个分割指标:兰德指数(RI)、信息变异(VOI)和分割覆盖率(SC)。在这些指标上,PrimitiveAnything同样表现出色,RI达到0.892,VOI为2.296,SC为0.409,全面超越了比较方法。

这些数字意味着什么?简单来说,PrimitiveAnything生成的基元分解不仅在几何上准确,还更符合人类对物体结构的理解和分解方式。这就像是两个人在描述同一把椅子:一个人可能会将椅背描述为多个小块的拼接,而另一个人则将其视为一个整体的部件。PrimitiveAnything的抽象方式更接近人类的后一种思维。

用户研究

研究团队还进行了一项全面的用户研究,邀请30名参与者(15名女性,15名男性)评估了来自Objaverse数据集的20个随机选择的形状。评估集中在三个关键标准上:几何相似性、拟人化程度和可编辑性。

在5分制的评分中,PrimitiveAnything在三个指标上分别获得了4.17、4.18和4.22的高分,明显优于EMS和Marching-Primitives。这进一步验证了该方法不仅保持了几何精度,还产生了更符合人类感知并且更容易编辑的结构。

丰富的视觉对比

论文中的多组视觉对比展示了PrimitiveAnything与其他方法的显著差异。与EMS相比,PrimitiveAnything生成的基元抽象更加精细和准确;与Marching-Primitives相比,PrimitiveAnything的分解更符合人类构建逻辑,避免了过度分割和大量重叠;与专注于特定类别的学习方法相比,PrimitiveAnything展示了更好的泛化能力和几何精度。

此外,研究团队还展示了PrimitiveAnything如何与现有的3D生成模型结合,实现基于文本和图像的基元化3D内容生成。这打开了基元化用户生成内容(UGC)在游戏中的应用前景,提供了一种轻量级且高效的3D内容创作方式。

五、潜在应用与未来展望

PrimitiveAnything的创新不仅是技术上的突破,更为许多实际应用开辟了新的可能性。

首先,在游戏开发领域,基元化表示可以大幅减少3D模型的存储需求,同时保持几何精度,这对于需要实时加载大量3D内容的多人在线游戏尤为重要。相比传统的网格表示,基元表示能够减少95%以上的存储空间,同时避免了额外的优化步骤以满足游戏引擎的性能要求。

其次,在交互式建模系统中,基元化表示使非专业用户能够更容易地修改和定制3D模型。就像调整积木一样,用户可以通过简单的图形界面调整各个基元的属性(如位置、旋转和缩放),实现直观而强大的编辑能力,无需深入了解复杂的3D建模技术。

在机器人操作和场景理解领域,基元抽象提供了对物体结构和功能的高级理解,有助于机器人更好地规划抓取和操作策略。例如,识别出一把椅子的扶手、座位和靠背,可以帮助机器人决定如何最有效地搬运它。

此外,PrimitiveAnything还为AI生成内容(AIGC)领域带来了新的可能性。通过与文本到3D或图像到3D的生成模型结合,它可以生成既具有艺术性又易于编辑的3D内容,为创意产业提供强大工具。

当然,PrimitiveAnything也存在一些局限性。研究团队发现,对于分布外的物体,特别是那些在训练数据中很少见的拓扑结构(如环形物体),当前方法仍然存在挑战。此外,注释风格的多样性、离散化方案的精度损失以及缺乏对称性约束等问题也有待进一步改进。

未来的研究方向可能包括扩展基元类型以增强表达能力、集成对称性约束以提供更大的设计自由度、探索多层次抽象以适应不同的下游任务,以及原生纹理合成以增强视觉效果。

六、结语:简单元素构建复杂世界

归根结底,PrimitiveAnything为我们提供了一种全新的视角来理解和创建3D内容。就像自然界中复杂的生命形式是由简单的DNA构建的,复杂的3D形状也可以由简单的几何基元组成。这不仅反映了人类认知的基本原则,也为计算机图形学和人工智能领域带来了新的可能性。

通过直接从大规模人类创作的形状分解中学习,PrimitiveAnything成功地捕捉了人类如何将复杂形状分解为基元元素的方式,生成的基元抽象既保持了几何精度,又符合人类感知。

想象一下未来,游戏开发者可以更快地创建和修改3D资产,非专业用户可以轻松定制虚拟世界中的物体,机器人可以更好地理解和操作周围的物体。所有这些可能性都来源于一个简单而优雅的想法:使用基本几何形状构建复杂世界。

如果你对这项研究感兴趣,可以访问项目主页(https://primitiveanything.github.io)获取更多信息,包括代码、数据集和演示视频。这项研究不仅是学术上的进步,更是连接技术与人类认知方式的桥梁,为我们创造数字世界提供了更加自然和直观的工具。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-