在人工智能飞速发展的今天,我们见证了从文本到图像的生成技术的巨大进步,像ChatGPT-4o这样的多模态大模型能够同时理解和生成文本与图像,让我们惊叹不已。然而,想象一下,如果AI不仅能理解平面的世界,还能理解和创造立体的三维空间,会是怎样一番景象?这正是清华大学叶俊良、王正一、赵若文,北京大学谢圣浩以及清华大学和盛树实验室的朱军教授带领的研究团队所探索的方向。他们在2025年6月2日发布于arXiv的研究论文《ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding》中,提出了一个开创性的模型,能够原生地理解和生成3D内容,为AI赋予了"触摸"3D世界的能力。有兴趣深入了解的读者可以通过GitHub链接https://github.com/JAMESYJL/ShapeLLM-Omni/访问项目详情。
一、为什么我们需要一个3D大语言模型?
想象一下,你正在装修新家,想要在客厅放一张沙发,但不确定什么样的沙发适合你的空间。如果你能对AI说:"给我设计一个带储物功能的双人沙发,风格现代简约",然后AI立刻为你生成一个可以从各个角度查看的3D沙发模型,这会多么方便!或者,如果你看到一个漂亮的椅子的照片,想要一个类似的3D模型来放在你的虚拟空间里,只需上传照片,AI就能为你创建匹配的3D模型。这就是ShapeLLM-Omni想要实现的未来。
近年来,大语言模型(LLM)取得了显著成就,从纯文本的语言模型到能理解图像的多模态语言模型(MLLM),再到能处理视频和3D内容的模型。最近,ChatGPT-4o展示了将图像生成和理解原生整合到大语言模型架构中的强大性能,它能通过人类指令实现更精细、更精确的控制。然而,它的多模态能力仍然局限于图像和文本,在更复杂的空间领域中存在局限性。
清华大学的研究团队认为,将3D生成和理解能力整合到预训练的多模态大语言模型中至关重要,这将使AI能够在3D内容创建、机器人技术、数字孪生和沉浸式虚拟环境等领域发挥更大作用。为此,他们提出了ShapeLLM-Omni,这是一个能够理解和生成3D资产与文本的统一模型,真正实现了AI与3D世界的无缝连接。
二、ShapeLLM-Omni的工作原理:如何让AI理解3D世界
想象一下,语言是由字母组成的,图像是由像素组成的,那么3D对象由什么组成呢?在ShapeLLM-Omni中,研究团队采用了一种称为"体素"(voxel)的表示方法,可以将其想象成空间中的小立方体,就像数字乐高积木一样。这些小立方体堆叠在一起,就能表示出3D形状。
但是,如果直接使用这些"乐高积木",数量会非常庞大,处理起来非常困难。因此,研究团队开发了一个特殊的压缩工具——3D向量量化变分自编码器(3D VQVAE)。这个工具就像一个神奇的压缩机,它可以把成千上万的"乐高积木"压缩成一组代码,这些代码可以被大语言模型轻松处理,然后再在需要时解压缩还原成完整的3D形状。
具体来说,3D VQVAE将64?个体素(这相当于262,144个小立方体!)压缩成只有1024个离散的标记,这些标记就像是对3D形状的简洁描述。这个过程就像是把一个复杂的乐高作品拆解成建造指南,使得大语言模型能够更容易地处理3D信息。
这种方法采用了完全的下一个标记预测范式,确保了与联合训练和大规模可扩展性的自然兼容性。通过利用VQVAE将3D网格编码为紧凑的离散标记,实现了统一的表示。这些标记被用于理解和生成3D网格,遵循类似于语言建模的格式。
三、构建3D-Alpaca数据集:教会AI理解和创建3D世界
要教会AI理解和创建3D世界,首先需要大量高质量的训练数据。研究团队构建了一个名为3D-Alpaca的综合训练数据集,包含了三种核心任务:3D生成、3D理解和3D编辑。
首先,他们从多个3D数据集中选择了高质量的约71.2万个3D资产。对于图像集合,每个3D资产都被渲染成2D图像,并对正面视图应用随机偏移以创建输入。这些渲染的图像也为后续的编辑数据集构建提供了基础。
为了生成文本集合并实现所有三种模态的早期融合,他们为每个资产渲染了四个正交视图——前、后、左、右。这些多视图图像随后被输入到基础模型Qwen-2.5-VL-Instruct中以生成描述性标题。这些生成的标题既被用作文本到3D生成的提示,也被用作3D到文本标题任务的真实目标。
更令人兴奋的是,研究团队还构建了一个创新的3D资产编辑数据集,包含6.2万对3D网格和相应的文本编辑指令。这使得用户可以通过自然语言对3D资产进行精细操作,比如"给椅子添加靠背"、"打开橱柜门"或"给角色添加翅膀"等,使得实时编辑更加直观和可控。
构建这个编辑数据集的过程非常巧妙。研究团队首先参考了Objaverse-XL数据集的分布,手动选择了100个最具代表性和常见的对象类别,如汽车、桌子、柜子、人物形象等。然后,使用ChatGPT-4o对数据集中的3D资产进行细粒度分类,并从中筛选出属于这100个主要类别的31.1万个资产。
接下来,他们为ChatGPT-4o提供类别名称,指导它为每个类别生成20个可行的编辑提示,如"给椅子的靠背换成网状框架"。研究团队手动审查了每个生成的编辑提示,只保留那些满足技术可行性和视觉吸引力标准的提示,最终得到371个独特的编辑提示。
由于时间和资源限制,他们构建了一个紧凑、高质量的编辑提示数据集,而不是对每个资产应用每种可能的编辑提示。具体来说,他们为每个编辑提示分配了200个资产。对于每个采样的资产,研究团队向ChatGPT-4o提供其正面渲染图像和选定的编辑提示,由ChatGPT-4o生成相应的编辑后图像,从而产生图像级别的编辑对。经过过滤掉错误的情况后,他们最终得到了7万个有效的编辑样本,这些样本随后通过Trellis转换为编辑前后的3D资产对。
通过定义每个任务25个对话模板并使用预训练的3D VQVAE将所有3D资产编码为离散标记序列,研究团队创建了一个包含250万个3D对话的训练语料库。最终的3D-Alpaca数据集包括四种类型的任务:图像到3D、文本到3D、3D到标题和3D编辑,总共256万个样本,包含34.6亿个标记。
四、基于Qwen-2.5-vl构建ShapeLLM-Omni:赋予AI 3D视觉
有了数据,接下来就是训练模型。研究团队选择了Qwen-2.5-VL-Instruct-7B作为基础模型,这是一个具有图像理解能力的多模态大语言模型。他们扩展了其基础架构,添加了8192个3D VQVAE编码本。为了保持其原有的图像理解技能,他们冻结了Qwen2.5-vl的视觉编码器参数。
ShapeLLM-Omni的训练过程相当有挑战性,需要在48个NVIDIA H100 GPU上进行,每个GPU的批量大小为2,梯度在2个步骤上累积,共训练了15个周期。训练过程中,学习率从5×10??逐渐衰减到5×10??。
最终的ShapeLLM-Omni模型展示了令人印象深刻的多功能性,包括:
1. 从文本指令生成3D内容:用户可以通过自然语言描述,如"生成一个现代风格的办公椅",让模型创建相应的3D模型。
2. 从图像输入生成3D对象:用户上传一张物品的照片,模型能生成相应的3D模型,这对于快速原型设计和虚拟展示非常有用。
3. 使用自然语言交互式编辑3D资产:用户可以对已有的3D模型发出编辑指令,如"给这把椅子添加扶手"或"将桌子的表面改为圆形",模型会相应地修改3D模型。
4. 理解和解释3D网格的语义和几何推理:模型能够分析3D模型并提供描述,如"这是一个带有四个轮子和可调节靠背的办公椅"。
实验结果表明,尽管在3D-Alpaca上进行了微调以支持3D网格生成和理解,ShapeLLM-Omni仍然保持了与基线模型相当的语言理解和推理性能。在MMLU、PIQA、GSM8K和SIQA等测试中,它的表现接近或超过了原始的Qwen2.5-vl-7B模型,这证明了它在保持语言能力的同时,成功地扩展了对3D内容的处理能力。
五、ShapeLLM-Omni的惊人表现:创建和理解3D世界
在各种任务上,ShapeLLM-Omni展现出了令人印象深刻的性能。在文本到3D和图像到3D生成任务中,它与CRM、SAR3D、3DTopia-XL和TRELLIS等基线方法相比表现出色。研究团队使用Inception-V3特征计算的Frechet距离(FD)和核距离(KD)评估生成的3D输出的整体质量,并使用CLIP分数衡量生成输出与输入提示之间的语义对齐度。
值得注意的是,ShapeLLM-Omni在生成结果上优于所有基线方法,仅次于Trellis。研究团队解释了为什么他们的结果不如Trellis的几个原因:首先,Trellis使用单独的模型分别处理文本到3D和图像到3D任务,而ShapeLLM-Omni在一个模型中处理这两项任务,并支持3D编辑、理解和交互式对话;其次,Trellis基于校正流模型,而ShapeLLM-Omni是一个离散自回归模型,从架构角度来看,这可能导致一些性能差异。
在3D到标题任务上,ShapeLLM-Omni展示了强大的3D理解能力,其性能仅次于专为单任务3D理解定制的PointLLM。在对Objaverse数据集的3D对象标题结果评估中,它在BLUE-1、ROUGE-L和METEOR等指标上取得了优异成绩。
从质量上看,ShapeLLM-Omni生成的3D模型展现出高度的准确性和细节丰富度。在图像到3D任务中,它能够准确捕捉图像中的几何形状和纹理细节,生成高质量的3D网格。相比于其他基线,它生成的3D模型几何形状更完整,纹理更高保真,实现了逼真的图像到3D生成。在文本到3D任务中,它能够精确对齐给定的文本提示,并生成复杂、连贯的细节。
特别令人印象深刻的是ShapeLLM-Omni的3D编辑能力。与传统的生成模型相比,这个原生多模态LLM不仅增强了图像理解能力,还显著提高了对文本指令的理解能力,为艺术家提供了一种更强大的语言驱动的交互式3D资产操作范式。用户可以通过简单的指令如"打开橱柜门"、"在顶部添加盖子"、"添加翅膀"或"长出尾巴"等来编辑3D资产,而模型能够在保持原始身份和视觉一致性的同时执行这些编辑。
六、ShapeLLM-Omni的局限性与未来发展方向
尽管ShapeLLM-Omni在3D生成和理解方面取得了显著成就,但研究团队也坦率地指出了其局限性。受限于资源,他们只有7万个3D编辑对——远远不足以达到ChatGPT-4o级别的3D编辑结果。此外,由于计算资源有限,ShapeLLM-Omni只有70亿参数,这使得其性能尚未达到真正的"3D版ChatGPT-4o"的水平。
未来的研究方向可能包括收集更多的3D编辑数据,增加模型的参数规模,以及探索更多的3D表示方法。随着计算资源的增加和数据的丰富,我们可以期待看到更强大的3D生成和理解模型的出现。
总的来说,ShapeLLM-Omni代表了多模态AI研究的一个重要里程碑,它将AI的能力从平面的2D世界扩展到了立体的3D空间。通过统一的架构和创新的数据集,它为未来的3D内容创建、虚拟现实、增强现实和数字孪生等领域铺平了道路。随着技术的不断进步,我们可以期待看到更多令人惊叹的3D AI应用出现在我们的日常生活中。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。