微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

中山大学研究团队推出MajutsuCity：用对话就能建造出梦想中的3D城市

3D城市生成自然语言处理交互式编辑系统

中山大学研究团队推出MajutsuCity：用对话就能建造出梦想中的3D城市

作者：科技行者

2026-01-13 08:59

分享至：

中山大学团队开发的MajutsuCity是首个语言驱动的3D城市生成系统，用户只需自然语言描述即可生成完整城市场景。系统采用四阶段pipeline，包含语言理解、布局生成、3D资产创建和场景组装，并配备MajutsuAgent支持对话式编辑。配套的MajutsuDataset包含13300个城市样本和丰富3D素材库，实验显示该方法在多项指标上显著优于现有技术。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-01-13 08:59 • 科技行者

这项由中山大学的黄子隆、何俊、黄晓斌、熊子艺、罗阳、叶俊岩、李维嘉、陈益平和韩婷等学者组成的研究团队发表于2025年11月的研究成果，开发出了名为MajutsuCity的革命性城市生成系统。有兴趣深入了解的读者可以通过arXiv:2511.20415v1查询完整论文。这个系统最神奇的地方在于，你只需要用自然语言描述你想要的城市，它就能为你建造出一座完整的3D城市，就像拥有了一位万能的城市建筑师一样。

在游戏开发、虚拟现实和城市规划等领域，人们一直梦想着能够快速创建逼真的3D城市场景。传统的方法要么像搭积木一样从预制的建筑模块中拼凑城市，限制了创造力，要么使用复杂的神经渲染技术，虽然效果不错但往往会产生几何扭曲和多角度观看时的不一致问题。而MajutsuCity就像是一位既懂艺术又精通建筑的大师，它不仅能理解你的语言描述，还能确保建造出的城市在结构上合理、风格上统一、细节上精美。

研究团队面临的核心挑战是如何将人类的自然语言描述转化为具体的城市布局和建筑设计。这就好比你告诉一位建筑师"我想要一座有着粉色晚霞照耀的现代化城市，高楼林立但又不失温馨"，建筑师需要将这些抽象的描述转化为具体的设计方案。MajutsuCity通过四个精心设计的阶段来完成这个复杂的转换过程，每个阶段都像制作一道复杂菜肴的不同步骤，环环相扣，最终呈现出令人惊叹的成果。

为了支撑这个系统，研究团队还构建了MajutsuDataset数据集，这就像是为系统准备了一个丰富的素材库，包含了13300个来自全球不同地区的城市布局样本、1000个风格各异的3D建筑模型，以及2300种无缝拼接的材质纹理。更令人兴奋的是，他们还开发了MajutsuAgent交互编辑代理，用户可以在城市生成后继续通过自然语言对其进行修改和完善，就像拥有了一位贴心的助手，随时根据你的想法调整城市的各个细节。

一、从想法到蓝图：语言驱动的城市设计规划

当你向MajutsuCity描述你心目中的城市时，系统首先要做的就是理解你的真正意图。这个过程就像一位经验丰富的翻译官，需要将你模糊的语言描述转化为精确的设计指令。研究团队发现，人们在描述城市时往往会混合使用宏观的几何逻辑和细致的美学要求，比如"一座繁华的市中心，摩天大楼林立"这样的描述既包含了空间布局信息，也暗示了建筑风格的要求。

系统采用大语言模型来分析用户的输入，将其分解为四个关键维度：布局规划、建筑资产、材质纹理和天空环境。这就好比一位室内设计师在接到委托后，会分别考虑房间的功能分区、家具选择、装修材料和照明氛围。每个维度都有标准化的模板，确保后续的生成过程能够精确执行。

这种结构化的分解过程解决了自然语言描述中常见的模糊性问题。当你说"我想要一个温馨的住宅区"时，系统会自动推断出这意味着较低的建筑密度、更多的绿化空间、温暖的色调和柔和的照明效果。通过这种语义理解和结构化分解，系统能够将抽象的美学概念转化为具体的生成参数。

二、精雕细琢的城市布局：两阶段级联生成方法

有了清晰的设计蓝图后，MajutsuCity开始着手绘制城市的"地图"。这个过程分为两个紧密相连的阶段，就像先用铅笔勾勒轮廓，再用彩笔填充细节一样。第一阶段专门负责生成语义布局图，确定哪里是道路、哪里是建筑、哪里是绿地和水体。第二阶段则在此基础上生成建筑高度图，为每栋建筑赋予合适的高度。

在第一阶段，系统使用一个专门训练的扩散模型来处理用户的详细文本描述。由于这些描述往往比标准的图像生成提示词要长得多，包含了丰富的空间关系信息，研究团队采用了LongCLIP编码器来替代传统的CLIP编码器。这就好比用一本详细的食谱来指导烹饪，而不是仅仅依靠简单的配料清单。

第二阶段的设计尤为巧妙，它将第一阶段生成的语义布局作为强约束条件，通过ControlNet架构来生成对应的建筑高度图。这确保了高度信息与布局信息的完美对应，避免了高楼大厦出现在公园里，或者道路被建筑覆盖等不合理情况。这种两阶段的设计就像先确定城市的骨架结构，再为骨架添加血肉，确保每一个细节都与整体设计保持一致。

研究团队在MajutsuDataset上对这两个阶段分别进行了训练和优化，使用标准的潜在扩散目标函数。实验结果显示，这种分离式设计不仅提高了生成质量，还增强了系统对复杂空间描述的理解能力。相比于传统方法，MajutsuCity生成的城市布局在结构合理性和空间一致性方面都有显著提升。

三、建筑艺术家的创作：形状约束的3D资产生成

城市的布局确定后，接下来就要为每个建筑位置创建具体的3D建筑模型。这个过程就像雕塑家根据设计图纸创作雕塑作品一样，既要保持整体的形状约束，又要在细节上体现独特的艺术风格。传统的城市生成方法往往采用"检索并放置"的策略，从预制的建筑库中选择模型，这就像用乐高积木搭建城市，虽然快速但缺乏多样性和创新性。

MajutsuCity采用了完全不同的方法，它为每个建筑位置都生成专门的3D模型。这个过程从布局和高度图中提取出每个建筑的实例信息，然后根据资产设计规范为每个实例生成对应的3D建筑。这种自底向上的生成方式确保了全局布局生成与局部几何建模的解耦，既保持了语义一致性，又实现了结构上的精确控制。

为了确保生成的建筑既符合预定的形状约束又具有高质量的视觉效果，研究团队开发了两种互补的约束策略。第一种是基于图像的形状约束，它借鉴了Qwen-Image-Edit的思路，使用等距渲染图像作为几何先验，同时结合"资产设计"提示词来指导外观细节的优化。这就像画家在画布上先勾勒出轮廓，然后逐步添加色彩和细节。

第二种是基于点云的形状约束，它从粗糙几何体中均匀采样点云作为明确的3D约束条件。采样得到的点云与参考图像一起输入到多条件3D生成框架中，产生最终的3D资产。这种双重约束确保了合成的3D建筑在形状和尺度上都与粗糙几何体保持紧密对齐，避免了常见的几何失真问题。

为了进一步提高生成质量，系统还集成了基于视觉语言模型的自校准机制。这个机制会定量评估优化结果与原始几何先验之间的形状一致性，当检测到偏差超过预设阈值时，系统会自动触发审查-重生成循环，逐步调整生成参数直到输出满足几何一致性标准。这就像有一位严格的质检员，确保每个建筑都达到既定的质量标准。

四、无缝材质世界：纹理和环境的完美融合

建筑模型完成后，MajutsuCity需要为整个城市穿上美丽的"外衣"。这包括道路、草地、水面等连续表面的纹理材质，以及营造整体氛围的天空环境。与离散的建筑资产不同，这些表面特征在空间上是连续的，需要无缝可平铺的纹理来避免可见的接缝和周期性伪影。

传统的图像生成器在制作可平铺材质时往往表现不佳，生成的纹理在大面积使用时容易出现明显的重复模式或边界不匹配问题。为了解决这个挑战，研究团队采用Qwen-Image作为视觉骨干网络，并在两个专门的数据集上进行了微调：MajutsuDataset-Material用于无缝可平铺的纹理图生成，MajutsuDataset-Skybox用于高质量全景天空球面生成。

这种专门化的训练方法确保了系统能够生成既无缝拼接又风格统一的材质纹理。生成的道路纹理可以在任意长度的道路上重复使用而不会出现接缝，草地纹理能够覆盖大片区域而保持自然的随机性，水面纹理则能够营造出真实的波光粼粼效果。同时，全景天空球面为整个城市提供了一致的环境照明和大气效果，确保了视觉风格的统一性。

五、精密组装：从零件到完整城市的整体构建

所有的组件准备就绪后，MajutsuCity开始最终的组装工作，这就像组装一台精密的机器，每个零件都必须安装在正确的位置。系统将地面、道路、水体和植被组织成四个平面图层，每个图层都来源于语义布局图，并绑定相应的无缝拼接材质纹理以确保空间连贯性和视觉连续性。

在植被图层的处理上，系统采用泊松圆盘采样在植被掩码内确定树木的放置位置，然后在这些位置实例化单独的树木模型。这种方法既避免了植被分布的过分规整，又确保了合理的密度控制。对于道路图层，系统使用基于距离变换的等距采样方法，沿着道路边界放置路边树木和路灯，营造出真实的城市街道氛围。

每个建筑实例都需要经过相似性变换，将其从局部坐标系统对齐到全局布局坐标系统。这个过程确保了每栋建筑都精确地放置在其对应的建筑足迹位置上，同时保持了正确的朝向和比例。最后，系统集成360度全景天空球面来初始化环境照明和全局光照，形成一个完整的、高保真的城市场景，在语义和几何上都与布局先验保持一致。

整个组装过程采用了层次化的方法，先处理基础的地形和道路网络，再添加植被和建筑物，最后调整照明和材质效果。这种有序的组装流程确保了各个组件之间的协调性，避免了常见的遮挡错误或比例失调问题。

六、智能城市编辑师：MajutsuAgent交互系统

城市生成完成后，MajutsuCity的创新并没有结束。研究团队开发了MajutsuAgent，这是一个革命性的自然语言驱动编辑系统，让用户可以像与朋友对话一样对生成的城市进行精细调整。传统的场景生成流水线往往缺乏生成后的编辑能力，而基于对象级的场景表示为细致的交互提供了天然的接口。

MajutsuAgent将高级自然语言交互抽象为五种标准化操作，形成了一个统一的编辑界面。添加操作可以在场景中实例化并插入新的资产，比如用户可以说"在公园里加一个喷泉"。删除操作则能移除指定的资产，用户可以要求"把那栋红色的楼拆掉"。编辑操作用于修改资产的视觉或结构属性，比如"把那栋楼改成现代风格"。

移动操作对选定的资产应用刚体变换，包括平移、旋转和缩放，用户可以说"把那座桥向左移动50米"。替换操作则用于替换特定表面上的材质，比如"把这条路改成石头路面"。通过利用GPT-5将用户命令分解为一系列原子化、可解释的操作序列，MajutsuAgent能够准确地将用户意图转换为可控的场景修改，从而实现对生成城市环境的直观和细致定制。

这种交互方式的优势在于它的自然性和灵活性。用户不需要学习复杂的3D建模软件操作，也不需要掌握专业的建筑设计知识，只需要用自然语言表达自己的想法，系统就能理解并执行相应的修改。这就像拥有了一位永远不会疲倦、永远理解你需求的专业助手。

七、数据基石：MajutsuDataset多模态数据集

为了支撑MajutsuCity的强大功能，研究团队构建了MajutsuDataset，这是一个专门为文本引导3D场景合成设计的高质量多模态数据集。这个数据集就像一座巨大的图书馆，为系统提供了丰富的学习素材和生成基础。

数据集的布局/高程部分解决了现有城市布局数据集缺乏丰富文本标注的问题。基于OpenStreetMap构建的大规模城市布局数据集包含13300个图像样本，收集自亚洲、欧洲、南美洲、大洋洲和美洲的不同地区，代表了不同的城市风格。每个样本都包含语义布局图和建筑高度图，分辨率为512×512像素。语义图涵盖五个主要类别：植被、道路、水体、建筑物和地面。

更重要的是，研究团队使用GPT-5-mini为每个布局图像生成了详细的、上下文感知的文本描述，使得模型能够学习细致的文本-布局对应关系。这些描述不仅包含了基本的地理信息，还涵盖了建筑风格、区域特色和空间关系等丰富内容，为精确的文本条件学习奠定了基础。

3D建筑模型部分充分利用了近期3D生成建模的进展，策划了一个风格多样的3D建筑模型库来支持下游城市场景合成。研究团队定义了十种代表性建筑风格，为每种风格生成了二十种不同的建筑类型。源图像使用五个商业级3D生成系统进行处理，最终收集了1000个资产，具有丰富的风格和形态多样性。所有资产都将在完全遵守其相应许可条款的情况下分发。

材质资产部分包含PBR材质库和天空盒图库两个组成部分。PBR材质库包含2300种无缝可平铺的PBR材质，收集自AmbientCG和Poly Haven等公共资源库。每种材质都包含完整的基于物理渲染的纹理图集，包括基础颜色、法线、粗糙度、金属度和环境遮蔽。天空盒图库包含1000张高动态范围天空盒图，来自多个专业来源，覆盖了不同的照明条件和大气背景。

八、性能验证：全方位的评估体系

为了客观评估MajutsuCity的性能，研究团队开发了一套全面的评估体系。在城市布局生成方面，他们采用了CityDreamer和CityCraft使用的评估协议，使用弗雷歇特起始距离、核起始距离和起始分数三个广泛使用的指标来评估生成城市布局的视觉保真度和多样性。

在城市场景生成方面，由于缺乏统一可靠的评估协议，研究团队引入了基于视觉语言模型的自动评估框架。该框架建立在四个评估维度上：结构和视图一致性，评估生成场景的几何稳定性和多视角一致性；场景丰富度和复杂性，衡量生成场景的细节层次和元素多样性；材质和纹理保真度，评价表面材质的真实感和细节质量；照明和氛围，考察整体光照效果和环境氛围的营造。

评估过程采用绝对定量评分和相对维度排名两阶段程序。在绝对定量评分中，GPT-5作为自动评估器，基于多视角渲染图像为每个方法在四个维度上分配1-10分的评分。在相对维度排名中，GPT-5和20名人类用户分别对每个维度进行成对比较，每张图像至少参与十次比较以确保结果的稳健性，然后使用TrueSkill排名系统为所有方法得出特定维度的排名分数。

实验结果表明，MajutsuCity在所有指标上都显著优于现有方法。在布局生成方面，相比CityDreamer实现了83.7%的FID降低，相比CityCraft实现了20.1%的FID降低。在城市场景生成的所有八个评估维度上，MajutsuCity都排名第一，体现了其在几何保真度、材质真实感和美学适应性方面的卓越性能。

九、创新突破：风格适应与编辑能力

MajutsuCity的一个突出特点是其出色的风格适应能力。研究团队通过消融研究验证了细粒度空间文本和LongCLIP编码器的有效性。移除LongCLIP会导致FID指标从22.7恶化到28.0，证实了其在理解长文本空间关系方面的重要作用。类似地，移除空间文本指导会导致FID显著恶化到35.7，KID和IS指标也呈现一致趋势，表明这两个组件对于生成高质量、拓扑连贯的城市布局都是不可或缺的。

为了进一步展示模型生成风格多样城市场景的能力，研究团队展示了四种广泛认知且视觉独特的风格生成结果：我的世界、荷兰风格、赛博朋克和吉卜力风格。实验结果表明，该方法不仅能忠实捕捉每种风格的定义美学特征，还能在大规模城市场景中保持强烈的风格内一致性。这种风格适应性为不同应用场景提供了巨大的灵活性。

在编辑能力方面，MajutsuAgent展现了前所未有的交互性和易用性。用户可以通过简单的自然语言指令对生成的城市进行实时修改，而系统能够理解复杂的空间关系和美学要求。这种交互式编辑能力使得MajutsuCity不仅是一个生成工具，更是一个创作平台，用户可以在其中不断完善和优化自己的城市设计。

十、技术创新与方法突破

MajutsuCity在技术层面实现了多个重要突破。首先是语言理解与空间推理的有机结合，系统能够从自然语言描述中提取出精确的空间布局信息和美学要求，这在之前的城市生成系统中是难以实现的。通过大语言模型的语义理解能力和结构化模板的约束，系统成功地将抽象的语言概念转化为具体的生成参数。

其次是多阶段生成流水线的精心设计，每个阶段都有明确的职责和优化目标，同时又通过约束机制确保阶段间的一致性。这种分而治之的方法不仅提高了生成质量，还增强了系统的可控性和可解释性。用户可以清楚地了解生成过程的每个步骤，必要时还可以对特定阶段进行调整。

第三是形状约束生成技术的创新应用，通过图像约束和点云约束的双重保障，确保生成的3D建筑既符合预定的几何要求又具有丰富的视觉细节。这种约束机制避免了传统3D生成中常见的几何失真和比例失调问题，为大规模场景生成提供了可靠的技术基础。

最后是交互式编辑系统的突破，MajutsuAgent不仅支持基本的增删改操作，还能理解复杂的空间关系和美学调整要求。这种人机协作的设计理念体现了研究团队对用户需求的深刻理解，也为未来的3D内容创作工具指明了发展方向。

说到底，MajutsuCity代表了3D城市生成领域的一个重要里程碑。它不仅解决了传统方法在可控性、多样性和质量方面的局限性，还开创了语言驱动的3D场景生成新范式。这个系统就像为每个人配备了一位专业的城市规划师和建筑设计师，无论是游戏开发者、虚拟现实创作者，还是城市规划专业人员，都能通过简单的对话创建出令人惊叹的3D城市场景。

从技术角度看，MajutsuCity的成功验证了多模态AI在复杂创作任务中的巨大潜力。它展示了如何将语言理解、图像生成、3D建模和交互设计等多个技术领域有机结合，形成一个完整的创作生态系统。这种集成化的设计理念必将影响未来AI辅助创作工具的发展方向。

对于普通用户而言，MajutsuCity降低了3D内容创作的门槛，让更多人能够参与到虚拟世界的构建中来。无论是为了娱乐、教育还是商业目的，用户都可以轻松地创建出专业水准的3D城市场景。这种民主化的创作方式有望催生更多创新的应用场景和商业模式。

展望未来，研究团队也坦诚地指出了当前系统的一些限制。系统对提示逻辑一致性的敏感性意味着用户需要提供相对清晰和一致的描述，复杂形状的可控性仍有提升空间，独立生成的建筑资产在视觉尺度上可能存在不一致性。这些挑战为后续研究指明了方向，也为这个激动人心的领域提供了持续改进的动力。

MajutsuCity不仅是一个技术成果，更是对未来数字世界创作方式的一次大胆探索。它让我们看到了AI技术在创意领域的无限可能，也预示着人机协作创作的美好前景。随着技术的不断完善和应用场景的拓展，我们有理由相信，这样的工具将为数字内容创作带来革命性的变化，让每个人都能成为虚拟世界的建造者。

Q&A

Q1：MajutsuCity是什么，它有什么特别之处？

A：MajutsuCity是中山大学研发的AI城市生成系统，最特别的地方是你只需要用普通话描述想要的城市，比如"一座有粉色晚霞的现代化城市"，它就能自动生成完整的3D城市场景。与传统方法不同，它不仅能理解你的语言，还能确保生成的城市在结构上合理、风格统一，甚至支持后续的对话式编辑修改。

Q2：MajutsuDataset数据集包含了哪些内容？

A：MajutsuDataset是专门为这个系统构建的多模态数据集，包含三大部分：13300个来自全球不同地区的城市布局样本，每个都有详细的文本描述；1000个风格各异的3D建筑模型，涵盖十种不同建筑风格；2300种无缝拼接的材质纹理和1000张高质量天空盒图。这些素材为系统提供了丰富的学习基础。

Q3：MajutsuAgent编辑功能具体能做什么？

A：MajutsuAgent是系统的交互编辑组件，支持五种操作：添加（在指定位置加入新建筑）、删除（移除不需要的元素）、编辑（修改建筑风格或属性）、移动（调整建筑位置和朝向）、替换（更换道路或建筑的材质）。你只需要用自然语言说出需求，比如"把那栋红楼改成现代风格"，系统就能理解并执行修改。

3D城市生成自然语言处理交互式编辑系统