微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 HiScene:用等轴视图打造具有层次结构的3D场景

HiScene:用等轴视图打造具有层次结构的3D场景

2025-04-21 15:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-21 15:21 科技行者

2025年4月,来自浙江大学和字节跳动的研究团队发表了一篇重要论文,介绍了他们开发的名为HiScene的新技术,这项技术可以生成高质量、可交互的三维场景。该论文题为《HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation》,发表于arXiv预印本平台(arXiv:2504.13072v1),由浙江大学的董文祺、杨泽松、李袁、包华军和崔兆鹏,以及字节跳动的杨邦邦、胡涛和马月文共同完成。感兴趣的读者可以通过https://zju3dv.github.io/hiscene/查看更多详细信息。

一、为什么需要更好的3D场景生成技术?

想象一下,你想要为游戏、虚拟现实体验或室内设计应用创建一个逼真的3D客厅。传统上,这需要专业的3D设计师花费数小时甚至数天的时间来建模、调整和布置每个物体。而现在,人工智能领域已经取得了令人瞩目的进展,尤其是在2D图像生成和单个3D物体生成方面。只需输入一段文字描述,AI就能创建出令人惊叹的图像或复杂的3D物体。

然而,将这种能力扩展到整个3D场景的生成——例如,根据用户提供的文本或图像生成完整的3D房间模型——仍然是一个巨大的挑战。现有的方法通常依赖于大型语言模型(LLMs)和手工制定的规则来生成3D场景布局,但这些结果往往缺乏真实感,受限于有限的物体种类和过于简单的布局。其他方法尝试从2D图像提升到3D场景,但通常会将整个场景作为一个不可分割的整体,限制了交互式应用,如场景编辑、物体操作和机器人语义理解的数据整理。

HiScene团队认为,一个理想的场景生成方法应该具备三个关键特性:

真实的布局和资源:它应该生成具有自然物体排列和丰富内容的场景,反映真实世界的空间关系和物体交互。
可组合和完整的实例:对于交互式应用,场景中的每个物体都应该是一个完整、完好的3D实体,可以单独操作、编辑或替换。
空间对齐和合理性:生成的场景应该忠实地表现用户的文本或图像提示,同时在3D空间中保持物理一致性和合理性。
二、HiScene的创新方法:等轴视图下的层次化场景生成

HiScene采用了一种全新的层次化场景生成框架。与其使用手工制定的规则来确定场景在3D空间中如何构建,研究团队利用了嵌入在图像生成模型中的补充性知识——关于场景如何以美学吸引力和合理布局呈现,然后以自上而下的方式实例化与图像一致的具体3D表示。

想象一下建造一座房子。传统方法就像是试图同时规划和建造整个房子,这非常复杂且容易出错。而HiScene的方法则像是先设计整体蓝图,然后一层一层地构建,从房子的整体结构到每个房间,再到房间内的每件家具。

HiScene的关键洞见是将场景视为等轴视图下的层次化"物体"。从生成器的角度来看,一个房间本身可以被视为一个复杂的物体,而房间内的每个单独物品也可以被单独生成和操作。这种层次化方法使HiScene能够弥合物体级别和场景级别生成之间的差距,产生完整的场景,同时受益于预训练的物体中心生成先验,并保持可组合结构。

你可以把这个过程想象成积木游戏。首先,你用一大块积木代表整个房间,然后逐步用更小、更详细的积木替换不同区域,直到每个物体都被精确地表示出来。这就是HiScene如何从整体场景到独立物体进行工作的方式。

三、HiScene的三个核心技术突破

研究团队在创建高保真度和可组合的3D场景方面克服了几个技术挑战,开发了三个创新的技术组件:

1. 层次化场景解析:找到场景中的每个物体

首先,HiScene需要将整个场景初始化为一个完整的3D表示,然后识别并分离出每个独立的物体。这就像是先拍摄一张房间的照片,然后确定照片中每个物体的位置和边界。

研究团队采用了基于"分析合成"的层次化场景解析方法。具体来说,他们首先从给定的等轴视图图像初始化整个场景,使用一种名为3D高斯表示的技术来表示整个场景。一旦获得场景的完整3D表示,关键挑战是从场景结构中准确隔离单个物体。

想象你拍摄了一张客厅的照片,现在需要确定哪些像素属于沙发,哪些属于咖啡桌,哪些属于台灯。HiScene通过渲染多视角图像并使用2D分割技术来识别不同物体,然后将这些信息提升到3D空间。接着,对于每个识别出的物体,系统会围绕它渲染环形视图,并仔细识别遮挡区域,这使系统能够理解物体之间的空间关系,并在后续步骤中更有效地重建完整的物体身份。

2. 基于视频扩散的潜在补全:处理物体之间的遮挡

当我们只能看到一个物体的部分形状时(比如一把被沙发部分遮挡的椅子),如何重建它的完整形状?这是HiScene面临的第二个挑战。

在场景中,物体往往会被其他物体部分遮挡。尽管3D物体生成技术已取得进展,但从被遮挡的视图重建完整物体仍然是个难题。直接应用标准的修补方法通常会产生不合理的结果,因为这些方法对物体理解有限。此外,目标物体可能还包含由前景遮挡物引起的环境阴影,这无法通过传统的修补框架解决。

研究团队提出了一种新颖的解决方案:他们将实例细化重新表述为2D潜在补全和3D重生成任务,并提出了一种基于视频扩散的补全框架来处理它。具体而言,他们的方法将潜在补全过程视为一种时间过渡视频效果,其中遮挡物逐渐消失,揭示完整的物体。

想象你在拍摄一段视频,镜头逐渐从一个被部分遮挡的物体移动到一个能够完全看到该物体的位置。这正是研究团队训练的视频扩散模型所学习的——从被遮挡的图像过渡到完整、无遮挡的图像。这种方法的时间性质有效地处理了复杂的情况,包括遮挡阴影去除,即使在复杂场景中也能通过保持结构连贯性和产生更合理的结果,优于基于静态图像的修补或补全方法。

3. 空间对齐生成:确保物体与场景匹配

最后一个挑战是确保重新生成的物体能够与原始场景完美匹配。想象你在替换房间中的家具——新家具必须适合原来家具的空间和定位。

即使使用先进的3D生成模型来细化每个分割的身份,确保细化后的物体与其原始位置之间的空间对齐仍然非常困难。由于压缩潜在的未定义性质,简单地应用带有潜在补全的物体视图的细化可能会产生形状各异的物体,使它们与原始场景布局不兼容。

为解决这个问题,研究团队提出了一种形状先验注入机制,该机制调节每个身份的细化阶段。具体来说,他们首先从视图对齐生成方法中提取几何形状先验,并使用这个对齐的形状先验作为细化管道的潜在初始化,而不是从随机噪声开始。这种方法显著减少了细化过程中的几何歧义,确保生成的物体与原始场景上下文之间的适当空间对齐。

就像你先测量空间尺寸再选择合适大小的家具,HiScene确保每个细化后的物体都能完美地融入到场景中,保持与原始布局的一致性。

四、HiScene的实验结果:与现有技术的比较

研究团队将HiScene与两种最先进的可解耦场景生成方法——GALA3D和DreamScene进行了比较。GALA3D采用大型语言模型生成初始布局,整合布局引导的高斯表示和自适应几何控制,并利用组合优化机制。DreamScene引入了形成模式采样(FPS)来平衡语义信息和形状一致性,以及三阶段相机采样策略来提高场景生成质量。

然而,这两种方法都需要预定义的3D布局作为输入,这对于找不到创建合理布局的新手用户来说是一个重大障碍。大型语言模型在布局生成方面也经常犯错。而HiScene则提供了一种更直观、更用户友好的3D场景生成方法,无需显式布局规格。

定性比较

在视觉效果方面,GALA3D和DreamScene生成的场景和物体往往会出现瑕疵。这些方法产生的布局经常违反物理约束和常识空间关系。此外,个别物体经常出现过饱和和"雅努斯问题"(同一物体具有不同的正面和背面)。相比之下,HiScene生成的是复杂但合理的场景,其中的各个物体质量明显优于其他方法。

想象一下三位艺术家被要求根据同一描述画一个客厅。第一位画了一些家具,但它们看起来不太真实,有些甚至漂浮在空中。第二位的画也有类似问题。而第三位——HiScene——不仅画出了一个美观且符合物理规律的整体布局,每件家具也都精细真实,让人感觉可以直接走进这个房间。

定量分析

为了量化评估HiScene,研究团队使用了CLIP Score来评估文本与场景的一致性,并使用ImageReward和Aesthetic Score来评估整体生成质量。HiScene在所有指标上都取得了最佳整体性能,证实了其布局无关的场景生成范式的有效性。

用户研究

研究团队还进行了用户研究,比较HiScene与现有方法。评估集中在两个方面:文本-场景一致性和整体质量。他们收集了12个不同的场景,并要求20位用户按1到3的等级对它们进行评分,评分越高表示结果越好。HiScene获得了最高评分,从人类感知的角度确认了其方法的卓越表现。

五、潜在补全技术的威力:处理物体之间的遮挡和阴影

研究团队还评估了他们的潜在补全方法与现有零样本方法的对比。他们在Amodal COCO和Amodal Berkeley Segmentation数据集上评估了分割效果,使用平均交并比(mIoU)作为指标。

HiScene的方法在两个数据集上都达到了最先进的性能,证明其基于视频模型的方法能更有效地恢复被遮挡的物体,从而产生更好的分割结果。他们还在日常场景上进行了定性实验,HiScene成功恢复了被遮挡的物体,并有效去除了由遮挡物引起的阴影。

想象你拍了一张照片,其中一把椅子部分被桌子遮挡,而桌子还在椅子上投下阴影。现有的方法虽然可以重建合理的形状,但通常会在阴影区域产生暗淡的纹理。而HiScene不仅能够准确重建被遮挡的部分,还能去除阴影,产生完整、一致的物体视图。

六、验证各个组件的有效性:消融研究

为了深入了解HiScene的各个组件的贡献,研究团队进行了一系列消融研究:

图像与视频模型在潜在补全中的比较

研究团队训练了图像和视频两种类型的模型,使用由Pix2gestalt在SA-1B数据集上构建的数据。他们使用Aesthetic Score、Q-Align IAA和IQA指标评估生成补全的整体质量,并使用CLIP Score测量文本-图像对齐性。

在相同的数据设置下,视频模型在所有指标上都优于图像模型。研究团队认为,这种卓越的表现归功于视频模型对物体连续性和时间一致性的强大先验知识,使其能够更好地理解和补全被遮挡的物体,产生更连贯、更真实的结果。

用于物体生成的阴影感知补全

由于场景中的物体之间存在遮挡,研究团队的观察表明,当椅子等物体被部分遮挡时,直接应用物体生成模型往往会基于不完整的遮挡轮廓生成错误的几何结构,导致缺失区域出现黑色纹理。同样,当进行潜在补全但保留阴影伪影时,生成的结果仍然会出现上述黑色几何错误。

HiScene的阴影感知潜在补全方法有效地解决了这些问题,通过适当处理遮挡和阴影,产生几何精确且视觉连贯的物体重建。

空间对齐

最后,研究团队评估了空间对齐生成的有效性,将其与两种替代方案进行比较:直接原生3D生成和独立LRM生成。

没有空间对齐时,原生3D生成会产生方向和定位相对于地面真实实例不正确的物体,而单独的LRM生成会导致外观保真度受损。通过利用LRM的空间对齐能力作为原生3D生成的形状先验,HiScene实现了精确的尺度和姿态匹配,同时保持丰富的外观细节和视觉质量。

七、HiScene的运行时间和效率

在实际应用中,HiScene的效率如何?根据研究团队的评估,HiScene处理一个完整场景大约需要12分钟。相比之下,依赖SDS损失优化的方法如GALA3D和DreamScene需要更多时间——GALA3D需要2小时生成一个场景,而DreamScene需要超过1小时。这种比较清楚地展示了HiScene在高效生成交互式3D场景方面的显著优势。

八、总结与未来展望

HiScene代表了3D场景生成领域的重要进步。通过将场景视为等轴视图下的层次化物体组合,研究团队创建了一个能够生成高质量、可交互3D场景的框架,这些场景具有自然布局、美观外观和可组合物体。

该方法的三个关键创新——层次化场景解析、基于视频扩散的潜在补全和空间对齐生成——共同解决了创建可组合3D场景的核心挑战。实验结果表明,HiScene产生的场景布局更自然,物体实例更完整,更适合交互式应用,同时保持物理合理性和与用户输入的一致性。

尽管取得了这些进展,HiScene生成的场景仍有一些局限性。例如,场景中的纹理具有烘焙光照,缺乏现代渲染管线所需的PBR材质。未来的工作将专注于训练生成模型以生成支持PBR纹理的场景,进一步提升视觉质量和兼容性。

HiScene的工作为未来的研究打开了新的可能性,特别是在生成更复杂、更交互式的3D环境方面。随着这项技术的进一步发展,我们可以期待更快速、更高质量的3D场景生成,这将在游戏开发、虚拟现实体验和建筑可视化等领域产生深远影响。

对于想要亲自体验HiScene的读者,可以访问项目网站https://zju3dv.github.io/hiscene/,了解更多信息和演示视频。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法
    2025-05-07 10:33

    ReplaceMe:通过线性变换给大语言模型"瘦身"的突破性方法

    现代大语言模型就像一栋拥有数百个房间的豪华大厦,每个房间(或称为"层")都执行特定的功能,共同协作完成复杂的语言理解和生成任务。然而,这些模型的规模已经变得如此庞大,以至于只有拥有高端计算资源的机构才能负担得起它们的运行成本。这就像一辆耗油量极大的豪华跑车,普通人负担不起它的燃料费用。

  • FormalMATH:人工智能形式化数学推理的新标杆
    2025-05-07 10:32

    FormalMATH:人工智能形式化数学推理的新标杆

    想象一下,当你在解答一道复杂的数学题时,你不仅需要给出答案,还需要详细解释每一步推导的理由,不能有任何逻辑跳跃或假设——这就是形式化数学推理的严格要求。

  • Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型
    2025-05-07 10:29

    Voila:开创真实自主交互与声音角色扮演新时代的声音-语言基础模型

    想象一下日常生活中我们使用的语音助手,比如Siri或ChatGPT。它们通常是这样工作的:你问一个问题,它回答,然后安静地等待你的下一个指令。这就像是一个只会被动回应的服务员,永远等待你的呼唤。而Voila团队认为,真正高级的AI助手应该更像一个时刻准备着的好朋友或队友,能够自然地融入你的生活节奏中。

  • RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具
    2025-05-07 10:27

    RM-R1:让AI评估变得更明智——将奖励模型转变为推理工具

    想象一下,你正在参加一场料理比赛,有两位评委。第一位评委只给你一个分数,而第二位评委会详细解释你的菜品在口感、创意和技巧上的表现如何,然后才给出最终评价。显然,第二位评委的反馈对于你改进厨艺更有帮助。伊利诺伊大学研究团队正是秉持这一理念,开发了能像第二位评委那样工作的AI评估系统。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-