
这是一项由厦门大学多媒体信任感知与高效计算教育部重点实验室、腾讯和复旦大学Yes Lab联合完成的研究成果。研究团队由李新阳、王腾飞、顾子晓、张胜川、郭春超和曹柳娟组成,论文发表于2025年10月,论文编号为arXiv:2510.13678v1。有兴趣深入了解的读者可以通过这个编号在学术论文库中查询完整论文。
想象你正在制作一部电影或设计一个游戏,需要快速创建逼真的三维场景。传统的方法就像手工雕刻一样耗时费力,需要专业的3D艺术家花费数小时甚至数天来完成一个场景。而现在,人工智能技术让我们可以用文字描述或上传一张图片,就能在几秒钟内生成精美的3D场景。这听起来像魔法,但背后的技术原理其实相当有趣。
当前生成3D场景的方法主要分为两大阵营。一种方法叫做"多视图导向",就像用多台相机从不同角度拍摄同一个物体,然后把这些照片拼接成一个3D模型。这种方法的优点是生成的图像质量很高,就像用专业相机拍出来的照片一样清晰漂亮。但问题在于,从不同角度拍摄的照片之间往往不够协调,就像一个人的左脸和右脸看起来不太像一个人一样。这导致最后拼接出来的3D场景会出现纹理噪点和几何不一致的问题。
另一种方法叫做"3D导向",直接在生成过程中就考虑3D的一致性。这就像先搭建一个骨架,再在上面添加细节,能保证整体的协调性。这种方法生成的3D场景在不同角度看起来都很协调,但图像质量往往不如第一种方法,看起来会比较模糊。而且,这种方法需要很多额外的优化步骤来提高质量,这又大大增加了生成时间。
FlashWorld这项研究的创新之处就在于,它找到了一个巧妙的办法来结合这两种方法的优点。研究团队开发出了一个能够同时支持两种生成模式的模型,然后通过一种叫做"知识蒸馏"的技术,让高质量的多视图模式教会3D导向模式如何生成既清晰又协调的场景。这就像一个经验丰富的师傅教一个年轻学徒,既保留了学徒的优势,又让他学会了师傅的技巧。
要理解FlashWorld如何工作,我们需要先了解它的训练过程。研究团队采用了一个分阶段的训练策略,第一阶段叫做"双模式预训练"。
在这个阶段,研究团队从一个已经训练好的视频生成模型开始。为什么要用视频模型而不是图像模型呢?因为视频模型已经学会了如何处理多个连续的帧,这对生成多个视角的图像特别有帮助。这就像用一个已经会跑步的人来学习跳舞,比从零开始教一个人跑步再教他跳舞要快得多。
在预训练阶段,研究团队输入多个视角的图像、对应的摄像机参数(比如摄像机的位置和方向)以及条件信息(比如文字描述或参考图片)。这些图像被转换成一种叫做"潜在空间"的压缩表示,就像把一部电影压缩成一个较小的文件格式,但仍然保留了所有重要信息。
然后,模型学会了两种不同的生成方式。第一种是"多视图导向"模式,它直接预测清晰的多视角图像。这个过程就像一个学生在老师的指导下学习绘画,逐步改进自己的作品。第二种是"3D导向"模式,它不是直接生成图像,而是生成3D高斯球体的参数。这些高斯球体是一种特殊的3D表示方法,可以通过渲染来生成任意视角的图像。
这里有个巧妙的设计:模型使用同一个主干网络(叫做Diffusion Transformer,简称DiT)来处理两种模式,但在最后的输出层有所不同。对于多视图模式,它输出清晰的图像;对于3D模式,它输出一个辅助特征,这个特征可以被一个特殊的解码器转换成3D高斯球体的参数。这就像一个多功能工具,可以根据需要切换不同的工作模式。
预训练完成后,研究团队进入了第二阶段,这是整个方法的核心创新,叫做"跨模式蒸馏"。这个过程有点像一个高手和学徒的互动。
在这个阶段,多视图导向模式(因为它生成的图像质量高)被冻结下来,充当一个"老师"的角色。它的工作就是评判学生的作品。而3D导向模式则是"学生",它需要学会在保持3D一致性的同时,生成更高质量的图像。
蒸馏过程使用了一种叫做"分布匹配蒸馏"的技术。简单来说,这个技术的目标是让学生模型生成的图像分布与老师模型生成的图像分布尽可能接近。想象一下,老师画了一千幅画,这些画有各种各样的风格和特征。学生需要学会画出具有相似风格和特征分布的画。
但这里有个有趣的地方:学生模型在生成过程中会经历多个步骤,在每个步骤中,它都会生成3D高斯球体,然后渲染成图像。这意味着生成的图像始终保持3D一致性,因为它们都来自同一个3D表示。这就像一个雕塑家在雕刻时,每个角度看起来都协调一致,因为他们在雕刻的是同一个物体。
研究团队还发现,仅仅使用蒸馏有时会导致一些不稳定的现象,比如生成的3D场景中会出现浮动的伪影。为了解决这个问题,他们引入了一个"跨模式一致性损失"。这就像在老师和学生之间建立了一个额外的沟通机制:学生生成的3D表示经过渲染后,应该与多视图模式的预测保持一致。这个额外的约束帮助稳定了训练过程,就像在建筑中添加支撑梁来增强结构的稳定性。
一个实际的问题是,用于训练的多视角数据集往往数量有限,而且风格和场景类型也不够多样。这就像一个学生只在教室里学习,当他走出教室面对真实世界时,可能会感到困惑。
为了解决这个问题,研究团队在蒸馏阶段引入了一个创新的策略:他们使用了大量的单视角图像和文本描述,配合随机生成的摄像机轨迹进行额外的训练。这些数据来自各种来源,包括真实的多视角序列和预定义的摄像机轨迹。
这个策略的妙处在于,它让模型学会了如何处理在原始训练数据中没有出现过的输入。就像一个人通过阅读各种书籍来扩展自己的知识,模型通过接触多样化的输入来提高自己的泛化能力。而且,在这个阶段,研究团队特意关闭了对抗性损失(GAN损失),以避免分布不匹配的问题。这就像在教学中,有时候需要调整教学方法以适应不同的学生。
研究团队对FlashWorld进行了全面的评估,涵盖了多个不同的任务和数据集。
在图像到3D场景的生成任务中,研究团队与几个最先进的方法进行了比较,包括CAT3D、Bolt3D和Wonderland。这些都是多视图导向的方法。在视觉质量上,FlashWorld生成的场景明显更清晰,细节更丰富。例如,在生成树叶、铁栅栏和触手等复杂结构时,FlashWorld能够准确地再现这些细节,而其他方法往往会生成模糊或扭曲的结果。这就像用高分辨率相机和低分辨率相机拍照的区别。
在文本到3D场景的生成任务中,研究团队使用了来自多个数据集的600个文本提示进行定量评估。评估指标包括图像质量评分、文本对齐度和美学评分等。FlashWorld在大多数指标上都表现出色。特别是在CLIP Score上,它在两个数据集上都取得了最高分,这说明生成的场景与文本描述的匹配度最高。
在WorldScore基准测试上,FlashWorld与三个其他最先进的方法进行了比较:WonderJourney、LucidDreamer和WonderWorld。这个基准测试包含2000个测试用例,涵盖了各种不同风格和场景的世界。评估指标包括3D一致性、光度一致性、物体控制、内容对齐、风格一致性和主观质量等多个方面。FlashWorld在风格一致性上表现最好,在其他几个指标上也排名靠前。虽然在3D一致性上的得分相对较低,但研究团队解释说,这是因为他们的方法没有使用显式的深度指导,而其他方法使用了与评估协议对齐的单目深度估计模型。
也许FlashWorld最令人印象深刻的特点就是它的生成速度。在图像到3D场景的生成中,FlashWorld只需要大约9秒就能生成一个高质量的场景,而其他方法需要数分钟甚至数小时。具体来说,CAT3D需要77分钟,Bolt3D需要15秒,Wonderland需要5分钟。FlashWorld不仅比Wonderland快30倍,而且生成的质量更高。
这个速度的提升来自于多个方面。首先,3D导向的生成过程本身就比多视图导向的方法更高效,因为它不需要单独的3D重建步骤。其次,通过蒸馏,研究团队成功地减少了生成所需的步骤数。在蒸馏之前,模型需要多个去噪步骤才能生成高质量的结果;蒸馏之后,只需要4个步骤就能达到相同的质量。这就像学会了一个快速的捷径,而不是走完整的长路。
而且,FlashWorld使用的是一个统一的模型,可以同时处理图像到3D和文本到3D的任务,不需要分别训练两个模型。这进一步降低了整个系统的复杂性和计算成本。
为了验证方法中每个部分的贡献,研究团队进行了详细的消融研究。他们测试了不同的模型变体,看看去掉某个部分会如何影响性能。
当只使用多视图导向的扩散模型时,生成的场景会出现噪点和纹理不一致的问题。当只使用3D导向的扩散模型时,虽然保证了3D一致性,但图像会变得模糊。当只使用多视图导向的蒸馏时,问题反而更严重了,因为蒸馏放大了多视图方法的缺点。
当移除跨模式一致性损失时,模型在定量指标上的表现看起来还不错,但定性分析显示生成的场景容易出现浮动和重复的伪影。这说明这个看似简单的损失项实际上起到了关键的稳定作用。
当移除超分布数据的协同训练时,模型在处理与原始训练数据分布不同的输入时表现下降。特别是在T3Bench和WorldScore数据集上,文本对齐度的指标明显下降。这说明这个策略对于提高模型的泛化能力至关重要。
只有当所有这些部分组合在一起时,FlashWorld才能达到最优的性能。这就像一个精心调配的食谱,每个材料都有其作用,缺少任何一个都会影响最终的味道。
从技术实现的角度来看,FlashWorld使用了一个基于Diffusion Transformer的架构,并用3D注意力块进行了增强。这个架构能够同时处理多个视角的信息,并理解它们之间的空间关系。
3D高斯球体的表示包括五个关键参数:深度、旋转四元数、缩放、不透明度和球谐系数。这些参数完全定义了一个高斯球体在3D空间中的外观和位置。通过渲染这些高斯球体,模型可以从任意摄像机视角生成图像。
在训练中,研究团队使用了一个叫做Reference-Point Plücker Coordinates的方法来表示摄像机参数。这是一种在计算机图形学中常用的摄像机表示方法,能够高效地编码摄像机的位置和方向信息。
模型的训练使用了分布匹配蒸馏的第二版本(DMD2),它结合了分布匹配目标和对抗性目标。对抗性目标使用了一个判别器来区分真实和生成的图像,这有助于提高生成图像的真实感。为了稳定训练,研究团队还使用了一种叫做R1正则化的技术。
FlashWorld的快速生成能力为许多实际应用打开了大门。在游戏开发中,设计师可以快速生成原型场景,加速迭代过程。在电影和动画制作中,可以快速生成背景和环境,节省大量的美术工作。在虚拟现实和增强现实应用中,可以实时生成沉浸式的3D环境。在建筑可视化中,可以快速将建筑设计转换成逼真的3D场景。
研究团队指出,虽然FlashWorld已经取得了显著的进展,但仍然存在一些限制。首先,生成场景的多样性和规模仍然受到现有训练数据集的限制。其次,模型在生成细致的几何细节、镜面反射和有活动关节的物体时仍然存在困难。这些问题可能可以通过引入深度先验信息和更多的3D感知结构信息来解决。
研究团队在论文中提到,未来的工作可能包括引入自回归生成方法,这可能进一步提高生成的多样性和质量。此外,将这个框架扩展到动态4D场景生成也是一个有趣的方向,这将允许生成具有运动和变化的3D场景。
FlashWorld的出现标志着3D场景生成技术的一个重要里程碑。它不仅在生成速度上实现了突破性的进展,而且在生成质量上也保持了竞争力。这种速度和质量的结合在之前是很难实现的。
更重要的是,这项研究展示了一个重要的思想:不同的方法往往各有优缺点,但通过巧妙的设计,我们可以结合它们的优势。FlashWorld的双模式架构和跨模式蒸馏策略为其他领域的研究提供了启发。这种思想可能被应用到其他需要平衡多个目标的问题中。
从更广阔的视角来看,FlashWorld代表了人工智能在创意内容生成领域的进步。随着这类技术的发展,创意工作的流程可能会发生根本性的改变。不是从零开始创建,而是通过与AI的交互来快速迭代和优化。这可能会让更多的人能够参与到3D内容创作中,降低创意表达的技术门槛。
Q1:FlashWorld是什么,它能做什么?
A:FlashWorld是由厦门大学、腾讯和复旦大学联合开发的一个AI模型,可以在几秒钟内从一张图片或文字描述生成精美的3D场景。它比现有的方法快10到100倍,同时保持更高的图像质量。
Q2:FlashWorld为什么比其他方法快这么多?
A:FlashWorld采用了一个创新的双模式设计,结合了高质量的多视图生成和保证一致性的3D直接生成。通过知识蒸馏技术,它能够用更少的步骤生成高质量结果,同时避免了传统方法中需要的单独3D重建阶段。
Q3:FlashWorld生成的3D场景在实际应用中可靠吗?
A:根据在多个基准测试上的评估,FlashWorld生成的场景在视觉质量、3D一致性和文本对齐度等多个方面都表现出色。虽然在某些细节(如镜面反射和复杂几何)上仍有改进空间,但已经足以满足游戏、电影、建筑可视化等许多实际应用的需求。
好文章,需要你的鼓励
Adobe研究院与UCLA合作开发的Sparse-LaViDa技术通过创新的"稀疏表示"方法,成功将AI图像生成速度提升一倍。该技术巧妙地让AI只处理必要的图像区域,使用特殊"寄存器令牌"管理其余部分,在文本到图像生成、图像编辑和数学推理等任务中实现显著加速,同时完全保持了输出质量。
香港科技大学团队开发出A4-Agent智能系统,无需训练即可让AI理解物品的可操作性。该系统通过"想象-思考-定位"三步法模仿人类认知过程,在多个测试中超越了需要专门训练的传统方法。这项技术为智能机器人发展提供了新思路,使其能够像人类一样举一反三地处理未见过的新物品和任务。
韩国KAIST开发的Vector Prism系统通过多视角观察和统计推理,解决了AI无法理解SVG图形语义结构的难题。该系统能将用户的自然语言描述自动转换为精美的矢量动画,生成的动画文件比传统视频小54倍,在多项评估中超越顶级竞争对手,为数字创意产业带来重大突破。
华为诺亚方舟实验室提出VersatileFFN创新架构,通过模仿人类双重思维模式,设计了宽度和深度两条并行通道,在不增加参数的情况下显著提升大语言模型性能。该方法将单一神经网络分割为虚拟专家并支持循环计算,实现了参数重用和自适应计算分配,为解决AI模型内存成本高、部署难的问题提供了全新思路。