微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

RenderFormer：微软与浙大联合开发的变革性三角网格神经渲染技术

神经渲染Transformer模型全局光照

RenderFormer：微软与浙大联合开发的变革性三角网格神经渲染技术

作者：科技行者

2025-06-02 16:30

分享至：

RenderFormer是由浙江大学CAD&CG国家重点实验室和微软亚洲研究院联合开发的革命性神经渲染技术，将于2025年SIGGRAPH会议发表。这项技术首次实现了无需场景特定训练的三角网格全局光照渲染。区别于传统物理模拟渲染，RenderFormer将渲染问题重新定义为序列到序列的转换任务，采用双阶段Transformer架构处理光线传输。其渲染速度比传统方法快数十倍，能呈现包括复杂阴影、多次反射、漫反射间接光照等效果。尽管目前受限于4,096个三角形上限和特定训练数据范围，但已展现出成为渲染领域新范式的潜力。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-06-02 16:30 • 科技行者

在计算机图形学领域，一项突破性的研究成果于2025年5月由浙江大学CAD&CG国家重点实验室和微软亚洲研究院的联合团队发布。这篇题为《RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination》的论文将于2025年8月10-14日在温哥华举办的SIGGRAPH 2025会议上正式发表，该研究由浙江大学的曾冲和吴洪智，微软亚洲研究院的董悦和童欣，以及威廉玛丽学院的Pieter Peers共同完成。这项工作代表了渲染技术的一个全新方向，首次实现了无需针对特定场景进行训练或微调的全局光照神经渲染。

一、传统渲染的革命：从物理模拟到神经网络转换

传统的计算机图形渲染技术，就像是按照严格的物理法则一步步模拟光线在虚拟场景中的传播过程。想象一下，如果你要画一个玻璃杯中倒映的景象，你需要精确计算每道光线如何从光源出发，经过空气，穿过玻璃，反射，最终到达你的眼睛。这个过程极其复杂且计算密集，就像是要跟踪一个弹球在复杂房间中的每一次弹跳轨迹。

而RenderFormer则采用了一种全新的思路：它不再试图模拟光线的物理传播过程，而是将渲染问题重新定义为一种序列到序列的转换任务。这有点像是，与其教计算机如何一步步计算光线反射，不如直接教它"看到这样的场景，应该呈现出什么样的图像"。具体来说，RenderFormer将一系列表示三角形及其反射属性的"令牌"（tokens）转换为表示最终渲染图像中像素块的输出令牌。

传统渲染方法和神经网络渲染之间的关键区别在于，传统方法需要递归地计算光线的传播，这就像是解一个需要不断引用自身的数学方程；而RenderFormer则直接"求解"这个方程，无需递归计算，也不会产生蒙特卡洛积分中常见的噪点，更不需要如光栅化渲染那样进行复杂的算法修改。

更重要的是，与现有的针对合成场景的神经渲染方法不同，RenderFormer不需要针对每个场景或物体进行单独训练（图1中的物体并不在训练集中），这大大提高了其实用性和灵活性。

二、RenderFormer的双阶段架构：分而治之的光照计算

RenderFormer采用了一个两阶段的架构，两个阶段都基于现在非常强大的Transformer模型。这有点像是将复杂的渲染任务分给两个专家团队：第一个团队负责计算场景中所有物体之间的光照关系，第二个团队则负责根据第一个团队的结果，计算出最终的图像。

在第一个阶段，也就是视角无关阶段（view-independent stage），RenderFormer处理三角形之间的光传输。想象一下，这个阶段就像是在计算房间里每个物体如何相互投射光线和阴影，不管你站在房间的哪个位置观察。这个阶段将输入的三角形序列转换为包含光照信息的三角形序列。

第二个阶段是视角相关阶段（view-dependent stage），它接收第一阶段处理后的三角形序列，以及表示虚拟相机视角的光线束令牌作为输入。这个阶段就像是从特定视角出发，收集第一阶段计算的光照信息，然后确定每个像素应该显示什么颜色。这有点像是拿着相机在已经计算好光照效果的虚拟场景中拍照。

两个阶段都使用了Transformer架构，这种架构因其在处理长距离关系（比如一个三角形对场景中所有其他三角形的影响）方面的能力而被选择。然而，与典型的Transformer不同的是，RenderFormer使用了基于三角形在3D空间中位置的相对位置编码，而不是基于序列索引位置的编码。

想象一下，在传统的文本Transformer中，单词的位置很重要——"狗咬人"和"人咬狗"意思完全不同。但在RenderFormer中，重要的不是三角形在序列中的位置，而是它们在3D空间中的相对位置关系，因为这决定了它们之间的光照交互。

三、空间位置编码：3D世界中的关系表示

在传统的Transformer模型中，位置编码通常用来表示序列中元素的顺序，就像是给一串珠子编号。但在3D场景渲染中，三角形在序列中的顺序并不重要，重要的是它们在3D空间中的位置关系。

RenderFormer采用了一种创新的相对空间位置编码方法，基于旋转位置编码（RoPE）。这种方法不是简单地给每个三角形一个固定的位置标签，而是编码三角形之间的相对位置关系。想象一下，这就像是不关心两个人在队列中的具体位置，而只关心他们之间的距离和方向。

更重要的是，这种编码方式使得RenderFormer对场景的整体平移保持不变。也就是说，如果将整个场景（包括光源和相机）一起移动，渲染结果不会改变。这就像是将一个完整的棋盘从桌子的这一端移到另一端，棋子之间的关系保持不变。

然而，由于三维旋转不满足交换律的特性，使得RenderFormer当前对场景旋转的不变性实现相对困难。为了提高对场景旋转的稳定性，研究团队在训练过程中随机旋转场景（包括相机），使模型能够学习适应不同的旋转角度。

四、三角形与光线的表示：如何描述虚拟世界

在RenderFormer中，每个三角形都需要编码所有与渲染相关的信息，如表面法线、反射属性和发光特性（如果是光源）。

对于法线信息，RenderFormer为每个三角形的三个顶点存储法线，并使用NeRF风格的位置编码对其进行编码。这些法线可以在三角形上进行插值和归一化。想象一下，这就像是记录了三角形表面每个点的朝向，就像是知道一张纸在空间中如何倾斜。

对于表面反射特性，RenderFormer使用了微表面BRDF模型，采用GGX法线分布，通过漫反射反照率、高光反照率和粗糙度进行参数化。这些参数与发光特性一起被堆叠成一个10维向量，然后通过一个线性层扩展为768维向量。这有点像是详细记录了物体表面对不同角度的光线如何反射，从而决定了它看起来是亮闪闪的金属，还是哑光的塑料。

在视角相关阶段，RenderFormer将虚拟相机编码为一系列8×8像素补丁的光线束。由于场景在视角相关阶段以相机坐标表示，所有光线的原点都是(0,0,0)，因此只需要编码每条光线的归一化方向。这就像是从相机出发，记录了每个像素"看"的方向。

五、训练与数据集：教会AI理解光线

RenderFormer的训练采用端到端的方式，使用AdamW优化器，在8个NVIDIA A100 GPU上进行训练，每个GPU配备40GB显存。训练分为两个阶段：首先在256×256分辨率下训练500,000次迭代（约5天时间），然后在512×512分辨率下进行额外的100,000次微调迭代（约3天时间）。

训练数据由合成场景组成，这些场景包含从Objaverse数据集中随机选择的1到3个物体，放置在四个模板场景之一中。相机放置在场景外部，视野角度在30°到60°之间均匀采样，并指向场景中心（带有一些扰动）。光源数量从1到8个不等，强度在2,500到5,000 W/单位?之间均匀采样。

材质参数要么按物体分配，要么按三角形分配，比例为1:1。漫反射反照率被随机分配一个RGB颜色，最大强度设置为使其与单色高光反照率的总和在0.9到1.0之间。粗糙度在[0.01, 1.0]范围内对数采样。

由于Transformer中注意力层的计算复杂度与令牌数量成二次方关系，RenderFormer将场景中的三角形总数限制为4,096个。为了适应这一限制，研究团队对Objaverse数据集中的物体进行了重新网格化处理，先移除内部或畸形的三角形，然后使用Qslim降低面数至256到3,072之间。

训练数据包括800万张HDR训练图像，对应200万个合成场景，每个场景从4个不同视角渲染。其中一半是256×256分辨率（最大三角形数为1,536），另一半是512×512分辨率（最大三角形数为4,096）。所有图像都使用Blender Cycles渲染，每像素4,096个样本。

六、RenderFormer的性能与局限性

RenderFormer在各种场景上的测试表明，它能够成功地渲染包含阴影、漫反射间接光照、高光反射、软硬阴影以及多光源等全局光照效果的图像。虽然渲染结果在视觉上与参考渲染相似，但并非完全相同。

在速度方面，RenderFormer相比传统路径追踪方法如Blender Cycles有显著优势。例如，对于图1中的场景，使用4,096样本/像素的Cycles渲染需要约3-12秒，而RenderFormer仅需约0.06-0.1秒。这种效率提升对于实时应用特别重要。

然而，RenderFormer也存在一些局限性。首先，由于Transformer的计算成本，当前版本限制了三角形网格最多为4,096个三角形。虽然实验表明RenderFormer可以处理更大的三角形网格，但会损失一些细节。

其次，RenderFormer受到训练数据变化的约束。当前训练数据仅包括单一反射率模型，每个三角形分配参数（无纹理），最多8个漫反射光源，且相机位于场景边界框外部。在这些限制之外的场景可能会导致渲染质量下降。

此外，RenderFormer对于超过训练中看到的最大光源数量（8个）的场景处理不可靠，可能导致不完整的阴影或缺失的高光。同样，当光源放置在场景内部或使用彩色光源时，也会产生不正确的结果。不过，这些问题可以通过扩展训练集或利用光传输的线性性质来解决，比如分别渲染每个光源然后合成最终图像。

七、消融研究与模型分析：深入理解RenderFormer的工作原理

为了更好地理解RenderFormer的各个组件的贡献，研究团队进行了一系列消融研究。这些研究表明，视角无关阶段和视角相关阶段都是获得良好结果所必需的。完全消除视角无关阶段会导致渲染质量明显下降，表明这个阶段在解决全局光照问题中起着关键作用。

关于模型大小，研究发现更大的模型通常产生更准确的结果。例如，具有768维特征长度的205M参数模型性能优于具有384维特征长度的45M参数模型。然而，渲染通常需要在准确性和速度之间取得平衡，理想的注意力层数取决于网格大小、分辨率和硬件等多种因素。

研究团队还通过可视化视角无关阶段转换后的令牌来分析RenderFormer的内部工作原理。这些可视化表明，视角无关阶段能够解决三角形之间的显著部分漫反射光传输和阴影问题，甚至能够处理比单个三角形更精细的阴影细节。

同样，通过可视化视角相关阶段中特定光线束的注意力权重，研究人员发现主要权重分布在直接可见的三角形上，以及反射方向周围的三角形上。这种分布随着材料粗糙度的增加而变化，符合物理渲染的预期行为。

八、未来方向：迈向全神经渲染管线

虽然当前版本的RenderFormer仍有一些限制，但研究团队认为，通过进一步的开发和优化，RenderFormer有潜力提供一种替代渲染范式，既适用于正向渲染，也适用于反向渲染应用。

未来的研究方向包括：扩展训练集以支持更广泛的相机和光源位置；加入更多的反射率模型，包括透明度和次表面散射；支持环境光照和非漫反射光源；以及探索基于现有图形加速结构（如BVH）的层次注意力方法，以支持更复杂的场景和更大的三角形网格。

由于RenderFormer完全基于可学习的神经组件，因此天然完全可微分，无需依赖现有的固定（即不可学习的）渲染算法，如光栅化、光线追踪或光线行进。这种特性使其特别适合于反向渲染应用，可以直接从数据中学习渲染过程。

RenderFormer代表了计算机图形学向全神经渲染管线迈出的重要一步，开创了一种新的思考和解决虚拟场景渲染问题的方式。尽管仍处于初始阶段，但它已经展示了神经网络在直接从三角形网格渲染全局光照图像方面的巨大潜力，而无需针对特定场景进行训练或微调。

九、技术细节：Transformer架构的创新应用

RenderFormer的核心是Transformer架构，这种架构因其处理长距离依赖关系的能力而被选择，非常适合模拟光线在场景中的传播。视角无关阶段使用12个Transformer层，每层有6个头和768个隐藏单元，后面是一个768×4的前馈全连接网络。视角相关阶段使用类似的架构，但只重复注意力层6次。

为了稳定训练，RenderFormer采用了预归一化（使用RMS-Normalization）、SwiGLU激活函数和QK-Normalization。此外，视角相关阶段需要比视角无关阶段更高的精度（tf32 vs bf16）才能在训练期间收敛。

损失函数方面，RenderFormer在监督方式下训练，通过计算渲染的参考HDR图像和RenderFormer预测之间的L1损失。为了避免亮部高光中的小误差主导损失，研究团队在计算L1损失之前对图像应用了对数变换。此外，为了最小化感知差异，还包括了对色调映射版本图像的LPIPS损失。最终损失为：L1损失 + 0.05×LPIPS损失。

RenderFormer的性能与灵活性使其成为一种有前途的新型渲染方法，特别是在需要快速渲染和全局光照效果的应用中。随着进一步的研究和优化，RenderFormer有望在计算机图形学领域开辟新的可能性。

神经渲染Transformer模型全局光照

分享至