这项由以色列理工学院(Technion)与Meta AI联合开展的研究,以预印本形式发布于2026年3月25日,论文编号为arXiv:2605.13852,研究成果被命名为Realiz3D框架。对深入探索这一领域感兴趣的读者,可通过该编号在arXiv平台检索完整论文。
**为什么你手机里的AI生成图片看起来像真的,但AI生成的3D物体却像廉价玩具?**
每次使用AI工具生成一张猫咪的图片,你得到的往往是一张令人惊叹的照片级画面,皮毛的光泽、瞳孔的细节,甚至连光影都像专业摄影师拍摄的一样。但如果你尝试让AI从多个角度同时生成同一只猫,或者给一个3D模型"上色",生成结果往往就像是一件塑料玩具——表面光滑得不真实,颜色平淡,缺乏生活质感。这种落差并非偶然,背后有一个深层的技术矛盾,而正是这个矛盾,这支来自Technion与Meta AI的研究团队花费了大量精力去解决。
要理解这个矛盾,可以把AI图像生成器比作一位从小在真实街头长大的画家。他从数十亿张真实照片中学习如何画出逼真的世界——皮肤的纹理、木头的纹路、金属的反光。然而,当他需要画一个从四个不同角度看都能对上的3D物体时,他手头没有真实的3D照片可以学习。他只能用一堆电脑渲染出来的"假照片"来练习。这些渲染图固然精准,每个角度的几何关系都无误,但它们看起来就是不像真实照片——就像用蜡笔画的苹果,形状对了,但没有那种真实苹果皮上的粗糙感和光泽。
于是问题来了:当这位画家用大量渲染图练习3D控制之后,他画出来的东西开始越来越像渲染图,而不是真实照片。这不是他变懒了,而是他的大脑开始把"需要画多角度一致的3D物体"这件事,与"用渲染图风格来画"这两件事捆绑在一起了。这个现象,研究团队称之为"控制信号泄露了领域身份"——只要AI被要求精确控制3D几何,它就会下意识地切换到"渲染图模式",输出看起来像虚拟模型而非真实照片的图像。
Realiz3D的核心目标,就是在不失去3D控制精度的前提下,让AI重新找回画真实照片的能力。
---
**一、问题的根源:为什么AI会把"精确"和"假"捆绑在一起**
要从根本上理解这个问题,需要先了解AI图像生成器是如何工作的。这类系统被称为扩散模型,其工作原理有些像把一张照片逐渐涂满噪点,然后学习如何从这堆噪点中一步步还原出清晰图像。经过在数十亿真实照片上的大量训练,这类模型积累了极其丰富的视觉知识。
然而,真实照片有一个致命缺陷:它们没有附带3D信息。你的手机拍摄的一张猫咪照片,无法告诉AI这只猫从背面看是什么样的,它的鼻子从侧面看有多高,耳朵从俯视角度看有多尖。要让AI学会这些3D控制能力,研究人员不得不借助一个捷径:使用计算机渲染出来的3D模型库,例如Objaverse这样包含数百万个3D资产的数据集。这些渲染图可以提供精确的几何信息、法线贴图(描述物体表面朝向的数据)以及多视角一致性,是训练3D控制能力的理想素材。
问题就出在这里。当AI拿着这批渲染图去学习3D控制时,它同时也在"看着"这些图像的外观风格。渲染图有着与真实照片截然不同的视觉特征:光照太均匀、阴影太规整、表面材质太光滑。AI在学习"如何控制多视角几何"的同时,也在无意中学习了"凡是带3D控制信号的图像,就应该长这个样子"。
就好像一个学生在练习书法时,每次练习都用一种特定颜色的纸。久而久之,他开始下意识地认为"要写好看的字,就得在这种颜色的纸上写"。哪怕换到普通白纸上,他的字迹也会莫名其妙地变差,因为他的书写习惯已经与那种纸的颜色深度绑定了。
研究团队通过实验证实了这个推断。当他们用渲染图和真实图片的混合数据来训练AI,并给AI提供3D控制信号时,生成结果仍然带有明显的渲染风格。仅仅"加入一些真实图片"并不足以打破这种深层的关联。必须从结构上切断"3D控制"与"渲染外观"之间的绑定,才能从根本上解决问题。
---
**二、破解绑定:让AI同时学会"是什么风格"和"怎么控制形状"**
Realiz3D的核心思路,是在训练AI之前,先教它认识一件事:真实照片和渲染图是两种不同的"语言",而控制3D几何是一项独立于语言风格之外的技能。
这个思路用一个比喻来理解:假设你要训练一位翻译员,他需要把同一段内容既翻译成普通话,又翻译成粤语。如果你只给他看普通话版本的专业教材(渲染图),他学会了专业知识,但也无意中认为"专业内容只能用普通话表达"。解决方案是在教他专业知识之前,先分别给他大量普通话和粤语的日常对话练习,让他充分理解这两种语言各自的特点,再教他把专业知识在两种语言之间灵活转换。
Realiz3D采用了一个两阶段训练流程,核心工具是他们设计的"领域转换器"(Domain Shifter)。这是一种非常轻量的小型模块,它的功能类似于一个语言拨号盘:拨到"真实照片模式",AI就按真实照片的风格生成;拨到"渲染图模式",AI就按渲染图的风格生成。这个模块在技术上的实现方式是一种低秩残差适配器,简单来说,它在AI的每个处理单元前添加一个极小的附加参数,通过这些参数注入关于"当前应该是什么视觉风格"的信息。
在第一阶段,研究团队冻结了AI所有原有的参数,只训练这些领域转换器模块。他们给AI看大量真实图片和渲染图,但完全不给任何3D控制信号,只要求AI正确区分两种风格。这个阶段的目的,就是让"风格识别"这件事独立存在于AI的认知体系中,不与任何其他任务挂钩。
当领域转换器充分学会区分风格之后,第二阶段才正式引入3D控制信号。在这个阶段,AI的主体参数开始接受训练,学习如何在渲染图上执行精确的几何控制。由于领域转换器已经作为独立的风格拨号盘存在,3D控制任务就没有机会再次与"渲染风格"产生捆绑——它们分别走的是不同的信息通道。
---
**三、从"渲染图技能"到"真实照片技能":跨越风格的能力迁移**
即便有了领域转换器,还有一个棘手的问题需要解决:AI的3D控制能力是在渲染图上练成的,如何让这种能力在真实照片模式下同样有效?
这里研究团队借用了一个关于扩散模型内部结构的重要发现。扩散模型就像一个精心组织的流水线工厂:工厂的前端车间负责确定产品的大致形状和结构,后端车间负责打磨细节和表面处理。换句话说,AI网络的早期层和早期去噪步骤主要决定图像的轮廓和大结构,而后期层和后期去噪步骤主要决定纹理细节和视觉风格。这一点已被多项独立研究证实。
顺着这个规律,研究团队发现了一个重要事实:在早期处理阶段,真实照片和渲染图的内部表示是高度相似的,因为这个阶段的AI只关心形状,而形状本身是跨越风格的。在后期阶段,两者的差异才显著扩大,因为这时AI开始关注纹理和光影细节。
基于这个发现,Realiz3D设计了两项互补的策略,共同构成"表征绑定"机制。
第一项策略叫做"层感知训练"。当AI用真实图片更新自己的参数时,研究团队只允许更新后半段的网络层,冻结前半段。这样一来,前半段的结构控制能力(在渲染图训练中学到的3D控制)得以保留,而后半段的外观细化能力则被真实图片重新校准,保持真实照片的质感。这种做法有随机性:每次训练时,被冻结的比例随机从0到约40%之间变化,以避免模型对某个固定切割点产生依赖。
第二项策略叫做"领域重分配"。在处理真实图片的训练过程中,系统会以一定概率(约10%)将前端网络层的风格拨号盘偷偷拨到"渲染图模式",只有后端层保持在"真实照片模式"。这看起来有点反常,但逻辑非常清晰:前端层决定结构,后端层决定外观。当前端层在渲染图模式下工作时,它会用与渲染图训练时完全一致的方式处理结构信息,从而能够充分利用从渲染图中学到的3D控制能力;后端层在真实照片模式下工作,确保最终输出的外观风格是真实的。
这个设计背后的哲学是:不要试图把真实图片强行"变得像渲染图",而是把真实图片的结构表示"送入渲染图的处理轨道",只借用3D控制所需的部分,然后在外观处理阶段切换回真实照片轨道。
这两项策略形成了一个精密的接力赛:前半段跑者(结构层)负责确保几何控制的精准,后半段跑者(外观层)负责确保最终视觉效果的真实感,而交接棒的那个时刻,正是领域转换器拨号的地方。
---
**四、推理时的额外调校:在真实感与精确控制之间找到最优平衡点**
训练完成之后,当用户真正使用这个系统生成图像时,研究团队还提供了一个额外的调节手段,使得生成结果可以在"更像真实照片"和"更精确遵守几何控制"之间灵活调整,而不需要重新训练模型。
这个机制被称为"推理时领域转换"。具体操作是:在生成图像的早期去噪步骤和前端网络层中,将领域拨号盘设置为渲染图模式;而在后期去噪步骤和后端网络层中,使用真实照片模式。这与训练时的领域重分配策略一脉相承。
调节的参数有两个:一个是"多少比例的网络层在渲染图模式下运行"(建议范围在总层数的20%至30%之间),另一个是"从哪个去噪时间步开始切换到真实照片模式"(建议范围在第800步到第1000步之间,总步数为1000)。这两个参数只需在一小批验证样本上调整一次,整个调整过程不超过一小时,对每张新图像无需重新调整。
研究团队观察到,时间步参数对真实感的影响较强,网络层参数则对真实感的影响较温和而稳定。因此,他们建议先固定层参数,再微调时间步参数,以此在不明显损失真实感的前提下尽可能提升几何控制精度。
---
**五、实验:用数字和图像证明这套方法确实管用**
研究团队在两个具体任务上验证了Realiz3D的有效性,分别是"多视角纹理生成"和"文本生成多视角图像"。
多视角纹理生成任务要求AI接收一个3D物体的法线贴图(描述表面朝向的图)和位置贴图(描述表面在3D空间中的位置的图),然后生成看起来真实且在多个视角之间保持几何一致性的彩色纹理图。文本生成多视角图像任务则是输入一段文字描述(比如"一只胖胖的柯基犬"),让AI同时生成四个固定视角(正面、背面、左侧、右侧)的图像,并且这四张图要能够对上,像是对同一只真实狗的真实拍摄。
实验用了一批来自Sketchfab平台的40个3D物体作为评测对象,并对比了多个竞争方案。在训练数据方面,合成数据来自12万个内部3D资产,每个资产从4个视角渲染,并附有法线和位置贴图;真实数据则由基础T2I模型用相同文本提示生成,确保两类数据覆盖相同的物体类别,数量相当。
评测指标涵盖了三个维度:3D一致性通过反投影误差衡量(用PSNR、SSIM、LPIPS三个指标),检查生成图像在几何上是否严格对应;先验保留度通过FID和KID两个指标衡量(与基础T2I模型生成的真实风格图对比),检查是否保留了原本的真实感;现实世界真实感通过与ImageNet真实照片对比的FID和KID来衡量,这比与AI生成图对比更加严格,因为ImageNet中的图片极有可能从未被用于训练基础模型。
在多视角纹理生成任务中,纯用合成数据训练的基线模型拿到了最高的3D一致性分数(PSNR 25.76,SSIM 0.9269),但现实感最差(FID_I 218.29,KID_I 0.0431)。混合真实数据的基线略有改善,但改善幅度有限。轻量化方法(LoRA和线性适配器)牺牲了大量3D一致性,换来了一些真实感,整体表现不均衡。各种适配器方案(领域适配器、空间适配器、领域切换器)处于中间地带,但无一在两个维度上同时达到优秀水平。
Realiz3D在3D一致性上(PSNR 24.78,SSIM 0.9153)略低于纯合成基线,但差距相当小;而在真实感上(FID_I 200.24,KID_I 0.0291)则实现了大幅跳跃,显著优于所有对比方案,是两类指标综合权衡下表现最均衡的方法。文本生成多视角任务的结果呈现相同规律,Realiz3D的FID_I达到196.01,KID_I降至0.0171,远优于排名第二的空间适配器(199.46,0.0205),更是大幅碾压纯合成训练(215.57,0.0363)。
值得一提的是,研究团队还评测了TRELLIS这个专门针对3D生成训练的预训练模型。这个模型的真实感指标(FID_I 224.22,KID_I 0.0441)比Realiz3D更差,甚至比纯合成训练基线还要差。这说明单纯针对3D任务优化,如果不妥善处理领域差距,结果反而可能更不真实。
研究团队还进行了细致的消融实验,逐步添加各个组件,观察每个组件的独立贡献。结果显示,仅有领域转换器的两阶段训练(不加表征绑定)已经能取得明显改善;加入推理时领域转换后进一步提升控制精度;加入领域重分配则额外改善真实感;加入层感知训练在两个方向上都有稳定提升。这些组件的效果可以叠加,全部组合才能达到最佳总体表现。
---
**六、局限与尚未解决的难题**
研究团队并未回避方法的局限性,在论文中坦诚地列举了三个主要问题。
第一个问题与3D一致性指标的测量方式有关。合成基线之所以在3D一致性上得分更高,部分原因是它生成的图像纹理非常光滑——光滑的表面对视角重投影非常友好,即使存在轻微的几何误差,也不容易被检测到。Realiz3D生成的图像包含丰富的真实纹理细节,如毛发、皮肤纹路、复杂材质,这些细节对任何轻微的视角不一致都极度敏感,因此在指标上看起来比实际情况要"更不一致"。换句话说,Realiz3D的3D一致性看起来略低,部分是因为它做得更难的事情——生成了更丰富的细节。
第二个问题是领域差异有时不只体现在外观上,也会体现在几何上。合成的3D模型和真实物体在形状细节上本身就存在差异,这种几何层面的领域差距不能完全通过视觉风格的切换来弥补。
第三个问题是基础T2I模型的光照偏差。研究团队发现,对于某些类别的物体(如汉堡),基础模型在训练时见过的真实照片绝大多数都是从右前方打光的,导致AI在生成时会固执地使用这种特定光照。即使Realiz3D成功生成了多视角一致的纹理,光照方向在不同视角间仍可能不一致,因为AI总是"认为"光应该从右前方来。这不是Realiz3D本身的设计问题,而是上游基础模型带来的先天缺陷。
对于这个光照问题,研究团队指出,最近出现的重打光技术(relighting,即AI自动调整图像的光照方向)可能是未来解决这个问题的关键工具。如果能在生成后自动将光照统一,这个缺陷或许可以在后处理阶段得到补救。
此外,Realiz3D目前的设计主要针对几何控制信号(法线图、位置图)和文本控制信号,这两类信号本身与视觉风格关系不大。如果控制信号是图像本身(例如参考照片),情况就会更复杂,因为参考图像本身就携带了大量的视觉风格信息,与Realiz3D目前的解耦假设不完全兼容。如何扩展到图像条件控制,是未来值得探索的方向之一。
研究团队还提及,视频扩散模型面临类似的问题——当它们被用于需要3D几何一致性的视频生成时,同样需要在合成数据上进行微调,同样会面临领域差距。Realiz3D的框架理论上可以迁移到视频领域,这也是一个自然的延伸方向。
---
说到底,Realiz3D解决的是一个用比喻来说极其直观的问题:你不能通过让一位只看过素描的画家来学素描技法,然后指望他画出油画。必须让他先分别充分认识素描和油画是两件不同的事,才能学会把素描的精准结构和油画的丰富质感结合起来。
这套方法的精妙之处不在于它有多复杂,而在于它抓住了正确的核心矛盾——领域身份与控制信号的混合是万恶之源——然后用相对轻量的工具解开了这个结。领域转换器模块参数量极小,两阶段训练流程使用的始终是标准扩散损失函数,没有引入任何额外的复杂目标函数。整套方法的工程负担相当低,这意味着它有相当高的实用价值,有望被整合进未来更广泛的3D生成管线。
对于普通用户而言,这项研究带来的最直接意义是:当你未来使用AI工具为3D模型自动上色,或者让AI从文字描述生成可直接用于游戏、动画、电商展示的多视角产品图时,生成结果的真实感可以实质性地提升,而不是在真实感和精准度之间被迫做出痛苦的取舍。
如果你对这套方法的具体细节感兴趣,可以通过arXiv编号2605.13852查阅完整论文。
---
Q&A
Q1:Realiz3D解决了什么问题?
A:Realiz3D解决了AI在生成3D一致性图像时看起来像渲染图而非真实照片的问题。根本原因是AI把"3D控制信号"和"渲染图风格"绑定在了一起,Realiz3D通过专门设计的领域转换器模块,让AI先单独学会区分两种视觉风格,再学习3D控制,从而切断这种无意识的捆绑。
Q2:Realiz3D的领域转换器是怎么工作的?
A:领域转换器是插在AI每个处理单元前的小型参数模块,类似于一个拨号盘,可以告诉AI当前应该以"真实照片风格"还是"渲染图风格"来处理图像。它通过低秩矩阵运算给AI的内部特征加上一个微小偏置,参数量极少,但足以让AI在两种风格之间灵活切换,而不影响核心的图像生成能力。
Q3:Realiz3D的3D一致性比纯用合成数据训练的方法稍差,这意味着它失败了吗?
A:不是。纯合成训练之所以3D一致性指标高,部分原因是它生成的纹理过于光滑,容易通过一致性检测。Realiz3D生成了更丰富的真实细节(毛发、皮纹、复杂材质),这些细节对轻微误差极度敏感,因此在指标上看起来略低,但实际上在视觉质量上是全面领先的。在真实感指标上,Realiz3D远优于所有对比方案。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。