微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

北大、腾讯、港中文等机构联手：让AI真正"听懂指令"来编辑3D场景，速度快到令人咋舌

三维场景编辑残差场预测多视角一致性

北大、腾讯、港中文等机构联手：让AI真正"听懂指令"来编辑3D场景，速度快到令人咋舌

作者：科技行者

2026-05-21 11:48

分享至：

VGGT-Edit是一个将文字指令直接转化为三维场景编辑的前馈框架，通过残差位移场预测在约5秒内完成多视角一致的3D场景修改。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-21 11:48 • 科技行者

这项由北京大学、腾讯、香港中文大学、上海人工智能实验室、南洋理工大学等机构联合完成的研究，以预印本形式于2026年5月14日发布在arXiv平台，论文编号为arXiv:2605.15186。研究的核心成果是一个名为VGGT-Edit的系统，它能做到一件此前极难实现的事：你用一句普通的话告诉它"把那把椅子挪离桌子"，它就能在几秒钟内，直接在三维空间里完成这个操作，而且从任何角度看过去，结果都自然一致，没有任何违和感。

要理解这件事为什么了不起，不妨先想象一个场景：你是一位室内设计师，客户给了你一套房间的照片，要求你从四面八方拍了几十张，现在他们希望你把沙发移到窗边。传统做法是什么？你必须在每一张照片上分别修改沙发的位置，然后再试图让这几十张照片里的沙发看起来像是同一把——相同的阴影、相同的遮挡关系、相同的透视变形。这几乎是一项不可能完成的任务，因为你修改每张照片时，都不知道其他照片里发生了什么。VGGT-Edit解决的，正是这个难题。

一、现有方法的困境：各自为战的2D编辑

在VGGT-Edit出现之前，研究者们处理这个问题的主流方式被称为"2D搬运法"（论文中称为"2D-lifting"）。顾名思义，就是先在每张二维图片上单独进行修改，然后再把这些修改过的图片重新"搬运"回三维空间。

这种方式的问题在于，修改每张图片的程序并不知道其他图片里发生了什么。就好像你请了四位画师，每人独立负责画同一把椅子从不同角度看到的样子，但他们彼此之间不能交流。最终你得到的四张画里，椅子的颜色可能略有差异，腿的长度可能不一致，阴影的方向也可能相互矛盾。把这四张画拼成一个三维模型，自然是漏洞百出。

更麻烦的是，这种逐张修改的方式速度极慢。有些方法需要对每个场景单独"学习"好几分钟甚至十分钟，这对于需要实时互动的应用场景——比如机器人操作、虚拟现实或者建筑设计——几乎是无法接受的延迟。

研究团队注意到，问题的根源在于这些方法始终在二维图像的世界里打转，从来没有真正进入三维空间去理解场景的结构。就像你试图通过移动镜子里的倒影来移动真实世界里的物体，无论你在镜子里做什么，那个物体本身并没有真正动过。

二、换一个思路：直接在三维空间里"动手术"

VGGT-Edit的核心想法是：与其在二维图片上修改，不如直接在三维的几何结构上操作。

为了理解这个思路，我们需要先了解一个关键概念：在计算机的世界里，一个三维场景可以被表示为空间中密密麻麻的点的集合，每个点都有自己在三维空间里的精确坐标。这就像是用无数颗沙子堆出一个微缩沙盘，每一粒沙子都知道自己在沙盘里的确切位置。当你从不同角度拍摄这个沙盘时，那些沙子的位置关系是完全确定的，不存在任何矛盾。

VGGT-Edit的做法是：当收到"把椅子挪走"这样的指令时，它不去修改任何一张照片，而是直接去调整那些代表椅子的沙粒的坐标——在三维空间里，直接把它们"搬"到新的位置上。一旦三维结构改变了，从任何角度重新渲染出来的二维图像自然都会反映这个变化，不再需要逐张协调。

研究团队把这种方法比喻为"残差场预测"（residual field prediction）。所谓"残差"，就是"变化量"的意思。系统不需要重新学习整个场景长什么样，它只需要学习"哪些地方需要动，动多少"。这就像一位有经验的外科医生做微创手术：他不需要把病人整个解剖再重新缝合，只需要精准地在需要处理的地方做小切口，其余地方完全不碰。

三、系统的三大"法宝"

VGGT-Edit的整个架构建立在一个叫做π?（Pi-cubed）的已有三维重建模型之上，这个底层模型负责从输入的多张照片里理解空间结构，就像是一个已经熟练掌握三维视觉的"助手"。研究团队的工作是在这个助手身上加装了三套新装备，让它能够理解并执行语言指令。

第一套装备叫做"深度同步文字注入"。通俗来说，这解决的是一个"鸡同鸭讲"的问题。你说"把椅子移开"，这句话是语言，而系统内部处理的是三维坐标，两者之间差着十万八千里。传统方法往往在最开头把语言描述简单翻译一下，就扔到系统里去，后面的处理过程就不再管语言的意思了。但这个翻译结果往往会在后续复杂计算中逐渐被稀释，最终系统可能"忘了"你到底想要什么。

研究团队的解法是：不要只在最开始注入一次语言信息，而是在整个处理流程的多个关键节点反复提醒系统"你的任务是什么"。他们发现，这个底层三维模型在特定的几个处理层次上会集中处理空间位置信息，于是就把语言指令精准地注入到这几个层次上。相当于你雇了一位工人帮你移沙发，不是只在开始告诉他一次"把沙发搬到窗边"，而是在他搬起沙发时、走到中途时、放下之前分别再确认一次方向，大大降低了"搬错地方"的风险。

第二套装备叫做"视角感知权重分配"。同一个物体从不同角度拍摄，有些角度看得清清楚楚，有些角度可能被遮挡得只剩一个边角。如果平等地对待所有角度的信息，那些模糊的、被遮挡的角度就会引入噪音，干扰判断。

研究团队设计了一个自动评分机制，为每个视角打分。评分依据包括三项：该视角下目标物体占多大面积（越大说明看得越清楚）、目标物体是否快要出画面边缘了（越靠边越不可靠）、以及底层重建系统对这个视角的信心有多高。根据这些分数，系统会自动把更多的注意力集中在可靠的视角上，对那些看不清楚的视角则相应降低权重。就像一个侦探在综合多位目击者证词时，会更相信站在案发地点正前方、视野清晰的目击者，而不是站在远处、侧面、还带着墨镜的那位。

第三套装备就是核心的"残差变换头"。这是实际执行三维修改的部分。它接收前两套装备处理好的、融合了语言指令的三维特征，然后输出一个"位移场"——也就是对场景中每一个点，指定它应该在三维空间里移动多少、移动到哪里。这个位移场只会作用于被标记为"需要修改"的区域（通过一个编辑掩码来划定），对于背景区域完全不动，保证背景的稳定性。

四、训练的挑战：从哪里获得足够的"练习题"

要让这个系统学会"看指令、动三维场景"，需要大量的训练数据：每条数据都是一个三维场景、一条编辑指令，以及执行这条指令之后场景应该变成什么样子。问题是，这样的数据在现实中几乎不存在。

研究团队为此专门构建了一个全自动的数据生成流水线，并把产出的数据集命名为DeltaScene。整个生成过程可以分为几个环节，彼此紧密衔接。

首先，系统用一个大型语言模型（Qwen3.5-Plus）来分析场景，自动提出合理的编辑建议。但语言模型有时会"想象"一些场景里根本不存在的物体，比如明明场景里没有花瓶，它却提议"把花瓶移走"。为了防止这种情况，系统加入了一个视觉语言模型来做二次核查——它会去看看每个被提议修改的物体，在多数视角下是否真的清晰可见，只有通过这个检验的提议才会被保留。

接着，系统用SAM3（一种先进的图像分割工具）在每张照片里标出目标物体的位置。但独立在每张照片里标注往往会有噪音——同一把椅子，从正面看标注的范围和从侧面看标注的范围，拼到三维空间里可能会有微小的不一致。研究团队的解法是把所有视角的标注结果都投影到三维空间里，求一个"大多数视角都同意"的共识区域，然后再把这个共识区域反投影回每张照片，得到更加统一、干净的标注结果。

然后，系统用Qwen-Image-Editing-Max来对照片进行实际的视觉编辑。关键在于，它不是同时独立地编辑每张照片，而是按顺序来：先编辑第一张，编辑完之后，把编辑结果作为参考，再去编辑第二张；第二张完成后，再用它来指导第三张……如此循环，就像接力赛跑一样，让视觉风格和物体外观在各张照片之间保持连贯一致。

最后，还有一道质量筛查。系统会计算每个视角的"重投影保真度"分数——把这个视角标注的区域在三维空间里跑一圈，再投影回来，看看和原来的标注重合得有多好；同时还会考虑这个视角的拍摄角度是否足够正对目标物体。那些质量不达标的视角会被剔除，不参与训练。

通过这套流水线，研究团队最终生成了约10万对高质量的"编辑前后"数据，覆盖了办公室、客厅、卧室、厨房、书店等各种室内场景，以及添加物体、删除物体、修改属性（如颜色、材质）、移动位置等四种基本操作。为了保证测试数据的可靠性，单独划出的500组测试数据还经过了人工逐条核查，确保视觉结果确实符合文字指令，且未被修改的背景区域完全没有变化。

五、训练目标：让系统同时做到多件事

光有数据还不够，还需要告诉系统"什么样的结果是好的"。研究团队设计了一套包含多个组成部分的训练目标，每个部分针对一个具体问题。

核心的目标是让被修改区域的预测结果尽可能接近真实应该变成的样子，这叫做"编辑重建损失"。但由于不同场景的整体尺度可能不同，系统预测的结果可能在绝对坐标上有偏差。为了解决这个问题，团队引入了一个"掩码尺度对齐"步骤：在比较预测结果和真实结果之前，先在被修改区域内用最小二乘法算出一个最优的缩放系数，把预测结果整体缩放到和真实结果最接近的尺度上，再计算误差。

除了让修改的地方准确，还需要保证没有被修改的地方不要乱动，这是"内容保留损失"的职责。它要求被预测的编辑后场景，在编辑区域以外的地方，要和底层模型给出的原始三维结构保持一致。

单纯对三维坐标的误差进行约束，有时并不能保证物体表面看起来光滑自然。为此，团队增加了"法线一致性损失"——通过对相邻点之间的位置关系计算出虚拟的"表面朝向"，然后检查预测出的表面朝向和真实的表面朝向是否一致。这就像检查一件陶器的外表面，不只看每个点的位置对不对，还要看它摸起来是不是足够平滑，有没有奇怪的凸起或凹陷。

为了进一步保证不同视角之间的几何一致性，团队还加入了"相机坐标一致性损失"。这个损失把三维坐标换算到每个相机的视角坐标系下，分别对透视角度和深度进行约束，确保同一个点从不同相机看过去时，其位置推断是自洽的。

最后，为了防止系统在不需要大幅移动的区域预测出莫名其妙的巨大位移，还有一个"残差正则化损失"，给位移的大小施加一定的惩罚，鼓励系统尽量"少动不需要动的地方"。

六、实验结果：数字说话

研究团队在DeltaScene的500组测试数据上与多个现有方法进行了对比。被比较的对象涵盖了三种类型：基于逐场景优化的方法（GaussCtrl和EditSplat），基于2D搬运的方法（Omni-3DEdit），以及前馈式方法（Edit3r和NoPoSplat的扩展版）。

在语义对齐方面，研究团队使用了CLIP分数来衡量编辑结果的视觉内容和文字指令之间的匹配程度。VGGT-Edit取得了30.2分，比排名第二的Edit3r（28.9分）高出1.3分，比最弱的NoPoSplat（25.8分）高出约4.4分。这意味着系统的编辑结果在视觉上更能体现指令的语义意图。

在多视角一致性方面，使用的是C-FID和C-KID两个指标，数值越低代表各个视角之间的几何一致性越好、视觉质量越高。VGGT-Edit的C-FID为122.4，C-KID为0.048，都是所有方法中最低的。相比之下，GaussCtrl的C-FID高达145.2，Omni-3DEdit为128.1，EditSplat为138.5。在C-KID上，VGGT-Edit的0.048与第二名NoPoSplat的0.112相比，优势同样十分明显。

在速度方面，差距更加悬殊。EditSplat需要大约600秒来完成一次编辑，GaussCtrl需要约300秒，Omni-3DEdit需要约115秒。Edit3r已经相当快了，大约10秒。而VGGT-Edit只需要约5秒，比EditSplat快了120倍，比GaussCtrl快了60倍。这种速度上的优势来自于它的"前馈"特性——不需要对每个场景单独优化，只需要把输入数据往模型里跑一遍就能得到结果。

从视觉结果来看，其他方法的编辑区域经常出现边缘模糊、形状不稳定，或者看起来像是把一张二维贴纸贴在三维场景上的感觉。VGGT-Edit的编辑结果则从各个角度看都像是真实的三维物体，边界清晰，与周围环境的光影关系也更为自然。

七、消融实验：每个零件都不是多余的

研究团队还做了一系列"拆零件"实验，逐一去掉各个核心组件，看性能如何变化，从而验证每个设计决策的必要性。

去掉深度同步注意力机制（改为只在最开始注入一次语言信息），CLIP分数从30.2骤降至28.1，下降了2.1分。这说明多阶段的语言信息强化对于语义理解至关重要。去掉视角感知权重分配机制，C-FID从122.4升至127.2，说明这个机制确实有效地抑制了来自遮挡视角的噪音。去掉残差变换头（改用普通的完整场景重建头），几何一致性下降最为明显，C-FID升至131.4，背景区域也出现了不必要的形变。三个组件缺一不可，共同作用才能达到最佳效果。

八、超出训练范围的能力：零样本泛化

研究团队还发现了一个出乎意料的现象：VGGT-Edit能够执行训练时从未见过的指令类型。

训练数据里只涵盖了四种基本操作：添加、删除、修改属性和移动位置。但当研究者给系统一条训练集里没有出现过的指令——"把中间那把椅子顺时针旋转90度"——系统居然能够正确执行这个操作，生成的结果里椅子确实转了90度，而且整体形状和周围场景都保持正常。

研究团队认为，这种泛化能力来自于残差场预测的本质。系统学到的不是"遇到'移动'指令就把这些点移到那里"这样的模式匹配，而是一种更基础的能力：理解语言描述的空间意图，并把它翻译成点坐标的具体变化量。一旦掌握了这种"语言到空间变形"的映射关系，它就能处理各种形式的空间变换，即使那种变换的具体表述方式在训练中从未出现过。

说到底，VGGT-Edit做的事情可以用一句话概括：它让计算机第一次真正"听懂"了空间指令，并且直接在三维世界里动手，而不是在二维的镜像里比划。这对于那些需要快速响应人类指令的应用场景——无论是机器人需要根据语音指令调整物体位置，还是建筑师和设计师需要实时预览方案修改——都意味着一个实质性的进步。

当然，这套系统目前还有它的边界。它处理的是室内场景，主要面向可以被明确标注的物体操作，对于更模糊的指令（比如"让这个房间看起来更温馨"）的处理能力还有待探索。数据集中的场景来源也相对有限，主要来自Replica和ScanNet这两个学术数据集，在更多样化的现实场景里的表现还需要进一步验证。

不过，从技术路线上看，这项研究打通了一条此前被认为困难的路：直接在三维几何场上施加语言指令驱动的变形，用不到十秒钟完成此前需要几分钟甚至几十分钟的任务，同时保证多视角的一致性。这条路一旦走通，后续的发展空间相当开阔。

对这项研究感兴趣的读者可以通过arXiv平台检索论文编号arXiv:2605.15186来查阅完整的技术细节。

Q&A

Q1：VGGT-Edit和传统3D场景编辑方法有什么核心区别？

A：传统方法是先分别修改每张二维照片，再把修改结果拼回三维空间，各视角之间往往出现不一致。VGGT-Edit则直接在三维几何结构上操作，通过预测每个空间点的位移来完成编辑，从根本上避免了多视角之间的矛盾，速度也快得多，一般只需5秒左右。

Q2：DeltaScene数据集是怎么保证数据质量的？

A：数据集通过多道质检机制保证质量：用视觉语言模型核查目标物体是否真实存在于场景中；用三维共识投影过滤掉不一致的分割标注；用顺序传播方式保持多视角编辑结果的外观一致；最后还会计算每个视角的重投影保真度分数，剔除遮挡严重或角度极端的视角。500组测试数据还经过了人工逐条核查。

Q3：VGGT-Edit能处理训练时没见过的指令类型吗？

A：可以。实验中系统成功执行了训练集里从未出现的"顺时针旋转90度"指令。研究团队认为这是因为系统学到的是语言意图到三维空间位移的底层映射关系，而不是简单的指令模式匹配，因此具备了一定的零样本泛化能力。

三维场景编辑残差场预测多视角一致性