微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海AI Lab携手多校联合攻关:手机随手拍几张照片,AI就能帮你重建完整3D场景?

上海AI Lab携手多校联合攻关:手机随手拍几张照片,AI就能帮你重建完整3D场景?

2026-04-30 10:25
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-30 10:25 科技行者

这项由上海人工智能实验室联合香港中文大学MMLab、上海交通大学与香港大学共同完成的研究,以arXiv预印本形式于2026年4月21日发布,论文编号为arXiv:2604.19747,感兴趣的读者可通过该编号查阅完整论文。

**背景故事:当AI遇到"残缺的地图"**

手机随手拍了几张旅游照,能不能让电脑从这几张照片里还原出整个景区的三维模型?这个问题听起来像是科幻电影里的情节,但它其实是计算机视觉领域长期以来悬而未决的核心难题之一。

要理解这个难题有多棘手,可以做这样一个思考实验:假设你从来没有去过长城,只拿到了三张从不同角度拍摄的照片,现在有人让你凭这三张照片画出长城的完整立体模型,包括那些照片里根本看不到的背面和侧面。这件事对人类来说几乎不可能做到,因为我们缺少足够的信息。对于计算机来说,同样的挑战被称为"稀疏视图三维重建"——用数量极少、拍摄角度杂乱的照片来还原三维场景。

这个问题之所以重要,是因为我们日常生活中产生的大量图像和视频,恰恰就属于这种"稀疏且杂乱"的类型。出游时随手拍的几张照片、录的一段走马观花的视频、网络上流传的零星影像,都不是为三维重建精心准备的"标准输入"。如果能从这些随意的抓拍中重建出可以自由漫游的三维场景,那几乎每个人的每一次拍摄都可能成为创建沉浸式虚拟体验的素材,这对文旅、游戏、影视、虚拟现实等行业都意味着巨大的机遇。

传统的三维重建方法,比如大名鼎鼎的NeRF(神经辐射场)和3D高斯散点法,需要大量从不同角度密集拍摄的照片,而且对拍摄条件要求很高——这就好比要求用专业摄影团队架设几十台相机同时拍摄,才能还原一个场景。这样的条件在现实中往往难以满足。

正是在这个背景下,上述联合团队提出了一个名为AnyRecon的新框架,试图用一种全新的思路回答这个问题。

---

**一、照片太少怎么办——让AI"脑补"缺失的视角**

解决稀疏视图重建问题,目前学界最流行的思路是:既然真实照片不够,就让AI来"生成"缺失视角的照片,再用这些AI生成的照片来辅助三维重建。这有点像你手里只有一张脸的正面照,但你需要知道侧面长什么样,于是找一个见过这张脸的朋友,让他凭记忆画出侧面——这个"有见过"的AI朋友,就是扩散模型(Diffusion Model)。

扩散模型是近年来AI生成图像和视频的核心技术,它通过大量学习真实图像来掌握"世界长什么样",然后可以根据给定的条件生成全新的逼真图像或视频。在三维重建领域,研究者们已经开始尝试用这类模型来生成"没有拍到的视角",从而填补重建所需的空白。

然而,现有的方法普遍存在一个共同的局限:它们在生成新视角的时候,只能参考一两张真实拍摄的照片作为"参考依据"。这就好比你让那个朋友凭记忆画侧脸,但他只见过你一次,而且只见了正面的左半边——这种情况下画出来的侧脸,难免会有偏差,或者在不同角度之间出现不一致的情况。

AnyRecon的核心突破之一,就是让AI能够同时参考任意数量、任意顺序的真实照片来生成新视角,而不再受限于"只能看一两张"的枷锁。这个改进乍看起来简单,实际上牵扯到一系列深层的技术挑战,下面我们一一道来。

---

**二、让AI记住"整个场景"——全局场景记忆的巧思**

要让AI在生成新视角时能同时参考多张照片,首先需要解决的问题是:怎么让AI"记住"所有这些照片里的信息?

在视频生成模型中,帧与帧之间的信息交流是通过一种叫做"注意力机制"的方式实现的——你可以把它理解为AI在处理每一帧画面时,会"回头看"其他帧的内容,从中获取参考信息。问题在于,传统的视频模型假设相邻帧之间的画面变化是连续平滑的,就像正常拍摄的视频那样。但在稀疏视图的场景中,不同照片之间可能存在巨大的视角跳跃,前一张照片是从左边拍的,下一张可能是从完全相反的方向拍的,画面内容可能大相径庭。这种"时间上的不连续性"会让依赖连续性假设的视频模型陷入混乱。

AnyRecon的解决方案是构建一个"全局场景记忆"机制。具体做法是:把所有参考照片放在生成序列的最前面,让它们扮演"永久存在的背景知识"这一角色,供后续生成每一帧新视角时随时查阅。这有点像在考试前把所有重要知识点整理成一份"备忘小抄",放在桌子一角,在需要时随时翻看——无论当前正在做哪道题,小抄都一直在那里。

这个设计使得模型在生成任意新视角时,都能同时获得所有参考照片的信息,而不仅仅局限于时间上"相邻"的帧。参考照片的数量可以灵活变化,不管是两张还是十张,模型都能应对。

---

**三、压缩带来的代价——为什么要"抛弃"时间压缩**

在视频AI模型中,为了减少计算量,工程师们通常会对视频帧进行"压缩"处理——把相邻几帧的信息合并在一起,形成一个更紧凑的表示。这种时间维度上的压缩在普通视频生成中完全没有问题,因为相邻帧之间的变化本来就很小,合并它们的信息是安全的。

但在稀疏视图场景中,这种压缩变成了一个严重的问题。当相邻帧可能是从完全不同方向拍摄的画面时,把它们的信息强行压缩在一起,就会导致不同视角的信息互相干扰、彼此污染。这就好比你把一张仰视图和一张俯视图叠加在一起——结果既不是仰视图,也不是俯视图,而是一团说不清楚的混乱。

AnyRecon的应对策略是彻底放弃时间维度的压缩,使用一种针对单帧画面的编码方式(帧级二维VAE),确保每一张照片的信息都被独立完整地保留,不与其他帧发生混叠。这样一来,无论输入照片的视角差距有多大,模型都能清楚地分辨每张照片中的精确信息,从而实现准确的几何对齐。

为了直观说明这个改进有多重要,论文中展示了一组对比实验:使用完整时间压缩的模型,在还原场景中的金属网格结构时,细密的网格线会出现断裂、模糊甚至消失的情况;使用部分压缩(只对渲染图压缩,保留真实照片的完整信息)的模型情况有所改善,但问题依然存在;而完全去除时间压缩后,金属网格的精细结构得到了清晰还原,每一根格线都清晰可辨。

---

**四、重建一大片场景的秘诀——几何感知的闭环策略**

搞定了单段场景的生成,下一个挑战接踵而至:如何重建一个大型复杂场景,比如一栋楼的多个房间,或者一个长达数百帧的行走路径?

大型场景的重建不能一口气完成,必须分段处理。但分段处理带来一个新问题:如果每一段都独立生成,相邻段之间的场景可能出现矛盾——今天生成的那段走廊里摆着一把椅子,明天生成的相邻那段走廊里那把椅子不翼而飞,或者颜色变了,或者出现在不同位置。这就是所谓的"漂移"问题,随着处理段数的增加,误差会不断积累,最终让整个场景失去一致性。

AnyRecon的解决之道是建立一种"几何感知的闭环机制"——让生成和重建这两个过程持续互相影响、相互校正,形成一个自我纠正的循环系统。

这个循环的运作方式是这样的:所有真实拍摄的照片首先被用来构建一个初始的三维点云(可以理解为用无数个空间中的小点来描述场景的三维形状)。然后对于每一段需要生成的新视角,系统会先从这个三维点云出发,将其"投影"到目标视角,生成一张粗略的草图,告诉AI这个方向上大致能看到什么形状。AI再根据这张草图以及参考照片,生成更加精细、逼真的新视角图像。生成完成后,新生成的图像不会被简单丢弃,而是被重新整合回三维点云中,更新它的内容。当下一段视角开始生成时,它就能用到已经包含之前所有生成结果的、更完整的三维点云作为参考。

这个设计的妙处在于:不同段之间通过共享同一个三维点云来保持一致性,而点云本身又在不断被新生成的内容所丰富和校正,形成一个越用越精准的正向循环。论文中展示的对比实验清晰地说明了这个机制的重要性:没有几何记忆更新机制的系统,在第二段生成中就出现了与第一段明显的颜色和结构不一致;加入更新机制后,相邻段之间的过渡自然流畅,椅子还是那把椅子,颜色还是那个颜色。

---

**五、挑参考照片的学问——几何驱动的视角筛选**

在重建大型场景时,研究者积累的参考照片可能有成百上千张,但每次生成新视角时,模型只能处理其中的一小部分。那么,面对众多候选照片,如何挑出最有用的那几张?

一种直觉上的做法是选择和目标视角"看起来最像"的那几张,或者选择拍摄位置离目标最近的照片。这种方法有其合理性,但存在一个致命盲点:它忽视了遮挡问题。一张照片可能在位置上离目标视角很近,但因为中间隔了一堵墙,它拍到的内容对当前目标视角其实毫无帮助,甚至会引入混淆。

AnyRecon引入了一种基于三维几何信息的视角筛选方法:把三维点云投影到目标视角,生成一张"来源索引图"——这张图的每个像素都标注了它所对应的三维点是来自哪张参考照片的。通过统计每张参考照片对目标视角可见区域的贡献比例,系统可以精确知道哪些参考照片真正"看见"了目标视角所需要的内容,而哪些照片虽然在空间上靠近,但由于遮挡等原因实际上没有有效贡献。

论文中用一个生动的例子说明了这个差异:面对同一个目标视角,按照传统角度或外观相似度来筛选,可能会选出四张参考照片;但用几何贡献度来筛选,会发现其中有一张因为被其他物体遮挡而实际上对重建毫无帮助,应当排除在外。排除这种"无效参考"之后,模型的注意力可以更集中在真正有用的信息上,生成的结果也更准确可靠。

---

**六、速度与质量的平衡——高效推理的工程实现**

去掉时间压缩虽然提升了质量,但也带来了显著的计算量增加:处理的序列长度变长了,注意力机制的计算复杂度随之按平方比例激增。一个原本还算快速的模型,可能因此变得慢得无法接受。

为了解决效率问题,AnyRecon引入了两项互补的加速措施,配合使用实现了高达二十倍的速度提升。

第一项是上下文窗口稀疏注意力机制。传统的注意力机制让每一帧画面都和所有其他帧产生关联,这是导致计算量爆炸的根源。稀疏注意力的思路是:对于每一帧目标视角,只让它关注时间上相邻的前后各八帧,加上经过几何筛选确认有效的参考照片。这样,大部分不相关的信息被过滤掉,计算复杂度大幅下降,而由于过滤是基于几何相关性进行的,核心信息并未丢失。

第二项是四步扩散蒸馏。标准的扩散模型需要经过五十步甚至更多步的迭代"去噪"才能生成高质量的图像,每一步都需要完整地运行整个模型,计算代价非常高昂。蒸馏技术可以把这个过程大幅压缩——AnyRecon将五十步压缩到了仅仅四步,通过在训练阶段让一个"学生"模型学习"教师"模型的生成行为,使得学生模型在少得多的步骤内就能达到近似的效果。

实验数据表明,这两项技术的组合效果显著:加入四步蒸馏后,推理时间从原来的约一千八百秒降至约一百四十秒,图像质量的下降仅有不到0.25分贝的峰值信噪比损失,几乎可以忽略不计。再加上稀疏注意力,推理时间进一步压缩至九十秒左右,而视觉质量依然保持在高水平。

---

**七、和其他方法的正面比拼——实验结果说话**

验证一个新方法的效果,最直接的方式是把它和现有最好的方法放在同一条赛道上比较。研究团队选取了三个主要竞争对手来进行对比测试。

第一个对手是Difix3D+,这是一种以精细几何重建为特色的图像合成方法。第二个是ViewCrafter,它借助视频扩散模型来完成视角插值任务。第三个是Uni3C,一个以跨域三维一致性为目标的统一框架。

测试在两个公开数据集上进行:DL3DV数据集包含大量室内外高质量场景,测试用了其中十个场景;坦克与寺庙数据集是一个专注于大型室外场景重建的经典测试集,测试用了其中五个场景。每个场景采样四十帧,在视角插值(给定第一帧、第二十一帧和第四十帧来填补中间视角)和视角外推(给定前三十一帧来生成之后的视角)两种模式下分别进行测试。

评测使用了三个标准指标:峰值信噪比衡量像素级别的精度,结构相似性指数衡量图像结构的完整性,感知相似性指数衡量更贴近人类感知的图像质量。

在DL3DV数据集的视角插值测试中,AnyRecon的峰值信噪比达到20.95分贝,远高于Difix3D+的17.88、ViewCrafter的15.86和Uni3C的16.33。结构相似性指数方面,AnyRecon为0.656,同样领先于所有对手,而感知相似性指数为0.151,也显著优于其他方法。视角外推测试中,AnyRecon的峰值信噪比进一步提升至21.16,展现出在未观测区域生成方面的优异能力。

在坦克与寺庙数据集上,结论同样一致。而在推理速度方面,AnyRecon每个场景仅需105秒,而Difix3D+需要约1200秒(还不包括初始重建的时间),ViewCrafter需要170秒,Uni3C需要340秒。AnyRecon在效率上同样占据明显优势。

从定性的视觉对比来看,Difix3D+在视角间隙较大时会出现明显的几何伪影,ViewCrafter和Uni3C虽然借助视频扩散模型避免了最严重的几何错误,但由于无法充分利用多张参考照片,生成的视角在颜色和细节上与真实照片存在明显偏差。AnyRecon则在细节还原和跨视角一致性两方面都表现出色。

---

**八、拆开来看每个设计选择——消融实验的发现**

除了总体对比,研究团队还系统地测试了AnyRecon中每个设计选择的实际贡献,这类测试在学术上称为"消融实验"——把某个组件去掉,看看少了它之后效果会变差多少。

关于时间压缩的消融实验,已经在前面详细描述过,结论是去除时间压缩对保留精细几何细节至关重要,尤其在处理薄结构(如金属网格、细杆状物体)时差异最为明显。

关于全局场景记忆的消融实验,研究团队设置了一个对比组:同样使用三张参考照片生成的三维点云作为几何指导,但在生成过程中不保留这三张原始照片作为视觉参考,只用点云渲染出的草图。结果显示,缺少真实照片参考时,点云投影图中存在的浮动点、模糊边界、颜色不一致等问题会直接反映在生成结果中,导致餐具细节缺失、墙面颜色偏移等肉眼可见的质量下降。峰值信噪比从有全局记忆时的20.95降至20.18,感知相似性指数从0.151恶化至0.205。这个差距说明真实照片的高频纹理信息是无可替代的,点云草图只能提供形状轮廓,无法替代原始图像的色彩和纹理细节。

关于推理效率的消融实验,则清晰地呈现了各项加速技术的贡献:去除时间压缩后的完整模型在五十步推理下需要约一千八百余秒,质量最高;加入四步蒸馏后降至一百四十秒,质量基本持平;再加入稀疏注意力后进一步降至九十秒,质量小幅下降但仍远优于所有对比基线。这个权衡显示,对于实际应用来说,质量和速度之间的折衷是非常值得的。

---

**九、局限与未来的方向**

任何方法都有其适用边界,AnyRecon也不例外。研究团队在论文中坦诚地指出了一个主要局限:整个框架的性能高度依赖初始三维几何记忆的质量。

具体来说,系统对小幅度的几何误差——比如相机位姿估计不准、点云有少量噪点或局部缺失——表现出一定的容忍度,不会因此出现灾难性的失败。但如果输入照片之间的重叠区域极少,以至于初始三维重建根本无法建立一个基本的结构框架,那么后续的几何指导就会失去根基,生成的质量也会随之急剧下降。这个问题在极端稀疏的输入场景中尤其突出,比如相邻两张照片几乎拍的是完全不同的区域,没有任何重叠。这是AnyRecon目前仍需进一步改进的地方。

---

说到底,AnyRecon做的事情用一句话就能概括:让AI能够更聪明、更有条理地从零散照片中重建三维世界。这件事听起来简单,背后却需要应对信息碎片化、视角不连续、场景规模过大、计算量过高等一系列相互牵制的挑战,而AnyRecon在每个环节都给出了经过实验验证的解决方案。

对于普通人而言,这项研究最直接的意义或许是:未来某天,用手机随手拍的几张照片,就真的可以变成一个可以自由"走进去"游览的虚拟场景,而这个过程只需要几分钟,而不是现在的几小时或几天。更长远地看,它为将日常生活中产生的海量非结构化视觉数据转化为有用的三维信息打开了一扇新的大门。

感兴趣的读者如果希望深入了解技术细节,可以通过论文编号arXiv:2604.19747查阅完整原文,其中包含更多实验数据、模型架构细节和可视化结果。

---

Q&A

Q1:AnyRecon和普通的三维重建方法有什么本质区别?

A:传统三维重建(如NeRF、3D高斯散点法)需要大量从不同角度密集拍摄的照片,对拍摄条件要求很高。AnyRecon则专门针对照片数量极少、拍摄角度杂乱的场景,通过AI生成补全缺失视角,同时借助三维点云几何信息来保证生成内容的空间一致性,两者面向的使用场景和技术原理都有本质不同。

Q2:AnyRecon的二十倍速度提升是怎么实现的?

A:这个提升来自两项技术的组合:第一是把扩散模型的五十步推理压缩到四步(扩散蒸馏),每次生成只需运行四遍而非五十遍模型;第二是稀疏注意力机制,让每帧画面只和有几何相关性的少数帧交互,而非和所有帧都交互,大幅降低了计算复杂度。两者叠加后,单个场景的推理时间从约一千八百秒压缩至约九十秒。

Q3:AnyRecon在什么情况下效果会变差?

A:当输入的照片之间几乎没有重叠区域时,系统无法建立有效的初始三维几何结构,后续的几何引导就会失效,生成质量会明显下降。此外,严重的相机位姿估计错误或大量噪点也会影响三维点云的质量,进而影响最终结果。换句话说,系统对小幅几何误差有一定容忍度,但在极端情况下仍会遭遇失败。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-