
这项由贝壳控股(Ke Holdings Inc.)研究团队完成的研究,以预印本形式于2026年5月19日发布在arXiv平台上,论文编号为arXiv:2605.17916v2,感兴趣的读者可以通过该编号检索完整论文。
**当你还没装修,就能先"住进去"看看**
房地产行业有一个古老的痛点:在一套房子竣工、装修完毕之前,买家几乎无法真正感受到那套房子住起来是什么感觉。户型图上那些冷冰冰的线条和数字,根本无法让人感受到阳光从窗户斜射进来的角度,也无法告诉你站在客厅门口望向卧室时的那种空间感。现如今,商业VR(虚拟现实)看房产品让这件事变得容易了一些——你可以戴上头显,站在一个虚拟的"节点"上环顾四周,再点击跳到下一个节点,就像在真实空间里走动一样。
但新的问题随之而来:如果这套房子还不存在,只有一张平面图,AI能凭空把它"生成"出来,让你戴上VR头显就能逛遍所有房间吗?这正是贝壳研究团队试图解决的难题,也是他们提出PanoWorld这套系统的核心动机。
PanoWorld要做的事,用一句话概括就是:给它一张平面图和一张风格参考图,它能自动生成一套完整的、多房间一致的全景VR漫游,每个视角拍出来的墙面材质、门洞形状、地板颜色,都能彼此对应上,不会出现"从客厅看卧室的门是白色的,转过身来从卧室看客厅那扇门却变成了棕色"这种尴尬情况。
**一、现有方法为什么都不够用**
要理解这项研究的价值,得先搞明白现有的技术路线各自卡在哪里。
目前做室内场景生成的方法大体分成两个方向。第一类是纯粹的2D图像生成,也就是用扩散模型(一种主流的AI图像生成技术)直接生成全景图片。这类方法的优势显而易见:生成的单张图片非常漂亮,光影真实,细节丰富,家具也摆放得自然。问题在于,当你换一个视角再生成一张图时,AI根本不知道上一张图里那面白墙长什么样——它每次都是"从零开始想象",于是同一面墙在不同视角下可能会变成完全不同的质感,同一扇门在不同方向看过去可能尺寸都对不上。这就好比你雇了一个画家给你画房子每个角落的效果图,但这个画家每次画之前都把上一张图忘得一干二净,结果所有图放在一起完全对不上号。
第二类方法走的是全局3D建模路线,比如NeRF(神经辐射场)或3DGS(三维高斯散射)这样的技术,直接生成一个完整的三维模型,再从任意角度渲染图片。这类方法天然具备视角一致性,因为它底层维护的是同一套三维结构。但问题是,一整栋房子包含多个房间、走廊、门洞,空间跨度大、细节复杂度高,直接生成高质量的全屋三维模型在计算开销上极其昂贵,而且生成质量往往不如专门的2D图像模型精细,纹理细节经常显得模糊或失真。打个比方,这就像你要雕刻一座精美的宫殿微缩模型,每个房间的壁画、地毯、家具都得雕得栩栩如生——工程量太大,最后往往哪里都顾不细致。
PanoWorld的思路是把这两条路的优点嫁接在一起,同时规避各自的短板。它不强求生成一个完美的全局三维模型,也不依赖每次都从头重新想象的2D生成器,而是设计了一套"边走边记、有记忆地生成"的工作流程。
**二、一套全屋漫游是怎么被"搭建"出来的**
PanoWorld的工作流程,可以用"导游带路"这个框架来理解。
旅程的起点是一张平面图。系统首先把平面图"立体化",生成一个粗糙的三维外壳——想象一个只有墙壁、地板、天花板和门洞的空房子模型,没有任何家具、装饰和材质,就像毛坯房的白模。这个白模提供的是全局的空间结构信息:哪里有墙,哪里有门,哪里是客厅,哪里是卧室,各个房间是怎么连通的。这个白模本身不是最终产品,它的作用是给后续生成提供一个可靠的"骨架"。
在白模的基础上,系统会规划出一条漫游路径,把所有需要生成的视角节点串联起来。这些节点包括用户最终会"站立"观看的目标节点,以及为了让相邻节点之间有足够视觉重叠而插入的辅助节点,相邻节点之间的间距通常在0.5到1.5米之间。路径规划遵循一个原则:从图中连通度最高、到其他节点路径代价最小的节点出发,这样生成顺序最合理,记忆的积累也最高效。
接下来是最关键的"逐节点生成"循环。在起始节点,系统结合白模渲染出的几何引导图(包含法线图和语义分割图,相当于告诉AI"这里是一面竖直的墙,那里是地板")以及用户提供的风格参考图,生成第一张全景图。这张全景图是整趟旅程的"样板",风格、色调、家具选型都从这里定下来。生成完毕后,系统立刻把这张全景图"消化"进一个三维记忆库——也就是3DGS缓存——里面存储的是若干个三维"高斯点",每个点记录了它在空间中的位置、大小、方向、颜色和透明度,合在一起就像一团形状各异的彩色气泡,可以从任意角度渲染出对应的图像。
走到下一个节点时,系统先从当前的记忆库向这个节点的方向"渲染"出一张视觉记忆图,相当于"从我目前的记忆里,这个新位置应该能看到什么"。再结合白模给出的几何引导,以及一张已生成的邻近全景图提供的局部外观参考,把这三类信息一起喂给2D图像生成器,生成这个节点的高清全景图。生成完毕后,再把新的全景图纳入记忆库更新,然后继续走向下一个节点。
这个过程一直循环到所有节点都生成完毕。整个旅程就像一位有记忆的导游带你参观房子:每到一个新房间,他既能从已有的记忆里推断这里大概什么样子,又能把新的观察继续记下来,下次再用。
**三、记忆库怎么做到"聪明地更新"而不越来越慢**
理论上,最简单的做法是每生成一个新节点,就把所有已生成的全景图重新跑一遍三维重建模型,把全局记忆从头更新一次。但这样做有个致命的问题:随着节点数量增加,每次更新的计算量会急剧膨胀,走到第二十个节点时,重建一次要处理的历史数据量已经是起点的二十倍。对于一套多房间的住宅来说,这根本不可行。
PanoWorld的解决方案是"局部更新、全局积累"的拓扑感知渐进缓存策略。具体来说,每次为新节点更新记忆库时,只使用三类输入:新节点本身、同一房间内已生成的附近节点,以及通过门洞与当前节点直接连通的边界节点。这样,每次更新的计算量是固定的、有上限的,无论整条路径走了多远,每个节点的更新代价都大致相当。
新生成的局部三维高斯点要并入全局记忆库时,系统会做一次仔细的"融合审查"。两个高斯点能够融合的条件有三个:它们属于同一个房间;它们在空间中的距离足够近(小于各自尺寸的某个倍数);它们在支撑它们的观测视角上有足够高的相似度。满足这三个条件,才算是"见过同一块地方的两个记录",可以合并。不满足条件的高斯点则各自保留,或者在透明度不足时被剪枝删除。
融合的方式也经过精心设计。几何属性——也就是高斯点的位置和形状——通过加权平均合并,权重来自各自的不透明度。颜色属性中,代表基础颜色的零阶系数会做平滑混合,但代表高频视角相关细节的高阶系数则严格继承自"支配高斯"(不透明度更高的那个)。这个设计背后的逻辑是:如果对所有颜色系数都做数值平均,结果就像把两张照片叠加取平均值,细节会被模糊化,高频纹理信息会不可逆地消失。只平均基础色、保留主导高斯的细节,才能维持记忆库渲染的清晰度。
还有一个跨房间记忆污染的问题。假设你从客厅走到卧室,客厅那面墙的纹理已经存入记忆库了。当系统试图从卧室方向向客厅那面墙渲染视觉记忆时,那些高斯点表示的是墙的"客厅面",从卧室方向看就变成了"背面",渲染出来会是不正确的纹理。为了过滤这类错误,系统把记忆库渲染深度和白模渲染深度做比较:如果记忆库里某个像素的深度超过白模对应位置的深度一定阈值,说明那个像素在当前视角的第一个可见表面之后,属于穿墙看到的错误内容,标记为无效,后续2D生成器会忽略这些位置。
**四、那个专门用来理解全屋结构的"全景重建大脑"**
要把一张全景图变成一组三维高斯点,PanoWorld设计了一个专门的模块——全景式大型重建模型(Panoramic LRM)。这个模块的特殊之处在于,它是目前已知第一个专门针对多房间全屋尺度、可同时处理多张360度全景图并一次性输出三维高斯点的前馈式神经网络。
这里有两个技术难题值得展开说。
第一个难题是全景图的边界问题。普通透视照片有清晰的左右边界,但全景图是圆形的——最右边的像素和最左边的像素实际上在空间里是紧挨着的,中间没有任何"断开"。如果用处理普通图片的方式处理全景图,模型会认为左右边缘是两个距离很远的地方,这会破坏边界附近的几何理解和图像生成的连续性。为了解决这个问题,团队设计了一种"循环全景位置编码"(CPRoPE):在水平方向用周期性的整数谐波频率替代标准的线性位置编码,让位置编号走到最右边之后自然"绕回"到最左边,就像时钟的表盘一样——12点之后接着是1点,而不是13点。这让模型在做注意力计算时能正确理解全景图的环形结构。
第二个难题是多房间之间的"信息污染"问题。这个模块需要同时接受来自同一栋房子多个房间的全景图作为输入,但不同房间被墙壁物理隔开,互相之间本来就看不到对方。如果把来自所有房间的图像token全部放在一起做自注意力计算,来自卧室的纹理信息就可能"渗透"进客厅的重建里,反之亦然,造成虚影、重复材质或几何错乱。
对此,团队提出了"房间感知分组注意力"机制:同一个房间内的所有节点token之间可以自由做密集注意力交互;不同房间之间,只有通过门洞或边界直接连通的节点才能有限地交换信息;其他跨房间的token对,注意力分数直接被掩码设为负无穷(也就是完全屏蔽)。这个设计让每个房间内部的重建信息得到充分聚合,同时通过门洞节点传递合理的跨房间约束,而不让毫无关联的两个房间互相"污染"。
训练这个模块用的损失函数也颇为讲究。它需要同时优化图像重建质量(L2像素损失和VGG19感知损失)、高斯点的稀疏性(不透明度正则化)以及几何精度(深度损失)。其中深度损失不是直接监督渲染出来的深度图,而是对每个输入像素,把预测的高斯点位置投影到相机坐标系下的深度,与该像素对应的真实深度做比较,用对数深度L1损失和尺度无关对数损失的组合来衡量,这样对远距离和近距离的深度误差都能公平地惩罚。
**五、最终那张全景图是怎么生成出来的**
PanoWorld的2D全景生成器使用Qwen-Image-Edit作为骨干,这是一个经过大量图像编辑任务微调的多模态模型。这个生成器的输入是三路信息的融合:白模给出的几何引导(告诉它空间结构)、记忆库渲染出的视觉记忆图(告诉它已观测区域的外观)、以及一张邻近的已生成全景图(提供局部风格和细节参考)。
风格信息只在起始节点生成时使用一次,之后靠邻近全景图的"接力"传递下去,确保全屋风格的一致性不依赖于反复输入风格图。几何引导和外观记忆被有意识地解耦:白模约束大尺度的墙面位置、门洞形状、地板范围,但不携带任何纹理信息;记忆库负责颜色、材质、家具细节,但不干预全局布局。这种解耦让2D生成器能够在尊重全局结构的同时,自由发挥纹理和材质的生成质量,不会因为记忆库渲染质量不完美就把最终图像质量拉低。
记忆库渲染图中那些被深度门控标记为无效的像素(比如穿墙内容),会被编码成一个特殊值(255)传入生成器,生成器会把这些位置当作"这里没有参考信息,你自由生成"来处理。
在训练阶段,这个生成器用了三类数据。3D-FRONT合成数据库提供了约6813套房子的渲染全景图和深度图,约20万张;RealSee3D数据集提供了1万套真实房屋场景、共29万余张带深度的全景图;另有250万张私有2D全景图(没有三维标注)仅用于提升生成视觉质量。训练时对每张全景图都进行了"去家具"预处理,生成类似白模的空房间图像作为几何条件,同时用SAM提取语义分割图,用MoGe-2提取法线图。
**六、实验怎么说:数字背后的真实含义**
PanoWorld的评测分两部分:全景图生成质量和全屋三维重建质量。
在全景图生成评测中,研究团队构建了一个包含7套真实平面图、3种风格设定、共126张评测全景图(分布在42个节点)的基准数据集。对比的方法包括DreamHome-Pano(有几何控制的单节点全景生成方法,但没有多节点一致性机制)、Pano2room(房间级全景外推方法)、Nano Banana 2和Seedream-4.5-Edit(两个强力多模态图像编辑模型)、以及OmniRoam(全景视频生成方法,通过逐帧生成模拟多节点漫游)。
评测指标有三个:HPSv3衡量单张图片的审美质量(与人类偏好评分高度相关);CLIP图图相似度衡量风格与参考图的一致性;重叠区域PSNR(PSNRov)衡量跨节点一致性,方法是在白模上手动选取若干1米×1米的共视区域(墙面、地板、墙上装饰),密集采样三维点,投影到不同全景图里的对应像素,计算两次观测同一位置时的像素误差。
结果显示,PanoWorld在跨节点一致性上有压倒性优势,PSNRov达到22.1365,比排名第二的OmniRoam高出约5.75个分贝。在单张图片审美质量上,Nano Banana 2以9.5483分领先所有方法,PanoWorld以7.9564分处于中游,但这个取舍是合理的——PanoWorld牺牲了一点"单张图片自由发挥"的空间,换来了跨节点几何和材质的稳定性。风格一致性方面,Nano Banana 2也以0.7940的CLIP分数略占优势,PanoWorld得分0.7577。
在全屋三维重建评测中,系统在50套未见过的RealSee3D场景上进行测试,分别测试输入8张和12张全景图的情况,与MVP、Adapt-Splat和WorldMirror 2.0三种基线方法对比。PanoWorld在8张输入下PSNR达到29.2361,SSIM达到0.8880,LPIPS为0.2225,三项指标均全面领先其他方法,优势幅度相当显著——第二名Adapt-Splat的PSNR只有21.2418,差距接近8个分贝。12张输入下PanoWorld的重建质量略低于8张(PSNR为28.8003),原因是更多视角覆盖了更大的空间范围,引入了更多跨房间可见性变化,给全局融合带来了更高的挑战,而不是简单的冗余信息叠加。
**七、拆掉每个零件来看:哪块最关键**
研究团队做了一系列消融实验,把系统的各个模块逐一"拆掉"来验证其贡献。
针对2D生成器的消融实验,拆掉三维记忆库(视觉记忆)后,PSNRov从22.1365大幅下降到18.8374,证明三维记忆是跨节点一致性的主要来源。拆掉邻近全景图输入后,PSNRov降至19.0182,说明邻近全景图提供了记忆库渲染质量不完美时的补充外观参考,同时负责把风格信息在节点间传递下去。拆掉CPRoPE全景位置编码后,PSNRov降至20.6109,说明循环位置编码对维持全景图边界处的几何连贯性和跨节点对齐有实质帮助,但对单张图片的审美质量(HPSv3)影响甚微——这也验证了CPRoPE的作用确实是边界连续性而非视觉美感。
针对全景LRM的消融实验,结果更为极端。拆掉房间感知分组注意力机制(RAGA),只保留标准全局自注意力,PSNR从29.2361暴跌至21.7084,下降超过7.5个分贝。这说明拓扑感知的跨房间特征隔离是多房间全屋重建质量的关键支撑;一旦不同房间的信息可以自由混合,重建质量就会退回到与其他基线方法相近的水平。拆掉CPRoPE后,PSNR降至28.1739,也有明显但不及RAGA那么剧烈的下降。
**八、这套系统现在还做不到什么**
PanoWorld的论文对自身的局限性也有坦诚的描述。
首先,整个系统的质量高度依赖平面图的准确性和白模转换的质量。如果平面图有误差,或者门洞拓扑关系记录不完整,生成出来的几何骨架就会出错,后续所有节点的生成都会受影响。
其次,节点之间的间距如果设置得太大,相邻节点的视觉重叠面积会变小,记忆库从已有节点向新节点的渲染也会变得稀疏,导致引导效果变弱,新节点生成时"自由发挥"的部分增多,跨节点一致性随之下降。
此外,动态物体、镜子、透明材质(比如玻璃幕墙、水面)以及大件家具的复杂遮挡关系,对当前系统来说仍然是挑战。这些情形下三维高斯点的建模质量会下降,记忆库的引导也会变得不可靠。
研究团队在讨论部分提出了几个未来的改进方向:把平面图到白模的估计过程和生成过程联合优化,减少对独立工程流水线的依赖;引入对象级别的可编辑语义,允许用户修改某个房间的家具摆放而不影响其他房间;以及开发更强的交互式重新风格化能力,让用户能快速在同一套空间结构上切换不同的装修风格。
说到底,PanoWorld做的事情本质上是给AI图像生成装上了一套"空间记忆",让它不再是那个每画一张就忘记上一张的画家。它选择了一种非常务实的路径:不强求生成一个完美的三维模型,而是让三维模型扮演"记事本"的角色,最终交付给用户的仍然是高质量的2D全景图,只不过这些图彼此之间终于能"认出"同一堵墙、同一扇门。对于真实VR看房产品来说,这恰恰是最关键的那一步。
如果有一天你打开一款看房App,戴上头显在一套尚未建造的房子里慢慢转圈,从客厅走进卧室,再绕到厨房,发现每扇门的颜色、每片墙的纹理在不同角度看起来都对得上,那背后很可能运用了类似PanoWorld这样的技术逻辑。当然,这项研究仍处于学术阶段,从实验室到消费级产品还有相当长的路要走,但它指出的方向已经足够清晰。感兴趣的读者可以通过arXiv:2605.17916v2查阅完整的技术细节。
Q&A
Q1:PanoWorld生成的全景图和普通AI生成的全景图有什么区别?
A:普通AI每次生成全景图都是独立的,换个角度就会"重新想象",导致同一面墙在不同节点看颜色和材质可能对不上。PanoWorld维护了一个三维记忆库,每次生成新节点时都会参考已有记录,因此跨节点一致性大幅提升,实验中重叠区域PSNR比最强对比方法高出约5.75个分贝。
Q2:PanoWorld需要什么输入才能生成全屋漫游?
A:主要需要两类输入:一张平面图(用来生成房间骨架和空间结构),以及一张风格参考图(用来确定装修风格、色调和材质方向)。风格参考图只在第一个节点使用,之后靠相邻全景图接力传递风格信息,不需要对每个节点单独指定风格。
Q3:全景LRM中的房间感知分组注意力机制有多重要?
A:非常关键。消融实验显示,把房间感知分组注意力替换为标准全局自注意力后,重建质量的PSNR从29.24分暴跌至21.71分,下降超过7.5个分贝,说明拓扑感知的跨房间特征隔离是多房间全屋重建质量的核心支撑,一旦不同房间信息自由混合,重建质量就会大幅退化。
好文章,需要你的鼓励
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。
亚历山大大学提出M2Retinexformer,通过融合深度、亮度和语义三种辅助模态,让AI在增强暗光图像时兼顾几何结构与视觉自然度。
浙大、西湖大学等联合提出FAAST,无需反向传播,一次正向扫描将训练样本压缩为快速权重矩阵,推理时间和内存占用分别节省90%和95%以上。
慕尼黑工业大学发布RealICU基准,用专家后见之明评测大语言模型在ICU实时决策中的真实能力,发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。