微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

浙大、港科大等联合机构告诉你：AI学"看"3D场景，到底该怎样聪明地"选角度"？

三维场景理解全景深度估计视点选择算法

浙大、港科大等联合机构告诉你：AI学"看"3D场景，到底该怎样聪明地"选角度"？

作者：科技行者

2026-05-22 17:45

分享至：

这项联合研究提出了COVER方法和CM-EVS数据集，用贪心算法从3D场景中智能筛选全景视角，每场景仅需25帧即可完整覆盖室内场景，并附完整溯源日志。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-22 17:45 • 科技行者

这项由浙江大学、香港科技大学（含广州校区）、新疆大学、武汉轻工大学、天津大学以及产业机构Vorynel联合完成的研究，以预印本形式发布于2025年5月，论文编号为arXiv:2605.15597，有兴趣深入了解的读者可通过该编号检索完整原文。

现代人工智能要理解三维世界，就需要大量的"视觉原材料"——也就是从不同角度拍摄场景所得到的图像、深度信息和拍摄位置数据。然而，这些原材料如何收集，往往被研究者视为理所当然、不需要认真设计的环节。这篇论文偏偏就是冲着这个"被忽视的环节"来的。研究团队发现，拍摄角度的选择方式，从根本上决定了AI最终学到的东西好不好、准不准、有没有重复浪费。他们为此设计了一套名为COVER的全新方法，并用它构建了一个叫做CM-EVS的全景图像数据集。接下来，就用一个贯穿全文的比喻来解释这套系统——把整件事理解为"给一栋陌生的房子拍房产照片"。

一、为什么"随便拍"不行？——给房子拍照时的困境

假设你是一名房产摄影师，被委托为一套三居室拍一组"完整展示整套房子"的照片。你可以选择在每个房间多拍几十张，确保万无一失；也可以只在门口拍一张，简单了事。但这两种做法都有问题：前者照片太多、大量重复，翻来覆去都是同一面墙；后者照片太少，看不出卧室和卫生间长什么样。真正的好摄影师会仔细考虑：站在哪里能拍到最多新内容？哪些角度是重复的？哪些角度会因为光线或遮挡让照片失真？

AI的3D视觉学习面临完全相同的困境，只是规模更大、更复杂。研究团队发现，当前大量3D场景数据集都存在三类共同问题。第一类是"密集轨迹重复"，也就是像拍视频一样，镜头慢慢扫过房间，相邻帧之间几乎完全一样，大量帧都在描述同一面墙、同一个角落，信息高度冗余。第二类是"各家标准不统一"，不同数据集有各自的拍摄规则、深度格式、坐标系定义，拿来训练AI就好比同一道菜用了好几套不同的食谱，量杯单位都不一样，结果当然混乱。第三类是"启发式选点不靠谱"，有些数据集用简单规则来决定在哪里拍（比如每隔一米拍一张），这可能漏掉走廊拐角等关键区域，也可能在同一区域拍了太多重叠的照片，而且这种选法常常产生"深度矛盾"——同一个物体，从不同角度拍出来的距离数据对不上，就像你从左边量这扇门是2米远，从右边量却是1.5米，两张照片都有，AI就不知道该信哪张。

正是因为这三个问题，现有的大量3D场景数据集——无论是Matterport3D、ScanNet++、HM3D还是Hypersim这些业内赫赫有名的资源——都没能提供一个"简洁、可比较、几何一致"的全景训练接口。研究团队把自己的工作定位在一个常被忽视的位置：3D资产（房子的几何模型）和AI训练之间的"观测层"。他们要做的，就是把一个3D场景"翻译"成一组聪明挑选出来的全景图像，既不遗漏重要区域，又不重复浪费。

二、什么是全景图像，为什么要用它？——一张照片看遍四面八方

普通照片就像站在房间里往一个方向看，只能拍到前方一扇窗、一面墙。全景图像则不同，它用一种叫做"等距柱状投影"（ERP）的方式，把从某一点出发、四面八方360度所有方向的视觉信息都压缩进一张矩形图片里，就像把地球仪展开成世界地图那样——虽然边缘会有些变形，但信息是完整的。

这种全景图像对AI学习三维场景有独特价值。一张ERP图像不只包含颜色，还同时包含每个方向的"真实距离"（叫做度量深度，也就是从相机到那个方向最近物体的实际米数），以及相机当时所在位置和朝向（叫做位姿）。三种信息打包在一起，就给了AI一个非常丰富的"房间快照"——不仅知道这里有一张桌子，还知道桌子离相机有多远、相机站在哪里。这种格式在全景深度估计、全景场景重建、360度场景生成等任务中都非常有用。

然而，拥有好的格式还不够。如何聪明地决定在哪些位置拍这些全景图，才是这篇论文真正要回答的问题。

三、COVER：一个懂得"查漏补缺"又能"避免矛盾"的选点方法

研究团队给自己的方法起了一个巧妙的名字——COVER，中文意思是"覆盖"，全称是"基于等距柱状投影深度变形的覆盖导向视角筛选"。这个名字本身就道出了核心逻辑：选出能最大化场景覆盖、同时避免深度数据自相矛盾的拍摄位置。

还是用房产摄影师的比喻来理解COVER的工作方式。摄影师手里拿着一张房子的3D模型，以及一份候选拍摄位置清单（可能有几百个点）。他们面临的任务是：在有限的拍摄次数（比如只能拍25张）内，选出最有价值的25个位置。

COVER的做法分成三个核心步骤，循环进行。首先是"累积已知信息"——每拍一张，把这张全景图里测量到的所有深度信息转化成一片点云（你可以把点云想象成用密密麻麻的点描绘出房间形状的三维地图），把这张地图存下来。其次是"用已知信息预判新候选点的价值"——对于还没拍的每一个候选位置，COVER会做一个快速的低分辨率模拟：把之前积累的点云"投影"到这个候选位置的视角里，看看这个位置能看到多少"已经记录过的内容"（叫做历史可见区域），再快速渲染一下这个位置本身能看到什么（叫做探针帧）。两者一对比，就能计算出三种像素：已经解释过的像素（双方吻合）、全新的像素（候选点能看到但历史记录里没有的）、以及矛盾的像素（候选点测量的距离和历史记录不一样，差距超过了阈值）。最后是"打分、选最优、更新地图"——COVER用一个简单的公式给每个候选点打分：新像素的比例（越高越好，代表能看到更多新内容）减去矛盾像素的比例乘以一个惩罚系数（这个系数叫做λ，默认值是0.35）。得分最高的位置胜出，真正高分辨率地渲染这张全景图，把新观测到的点云加入地图，然后进入下一轮循环。

这里有一个细节值得特别说明：为什么不直接对所有候选点都做高分辨率渲染、然后再选最好的？答案是代价太高——一个典型场景可能有数千个候选点，每次循环都全部高清渲染，计算量是最终只渲染K张选定图像的100到1000倍。COVER用低分辨率的快速预判代替高清渲染，虽然会引入一点点误差，但这个误差是可以理论分析和控制的。研究团队在论文中严格证明了一条定理（引理1）：即使存在这种预判误差，COVER最终选出的K张图像所覆盖的场景内容，仍然不低于理论最优选法的覆盖量的(1-1/e)倍（大约是63%），再减去一个与误差和矛盾率相关的附加损失项。换句话说，COVER的性能是有数学保证的，不会比理论最优差太多。实验数据也印证了这一点：COVER的快速预判方法在31个Blender室内场景上测试，相比"全部高清预渲染"的精确方法，最终覆盖率的差距只有8.1个百分点，但计算速度快了133倍。

深度矛盾阈值δ被设定为场景包围盒对角线长度的0.5%，不同来源的数据有各自的微调值。λ=0.35这个默认值不是拍脑袋定的，而是经过系统性实验验证的——研究团队在λ=0、0.05、0.1、0.2、0.35、0.5、0.75、1.0共8个取值上做了对比实验，发现λ=0时系统直接"崩溃"，选出的点高度集中在场景中某个偏角落的小区域里，覆盖率只有不到20%；而λ在0.1到0.5之间形成一个宽阔的稳定平台，覆盖率都在37%到43%之间，λ=0.35处于这个平台的中间，是保守而稳健的选择。

COVER还有一个实用的"自动停止"机制：当新增的覆盖率收益连续两步都低于1%时，就自动停止继续选点。这让同一套方法能自适应地处理大小不同的场景——小房间早早饱和、大型开放式办公室则会多选几张，而不是所有场景都强行选同样数量的照片。

四、COVER的完整流程：从原始3D资产到标准全景数据

整个COVER流程分三个阶段运行。第一阶段叫"资产标准化"，负责把来自不同来源的3D场景（可能是Blender的.blend文件、3D扫描得到的.ply点云、或者仿真环境的模型）统一转换到同一套坐标系和格式下。最终采用的世界坐标系是右手系，+X向右，+Y向上，+Z向前；相机坐标系遵循OpenCV惯例；位姿用一个四元数（四个数描述方向）加上相机位置来表示；全景图用经纬度对应到像素的标准球面投影方式。

第二阶段叫"候选点生成"，负责在3D场景里撒出一批"备选拍摄位置"，然后用一个26方向+2个垂直方向共28条光线的几何合法性检验过滤掉不合理的位置。具体来说，七层过滤规则分别拒绝以下情况：相机嵌进墙里或屋顶、相机贴近几何体内部、相机卡在角落（超过一半方向都被近距墙体遮挡）、相机被完全封闭的小空间包围、相机离墙太近、相机视野里几乎看不到有效深度范围内的表面、以及相机处于狭窄缝隙末端。针对不同来源，候选点的生成方式各有差异——Blender室内场景用水平网格加上多层高度采样；HM3D仿真场景利用导航网格和房间标签来提出候选；ScanNet++真实扫描场景则从点云或网格上采样候选位置。

第三阶段就是之前介绍的"预算内贪心选点"循环，也就是COVER的核心算法。从一个被选为种子点的初始位置出发（选距场景包围盒中心最近的32个候选中单视角覆盖最大的那个），反复执行"低分辨率评分→选最高分→高分辨率渲染→更新点云地图"的循环，直到预算用完或收益降到阈值以下。

除了上述三个阶段适用的"策展适配器"（针对Blender室内、HM3D、ScanNet++），研究团队还为另外两个数据源提供了"重编码适配器"（针对TartanGround和OB3D）。这两个来源本身已经提供了密集的轨迹式RGB-D-位姿序列，所以不需要再运行COVER来选点，只需要把它们的格式统一转换成CM-EVS的标准格式即可。转换时，立方体贴图渲染被重新编码为等距柱状全景图，位姿被重新表达为统一的右手Y轴向上的世界到相机变换，然后完整的轨迹序列作为户外全景数据一起发布。

五、CM-EVS数据集：这批精挑细选的全景照片长什么样？

用COVER处理完所有来源之后，得到的就是CM-EVS（Coverage-curated Metric ERP View Set，覆盖导向度量等距柱状图视图集）。这是一个包含多个来源、统一格式、附带完整溯源日志的全景RGB-D-位姿数据集。

就数量而言，室内策展核心部分包含来自1275个场景的36373帧全景图像，具体分布是：Blender室内场景374个、共13631帧，图像分辨率2048×1024，中位数深度1.85米，以CC-BY 4.0协议完全公开；HM3D场景401个、共14475帧，分辨率1024×512，中位数深度1.63米，因版权限制提供重生成脚本；ScanNet++场景500个、共8267帧，分辨率1024×512，中位数深度1.38米，同样提供重生成脚本。户外扩展部分来自TartanGround的63个环境共783944帧（完整轨迹，每环境中位数9360帧）和OB3D的12个场景共2400帧。加总起来，整个数据集包含1350个场景单元共822717帧。

每一帧图像都附带三种模态的信息：全景RGB图像（完整的360度彩色图）、米制度量深度图（每个像素方向上最近表面的实际米数，float32格式）、以及校准好的相机位姿。对于由COVER生成的室内帧，还额外附带每一步的溯源日志，记录了该步骤的覆盖收益Gt、深度冲突率Lt、综合评分st，以及所有候选点的位置信息和最终被选中的视点。这意味着用户不仅拿到了数据，还拿到了"这些数据是怎么被选出来的"的完整记录，可以用来复现、诊断，或者替换成其他选点策略在同一批候选点上重新跑。

场景类型多样性是CM-EVS的一大特点。研究团队将所有场景手动归入13个统一的粗粒度房间类型（卧室、客厅、厨房、餐厅、浴室、办公室、走廊、储藏间/杂物间、商业/停车、教室、阶梯/楼梯、阁楼/地下室、图书馆/书房，以及科幻、奇幻、游戏、动漫等风格化类别），CM-EVS是对比的五个基准数据集中唯一覆盖全部13个类别的。其香农熵为3.10比特，与Matterport3D（3.15比特）和Hypersim（2.98比特）处于同一档次，基尼集中度系数为0.49（越低代表分布越均匀）。Blender室内数据补充了真实扫描场景缺乏的商业空间、阁楼、地下室、图书馆等类型，而HM3D和ScanNet++则提供了大量住宅类房间（卧室+客厅+厨房合计超过60%）。

低冗余度是CM-EVS最鲜明的特征。室内场景每个场景中位数只有25帧，最少的ScanNet++场景可以低到12帧，最多的复杂Blender室内场景也不超过53帧（IQR跨度是27到53帧）。相比之下，Hypersim每场景168帧、Matrix-Pano约138帧、360DVD约100帧、Matterport3D约120帧，CM-EVS大约只用了这些数据集的四分之一到七分之一的帧数。从一个具体例子来看：在一个开放式办公室场景（有接待区、会议室、工作站群组、小厨房四个功能区）中，K=8时在大约第6步就覆盖了全部四个功能区；K=30时，覆盖收益在大约第22步就降到了1%阈值以下，说明此时场景已经被充分覆盖，继续拍只是浪费。

六、与现有方法的对比：COVER的优势在哪里体现？

研究团队在实验中将COVER与四种基线方法进行了系统对比，所有方法在同一批候选点、同一个初始种子点上运行，以确保公平。

第一种基线是"随机选点"：从候选点里随机选K个，完全不考虑覆盖或冲突。第二种是"单视角探针"：只从初始种子点的视角出发评估所有候选点，然后选前K个，相当于用第一张照片的视角判断后续所有照片的价值，不迭代更新。第三种是"纯覆盖贪心"：完全按照每步新增覆盖率排名，不考虑深度冲突（等价于λ=0的COVER）。第四种是"纯低冲突"：完全按照深度冲突率最低来排名，不考虑覆盖收益。

在K=4的固定预算实验中，随机选点和单视角探针的覆盖率分别只有0.96%和0.21%（这两个非迭代方法因为没有利用已知信息来指导后续选择，表现极差）；纯覆盖贪心达到10.55%覆盖率但冲突率为1.93%；纯低冲突达到10.25%覆盖率冲突率1.64%；而COVER则达到10.32%覆盖率、冲突率1.70%。直观上看，COVER的覆盖率与纯覆盖贪心几乎相同（仅差0.23个百分点），但冲突率比纯覆盖贪心低了12%，同时又比纯低冲突方法的覆盖率更高。这说明λ=0.35的惩罚项起到的是"重新排名"的作用，而不是"缩减覆盖"的作用。

在K=30的更大预算实验中，跨三个来源的测试结果显示：Blender室内场景覆盖率0.413、冲突率0.018；HM3D场景覆盖率0.393、冲突率0.071；ScanNet++场景覆盖率0.735、冲突率0.010。ScanNet++的覆盖率高出约1.8倍，这是因为ScanNet++的场景都是单个房间大小的小空间，候选点少、贪心选法很快就能饱和。HM3D的冲突率高出4倍左右，与它的真实扫描来源的几何噪声更大一致。尽管三个来源在统计特性上差异如此显著，同一套固定超参数（λ=0.35，早停τ=1%，m=2步）在三个来源上都给出了稳定的运行结果，没有出现在某个来源上特别好但另一个来源上崩溃的情况。

七、这套方法的边界和未来计划

研究团队在论文中也坦诚地指出了若干局限。整个评估聚焦在"策展层"的指标上——也就是覆盖率和深度冲突率——而不是AI在下游任务（比如全景深度估计、新视角合成、3D重建）上的实际表现提升。这不是回避，而是对论文工作边界的诚实界定：COVER和CM-EVS提供的是原材料和筛选工具，具体用这些材料训练的AI能不能比用其他数据集训练的AI更好，需要另外的实验来验证。

HM3D和ScanNet++的帧图像因为版权问题不能直接发布，用户需要按照发布的适配器脚本，在自己同意上游许可协议后本地重新生成，这增加了使用门槛。户外全景帧（TartanGround和OB3D）是完整轨迹重编码，没有经过COVER筛选，也没有每步的溯源日志，与室内策展帧不完全对等。

50个被记录在案的"失败案例"也揭示了系统的薄弱环节，并被归类为五种失败模式：相机嵌入墙体或贴近墙壁（F1）、网格或扫描不完整导致深度图出现大片空洞（F2）、点云重建产生的"融化"几何或幽灵点（F3，主要出现在ScanNet++的点云适配器模式）、材质或光照失败导致图像全黑或全洋红（F4，仅出现在Blender合成场景）、以及场景超出室内范围成为半室外或完全户外环境（F5）。这些失败案例都已被排除在公开发布的数据之外，并连同完整的帧序列、深度图和位姿文件一起打包在坏案例目录里，让用户可以自己复现并理解这些失败是如何发生的。

研究团队已规划了v1.1版本的改进路线：收紧墙体邻近度过滤（解决F1残余），在每步溯源日志中新增无效深度像素比率字段（方便用户按质量排序，解决F2），为ScanNet++提供可选的网格重建回退路径（解决F3），以及新增渲染后色彩直方图检验（拒绝超过20%纯洋红或纯黑像素的帧，解决F4）。同时，团队计划将COVER扩展到动态场景，并在发布的帧上系统评测全景深度估计、全景新视角合成、3D重建和世界模型预训练等下游任务。

说到底，这篇论文做的事情是给AI的"视觉进食"方式做了一次彻底的优化。以前大家往往是把一堆照片塞给AI，多多益善，或者用简单规则随便挑几张，而这个团队认真研究了"到底该在哪里拍、拍多少才够、怎么确保不同角度的深度数据不打架"。他们用数学证明了这种贪心选法的合理性，用实验验证了它在速度和质量上的平衡，还把整个选点过程的每一个细节都记录下来、公开发布，让任何人都能复现或改进。这种"把数据制作过程本身当成可审查、可复现的科研成果"的态度，比数据集本身的规模更有价值。对于未来想要研究全景场景理解、三维重建或空间智能的研究者来说，CM-EVS不只是一个数据集，更是一套思考"怎样聪明地观察世界"的方法框架。有兴趣深入研究的读者，可以通过arXiv编号2605.15597找到完整论文，并通过论文中提供的匿名代码仓库获取数据集和代码。

Q&A

Q1：CM-EVS数据集包含哪些内容，和其他3D场景数据集有什么区别？

A：CM-EVS包含来自1275个室内场景的36373帧全景图像，每帧同时提供360度彩色图、每像素方向的实际距离深度图和相机位姿，还有完整的选点溯源日志。与Matterport3D、ScanNet++等数据集相比，CM-EVS最大的不同在于它的每个场景只用中位数25帧，比现有数据集少了4到7倍，但场景覆盖的完整性不差，13种房间类型全部覆盖，而且每一帧是怎么被选出来的都有详细记录。

Q2：COVER方法为什么要同时考虑"覆盖率"和"深度冲突"两个指标，只优化覆盖率不行吗？

A：只优化覆盖率会导致选出的视点集中在场景中某个特定区域，看似每步都在增加新内容，实际上是因为选了一堆互相邻近、视角相似的点。实验证明λ=0时覆盖率只有18%，还不如加了惩罚的版本。更重要的是，如果不惩罚深度冲突，不同视角测量同一物体的距离会产生矛盾，AI训练时就会学到自相矛盾的几何信息，影响最终模型质量。

Q3：COVER方法运行速度怎么样，能用在大规模数据处理上吗？

A：COVER用低分辨率快速预判代替了对每个候选点的高清渲染，在31个Blender室内场景的测试中，相比"对所有候选点全部高清渲染再选"的精确方法，速度快了约133倍（仅用0.014 GPU小时，而精确方法需要1.74 GPU小时），最终覆盖率只损失约8个百分点。整个1275个室内场景的数据分析脚本在8块H100 GPU的服务器上约13分钟就能处理完。

三维场景理解全景深度估计视点选择算法

分享至

0赞

好文章，需要你的鼓励

推荐文章

AI智能体评估
自动化评测
评估代码生成

2026-05-20 17:33

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI Labs研究团队发布EvalAgent，这是一套通过"评估技能"自动生成AI智能体评测方案的系统，将首次运行成功率从17.5%提升至65%，并在人类专家评测中获得79.5%的偏好选择。
低光图像增强
多模态融合
跨注意力机制

2026-05-20 17:16

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

亚历山大大学提出M2Retinexformer，通过融合深度、亮度和语义三种辅助模态，让AI在增强暗光图像时兼顾几何结构与视觉自然度。
人工智能
联想记忆
新型适配算法

2026-05-20 17:03

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙大、西湖大学等联合提出FAAST，无需反向传播，一次正向扫描将训练样本压缩为快速权重矩阵，推理时间和内存占用分别节省90%和95%以上。
重症监护AI
大语言模型
医疗安全评估

2026-05-20 16:46

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学发布RealICU基准，用专家后见之明评测大语言模型在ICU实时决策中的真实能力，发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

2026-05-20 17:33

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

2026-05-20 17:16

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

2026-05-20 17:03

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

2026-05-20 16:46

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn