微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

香港科技大学（广州）联合西安交通大学：一个AI模型，同时搞定所有3D视觉任务？

3D视觉组自回归变换器统一几何感知模型

香港科技大学（广州）联合西安交通大学：一个AI模型，同时搞定所有3D视觉任务？

作者：科技行者

2026-05-27 13:45

分享至：

香港科技大学（广州）联合西安交通大学提出UNIT，一个统一的三维几何感知模型，通过组自回归变换器将在线感知、离线重建、多模态融合、长时程推断和米制尺度估算整合到单一框架中。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-27 13:45 • 科技行者

这项由香港科技大学（广州）系统枢纽智能交通方向、西安交通大学人机混合增强智能国家重点实验室以及Amazon应用科学部门联合完成的研究，以预印本形式于2026年5月20日挂载于arXiv平台（论文编号：arXiv:2605.21131），同时以题为《UNIT: Unified Geometry Learning with Group Autoregressive Transformer》投稿至IEEE模式分析与机器智能汇刊（IEEE Transactions on Pattern Analysis and Machine Intelligence）审稿中。有兴趣深入了解的读者可以通过上述编号在arXiv上检索完整原文。

**用一台相机，读懂整个三维世界**

手机拍照时，相机记录的只是一张平平的二维图片。但人类的大脑能够从这张图片中自动"脑补"出深度、距离和立体结构——哪块石头在远处，哪棵树在近处，人群中哪个人离你更近。这种从二维图像中恢复三维世界的能力，正是"3D几何感知"（Geometry Perception）的核心任务，也是让机器人、自动驾驶汽车、增强现实眼镜真正"看懂"世界的关键技术。

过去几年，研究者们已经开发出了一批相当出色的AI模型来完成这项工作。然而，一个令人头疼的问题始终存在：每一种模型都只擅长某一类场景，要么只能处理静态的多张照片重建，要么只能实时处理视频流，要么需要配合相机参数，要么只能做相对比例的估算。这就像一家餐厅里，煎蛋的厨师不会炒菜，炒菜的厨师不会烤面包，烤面包的又不懂甜品——每个人都很专业，但你想吃一顿完整的饭却要跑好几家馆子。

研究团队提出的UNIT（Unified geomeTry learning），正是试图打造这样一位"全能厨师"：用一个统一的模型框架，把所有这些3D视觉任务都纳入同一套处理流程中。

**一、被割裂的三维视觉世界：五种能力，五座孤岛**

要理解UNIT解决了什么问题，先要明白现有技术的割裂有多严重。

在3D几何感知领域，有五种核心能力一直以来各自为战，无法统一到同一个框架下。第一种是"在线感知"，即实时处理连续视频流，就像一个人走路时眼睛不停扫描周围环境，逐帧更新对世界的认知。第二种是"离线重建"，即先把所有照片都收集好，然后一次性统一处理，生成完整的三维场景模型，就像考古学家把所有出土文物摆在桌上，仔细研究它们之间的关系。第三种是"多模态融合"，即不仅用图像，还能借助深度传感器、相机参数等额外信息来增强重建精度，如同侦探不只看目击证词，还要结合现场指纹和监控录像。第四种是"长时程可扩展性"，即面对几百甚至几千帧的超长序列时，系统的内存消耗和计算量不会无限膨胀，否则在真实世界中根本无法使用。第五种是"真实尺度估算"，即恢复出以"米"为单位的实际物理尺寸，而不仅仅是相对比例关系——毕竟，知道"这个房间是那个房间的两倍大"远不如知道"这个房间是20平方米"有用。

现有的代表性模型各自只掌握了其中几种能力。比如CUT3R擅长在线视频流处理，但对离线多视角重建并不友好；VGGT专注于离线场景下的高质量三维重建，却不支持逐帧实时推断；MapAnything在离线模式下整合了多种传感器模态和真实尺度估算，但无法处理长时程序列。这种能力的碎片化，让开发者在实际应用中不得不针对不同场景切换不同系统，极大增加了工程复杂度。

研究团队意识到，这种割裂并非不可弥合，而是源于不同方法对"几何建模"做出了根本不同的假设。正是这种假设上的分歧，阻止了一个统一框架的出现。

**二、全能厨师的秘密武器：组自回归变换器**

研究团队提出的核心思想，可以用一个厨师备菜的比喻来理解。

普通厨师每次只处理一道菜（一帧图像），按照时间顺序一道一道地做，这就是传统的"在线"逐帧处理模式。另一种极端是，把所有食材全部铺在大桌子上，同时看清楚所有原料再统一烹饪，这是"离线"的批量处理模式。那么，如果厨师每次捧起一"组"食材——比如两道菜、四道菜同时处理——会发生什么？这就是UNIT的核心创意：**组自回归**（Group Autoregression）。

在UNIT的框架里，"组"就是每次统一处理的若干帧图像，研究者用字母G来表示组的大小。当G等于1时，系统就退化为传统的在线逐帧处理；当G等于序列总长度N时，系统就变成了完整的离线批量处理；当G取中间某个值——比如2、4或8——时，系统就能高效处理双目相机流、多目相机阵列等多同步视角场景，这在机器人和自动驾驶中极为常见。

更精妙的是，组内部的帧之间使用"双向注意力"——意思是每一帧都能自由地参考同组内其他所有帧的信息，就像同一时刻捕获的多路镜头可以互相印证；而不同组之间则使用"因果注意力"——意思是当前组只能参考之前的历史信息，不能"偷看"未来的帧，就像一个侦探只能根据案发前的线索来推理，而不能从结果倒推过程。这种"组内双向、组间因果"的注意力结构，被研究团队形象地称为"组因果掩码"，通过在注意力矩阵中把未来帧的位置设为负无穷，实现了灵活可控的时序约束。

整个系统以VGGT（视觉几何基础变换器）为基础进行改造和扩展。图像首先通过DINO（一种视觉特征提取器）被拆解成一块块"图像令牌"，然后经过两种交替的注意力层处理：帧注意力层负责理解单帧内部的局部关系，全局注意力层负责捕捉不同帧之间的跨时间关系。最终，经过处理的特征令牌会被解码为全局点图（即每个像素对应三维空间中一个坐标点的密集输出），以及每一帧的相机姿态（即相机在空间中的位置和朝向）。

**三、解决记忆爆炸：像地铁站台一样管理历史信息**

自回归模型处理视频时会面临一个棘手问题：需要把所有历史帧的"键值缓存"（KV-Cache）保存在内存里，因为当前帧需要参考之前所有帧的信息。这就好比你在讲一个很长的故事，为了保证逻辑连贯，你需要随时翻阅之前讲过的所有内容。随着视频越来越长，需要记忆的内容越来越多，内存消耗会线性乃至爆炸性增长。StreamVGGT虽然引入了KV缓存机制，但依然保存所有历史条目，面对超长序列时依然力不从心。

UNIT的解法是一个极其简洁的机制：**队列式KV缓存**（Queue-Style KV Caching）。就像地铁站台的候车区域有固定数量的等候位，新的乘客到来时，最早的乘客就必须离开。UNIT设定一个固定的队列容量Q，当历史帧的缓存条目超过这个上限时，最老的记录就被自动丢弃。这样无论视频有多长，内存消耗始终被限定在O(Q)以内，而不是随序列长度N线性增长。

然而，简单地丢弃历史记录会带来严重问题：如果模型对早期帧存在强依赖，强行删除那些记录会导致精度大幅下降。传统的方法之所以不敢丢弃早期帧，正是因为所有的3D坐标都是以第一帧的位置为参考原点来定义的——一旦丢失第一帧，整个坐标系就会崩塌。

这就引出了UNIT另一个精妙的设计：**无锚点关系建模**（Anchor-Free Relational Modeling）。研究团队借鉴了π?模型中的无锚点损失函数，将相机姿态的描述方式从"以第一帧为基准的绝对坐标"改为"任意两帧之间的相对变换"。这就像导航时不说"从家出发走了500米"，而说"从上一个路口左转再走100米"——只要记住局部的相邻关系，而无需始终追溯到出发点。

具体实现上，UNIT设计了无锚点相机头（Anchor-Free Camera Head），将相机姿态重参数化为相对变换：第i帧相对于第j帧的位姿等于第i帧的绝对姿态乘以第j帧绝对姿态的逆矩阵。这种表示方式对任何整体坐标变换都是不变的，即使把整个场景旋转或平移，相对关系也不会改变。因此，历史帧的KV缓存条目不再携带对早期帧的强依赖，可以安全地在容量超限时被丢弃。

与此同时，原本VGGT中的相机头需要四次前向计算才能迭代输出结果，UNIT将其简化为单次直接预测，在大幅降低计算开销的同时，也让KV缓存的管理变得简洁许多。

为了决定如何具体丢弃超限的历史令牌，研究团队测试了四种策略：先进先出（直接丢最老的）、随机丢弃、通过相邻令牌插值进行令牌合并，以及按固定间隔步长跳跃保留。实验结果表明，按步长跳跃保留（Stride Drop）的效果最好，它保留了间隔均匀分布的历史快照，像电影中的抽帧剪辑，既节省空间又保持了叙事完整性。

**四、让AI学会"真实比例"：一个循序渐进的训练技巧**

3D视觉中有一个长期困扰研究者的难题——"尺度歧义性"。相机拍到的图像本质上丢失了深度信息，从一张照片里你能看出哪个物体更远、哪个更近，但你无法知道实际距离是10厘米还是10米。大多数模型因此只能输出相对尺度的结果，告诉你"A比B远两倍"，但说不出"A距离镜头3.5米"。

直接学习绝对尺度（以米为单位的真实距离）是极其困难的，因为不同场景之间的尺度差异极大——室内家具和室外建筑的深度范围可以相差几十倍。如果训练时用一个固定强度的损失函数直接要求模型预测米制单位的绝对深度值，模型往往会在某些场景过度适应，在另一些场景完全失效。

UNIT提出的解决方案叫做**尺度自适应几何损失**（Scale-Adaptive Geometry Loss）。这个方法的核心思路是：不要一上来就强迫模型死磕绝对尺度，而是先让它把相对几何关系学得又快又好，随着训练推进，绝对尺度自然而然地从相对关系中"浮现"出来。

具体实现时，损失函数由三个部分组成。第一部分是尺度无关的相机姿态损失，它只要求预测的相机旋转和位移方向正确，不在乎绝对大小——就像考察一个人的方向感，只看他走的方向对不对，不管他走了几步。第二部分是尺度无关的局部点图损失，要求预测的三维点位置在去除全局尺度因子后与真值一致，数学上等价于先算出整个序列预测深度图的L2范数和真实深度图的L2范数，用这两个数的比值来做归一化。第三部分是绝对尺度的局部点图损失，直接要求预测的三维点坐标（以米为单位）与真值匹配，同时引入置信度加权——模型对自己预测越有把握的区域，损失权重越大，不确定的区域则自动降低惩罚。

三个部分共同作用时，会产生一种自动课程学习（Curriculum Learning）的现象：训练初期，模型优先收敛相对几何约束，因为这更容易学习；随着相对几何越来越精准，绝对尺度的约束也逐渐把全局尺度因子拉向真实值，最终诱导模型输出米制单位的绝对深度。研究团队在消融实验中验证了这一现象，相比于直接用L1损失函数做米制空间的回归（类似CUT3R的做法），尺度自适应设计在米制尺度下的重建精度提升极为显著。

在此基础上，研究团队还引入了一种叫做"乱序法向损失"（Shuffled Normal Loss）的额外约束。普通的法向损失是在单帧内计算相邻像素点构成的局部曲面法线，确保局部几何一致性。乱序法向损失则更进一步：从不同帧中随机采样像素点，强行把它们组成"虚拟曲面"，然后计算这些跨帧点构成的法线，以此鼓励不同帧之间的全局几何一致性。由于使用了无锚点的坐标系表示，这一损失同样不依赖固定参考帧，对整个系统的全局一致性有显著增强作用。

**五、让AI"听懂"多种传感器：模态注意力层**

现实世界的3D感知系统往往不只有一个RGB摄像头，还可能配备激光雷达、深度相机、已知相机内外参等各种传感器。UNIT通过一个精心设计的**模态注意力层**（Modal Attention）来灵活整合这些可选的额外信息。

这些可选模态信息分为两类。第一类叫"点令牌"，负责提供密集的几何信息：深度图与从相机内参推导出的局部射线图（Local Ray Map）拼合编码。之所以用射线图而不是直接用内参数值，是因为射线图保留了每个像素的像素坐标信息，包含了更丰富的空间位置线索，就像给每个像素贴上了一张精确的地址标签。第二类叫"姿态令牌"，负责提供紧凑的相机参数信息：将12维的相机外参（旋转矩阵加平移向量的展开表示）直接编码为一个紧凑的向量。所有缺失的模态以全零矩阵表示，实现了对不完整输入的优雅处理。

模态注意力层的设计与标准交叉注意力机制相似，但有一个关键改进：在计算注意力时，图像令牌和模态令牌被沿着空间位置对齐后拼接（Concatenate）在一起作为键和值，而不是分别作为独立的输入。这种拼接方式将像素级的空间对应关系直接注入了跨模态融合过程，让模型能够在正确的空间位置上将视觉信息与深度信息结合起来，就像把同一场地的平面图和立体模型叠放在一起对照，而不是分开摆放随机参考。

此外，模态注意力层在输出端使用了零初始化线性投影层。这一技巧的妙处在于：训练刚开始时，新加入的模态注意力模块的输出全为零，对原始图像令牌没有任何干扰，系统的行为与加载的VGGT预训练权重完全一致；随着训练进行，该层权重逐渐从零开始学习，模型以一种渐进、稳定的方式吸收多模态知识，完整继承了预训练模型的视觉理解能力。

为了控制整体参数量，模态注意力层并非插入到每一层变换器中，而是遵循DPT解码头的阶段划分，在24层变换器的第0、5、12、18层各插入一次，共四个位置。这四个模态注意力模块加在一起，仅占整体模型参数的约3%，却带来了显著的多模态能力提升。

**六、训练数据与实现细节：二十一个数据集的"大锅饭"**

为了让UNIT在真实世界的各种场景下都能表现出色，研究团队汇聚了21个公开的米制尺度数据集进行训练，覆盖室内场景（ScanNet++、ARKitScenes、ScanNet、Matterport3D、DynReplica、Hypersim）、室外场景（Waymo、Mapfree、VKITTI、MVS-Synth、ParaDomain4D、GTA-SfM、MatrixCity、Mid-Air）、混合场景（UnrealStereo4K、TartanAir、PointOdyssey、Spring）、物体级场景（WildRGBD、OmniObject3D）以及以人为主体的场景（HuMMan）。这些数据集横跨真实拍摄与合成渲染两大来源，包含静态与动态物体，覆盖从室内家具（深度约1米）到室外建筑（深度可达数百米）的极大尺度范围。

训练中，纯图像序列以10%的概率采样，多模态混合序列以90%的概率采样。在多模态采样时，深度图、相机内参和相机外参三种可选模态各自以50%的独立概率决定是否纳入该批次，从而模拟真实部署中各种传感器组合缺失的情况。

深度图的模拟传感器类型包括均匀随机采样（0%到100%密度）、激光雷达扫描线模式（1线到128线）、SfM特征点（用SIFT提取）以及超分辨率网格下采样（1到16倍因子），覆盖了深度补全任务中可能遇到的各类稀疏模式。

模型初始化时加载VGGT的预训练权重，使用AdamW优化器，对预训练参数设定较小的学习率（1×10??），对新引入模块设定较大学习率（1×10??），DINO编码器在整个训练过程中保持冻结。训练分辨率为518（短边），随机宽高比范围0.33到1.0，序列长度动态采样12到24帧，组大小G在1到24之间随机采样。整个训练在64张H100 GPU上以每卡48张图像的批次大小进行80,000步，历时超过7天。

旋转的参数化方式也从VGGT原版的四元数表示改为9维旋转，通过奇异值分解（SVD）正交化得到，避免了四元数表示在旋转空间中的不连续性问题，提升了训练稳定性。

**七、实验验证：十个数据集，七种任务，全面检阅**

研究团队在十个基准数据集上对UNIT进行了全面测试，涵盖七类有代表性的几何感知任务，所有实验均在单张RTX 4090 GPU上完成。

在多视角重建任务上，评测数据集包括室内真实场景的7-Scenes、合成室内场景的NRGBD，以及面向物体重建的DTU。评测指标包括精度（Acc.，预测点到真实点的平均距离）、完整性（Comp.，真实点到预测点的平均距离）以及法线一致性（N.C.）。所有方法先在尺度无关的设置下测试（使用Sim(3)对齐消除尺度差异），再在米制尺度设置下测试（直接比较绝对坐标，不做任何对齐）。UNIT（G=N离线模式）在7-Scenes上的精度0.027和完整性0.032显著优于其他离线方法（VGGT为0.043和0.056，π?为0.047和0.073，DepthAnything3为0.054和0.101），在NRGBD和DTU上也全面领先。在米制尺度下，UNIT（G=N）的表现同样最佳，7-Scenes精度0.047、完整性0.042，而MapAnything为0.406和0.166，DepthAnything3为0.074和0.087。UNIT（G=1在线模式）在在线方法中也排名第一，无论是尺度无关还是米制尺度设置均如此。

在相机姿态估算任务上，使用三个数据集：合成室外场景Sintel、真实室内TUM-Dynamic和ScanNetv2。评测指标为绝对轨迹误差（ATE，相机路径的整体偏差）、相对位移误差（RPEtra）和相对旋转误差（RPErot）。UNIT在尺度无关在线、米制在线、米制离线三个设置下均排名第一，在尺度无关离线设置下排名第二，在综合排名中以1.44的平均排名（越小越好）领先所有基线方法（π?为1.56，VGGT为3.33，CUT3R在线为2.44）。

视频深度估算任务在Sintel、Bonn和ETH3D三个数据集上进行，评测指标为绝对相对误差（AbsRel）、均方根误差（RMSE）和在1.25倍误差阈值内的预测比例（δ<1.25）。UNIT再次在尺度无关在线、米制在线、米制离线三类设置中排名最前，以1.22（在线）和1.44（离线）的综合排名领先，π?的在线成绩为2.67，离线为1.44，DepthAnything3为2.00离线。

单目深度估算任务（仅用单张图像，无多帧参考）在Sintel、KITTI和NYUv2三个数据集上测试。UNIT在米制设置中以1.78的综合排名位居第一（MapAnything为2.33，DepthAnything3为3.00），在尺度无关设置中以2.22排名第二（π?为2.11）。研究团队还观察到一个有趣的现象：单目设置下，离线与在线方法之间的性能差距比多帧设置下明显缩小，这可能是因为离线方法的训练往往依赖至少两帧之间的多视图约束，而单目训练可以直接从单帧深度标注中学习。

长时程感知任务在NRGBD数据集上测试，每个场景约有1000帧，研究团队以步长2采样出500帧，然后在50到500帧不同序列长度下分别评测。DepthAnything3的离线模式在序列长度约300帧时就因为内存溢出而无法继续运行；CUT3R虽然支持长序列，但在300帧时的姿态估算误差（ATE约0.7m）已经明显劣于DepthAnything3的短序列结果（约0.35m）。UNIT得益于统一框架，可以灵活地在离线和在线模式之间切换：对于前150帧使用离线模式获得高精度结果，然后以这150帧建立的KV缓存为基础，继续用在线模式处理后续更长的序列，队列容量Q也设为150。这种混合推断策略使得UNIT在整个500帧范围内都保持了明显优于CUT3R的精度，同时避免了DepthAnything3的内存爆炸问题。

多模态重建任务在7-Scenes、ETH3D和ScanNetv2三个数据集上测试，涵盖七种不同的模态组合：仅相机内参K、仅相机外参[R|T]、仅深度图D，以及K+[R|T]、K+D、[R|T]+D和K+[R|T]+D的全组合。UNIT在绝大多数组合下排名第一。值得注意的例外是，在所有三种模态全部提供的情况下，MapAnything以1.44的综合排名略优于UNIT的2.22。研究者分析认为，这可能是因为MapAnything从头开始在多模态数据上训练，对完整多模态输入的适应性更强；而UNIT在大部分时间里以不完整模态输入进行训练，对全模态场景的充分利用可能略有欠缺。

深度补全任务在Sintel、KITTI和NYUv2上测试，为模型额外提供四种不同稀疏模式的深度点云作为先验。无论是均匀随机采样、激光雷达扫描线、SfM特征点还是超分辨率网格模式，UNIT都在全部场景下排名第一。研究者认为这一优势部分来自其在训练时已系统性地模拟了多种深度采样模式，减小了训练与测试时的分布差异。

**八、消融实验：每一个设计细节都经过了严格检验**

研究团队通过一系列消融实验，仔细验证了各个组件设计的必要性。

对于模态注意力层，实验对比了四种变体。用简单线性投影替代模态注意力时，性能出现显著下降，说明跨模态融合的设计至关重要。去掉空间对齐拼接操作（只保留标准交叉注意力）时，性能也有所下降，证明像素级空间对应关系对多模态融合有实质性帮助。仅在单一阶段插入模态注意力（而非四阶段）时，性能也不如四阶段版本，说明在多个尺度层次上注入模态信息更为充分。完整的四阶段+拼接设计在图像单模态和多模态两种设置下均获得最好结果。

对于损失函数设计，直接在米制空间使用L1回归损失（类似CUT3R的做法）时，在离线和在线的米制尺度设置下精度最差，综合分数0.188；引入尺度自适应设计后大幅改善，综合分数降至0.092；在此基础上加入乱序法向损失后进一步提升至0.091，而且对在线米制设置帮助尤为明显。

对于KV缓存丢弃策略，五种策略的实验结果清晰地显示步长跳跃保留效果最佳（ATE 0.038），优于先进先出（0.047）、随机丢弃（0.041）和令牌合并（0.041），而完整保留所有历史缓存则获得0.037的最佳ATE，说明步长跳跃在有限容量下最大化保留了对当前帧有用的历史信息。更关键的发现是：即使是最简单的先进先出策略，其性能（0.047）也远好于没有KV缓存机制时的情况，这有力地证明了队列式缓存本身的有效性。

对于KV缓存队列容量，实验覆盖了从Q=1到Q=90（即完整序列长度）的全范围。结果显示随着容量增大，精度稳步提升，Q=30（约等于N/3）能在性能和效率之间取得良好平衡。对于组大小G，实验同样显示更大的组能带来更好的精度，因为更多帧可以在组内通过双向注意力相互印证；同时，模型在G从1到90的宽广范围内都保持了相当稳定的性能，展现出统一框架设计的鲁棒性。

在计算效率对比上，UNIT（G=N离线模式）以每秒33.83帧的推理速度和8.1GB内存占用，成为所有对比方法中速度最快、内存最小的离线方法（VGGT为31.98帧/秒、11.7GB，π?为46.18帧/秒但内存6.4GB）。UNIT（G=1，Q=1最轻量在线模式）的速度为20.41帧/秒、6.7GB内存，明显快于StreamVGGT的11.50帧/秒、9.6GB内存。增大Q会降低速度、增加内存，但提升精度：Q=N/3时为16.44帧/秒、7.4GB，Q=N时为13.38帧/秒、9.1GB。

**归根结底，UNIT意味着什么？**

UNIT这项研究的意义，在于证明了"统一"不仅仅是一个美好愿景，而是完全可以在不牺牲性能的前提下实现的工程目标。通过组自回归机制、无锚点建模、队列式缓存和尺度自适应训练这四个彼此协作的设计，一个模型得以在在线视频流、离线多视角重建、多模态输入、长时程序列和米制尺度估算这五个维度上同时达到业界领先水平。

对于机器人开发者而言，这意味着不再需要为室内导航和室外建图分别训练不同的深度估算模块；对于自动驾驶工程师而言，这意味着同一个模型可以同时处理前置单目摄像头、双目摄像头阵列和激光雷达深度先验，而无需构建复杂的多模型融合管道；对于增强现实应用而言，这意味着一个轻量级的统一模型可以在手机上同时支持室内空间测量和室外导航标注。

当然，研究也指出了一个值得关注的局限性：当所有传感器模态都完整可用时，专门在完整多模态数据上从头训练的MapAnything在多模态重建上略有优势，说明在全模态充分利用方面UNIT还有提升空间。

UNIT的项目主页可通过搜索"sc2i-hkustgz UNIT"找到，感兴趣的读者也可以直接在arXiv上检索编号2605.21131获取完整论文和技术细节。随着这一方向的持续发展，或许我们正在见证3D视觉感知领域从"百家争鸣"走向"大一统"的转折点。

---

**Q&A**

Q1：UNIT模型的"组自回归"是怎么工作的？

A：组自回归是UNIT的核心机制，简单说就是把若干张图像当作一个"组"来同时处理。组内的图像互相参考彼此的信息（双向注意力），组与组之间只能参考历史组的信息（因果注意力）。调整每次处理的图像数量（组大小G），就能灵活切换在线逐帧处理和离线批量重建两种模式，甚至处理多摄像头同步拍摄的情况。

Q2：UNIT如何做到处理超长视频时内存不爆炸？

A：UNIT使用了"队列式KV缓存"机制。系统设定一个固定的历史记录容量上限Q，新的帧进来时，最老的历史记录就被自动丢弃，内存始终维持在固定大小。这之所以可行，是因为UNIT采用了无锚点坐标表示，三维坐标用相邻帧之间的相对位置描述，而不依赖第一帧作为参考，所以历史帧被删掉后不会影响当前帧的计算。

Q3：UNIT输出的深度单位是米还是相对比例？

A：UNIT支持两种模式。在多数评测场景下，UNIT能直接输出以米为单位的绝对深度值，这要归功于其"尺度自适应几何损失"设计——训练时让模型先学会相对几何关系，再自然过渡到绝对尺度，避免了直接学习米制尺度时收敛困难的问题。当然，在尺度无关的测试设置下，它同样可以只输出相对比例结果。

3D视觉组自回归变换器统一几何感知模型

分享至

0赞

好文章，需要你的鼓励

推荐文章

AI智能体评估
自动化评测
评估代码生成

2026-05-20 17:33

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI Labs研究团队发布EvalAgent，这是一套通过"评估技能"自动生成AI智能体评测方案的系统，将首次运行成功率从17.5%提升至65%，并在人类专家评测中获得79.5%的偏好选择。
低光图像增强
多模态融合
跨注意力机制

2026-05-20 17:16

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

亚历山大大学提出M2Retinexformer，通过融合深度、亮度和语义三种辅助模态，让AI在增强暗光图像时兼顾几何结构与视觉自然度。
人工智能
联想记忆
新型适配算法

2026-05-20 17:03

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙大、西湖大学等联合提出FAAST，无需反向传播，一次正向扫描将训练样本压缩为快速权重矩阵，推理时间和内存占用分别节省90%和95%以上。
重症监护AI
大语言模型
医疗安全评估

2026-05-20 16:46

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学发布RealICU基准，用专家后见之明评测大语言模型在ICU实时决策中的真实能力，发现现有顶级AI存在有害推荐率过高和锚定偏差两大安全隐患。

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

AWS AI实验室发布EvalAgent：让AI自动给AI写"成绩单"，但这件事比想象中难得多

2026-05-20 17:33

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

给暗夜照片"开灯"：亚历山大大学研究团队如何让AI用"深度感知"还原黑暗中的真实色彩

2026-05-20 17:16

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

浙江大学与西湖大学联手破解AI模型适配难题：无需反向传播，一次正向扫描搞定任务适配

2026-05-20 17:03

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

慕尼黑工业大学造了一个"考官"：用后见之明来测试AI医生，结果几乎全不及格

2026-05-20 16:46

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

北京第二十六维信息技术有限公司（至顶网）版权所有。 | 联络我们

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn