微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上海大学让AI看3D世界更智能：像人眼一样筛选重要信息的新技术

人工智能计算机视觉优化模型

上海大学让AI看3D世界更智能：像人眼一样筛选重要信息的新技术

作者：科技行者

2026-04-01 12:33

分享至：

上海大学研究团队开发了SeGPruner技术，解决AI在处理3D场景时的信息冗余问题。该技术通过双重筛选机制，既保留重要物体信息又确保空间覆盖完整性，将视觉令牌数量减少91%，推理时间缩短86%，同时保持甚至提升了AI的3D问答准确率，为智能家居、自动驾驶等领域的AI应用提供了更高效的解决方案。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-01 12:33 • 科技行者

当你走进一个房间时，你的大脑会自动筛选出最重要的信息——桌子上的咖啡杯、墙角的椅子、书架上的书本，而不是每一个细节都同等重视。现在，上海大学的研究团队开发了一项让人工智能也能像人眼一样"挑重点看"的技术，这就是SeGPruner（语义-几何视觉令牌修剪器）。这项研究发表于2026年的计算机视觉顶级会议，论文编号为arXiv:2603.29437，为解决AI在理解3D场景时的效率问题提供了全新的解决方案。

在现代人工智能发展中，让机器理解3D空间就像教会盲人"看见"周围的世界一样困难。传统的做法是给AI展示同一个场景的多张照片，就好比你拿着相机从不同角度拍摄房间，然后把所有照片都给AI看。然而，这种方法有个严重问题：就像你给朋友看了100张几乎相同的照片一样，其中包含了大量重复无用的信息，不仅浪费时间，还可能让AI"看花了眼"，反而影响判断效果。

上海大学的研究团队意识到，AI在处理多视角图像时面临的最大挑战，就像一个人同时看几十个监控屏幕一样——信息太多太杂，反而难以抓住重点。他们的SeGPruner技术就是为了解决这个问题而生的，它能够智能地筛选出真正重要的视觉信息，就像一个经验丰富的编辑能从海量素材中挑选出最精彩的片段一样。

一、AI的"选择困难症"：为什么需要聪明的筛选

现在的AI视觉系统在处理3D问题时，通常需要同时分析12张或更多不同角度的图片。这就像你要了解一栋房子，需要从前门、后门、侧门、窗户等各个角度都看一遍。每张图片被分割成数百个小块（专业术语叫"视觉令牌"），就像把一幅拼图分解成小片一样。

问题在于，当AI同时处理这么多图片时，会产生近9000个视觉令牌——相当于要同时处理9000块拼图碎片。其中许多碎片其实是重复的或不重要的，比如大片的白墙、相似的地板纹理等。这不仅占用大量计算资源，还会让AI在关键信息中迷失方向，就像在嘈杂的环境中很难听清重要对话一样。

传统的解决方法有两种思路。第一种是简单粗暴地减少输入图片数量，就像只给你看房子的正面照片而忽略其他角度。第二种是使用现有的图像简化技术，但这些技术主要针对2D图像设计，对3D空间的理解能力有限，就像用平面地图导航立体的山区一样，经常会遗漏重要的空间信息。

上海大学的研究团队发现，现有方法的根本问题在于没有真正理解3D空间的特性。在3D世界中，空间位置和物体的重要性同样关键。一把椅子可能在某个角度看起来不起眼，但在回答"房间里有什么家具"这个问题时却是核心信息。因此，他们需要开发一种既能识别重要物体，又能保持空间覆盖完整性的智能筛选系统。

二、SeGPruner的双重智慧：既要抓重点，又要看全局

SeGPruner的工作原理可以比作一个经验丰富的摄影师在拍摄纪录片。这个摄影师有两个特殊技能：首先，他能迅速识别出画面中最重要的主体，比如正在说话的人物或关键的道具；其次，他还能确保整个场景的各个角落都有适当的覆盖，不会遗漏重要的背景信息。

SeGPruner的第一个核心组件叫做"显著性感知令牌选择器"（Saliency-aware Token Selector），这就像是一个专门负责"抓重点"的助手。它通过分析AI注意力模式来判断哪些视觉信息最重要。这个过程类似于观察一个人看图片时眼神停留的地方——通常那些吸引更多注意力的区域包含更重要的信息。

具体来说，这个选择器会计算每个视觉令牌受到的关注度。就像在会议中，发言最多、被提及最频繁的话题往往是最重要的，那些在视觉处理过程中被反复"关注"的图像区域，通常包含着关键的物体或场景元素。通过这种方式，系统能够优先保留包含桌子、椅子、显示器等重要物体的视觉信息。

然而，仅仅抓住重点还不够。如果只关注显眼的物体，AI可能会错过一些虽然不起眼但对理解整个场景很重要的信息。这就像拍摄一部电影时，除了主角的特写镜头，还需要一些环境镜头来交代故事背景。

因此，SeGPruner的第二个核心组件是"几何感知令牌多样化器"（Geometry-aware Token Diversifier），它负责确保选中的视觉信息在3D空间中分布均匀。这个组件的工作方式特别巧妙：它首先将所有候选的视觉令牌在3D空间中重新定位，就像在一个立体的房间模型中标记出每个信息点的确切位置。

接下来，它使用一种类似于"最远点采样"的策略来选择补充信息。简单来说，如果已经选中了房间中央桌子上的信息，那么它会优先考虑选择来自房间角落或墙边的信息，确保整个空间都有适当的覆盖。这种策略既考虑了空间距离（确保信息点在3D空间中分布均匀），也考虑了语义相似性（避免选择过于相似的重复信息）。

三、聪明的空间感知：让AI理解3D世界的奥秘

SeGPruner最巧妙的地方在于它如何处理3D空间信息。传统的2D图像处理就像在看平面照片，而SeGPruner能够将这些平面信息重新组织成立体的空间理解，这个过程被称为"3D感知特征构建"。

这个过程的工作原理可以这样理解：当你用手机从不同角度拍摄一个房间时，每张照片都记录了拍摄时的位置和角度信息。SeGPruner利用这些信息，加上每个像素的深度数据（就像测距仪告诉你每个点距离相机多远），将平面图片中的每个小块重新定位到3D空间中的准确位置。

具体来说，系统首先将每张图片分割成小的图像块，就像把照片剪成邮票大小的方块。然后，利用相机的位置信息和深度数据，计算每个方块在真实3D空间中的位置坐标。这就像是把散落的拼图块按照它们在原始场景中的真实位置重新摆放。

通过这种方式，原本分散在不同照片中的信息被统一到同一个3D坐标系中。现在，系统不仅知道某个区域包含一把椅子，还知道这把椅子在房间中的确切位置，以及它与其他物体的空间关系。这种空间理解能力是传统2D处理方法所缺乏的。

有了这种3D空间理解，SeGPruner在选择多样化信息时就能做出更明智的决策。它会计算候选信息点之间的实际3D距离，结合语义相似性来做最终选择。比如，如果系统已经选择了桌子正面的信息，它可能会优先选择桌子背面或房间另一角的信息，而不是选择桌子侧面的相似信息。

四、实验验证：数据说话的科学证明

为了验证SeGPruner的实际效果，研究团队在两个重要的3D问答数据集上进行了详尽的测试：ScanQA和OpenEQA。这就像给新开发的导航软件在不同城市的道路上进行实地测试一样，需要确保它在各种场景下都能正常工作。

ScanQA数据集包含了大约8000个真实室内场景和超过4.1万个问答对，主要测试AI对室内空间的理解能力，比如"桌子右边的椅子是什么颜色的？"或"门在哪里？"这类问题。OpenEQA则更加具有挑战性，它模拟了真实的家庭环境，包含超过1600个高质量的问答对，涉及物体识别、属性理解、空间推理等多个方面。

实验结果令人印象深刻。在ScanQA数据集上，当SeGPruner只保留原始视觉信息的23%时（相当于从9000个信息点中只选择约2000个），它的表现竟然比使用全部信息的基础模型还要好。准确率从27.6%提升到28.0%，这意味着通过智能筛选，AI不仅没有因为信息减少而变"笨"，反而因为去除了干扰信息而变得更"聪明"。

更令人惊喜的是效率提升。使用SeGPruner后，处理每个问题的时间从原来的4.39秒减少到0.63秒，速度提升了近7倍。这就像原本需要7分钟才能完成的任务，现在1分钟就能搞定，而且质量还更好。

与其他现有方法的对比也证明了SeGPruner的优势。传统的2D令牌修剪方法VisPruner在信息量减少到23%时，准确率下降了1个百分点。另一个3D感知方法DTC虽然能保持相当的准确率，但在极端条件下（信息量减少到9%）的表现明显不如SeGPruner。

在OpenEQA这个更具挑战性的数据集上，SeGPruner同样表现出色。即使在最严格的条件下（只保留8%的原始信息），它仍然能维持原始性能的88.8%，而其他方法的性能下降更为明显。这证明了SeGPruner在处理复杂真实环境时的鲁棒性。

五、深入解析：为什么SeGPruner如此有效

为了更好地理解SeGPruner的工作机制，研究团队进行了详细的组件分析实验，就像拆解一个精密手表来研究每个齿轮的作用一样。

他们发现，单独使用显著性感知选择器时，系统能够很好地保留重要物体的信息，但可能会错过一些细节。比如在一个办公室场景中，它能准确识别桌子和椅子等主要家具，但可能会忽略桌上的电线、墙上的插座等不太显眼但有时很重要的细节。

相反，单独使用几何感知多样化器时，系统能够很好地覆盖整个空间，但有时会保留一些不太重要的背景信息，而错过关键的物体信息。这就像一个摄影师很会构图，能拍出空间感很好的照片，但有时会因为追求全面而忽略了主题的突出。

当两个组件协同工作时，效果就完全不同了。显著性选择器确保重要物体不被遗漏，而多样化器确保空间覆盖的完整性。这种配合就像一对经验丰富的搭档：一个负责盯住重点，另一个负责照顾全局，两人配合天衣无缝。

研究团队还通过可视化展示了SeGPruner选择信息的模式。结果显示，传统方法往往会在一些不重要的区域（如大片空白墙面）投入过多注意力，而SeGPruner选择的信息点在图像平面上分布更均匀，在3D空间中也更好地代表了整个场景的结构。

特别有趣的是，研究团队发现SeGPruner在处理不同类型问题时表现出了适应性。对于需要精确定位的问题（如"门在书架的哪一边？"），它会保留更多的空间结构信息；对于需要识别特定物体的问题（如"桌子上放的是什么？"），它会更多地关注物体细节信息。这种智能适应能力使得SeGPruner在各种不同的应用场景中都能保持良好的性能。

六、超越实验室：真实世界的应用前景

SeGPruner的意义远超出了学术研究的范畴。在现实生活中，这项技术可能会给多个领域带来革命性的改变。

在智能家居领域，SeGPruner可以帮助家庭机器人更高效地理解和导航室内环境。现在的扫地机器人虽然能避开障碍物，但对家庭环境的理解还比较基础。有了SeGPruner，未来的家庭助理机器人不仅能回答"我的钥匙在哪里？"这样的问题，还能在处理这些问题时保持高效的运算速度，不会因为信息过载而反应迟钝。

在无人驾驶汽车领域，SeGPruner的空间感知能力可能会显著提升车辆对复杂道路环境的理解。自动驾驶系统需要同时处理来自多个摄像头和传感器的信息，SeGPruner可以帮助系统快速筛选出最关键的视觉信息——比如前方的行人、旁边的车辆、道路标志等，同时保持对整个驾驶环境的全面感知。

在医疗影像领域，这项技术也有潜在应用价值。医生在诊断时通常需要查看患者的多个角度的影像，SeGPruner可以帮助医疗AI系统更智能地筛选和分析这些影像，既突出病灶等关键区域，又保持对整体解剖结构的理解，从而提供更准确、更快速的诊断辅助。

对于虚拟现实和增强现实应用，SeGPruner可以显著提升用户体验。VR设备需要实时处理大量的视觉信息来创建沉浸式体验，而计算资源却是有限的。SeGPruner可以帮助系统智能地决定在虚拟场景中哪些细节需要高精度渲染，哪些可以简化处理，从而在保证视觉质量的同时提升运行效率。

更广泛地说，SeGPruner代表了人工智能发展的一个重要方向：让机器不仅能"看到"信息，更能像人类一样"选择性地看"。这种选择性注意力是人类认知的一个核心特征，让我们能够在复杂的环境中快速抓住重点，做出有效的判断和决策。

七、技术细节：工程实现的巧思

SeGPruner在技术实现上有许多值得关注的巧思设计。整个系统基于LLaVA-OneVision-7B这个先进的视觉-语言模型，但巧妙之处在于它不需要重新训练这个庞大的模型。这就像给一台高性能汽车加装了一个智能的燃油管理系统，提升了效率但不需要更换引擎。

在处理多视角图像时，系统采用了统一采样12张RGB图像的策略，每张图像分辨率为384×384像素。这些图像经过SigLIP视觉编码器处理后，总共产生8748个视觉令牌。SeGPruner就像一个精明的编辑，从这近9000个"素材片段"中挑选出最有价值的内容。

系统的一个关键创新是融合距离的计算方法。它不是简单地考虑3D空间距离或语义相似性，而是将两者巧妙结合。具体来说，它使用一个平衡参数λ（研究中设为0.5）来调节几何距离和语义相似性的权重。这就像一个经验丰富的策展人在选择展品时，既要考虑展品的艺术价值（语义重要性），也要考虑展厅的空间布局（几何分布）。

在算法设计上，SeGPruner采用了贪心策略的最远点采样方法。这种方法从注意力最高的令牌开始，然后迭代地选择与已选令牌在融合距离上最远的候选。这个过程就像在地图上选择旅游景点：先选择最著名的地标，然后选择距离已选景点最远但同样有价值的其他景点，确保旅行路线既精彩又全面。

特别值得注意的是，SeGPruner在不同的令牌保留比例下采用了自适应的重要性比例调整。在信息量充足时，它会保留更多的多样化令牌来确保空间覆盖；在极端压缩条件下，它会更多地依赖重要性选择来确保核心信息不丢失。这种自适应策略就像一个智能的资源管理器，能根据可用资源的多少来调整分配策略。

八、对比竞争：为何SeGPruner脱颖而出

在众多视觉令牌处理方法中，SeGPruner之所以能够脱颖而出，关键在于它独特的设计哲学和实现策略。与现有方法相比，SeGPruner在多个维度上都表现出明显优势。

传统的2D令牌修剪方法，如VisPruner，主要基于注意力机制来判断令牌重要性。这种方法在处理单张图像时效果不错，就像一个有经验的摄影师能从一张照片中找出最吸引眼球的部分。但当面对多视角的3D场景时，这种方法就显得力不从心，因为它缺乏对3D空间结构的理解，容易在不同视角间产生冗余选择。

另一些3D感知的方法，如DTC，虽然开始考虑深度信息，但主要将3D信息作为辅助信号使用，没有充分利用空间几何的优势。这就像一个导游虽然知道景点的地理位置，但在安排游览路线时仍然主要依据景点的知名度，而没有充分考虑空间分布的合理性。

ToSA等令牌合并方法采用了不同的策略，它们不是删除令牌，而是将相似的令牌合并。但这种方法在处理3D场景时面临一个根本挑战：来自不同视角的相似令牌可能代表同一个物体的不同侧面，简单合并可能会丢失重要的空间信息。

相比之下，SeGPruner的双组件设计实现了更好的平衡。重要性选择确保了语义关键信息的保留，而空间多样化确保了几何结构的完整性。这种设计就像一个优秀的纪录片导演，既要确保关键人物和事件得到充分展现，又要保持故事的完整性和连贯性。

实验结果也证实了这种设计的优越性。在极端压缩条件下（保留9%的令牌），SeGPruner的性能只下降了1.3个百分点，而VisPruner下降了4.4个百分点，DTC下降了1.5个百分点。这种差异在实际应用中意味着显著的性能优势，特别是在资源受限的环境中。

九、局限性与未来发展方向

尽管SeGPruner在多个方面表现出色，但研究团队也坦诚地指出了当前方法的一些局限性，这种科学的严谨态度反而增加了研究的可信度。

首先，SeGPruner目前依赖于深度图信息来构建3D空间理解。虽然在实验中这些深度图来自数据集标注，但在实际应用中，获取高质量的深度信息可能需要专门的传感器设备。这就像一个优秀的3D导航系统需要精确的地形数据一样，数据质量直接影响系统性能。不过，随着深度估计技术的快速发展，从普通RGB图像估计深度的方法正变得越来越准确，这个限制可能会逐步得到缓解。

其次，当前的方法主要针对室内场景进行了优化和验证。室内环境相对封闭，物体类型和空间结构都比较规整。而室外场景的复杂性要高得多，包含更多的动态元素、更大的空间范围和更复杂的光照条件。如何将SeGPruner的设计理念扩展到室外场景，还需要进一步的研究和验证。

另外，SeGPruner中的平衡参数λ目前是固定设置的（0.5），这意味着语义重要性和空间距离的权重是相等的。但在不同的应用场景中，这个平衡点可能需要调整。例如，在需要精确空间定位的任务中，可能需要给几何距离更大权重；而在物体识别任务中，语义重要性可能更关键。

研究团队提出了几个有前景的未来发展方向。首先是自适应平衡参数的研究，让系统能够根据问题类型或场景特点自动调整语义和几何信息的权重。其次是扩展到动态场景的处理能力，现在的方法主要针对静态场景，但现实世界中许多应用场景都包含运动的物体和变化的环境。

另一个有趣的发展方向是多模态信息的融合。除了视觉信息，还可以考虑整合音频、文本描述等其他模态的信息，构建更丰富的场景理解。这就像给AI配备更多的"感官"，让它能够从多个角度理解世界。

十、结论：智能筛选开启AI视觉新纪元

说到底，SeGPruner代表的不仅仅是一个技术改进，更是人工智能发展理念的一次重要转变。从追求"看得更多"到学会"选择性地看"，这个转变反映了AI系统正在变得更加智能和高效。

就像人类视觉系统经过千万年进化形成的选择性注意机制一样，SeGPruner让AI学会了在海量信息中抓住重点的能力。这种能力对于AI在现实世界中的应用至关重要。当一个机器人需要在复杂的家庭环境中快速响应主人的询问，或者当自动驾驶汽车需要在繁忙的街道上做出瞬间决策时，这种智能筛选能力可能就是成功与失败的分水岭。

研究结果显示，通过减少91%的视觉令牌处理量和86%的推理时间，SeGPruner不仅没有牺牲性能，反而在某些情况下还有所提升。这个看似矛盾的结果其实揭示了一个深刻的道理：有时候，少即是多。正如著名建筑师密斯·凡德罗的名言"少即是多"，在信息处理中，去除冗余和噪声往往能让系统表现得更好。

对于普通人来说，SeGPruner的意义可能不会立即显现，但它的影响将会逐渐渗透到我们生活的方方面面。未来的智能手机可能会因此拍出更好的照片，智能家居设备可能会变得更加贴心，虚拟现实体验可能会更加流畅，自动驾驶汽车可能会更加安全可靠。

更重要的是，SeGPruner为AI研究指出了一个新的方向：不是让机器处理更多信息，而是让机器更智能地处理信息。这种思路转变可能会催生更多创新性的研究成果，推动整个人工智能领域向着更加高效、更加智能的方向发展。

对于有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2603.29437查询完整的技术细节。这项由上海大学主导的研究不仅在学术上具有重要价值，更为AI技术的实际应用开辟了新的可能性。随着相关技术的进一步成熟和普及，我们有理由相信，一个更加智能、更加高效的AI时代正在向我们走来。

Q&A

Q1：SeGPruner技术具体是如何工作的？

A：SeGPruner就像一个智能的信息筛选器，它有两个核心组件：一个负责找出最重要的物体信息（显著性感知选择器），另一个负责确保整个3D空间都有合适的信息覆盖（几何感知多样化器）。它先将多张不同角度的照片转换成3D空间中的信息点，然后智能地选择出既重要又分布均匀的信息，就像从9000块拼图中挑出最关键的2000块一样。

Q2：使用SeGPruner后AI的处理速度能提升多少？

A：根据实验结果，SeGPruner能将AI处理每个3D问题的时间从4.39秒减少到0.63秒，速度提升了近7倍。同时它还能减少91%的视觉信息处理量，这意味着原本需要处理近9000个信息点的任务，现在只需要处理约800个信息点就能达到相同甚至更好的效果。

Q3：SeGPruner技术什么时候能应用到日常生活中？

A：虽然SeGPruner目前还在研究阶段，但它的应用前景非常广泛。未来可能会集成到智能手机的相机系统中提升拍照效果，用于家庭机器人帮助它们更好地理解室内环境，或者应用到自动驾驶汽车中提升道路环境理解能力。具体的商业化时间取决于技术的进一步完善和产业化进程。

人工智能计算机视觉优化模型

分享至