微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙大与南京航空航天大学联合出手:让AI真正读懂你的意图,精准找出图中每一个目标

浙大与南京航空航天大学联合出手:让AI真正读懂你的意图,精准找出图中每一个目标

2026-06-01 11:34
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-01 11:34 科技行者

这项由浙江大学与南京航空航天大学联合推进的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.26102,有兴趣深入了解的读者可以通过该编号查询完整论文。

你有没有试过跟一个只会死记硬背的人沟通?你说"把桌上那个靠近水杯的、有点旧的本子递给我",他却茫然地问"你说的是'本子'吗?我只认识叫做'本子'的东西"。这种鸡同鸭讲的感觉,就是当前主流图像分割AI系统的真实写照。

所谓图像分割,通俗来说就是让计算机在一张图片里把某个目标"抠出来",精确地描绘出它的边界。这项能力对于自动驾驶汽车识别行人、医疗系统分析病灶、机器人手臂抓取物体来说都至关重要。近几年,Meta公司推出的SAM系列模型(Segment Anything Model,意为"分割任何东西")在这个领域树立了相当高的标杆,尤其是最新的SAM3,它能接收一个简短的名词短语作为提示,然后在图片里找出所有符合描述的目标实例并逐一分割。

然而,SAM3有一个根本性的局限:它只听得懂简单的名词,比如"咖啡杯"或者"交通锥"。而现实中,人们想找的东西往往需要用一整句话才能说清楚,比如"桌上那两个最大的"、"除了正前方那个以外的所有人"、"最靠近水槽的马克杯"。这类包含了属性描述、空间关系、数量限定甚至排除逻辑的复杂指令,对SAM3来说完全是天书。

正是为了填补这个空白,浙大与南航的研究团队推出了**InstructSAM**——一个能够理解任意自然语言指令并精准分割每一个目标实例的统一框架。同时,他们还构建了一个大规模的专属数据集与评测基准**Inst?Seg**,为整个领域的进步提供了重要的基础设施。

---

一、现有方案为何都是"半吊子"

要理解InstructSAM的价值,先得搞清楚现有方案都卡在哪里。

面对"请帮我找出图里穿灰色球衣的、正面对着球的那两名球员"这样的指令,业界主要有两种应对策略,但两种策略都各有硬伤。

第一种策略是"智能助理接力跑":先让一个大型视觉语言模型(可以理解为一个能看图说话的AI大脑)把复杂指令拆解成SAM3能听懂的简单词汇,再把SAM3的输出结果交回给AI大脑做筛选和验证,如此反复多轮。这个过程就像玩"传话游戏"——信息在多次转述中不断失真,复杂的空间关系、排除逻辑往往在翻译成简单名词时就已经悄悄丢失了。更要命的是,这种多轮交互的方式非常缓慢,测试表明同等条件下它需要将近30秒才能完成一次预测。

第二种策略是"让AI直接说出分割结果":给大语言模型装上一个特殊的"分割令牌"(可以理解为一个特殊的魔法词),模型在生成回答时,每当说出这个魔法词,系统就对应生成一个分割掩码。LISA、Sa2VA等模型都采用了这种思路。这个思路的问题在于:这个魔法词本质上是个"共用品",没有跟任何具体的目标实例绑定。当你需要分割多个目标时,模型就像在用同一把钥匙开不同的锁,生成的多个结果往往高度重复甚至互相矛盾。LISA++尝试通过让模型依次说出多个魔法词来解决这个问题,但逐个生成的方式使得目标越多、等待越久,且重复预测的问题依然没有根本性解决。

简而言之,第一种方法太慢、太绕、容易丢失细节;第二种方法不擅长区分多个独立个体、容易产生重复输出。InstructSAM的目标就是同时克服这两个弱点。

---

二、InstructSAM的核心思路:给AI配一排专属"候选槽"

InstructSAM的设计哲学可以用一个形象的比喻来理解。假设你在一家公司举办面试,你有10把专属的椅子(这就是论文里说的"可学习查询库"),每把椅子对应一个候选职位。当应聘者进来后,系统会结合岗位说明书(指令文本)和候选人简历(图像信息),让每把椅子专门"锁定"一个最合适的候选人。这样,10把椅子就可能各自对应一个独立的目标实例,而不会互相混淆。

具体来说,InstructSAM包含三个协同工作的核心部件。

第一个部件是多模态大语言模型,它扮演"理解中枢"的角色,负责同时读懂图像内容和用户指令,进行复杂的语义推理。模型的基础是阿里巴巴推出的Qwen3-VL-2B,这是一个仅有20亿参数规模的紧凑型视觉语言模型。

第二个部件是"并行实例查询库",这是InstructSAM最核心的创新之一。研究团队在语言模型内部预先设置了K个(默认为10个)可以被学习和调整的"查询向量",相当于10个空白的候选槽位。当模型遇到一个特殊触发词`<mask_start>`时,这10个槽位就会被一起注入到处理流程里,与图像信息和指令信息充分互动。最终,每个槽位都会被"注入"一个具体目标实例的语义信息,变成一个独立的、指向特定目标的"实例指针"。这个设计的精妙之处在于:10个槽位是同时并行处理的,一次前向传播就全部搞定,完全不需要像自回归方法那样一个一个地生成。

第三个部件是SAM3的掩码解码器,它接收前两个部件输出的"实例指针",并以此为线索在图像中精确定位并勾勒出每个目标实例的像素级轮廓。

---

三、混合注意力机制:让槽位之间"通气"

仅有并行槽位还不够,因为还存在一个隐患:10个槽位可能会"撞车",即多个槽位不约而同地指向同一个目标,导致重复预测。

为了解决这个问题,研究团队设计了一种被称为"混合注意力机制"的通信规则。理解这个机制,需要先了解大语言模型里的"注意力"是什么。简单来说,注意力机制决定了模型处理某个词的时候,能"看到"序列中哪些其他词的信息。传统的语言模型采用"单向注意力"——每个词只能看到它前面的词,不能看到后面的词,就像读一本从左到右的书,读到第10页时只知道前9页发生了什么。

混合注意力机制对文本词语和掩码查询槽位采用了不同的规则。文本词语继续遵循传统的单向注意力,保证语言生成的正确性不受干扰。而那10个查询槽位则被赋予了"全局视野"——每个槽位不仅能看到所有的图像信息和指令文本,还能看到其他所有槽位的信息。这样,各个槽位在"认领"各自目标时就能相互协商:"这个目标我来负责,你们不要重复认领",从而有效压制重复预测,保证整个预测集合的内部一致性。

---

四、从"槽位"到"掩码"的完整流水线

当10个查询槽位经过语言模型的充分处理后,每个槽位都携带了丰富的实例信息。接下来需要把这些信息翻译成SAM3掩码解码器能够理解的语言。

研究团队在两者之间架设了一个轻量级的翻译桥梁。对于每个查询槽位,一个小型的全连接神经网络(MLP,即多层感知机)负责把槽位向量转换成SAM3解码器期望接收的格式,得到"接地气的掩码查询嵌入"。与此同时,系统还会让语言模型生成一个简短的目标描述短语(比如把一个复杂指令总结成"穿灰衣的左侧球员"),这个短语经过另一个MLP转换后,作为辅助的文字条件信号一并送入解码器。

随后,一个融合编码器会让图像特征充分吸收目标短语的语义信息,生成"指令感知型图像特征"。检测器则让每个掩码查询向量与这些特征反复交互,精炼出针对各自目标实例的专属表示。最终,一个评分头会为每个槽位打分(判断它是否真的对应一个有效目标),一个分割头则生成对应的二值化像素掩码。整个过程在一次前向传播中完成,高效且一气呵成。

---

五、三种损失函数:从三个角度督促模型学好

训练InstructSAM需要同时优化三个目标,就像用三把不同的尺子来衡量学生的综合素质。

第一把尺子衡量语言能力,即"掩码自回归损失"。它要求模型能够正确生成描述目标的文字输出,但在计算损失时会把特殊的查询槽位词语排除在外,因为这些槽位不应该被当作普通语言来学习。

第二把尺子衡量分割精度,即"实例分割损失"。这里用到了DETR风格的二分图匹配——先在预测槽位和真实目标之间寻找最优的一对一配对,然后对配对上的槽位计算像素级的二值交叉熵损失和Dice损失。二值交叉熵损失逐像素地判断预测对不对,Dice损失则从整体重叠度的角度衡量掩码质量,两者相互补充。

第三把尺子衡量存在感判断,即"存在感损失"。它要求每个槽位的评分头正确预测自己是否对应一个真实目标——被二分图匹配到真实目标的槽位应该打高分,其余的应该打低分。这把尺子教会系统知道自己"什么时候该哑火",避免在没有目标时胡乱输出。

---

六、Inst?Seg:为这个新问题量身打造的试炼场

研究团队意识到,光有好方法还不够,还需要一个合适的测试舞台。现有的图像分割基准(如RefCOCO系列)大多只支持短语式提示,且通常只涉及单个目标,对复杂指令下的多实例预测几乎没有覆盖。因此,他们从头构建了Inst?Seg。

Inst?Seg的训练数据来自两大来源:一是从SA-1B和COCO2017中采样的传统第三人称视角图像,覆盖各类室外场景和日常物品;二是从Ego4D、EPIC-KITCHENS和HD-EPIC中精选的第一人称视角视频帧,覆盖厨房操作、日常活动等近距离交互场景。这种组合确保了数据的多样性。

数据标注经历了严格的四阶段流水线。第一阶段,使用谷歌的Gemini 3 Flash模型为每张图像生成指向具体目标的定位性问答对,同时设计了数量/量词字段来显式记录多实例目标的数量。第二阶段进行目标合并和边界框生成——将指向同一目标的多个问题合并为共享一个目标ID,并由Gemini预测归一化的二维边界框。第三阶段用SAM2对这些边界框进行像素级精确标注,得到每个目标实例的完整掩码。第四阶段进行过滤,剔除低质量或前后不一致的样本。最终,这个流程为100K张图像生成了50万个高质量的问答-掩码配对。

评测基准部分包含986张图像和3328条独特指令,全部经过人工核验。基准覆盖单目标、多目标和零目标(即指令描述的对象在图中不存在,模型应输出空结果)三种情形,同时包含需要推理和不需要推理的场景,并且评测粒度细化到了物体级别和部件级别。评测主要采用mAP(平均精度均值)作为实例级核心指标,同时报告gIoU作为语义级别的补充指标。

与其他主流基准相比,Inst?Seg在评测维度上的全面性是独一档的:RefCOCO系列只支持单目标、短语提示;ReasonSeg虽然加入了推理场景,但只有单目标、无实例级评测;gRefCOCO支持多目标但依然只接受短语提示。Inst?Seg是首个同时覆盖"任意形式指令+多目标+无目标+推理"四个维度、并提供实例级评测的基准。

---

七、实验结果:数字背后的真实差距

在Inst?Seg基准上,InstructSAM-2B取得了31.5的整体mAP,在所有端到端方法中遥遥领先。为了让这个数字更有感触,可以对比一下竞争对手的表现:LISA-7B只有1.9 mAP,LISA++-7B为2.2 mAP,PixelLM-7B为4.6 mAP,SA2VA-4B为8.2 mAP,SA2VA-8B为9.4 mAP,X-SAM-3.8B为11.0 mAP。注意,这些对手的参数量大多是InstructSAM的两到四倍,但性能差距却非常悬殊。

参数量相近的SAM3-Agent(使用Qwen2.5-VL-3B作为推理大脑)取得了23.2 mAP,仍落后于InstructSAM约8.3个百分点。即便使用更大的Qwen2.5-VL-7B驱动SAM3-Agent,得到的35.7 mAP虽然超过了InstructSAM,但代价是参数量是后者的三倍多,而且需要将近30秒的推理时间,而InstructSAM只需1.1秒。这意味着在同等算力预算下,InstructSAM的性价比优势更加显著。

对于不同目标数量的子场景,InstructSAM在单目标上达到52.6 mAP,多目标上达到22.2 mAP,这两个数字的差距反映出多实例分割本身确实比单实例难得多。在零目标场景(即应该输出空结果的情况)上,InstructSAM取得了74.3 gIoU——尤为值得注意的是,训练集中完全没有使用任何零目标样本,这个成绩纯粹是模型泛化能力的体现。

在需要推理的语义级分割基准ReasonSeg上,InstructSAM-2B也展现出强劲竞争力,在测试集整体cIoU上比SA2VA-4B高出5.2个点,在长指令子集上的优势更扩大到6.9个点,说明模型对复杂冗长描述的鲁棒性尤为突出。

在短语级多目标分割基准gRefCOCO上,InstructSAM-2B的mAP达到57.3,cIoU达到68.3,在val集上比之前最强的GSVA-7B高出6.6个cIoU点,且参数量仅为对方的约四分之一。零样本泛化测试基准GSEval上,InstructSAM以64.1 gIoU超越此前最优的EVF-SAM 1.5个点。在专门为机器人室内感知设计的RoboRefIt基准上,InstructSAM-2B的testB(分布外测试)成绩达到74.4,不仅完胜所有其他大模型方法,还比专为该任务设计的任务特定方法RefTR-r50高出12.9个点。

---

八、消融实验:拆开每个零件看看它值多少

研究团队通过系统的消融实验,量化了每个设计决策的具体贡献。

移除并行查询库,强迫模型改用自回归方式生成掩码词语时,Inst?Seg的mAP从31.5骤降至20.1,降幅超过三分之一,充分说明显式槽位结构对实例级分割的必要性。将混合注意力机制替换为普通的因果注意力时,ReasonSeg上的cIoU从65.0跌至52.4,说明双向信息交换对推理型分割任务的作用尤为关键。

对于查询数量K的选取,实验显示K=10时推理时间仅1.1秒;增加到50时性能几乎持平但时间延长至1.4秒;增加到200时时间进一步上升到2.1秒而性能反而略有下滑。这说明对于绝大多数实际场景,10个槽位已经足够覆盖需求,过多的冗余槽位并不带来增益。

关于短语条件信号和LLM调制查询各自的贡献,实验结果揭示了一个有趣的不对称性。用占位符替换语言模型生成的目标短语时,性能只下降了约2.4个mAP点,影响相对温和;但直接移除LLM调制后的查询嵌入时,性能暴跌14.8个mAP点。这个对比清晰地表明:**语言模型条件化的查询嵌入是承载指令语义的主要载体,而生成的短语主要起到辅助稳定和兼容SAM3接口的次要作用**。

Inst?Seg数据集的价值也经过了消融验证。完全移除Inst?Seg训练数据后,多目标场景mAP从22.2降至17.6;移除数据过滤步骤后,整体mAP从31.5暴跌至11.9,说明原始未过滤的MLLM+SAM3联合生成数据中噪声相当严重,过滤步骤是保证训练数据质量的关键环节。两阶段训练中的第一阶段(对齐预训练)同样不可或缺,缺失它会导致gRefCOCO val上mAP下降16个点,Inst?Seg mAP下降23.4个点,ReasonSeg val cIoU惊人地下降49.1个点。

---

说到底,InstructSAM做的事情,就是给视觉AI装上了一双真正能听懂人话的耳朵。过去,你跟AI说"把那个角落里最旧的那个杯子抠出来",它只能一脸茫然;现在,InstructSAM通过一个精妙的"候选槽位+混合注意力+SAM3解码"三级架构,把这句话完整地理解了,并且一次性找出所有符合描述的目标,哪个没有、哪个多了、哪个重复了,都能清清楚楚地辨认出来。

当然,这项研究也坦诚地指出了自身的局限。目前InstructSAM只处理静态图像,还没有延伸到视频领域——视频里的多目标时序追踪和帧间一致性问题,会让数据标注和模型训练的复杂度再上一个台阶。另外,如何把分割能力和大规模对话推理能力更好地融合,而不互相干扰,也是摆在这个方向面前的开放问题。

不过,对于从事机器人抓取、智能家居、辅助医疗影像分析的工程师来说,InstructSAM提供了一个具有相当实用价值的方向:仅凭20亿参数的轻量模型,在1秒多的时间内,用一句自然语言指令就能精确分割出图中的每一个目标。如果这一能力继续成熟,未来跟家里的扫地机器人说"帮我把沙发下面那三只拖鞋找出来",它真的有可能听懂并精准执行——而不是困惑地在地板上画一个大圆圈。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.26102查阅完整论文原文。

---

Q&A

Q1:InstructSAM和SAM3有什么区别?

A:SAM3只能接受简短名词短语(如"椅子")作为提示,无法理解复杂指令。InstructSAM在SAM3的掩码解码器基础上,额外引入了一个多模态语言模型和并行实例查询库,能够理解包含属性、空间关系、数量限定等复杂语义的自然语言指令,并在一次前向传播中同时输出多个独立实例的分割掩码,不需要多轮交互。

Q2:Inst?Seg数据集和RefCOCO有什么不同?

A:RefCOCO系列使用短语提示,通常只标注单个目标,不包含无目标场景,也不区分实例级别。Inst?Seg使用自由形式的自然语言指令,同时覆盖单目标、多目标和零目标三种情形,包含需要推理的场景,并提供精确到每个实例的掩码标注,同时使用mAP和gIoU两种指标进行更全面的评测,是目前维度最完整的指令级实例分割基准。

Q3:InstructSAM的推理速度为什么比SAM3-Agent快这么多?

A:SAM3-Agent采用多轮交互流程,需要语言模型先拆解指令、再反复调用SAM3生成候选掩码、最后逐步过滤验证,整个流程平均耗时约30秒。InstructSAM将推理、查询条件化和掩码生成整合为单次前向传播,所有实例的掩码在同一次计算中并行输出,平均耗时仅1.1秒,效率提升约27倍。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-