微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

牛津大学等机构研发"听觉SAM2"：让AI视频分割模型真正学会"听声辨物"

音视频分割音频提示稀释跨模态对比学习

牛津大学等机构研发"听觉SAM2"：让AI视频分割模型真正学会"听声辨物"

作者：科技行者

2026-05-25 09:32

分享至：

AuralSAM2为SAM2添加声音感知能力，通过外挂AuralFuser模块和金字塔式音频提示注入，在不降低交互效率的前提下显著提升音视频目标分割准确率。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-05-25 09:32 • 科技行者

这项由牛津大学工程科学系、阿德莱德大学澳大利亚机器学习研究所、斯坦福大学、美国中佛罗里达大学以及英国萨里大学联合完成的研究，以预印本形式发布于arXiv平台，编号为arXiv:2506.01015，最新版本更新于2026年5月14日。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

一、当眼睛不够用的时候

假设你正在用手机剪辑一段演唱会视频，画面里有五六个人，你想精准地把那个正在演奏吉他的人单独抠出来。你可以一帧一帧地看，用手指在屏幕上戳那个人，但如果摄像机一直在动，人也一直在移动，你可能需要反复戳、反复确认，这个过程既累又容易出错——尤其当画面里的人长得差不多，或者目标被其他东西遮住的时候。

这就是当前AI视频分割技术面临的真实困境。Meta公司发布的"Segment Anything Model 2"（SAM2，可以理解为"什么都能分割第二代"）是目前最强的视频目标分割工具之一，它能根据用户在画面上点一个点或画一个框，自动追踪并分割出整段视频里的目标。但它有一个天然的局限：它只会"看"，不会"听"。

现实世界里，声音往往是最直接的线索。那个人在弹吉他，发出的声音就是他的"标签"。如果AI能同时听到吉他声并理解"这个声音来自画面里的那个人"，它就能自动帮你找到目标，省去手动标注的麻烦。这正是这项研究想要解决的问题：如何让SAM2真正学会"听声辨物"？

研究团队将他们的成果命名为AuralSAM2（"Aural"意为"听觉的"），核心思路是为SAM2安装一套"外挂耳朵"，让它在看视频的同时也能感知声音，从而更准确、更省力地找到正在发声的物体。

二、老方法的两个致命弱点

在AuralSAM2出现之前，研究者们已经探索过两条路，但都有明显的短板。

第一条路是"翻译派"：把声音信号先翻译成文字描述，再让AI根据文字在画面里画框，最后把框喂给SAM2来分割。比如吉他声被翻译成"一个人在弹吉他"，AI再去画面里找弹吉他的人，生成一个框，SAM2再根据框来分割。这条路听起来合理，但问题在于"翻译"这个环节太容易出错了——AI可能误解声音内容，框也可能画偏，框一偏，最终分割出来的结果就驴唇不对马嘴，甚至把弹吉他的人的衣服花纹当成目标给抠出来了。更麻烦的是，这种方法依赖额外的大模型来做翻译，每处理一段视频都要多调用一次外部服务，速度慢，成本高。

第二条路是"插件派"：在SAM2的视觉处理模块里插入一些小型"适配器"组件，让这些组件负责把声音特征混入视觉特征里。这种方法从技术上听起来更直接，但它有一个隐蔽的致命问题——研究团队将其命名为"音频提示稀释"。

所谓"音频提示稀释"，可以用一个生活场景来理解：你在一杯清水里滴入一滴红墨水，一开始颜色还算明显，但随着你不断往杯里加水，红色越来越淡，最后几乎看不见了。声音信号在SAM2的网络里从前往后传播时，就像那滴红墨水——一开始还有些影响力，但随着视觉信息层层叠加，声音的"颜色"越来越淡，到了网络的深层，声音几乎已经完全被视觉信息淹没，对最终分割结果的影响微乎其微。

研究团队用一张热力图直观地展示了这个问题：他们把"声音信号对画面像素的注意力"可视化出来，发现在网络浅层，声音还能让某些像素区域"亮起来"；但到了深层，热力图几乎一片黯淡，声音信号已经失去了指引方向的能力。相比之下，传统的视觉提示（比如一个边界框）在整个网络里始终保持强烈的影响力，热力图从始至终都清晰明亮。

除此之外，"插件派"方法还有一个效率问题：因为适配器改变了视觉特征，当用户同时想用声音引导和手动点击来共同控制分割时，系统需要跑两遍：第一遍用声音信号处理一次，第二遍再用用户的手动提示处理一次。两遍下来，速度大约慢了6.5帧每秒，在需要实时反馈的交互场景里，这种延迟是相当明显的。

三、AuralSAM2的设计哲学：外挂耳朵，不动眼睛

面对这两条路各自的缺陷，研究团队采取了一种"两头都不碰"的设计思路。AuralSAM2的核心模块叫做AuralFuser（声音融合器），它完全挂载在SAM2的外部，不修改SAM2原有的视觉处理流程的任何一个环节。

这个设计的妙处在于：SAM2的"眼睛"依然像原来一样工作，它看到的视觉特征完全没有被污染或改变。AuralFuser只负责"在外部听声音、理解声音，然后以SAM2能接受的方式把听觉信息传递进去"。用户如果想同时用声音引导和手动点击来操控分割，系统只需要跑一遍，不需要重复推理，效率损耗极小——实验数据显示，加入AuralFuser之后，系统速度仅下降了约2.3帧每秒，而准确率却有显著提升。

那么，AuralFuser具体是怎么工作的呢？

四、金字塔式的声音理解：从宏观到微观

AuralFuser的工作方式有点像一个经验丰富的声音工程师在分析一段录音：他既要听整体的旋律走向（宏观信息），也要辨别某个乐器的每一个音符（细节信息）。

首先，系统会对输入的多模态信息进行预处理。声音波形通过一个叫做VGGish的预训练音频模型被压缩成紧凑的音频特征向量；如果数据集里还有文字描述（比如"画面正前方男人手中的发声物体"），这段文字会通过一个叫做RoBERTa的语言模型被转换成语言特征向量。这两部分特征随后被拼接在一起，形成一个"声音加语言"的联合描述。

与此同时，SAM2的视觉编码器在处理视频帧的过程中，会在不同深度的位置输出视觉特征，就像楼房的不同楼层各自有一张"建筑平面图"，浅层的平面图分辨率高但细节多而杂，深层的平面图分辨率低但语义更精练。AuralFuser从三个不同层（对应下采样倍率分别为4倍、8倍、16倍的特征图）抽取这些视觉特征，构建一个多尺度的"视觉金字塔"。

接下来是关键操作：对于金字塔的每一层，AuralFuser都让声音特征和该层的视觉特征进行一次"对话"——先各自做自我梳理（自注意力），再互相看对方（交叉注意力融合），让声音去询问这一层的视觉特征："在你负责的这个尺度上，有没有跟我对应的像素区域？"这个融合过程借鉴并改进了AVSBench论文中提出的TPAVI融合机制，以及SAM2自身的双向交叉注意力机制。

更进一步，从第二层开始，系统还会把上一层的融合结果叠加进来再做一次平滑处理。这就像建筑师在画更精细的楼层平面图时，会参考之前粗略图纸上已经确定的大致布局，保持信息的连贯性和一致性。

经过这套金字塔式处理之后，AuralFuser会输出两类提示信息。第一类叫做"稀疏提示"，本质上是一组全局性的上下文向量，代表"画面里哪些地方可能有正在发声的物体"的高层抽象理解，就像在一幅地图上圈出几个"重点关注区域"。第二类叫做"密集提示"，是与图像像素空间对齐的特征图，精确到每个像素点，标注"这个像素有多大可能属于发声物体"，就像在同一幅地图上直接给每个位置标注了"发声概率"。

这两类提示随后被逐层注入SAM2的掩码解码器（负责最终输出分割掩码的模块）：在解码器的第k个两路交叉注意力块处，稀疏提示被加到对应的稀疏嵌入上，密集提示被加到对应的密集嵌入上。这种"金字塔式逐层注入"的设计，正是克服"音频提示稀释"问题的核心手段——声音信号不再只在网络入口处注入一次然后慢慢被稀释，而是在每一层都重新注入一次经过该层专门优化的音频信息，确保声音的"颜色"在整个网络里始终保持鲜艳。

五、让声音成为主角：AudioCon对抗视觉霸权

即便有了金字塔式注入，研究团队还发现了另一个深层问题：视觉信号天然比声音信号"话多"。在一段视频里，视觉特征的数量可以超过100万个密集向量，而声音特征只有大约10个粗粒度向量。这就好比在一场讨论会上，视觉代表有一百万个发言机会，而声音代表只有十个，无论声音说什么都很容易被淹没在视觉的汪洋中。

为了解决这个"视觉霸权"问题，研究团队引入了一种叫做AudioCon（音频引导对比学习）的训练策略。

对比学习是一种教AI"辨别相似与不同"的技术，通俗来说就是：让AI学会把"应该在一起的东西拉近，把不应该在一起的东西推远"。传统的对比学习方法（如InfoNCE或SupCon）会对所有模态的样本一视同仁地进行拉近和推远操作，但这种做法在声音与视觉严重不平衡的场景下会适得其反——视觉特征数量太多，它们之间的相互拉力会主导整个训练过程，声音的引导作用依然被边缘化。

AudioCon的设计思路完全不同：它将声音特征确立为"锚点"（即中心参照物），视觉特征只能向声音靠拢或远离，而视觉特征之间不允许互相吸引。具体来说，对于每一个视觉像素特征，AudioCon要求它向与之对应的发声物体的音频特征靠近，同时远离其他不对应的视觉像素特征。音频特征就像磁铁的中心，所有相关的视觉特征都被磁力吸引向这个中心聚集，而与声音无关的视觉特征则被弹开。

这种设计使得最终学到的特征空间里，"发声物体相关的视觉特征"会紧密地围绕对应的音频特征聚集成团，而不是被庞大的视觉特征群体稀释和分散。研究团队在论文的补充材料中提供了t-SNE可视化图（一种把高维特征投影到二维平面的可视化方法），直观地展示了AudioCon带来的这种聚集效果。

实验数据也验证了AudioCon的价值：在AVSBench的V1m子集上，与不使用任何对比学习的版本相比，使用AudioCon带来了1.25%的J&F提升；与使用传统SupCon对比学习的版本相比，AudioCon额外多提升了0.77%的J&F。这个差距听起来不大，但在分割任务的评测中，每一个百分点都代表着大量像素的正确归属。

六、实验结果：数字背后的真实差距

研究团队在两个主要基准测试上评估了AuralSAM2：一个是AVSBench（专注于音视频分割，不含语言信息，分为单声源和多声源场景，以及包含70个语义类别的扩展版V2），另一个是Ref-AVS（语言辅助的音视频分割，包含4002个视频片段和20261个文字描述，测试集分为"见过的物体"、"没见过的物体"和"目标不存在"三类）。

在AVSBench的多声源（V1m）子集上，使用Hiera base+骨干网络的AuralSAM2达到了72.04%的Jaccard指数（衡量预测区域与真实区域重叠程度的指标，越高越好），比同样基于SAM2的SAMA-AVS方法高出4.34个百分点，比GAVS方法高出约3.9个百分点。换用更大的Hiera large骨干网络后，指标进一步提升到75.58%。在单声源（V1s）子集上，大模型版本达到了86.62%的Jaccard指数。

在Ref-AVS的综合评分（J&F，同时考虑区域重叠和边界精度）上，Hiera base+版本的AuralSAM2在"见过的物体"类别下达到56.00%，比重新实现的GAVS基线高出4.7个百分点；大模型版本则达到58.68%，整体平均（Mix）评分65.11%，在所有SAM2系列方法中排名最高，同时"不存在目标"类别的误判率（S指标，越低越好）也控制在极低的0.065，表明模型不会乱认目标。

论文还特别展示了一组直观的交叉注意力概率密度分析：在网络的中层和深层，AuralSAM2的音频-像素注意力强度分布峰值约在0.075附近，而SAMA-AVS的峰值仅在0.01附近，前者是后者的约7.5倍。这直接证明了金字塔式注入策略成功克服了音频提示稀释问题，让声音信号在网络深处仍然保持了足够的影响力。

在一个模拟真实用户操作的测试中，研究团队用从真实标注数据中生成的点和框来模拟人工提示，评估"声音引导+人工提示"联合使用时的效果。AuralSAM2在这个场景下以74.26%的Jaccard指数和83.58%的F分数排名第一，同时以14.1帧每秒的处理速度运行，而GAVS在同样场景下只有8.7帧每秒，SAMA-AVS只有9.9帧每秒。这意味着在需要实时人机交互的实际应用场景中，AuralSAM2既更准确，又更流畅。

七、消融实验：每个组件都有它的价值

研究团队还系统地做了"拆零件"实验，逐一验证每个设计选择的贡献，确保没有任何一个组件是"摆设"。

基础对照是纯视觉版本（只用视觉，不加声音），在V1m上的J&F为67.30%，在Ref-AVS见过类别上的J&F为45.89%。加入声音和语言融合之后（不用金字塔，单尺度），V1m提升到75.55%，Ref-AVS见过类别提升到55.43%，分别涨了8.25和9.54个百分点，充分说明跨模态融合本身是有效的。

进一步引入两层金字塔（k=2），两个数据集上的J&F分别再提升到77.68%和56.79%；引入三层金字塔（k=3），进一步提升到78.60%和58.00%，每增加一层金字塔都有稳定的性能增益，证明多尺度特征融合的设计是有效的。最后加上AudioCon，最终指标达到79.85%和58.68%，再分别额外获得1.25和0.68个百分点的提升。

在"去掉某类提示"的对照实验中，去掉稀疏提示（全局上下文向量）导致J&F下降8.06个百分点，去掉密集提示（像素级对齐特征图）导致下降11.61个百分点。两类提示都不可或缺，密集提示因为直接影响像素级分割精度所以贡献略大于稀疏提示。

八、"听说"两用：AuralFuser也适配原版SAM

一个值得单独提及的发现是，AuralFuser不仅能与SAM2配合使用，同样可以直接插接到原版SAM（第一代"任意分割模型"）上，且同样能带来显著的性能提升。

在Ref-AVS数据集上，搭载了AuralFuser的SAM（使用ViT-h视觉骨干）在"见过的物体"类别下达到了54.27%的J&F综合评分，比同期发表于CVPR 2025的TSAM方法（该方法专门为SAM设计了多模态提示增强策略）高出4.17个百分点。这说明AuralFuser的设计具有良好的泛化性，不是专门为SAM2"量身定制"的，而是一个通用的声音融合接口模块。

九、真实场景里的分割效果

研究团队还展示了一组定性可视化结果，直观呈现了不同方法在实际场景中的差异。

其中一个案例是视频中有人在演奏长笛，文字描述为"被女人演奏的发声物体"。GAVS方法分割出来的区域包含了钢琴的一部分，误把女人面前的键盘乐器也算进去了；SAMA-AVS虽然大体找到了长笛的位置，但边界轮廓不够精准，有明显的漏分和误分。AuralSAM2（大模型版本）则精准地分割出了长笛的完整轮廓，边界干净利落。

另一个案例是一只坐在蓝色地毯上的狗，描述为"坐在蓝色地毯上的狗"。在这个场景中，背景相对简单，但需要准确区分狗与地毯的边界。AuralSAM2在这个案例中同样展现出了更精细的边界分割能力，特别是在耳朵、腿部等细节部位的轮廓处理上优于对比方法。

说到底，这项研究真正解决的是一个"1+1能否大于2"的问题：声音信息和视觉信息放在一起，能否产生比单独使用其中任何一种更强的理解能力？AuralSAM2给出了一个肯定的答案，而且证明了这件事可以在不牺牲系统效率和灵活性的前提下做到。

对普通用户来说，这意味着未来的视频编辑软件、会议记录系统、安防监控平台可能会越来越"聪明"：当你说"把那个正在说话的人单独裁出来"，或者当监控系统听到异常声响，AI不再需要你一帧一帧地手动标注，而是能够自动根据声音线索锁定目标，快速准确地完成分割任务。

对于这个研究方向，一个自然延伸的思考是：声音只是"非视觉模态"中的一种，未来是否可以用同样的框架接入触觉、嗅觉的传感器信号，让AI拥有更全面的感知能力？AuralFuser这个"外挂感知模块不改动核心视觉系统"的设计哲学，或许正在为更广泛的多模态感知融合提供一个值得借鉴的范本。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2506.01015查阅完整论文，研究团队也已在GitHub（yyliu01/AuralSAM2）开源了全部代码。

Q&A

Q1：音频提示稀释是什么意思，AuralSAM2是怎么解决的？

A：音频提示稀释指的是声音信号在AI网络里层层传递时越来越弱，到网络深层几乎失去了指导作用，就像一滴墨水在越来越多的水里被稀释。AuralSAM2通过"金字塔式逐层注入"的方式解决这个问题——声音信息不是只在入口处注入一次，而是在网络每一层都重新注入经过该层专门处理的音频信号，确保声音始终保持足够的影响力。

Q2：AuralSAM2和之前的音视频分割方法相比速度怎么样？

A：AuralSAM2在保证更高准确率的同时，运行速度明显快于同类方法。在人机交互测试中，AuralSAM2以14.1帧每秒运行，而GAVS只有8.7帧每秒，SAMA-AVS只有9.9帧每秒。整体来说，加入声音理解模块之后，系统速度仅下降约2.3帧每秒，效率损耗极小。

Q3：AudioCon对比学习和普通对比学习有什么不同？

A：普通对比学习（如SupCon）对视觉特征和音频特征一视同仁，但由于视觉特征数量远多于音频特征（可达百万比十），视觉特征之间的相互吸引会主导训练过程，音频指导被边缘化。AudioCon专门将音频特征设为"锚点"，视觉特征只能向音频靠拢或远离，视觉之间不允许互相吸引，从而保证最终特征空间以声音信号为中心组织，而非被视觉信息淹没。

音视频分割音频提示稀释跨模态对比学习

分享至