微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 牛津大学等机构研发"听觉SAM2":让AI视频分割模型真正学会"听声辨物"

牛津大学等机构研发"听觉SAM2":让AI视频分割模型真正学会"听声辨物"

2026-05-25 09:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-25 09:32 科技行者

这项由牛津大学工程科学系、阿德莱德大学澳大利亚机器学习研究所、斯坦福大学、美国中佛罗里达大学以及英国萨里大学联合完成的研究,以预印本形式发布于arXiv平台,编号为arXiv:2506.01015,最新版本更新于2026年5月14日。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

一、当眼睛不够用的时候

假设你正在用手机剪辑一段演唱会视频,画面里有五六个人,你想精准地把那个正在演奏吉他的人单独抠出来。你可以一帧一帧地看,用手指在屏幕上戳那个人,但如果摄像机一直在动,人也一直在移动,你可能需要反复戳、反复确认,这个过程既累又容易出错——尤其当画面里的人长得差不多,或者目标被其他东西遮住的时候。

这就是当前AI视频分割技术面临的真实困境。Meta公司发布的"Segment Anything Model 2"(SAM2,可以理解为"什么都能分割第二代")是目前最强的视频目标分割工具之一,它能根据用户在画面上点一个点或画一个框,自动追踪并分割出整段视频里的目标。但它有一个天然的局限:它只会"看",不会"听"。

现实世界里,声音往往是最直接的线索。那个人在弹吉他,发出的声音就是他的"标签"。如果AI能同时听到吉他声并理解"这个声音来自画面里的那个人",它就能自动帮你找到目标,省去手动标注的麻烦。这正是这项研究想要解决的问题:如何让SAM2真正学会"听声辨物"?

研究团队将他们的成果命名为AuralSAM2("Aural"意为"听觉的"),核心思路是为SAM2安装一套"外挂耳朵",让它在看视频的同时也能感知声音,从而更准确、更省力地找到正在发声的物体。

二、老方法的两个致命弱点

在AuralSAM2出现之前,研究者们已经探索过两条路,但都有明显的短板。

第一条路是"翻译派":把声音信号先翻译成文字描述,再让AI根据文字在画面里画框,最后把框喂给SAM2来分割。比如吉他声被翻译成"一个人在弹吉他",AI再去画面里找弹吉他的人,生成一个框,SAM2再根据框来分割。这条路听起来合理,但问题在于"翻译"这个环节太容易出错了——AI可能误解声音内容,框也可能画偏,框一偏,最终分割出来的结果就驴唇不对马嘴,甚至把弹吉他的人的衣服花纹当成目标给抠出来了。更麻烦的是,这种方法依赖额外的大模型来做翻译,每处理一段视频都要多调用一次外部服务,速度慢,成本高。

第二条路是"插件派":在SAM2的视觉处理模块里插入一些小型"适配器"组件,让这些组件负责把声音特征混入视觉特征里。这种方法从技术上听起来更直接,但它有一个隐蔽的致命问题——研究团队将其命名为"音频提示稀释"。

所谓"音频提示稀释",可以用一个生活场景来理解:你在一杯清水里滴入一滴红墨水,一开始颜色还算明显,但随着你不断往杯里加水,红色越来越淡,最后几乎看不见了。声音信号在SAM2的网络里从前往后传播时,就像那滴红墨水——一开始还有些影响力,但随着视觉信息层层叠加,声音的"颜色"越来越淡,到了网络的深层,声音几乎已经完全被视觉信息淹没,对最终分割结果的影响微乎其微。

研究团队用一张热力图直观地展示了这个问题:他们把"声音信号对画面像素的注意力"可视化出来,发现在网络浅层,声音还能让某些像素区域"亮起来";但到了深层,热力图几乎一片黯淡,声音信号已经失去了指引方向的能力。相比之下,传统的视觉提示(比如一个边界框)在整个网络里始终保持强烈的影响力,热力图从始至终都清晰明亮。

除此之外,"插件派"方法还有一个效率问题:因为适配器改变了视觉特征,当用户同时想用声音引导和手动点击来共同控制分割时,系统需要跑两遍:第一遍用声音信号处理一次,第二遍再用用户的手动提示处理一次。两遍下来,速度大约慢了6.5帧每秒,在需要实时反馈的交互场景里,这种延迟是相当明显的。

三、AuralSAM2的设计哲学:外挂耳朵,不动眼睛

面对这两条路各自的缺陷,研究团队采取了一种"两头都不碰"的设计思路。AuralSAM2的核心模块叫做AuralFuser(声音融合器),它完全挂载在SAM2的外部,不修改SAM2原有的视觉处理流程的任何一个环节。

这个设计的妙处在于:SAM2的"眼睛"依然像原来一样工作,它看到的视觉特征完全没有被污染或改变。AuralFuser只负责"在外部听声音、理解声音,然后以SAM2能接受的方式把听觉信息传递进去"。用户如果想同时用声音引导和手动点击来操控分割,系统只需要跑一遍,不需要重复推理,效率损耗极小——实验数据显示,加入AuralFuser之后,系统速度仅下降了约2.3帧每秒,而准确率却有显著提升。

那么,AuralFuser具体是怎么工作的呢?

四、金字塔式的声音理解:从宏观到微观

AuralFuser的工作方式有点像一个经验丰富的声音工程师在分析一段录音:他既要听整体的旋律走向(宏观信息),也要辨别某个乐器的每一个音符(细节信息)。

首先,系统会对输入的多模态信息进行预处理。声音波形通过一个叫做VGGish的预训练音频模型被压缩成紧凑的音频特征向量;如果数据集里还有文字描述(比如"画面正前方男人手中的发声物体"),这段文字会通过一个叫做RoBERTa的语言模型被转换成语言特征向量。这两部分特征随后被拼接在一起,形成一个"声音加语言"的联合描述。

与此同时,SAM2的视觉编码器在处理视频帧的过程中,会在不同深度的位置输出视觉特征,就像楼房的不同楼层各自有一张"建筑平面图",浅层的平面图分辨率高但细节多而杂,深层的平面图分辨率低但语义更精练。AuralFuser从三个不同层(对应下采样倍率分别为4倍、8倍、16倍的特征图)抽取这些视觉特征,构建一个多尺度的"视觉金字塔"。

接下来是关键操作:对于金字塔的每一层,AuralFuser都让声音特征和该层的视觉特征进行一次"对话"——先各自做自我梳理(自注意力),再互相看对方(交叉注意力融合),让声音去询问这一层的视觉特征:"在你负责的这个尺度上,有没有跟我对应的像素区域?"这个融合过程借鉴并改进了AVSBench论文中提出的TPAVI融合机制,以及SAM2自身的双向交叉注意力机制。

更进一步,从第二层开始,系统还会把上一层的融合结果叠加进来再做一次平滑处理。这就像建筑师在画更精细的楼层平面图时,会参考之前粗略图纸上已经确定的大致布局,保持信息的连贯性和一致性。

经过这套金字塔式处理之后,AuralFuser会输出两类提示信息。第一类叫做"稀疏提示",本质上是一组全局性的上下文向量,代表"画面里哪些地方可能有正在发声的物体"的高层抽象理解,就像在一幅地图上圈出几个"重点关注区域"。第二类叫做"密集提示",是与图像像素空间对齐的特征图,精确到每个像素点,标注"这个像素有多大可能属于发声物体",就像在同一幅地图上直接给每个位置标注了"发声概率"。

这两类提示随后被逐层注入SAM2的掩码解码器(负责最终输出分割掩码的模块):在解码器的第k个两路交叉注意力块处,稀疏提示被加到对应的稀疏嵌入上,密集提示被加到对应的密集嵌入上。这种"金字塔式逐层注入"的设计,正是克服"音频提示稀释"问题的核心手段——声音信号不再只在网络入口处注入一次然后慢慢被稀释,而是在每一层都重新注入一次经过该层专门优化的音频信息,确保声音的"颜色"在整个网络里始终保持鲜艳。

五、让声音成为主角:AudioCon对抗视觉霸权

即便有了金字塔式注入,研究团队还发现了另一个深层问题:视觉信号天然比声音信号"话多"。在一段视频里,视觉特征的数量可以超过100万个密集向量,而声音特征只有大约10个粗粒度向量。这就好比在一场讨论会上,视觉代表有一百万个发言机会,而声音代表只有十个,无论声音说什么都很容易被淹没在视觉的汪洋中。

为了解决这个"视觉霸权"问题,研究团队引入了一种叫做AudioCon(音频引导对比学习)的训练策略。

对比学习是一种教AI"辨别相似与不同"的技术,通俗来说就是:让AI学会把"应该在一起的东西拉近,把不应该在一起的东西推远"。传统的对比学习方法(如InfoNCE或SupCon)会对所有模态的样本一视同仁地进行拉近和推远操作,但这种做法在声音与视觉严重不平衡的场景下会适得其反——视觉特征数量太多,它们之间的相互拉力会主导整个训练过程,声音的引导作用依然被边缘化。

AudioCon的设计思路完全不同:它将声音特征确立为"锚点"(即中心参照物),视觉特征只能向声音靠拢或远离,而视觉特征之间不允许互相吸引。具体来说,对于每一个视觉像素特征,AudioCon要求它向与之对应的发声物体的音频特征靠近,同时远离其他不对应的视觉像素特征。音频特征就像磁铁的中心,所有相关的视觉特征都被磁力吸引向这个中心聚集,而与声音无关的视觉特征则被弹开。

这种设计使得最终学到的特征空间里,"发声物体相关的视觉特征"会紧密地围绕对应的音频特征聚集成团,而不是被庞大的视觉特征群体稀释和分散。研究团队在论文的补充材料中提供了t-SNE可视化图(一种把高维特征投影到二维平面的可视化方法),直观地展示了AudioCon带来的这种聚集效果。

实验数据也验证了AudioCon的价值:在AVSBench的V1m子集上,与不使用任何对比学习的版本相比,使用AudioCon带来了1.25%的J&F提升;与使用传统SupCon对比学习的版本相比,AudioCon额外多提升了0.77%的J&F。这个差距听起来不大,但在分割任务的评测中,每一个百分点都代表着大量像素的正确归属。

六、实验结果:数字背后的真实差距

研究团队在两个主要基准测试上评估了AuralSAM2:一个是AVSBench(专注于音视频分割,不含语言信息,分为单声源和多声源场景,以及包含70个语义类别的扩展版V2),另一个是Ref-AVS(语言辅助的音视频分割,包含4002个视频片段和20261个文字描述,测试集分为"见过的物体"、"没见过的物体"和"目标不存在"三类)。

在AVSBench的多声源(V1m)子集上,使用Hiera base+骨干网络的AuralSAM2达到了72.04%的Jaccard指数(衡量预测区域与真实区域重叠程度的指标,越高越好),比同样基于SAM2的SAMA-AVS方法高出4.34个百分点,比GAVS方法高出约3.9个百分点。换用更大的Hiera large骨干网络后,指标进一步提升到75.58%。在单声源(V1s)子集上,大模型版本达到了86.62%的Jaccard指数。

在Ref-AVS的综合评分(J&F,同时考虑区域重叠和边界精度)上,Hiera base+版本的AuralSAM2在"见过的物体"类别下达到56.00%,比重新实现的GAVS基线高出4.7个百分点;大模型版本则达到58.68%,整体平均(Mix)评分65.11%,在所有SAM2系列方法中排名最高,同时"不存在目标"类别的误判率(S指标,越低越好)也控制在极低的0.065,表明模型不会乱认目标。

论文还特别展示了一组直观的交叉注意力概率密度分析:在网络的中层和深层,AuralSAM2的音频-像素注意力强度分布峰值约在0.075附近,而SAMA-AVS的峰值仅在0.01附近,前者是后者的约7.5倍。这直接证明了金字塔式注入策略成功克服了音频提示稀释问题,让声音信号在网络深处仍然保持了足够的影响力。

在一个模拟真实用户操作的测试中,研究团队用从真实标注数据中生成的点和框来模拟人工提示,评估"声音引导+人工提示"联合使用时的效果。AuralSAM2在这个场景下以74.26%的Jaccard指数和83.58%的F分数排名第一,同时以14.1帧每秒的处理速度运行,而GAVS在同样场景下只有8.7帧每秒,SAMA-AVS只有9.9帧每秒。这意味着在需要实时人机交互的实际应用场景中,AuralSAM2既更准确,又更流畅。

七、消融实验:每个组件都有它的价值

研究团队还系统地做了"拆零件"实验,逐一验证每个设计选择的贡献,确保没有任何一个组件是"摆设"。

基础对照是纯视觉版本(只用视觉,不加声音),在V1m上的J&F为67.30%,在Ref-AVS见过类别上的J&F为45.89%。加入声音和语言融合之后(不用金字塔,单尺度),V1m提升到75.55%,Ref-AVS见过类别提升到55.43%,分别涨了8.25和9.54个百分点,充分说明跨模态融合本身是有效的。

进一步引入两层金字塔(k=2),两个数据集上的J&F分别再提升到77.68%和56.79%;引入三层金字塔(k=3),进一步提升到78.60%和58.00%,每增加一层金字塔都有稳定的性能增益,证明多尺度特征融合的设计是有效的。最后加上AudioCon,最终指标达到79.85%和58.68%,再分别额外获得1.25和0.68个百分点的提升。

在"去掉某类提示"的对照实验中,去掉稀疏提示(全局上下文向量)导致J&F下降8.06个百分点,去掉密集提示(像素级对齐特征图)导致下降11.61个百分点。两类提示都不可或缺,密集提示因为直接影响像素级分割精度所以贡献略大于稀疏提示。

八、"听说"两用:AuralFuser也适配原版SAM

一个值得单独提及的发现是,AuralFuser不仅能与SAM2配合使用,同样可以直接插接到原版SAM(第一代"任意分割模型")上,且同样能带来显著的性能提升。

在Ref-AVS数据集上,搭载了AuralFuser的SAM(使用ViT-h视觉骨干)在"见过的物体"类别下达到了54.27%的J&F综合评分,比同期发表于CVPR 2025的TSAM方法(该方法专门为SAM设计了多模态提示增强策略)高出4.17个百分点。这说明AuralFuser的设计具有良好的泛化性,不是专门为SAM2"量身定制"的,而是一个通用的声音融合接口模块。

九、真实场景里的分割效果

研究团队还展示了一组定性可视化结果,直观呈现了不同方法在实际场景中的差异。

其中一个案例是视频中有人在演奏长笛,文字描述为"被女人演奏的发声物体"。GAVS方法分割出来的区域包含了钢琴的一部分,误把女人面前的键盘乐器也算进去了;SAMA-AVS虽然大体找到了长笛的位置,但边界轮廓不够精准,有明显的漏分和误分。AuralSAM2(大模型版本)则精准地分割出了长笛的完整轮廓,边界干净利落。

另一个案例是一只坐在蓝色地毯上的狗,描述为"坐在蓝色地毯上的狗"。在这个场景中,背景相对简单,但需要准确区分狗与地毯的边界。AuralSAM2在这个案例中同样展现出了更精细的边界分割能力,特别是在耳朵、腿部等细节部位的轮廓处理上优于对比方法。

说到底,这项研究真正解决的是一个"1+1能否大于2"的问题:声音信息和视觉信息放在一起,能否产生比单独使用其中任何一种更强的理解能力?AuralSAM2给出了一个肯定的答案,而且证明了这件事可以在不牺牲系统效率和灵活性的前提下做到。

对普通用户来说,这意味着未来的视频编辑软件、会议记录系统、安防监控平台可能会越来越"聪明":当你说"把那个正在说话的人单独裁出来",或者当监控系统听到异常声响,AI不再需要你一帧一帧地手动标注,而是能够自动根据声音线索锁定目标,快速准确地完成分割任务。

对于这个研究方向,一个自然延伸的思考是:声音只是"非视觉模态"中的一种,未来是否可以用同样的框架接入触觉、嗅觉的传感器信号,让AI拥有更全面的感知能力?AuralFuser这个"外挂感知模块不改动核心视觉系统"的设计哲学,或许正在为更广泛的多模态感知融合提供一个值得借鉴的范本。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2506.01015查阅完整论文,研究团队也已在GitHub(yyliu01/AuralSAM2)开源了全部代码。

Q&A

Q1:音频提示稀释是什么意思,AuralSAM2是怎么解决的?

A:音频提示稀释指的是声音信号在AI网络里层层传递时越来越弱,到网络深层几乎失去了指导作用,就像一滴墨水在越来越多的水里被稀释。AuralSAM2通过"金字塔式逐层注入"的方式解决这个问题——声音信息不是只在入口处注入一次,而是在网络每一层都重新注入经过该层专门处理的音频信号,确保声音始终保持足够的影响力。

Q2:AuralSAM2和之前的音视频分割方法相比速度怎么样?

A:AuralSAM2在保证更高准确率的同时,运行速度明显快于同类方法。在人机交互测试中,AuralSAM2以14.1帧每秒运行,而GAVS只有8.7帧每秒,SAMA-AVS只有9.9帧每秒。整体来说,加入声音理解模块之后,系统速度仅下降约2.3帧每秒,效率损耗极小。

Q3:AudioCon对比学习和普通对比学习有什么不同?

A:普通对比学习(如SupCon)对视觉特征和音频特征一视同仁,但由于视觉特征数量远多于音频特征(可达百万比十),视觉特征之间的相互吸引会主导训练过程,音频指导被边缘化。AudioCon专门将音频特征设为"锚点",视觉特征只能向音频靠拢或远离,视觉之间不允许互相吸引,从而保证最终特征空间以声音信号为中心组织,而非被视觉信息淹没。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-