微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 当"多模态AI"遇上严苛考官:ETH Zürich等机构联合揭开多模态领域一个令人不安的真相

当"多模态AI"遇上严苛考官:ETH Zürich等机构联合揭开多模态领域一个令人不安的真相

2026-05-13 10:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-05-13 10:04 科技行者

这项由瑞士苏黎世联邦理工学院(ETH Zürich)、郑州大学、穆罕默德·本·扎耶德人工智能大学(MBZUAI)和洛桑联邦理工学院(EPFL)联合开展的研究,以预印本形式发布于2026年5月7日,论文编号为arXiv:2605.06643。这是一项关于"多模态领域泛化"(Multimodal Domain Generalization,简称MMDG)的大规模评测研究,研究团队共训练了7402个神经网络,覆盖95个跨域任务,是迄今为止该领域规模最大、最系统的评测工作。

一、多感官的AI,真的更聪明吗

人类在理解世界时从不依赖单一感官。当你走进一家餐厅,你同时用眼睛看菜单、用耳朵听服务员介绍、闻着食物的香气来判断这家店好不好。这种"多管齐下"的感知方式,让人类的判断比单纯靠视觉或听觉要准确得多。AI研究者很早就注意到了这一点,并开始尝试让机器也具备这种"多感官"的能力,这就是所谓的多模态学习——让AI同时处理视频、音频、文字等不同类型的信息。

然而,AI系统在实验室里表现优秀,放到真实世界里却常常大打折扣。这里有一个关键问题:AI是在特定环境下训练的,一旦换了个环境,它就可能认不出来了。打个比方,一个只在家乡厨房见过西红柿炒蛋的孩子,第一次去外地的餐馆,可能会对那里的菜单感到陌生,因为食材摆盘方式、灯光颜色都变了。这种"换了环境就不认识"的问题,在AI领域叫做"领域偏移"(domain shift)。

如何让AI在不同环境下都保持稳定的表现,就是"领域泛化"(Domain Generalization)研究的核心目标。而当AI同时处理多种感官信息时,这个问题变得更加复杂,研究者称之为"多模态领域泛化",简称MMDG。近几年,这个方向越来越热门,各种专门设计的方法层出不穷,论文中的数据看起来都很漂亮。

但这里就出现了一个让人不安的问题:这些方法真的有效,还是只是在特定的测试条件下"刷出了好成绩"?

正是带着这个疑问,来自四所顶级机构的研究团队决定做一件"较真"的事——设计一套公平、统一、全面的评测框架,把目前最有代表性的九种MMDG方法放在同一个赛场上,用同样的规则、同样的裁判来评判它们。这个评测框架就是本文的核心贡献:MMDG-Bench。

二、评测"裁判"本身的问题:为何公平如此重要

在讲MMDG-Bench是什么之前,有必要先解释清楚,之前的评测究竟出了什么问题。

回到我们的餐厅比喻。假设要评选"全国最佳厨师",但每个评委来自不同地方,有人评的是粤菜,有人评的是川菜,有人用百分制打分,有人用五星制,评选标准五花八门。最后选出来的"最佳厨师",到底是真的最好,还是只是在某个裁判面前发挥最好?这种不一致的评判方式,让最终结果根本没有可比性。

MMDG领域长期以来就面临类似的问题。不同的研究团队在不同的数据集上测试自己的方法,使用不同的模型骨架、不同的超参数配置、不同的评分标准,甚至连数据怎么划分都各不相同。一个方法在A团队的测试中表现出色,但换到B团队的框架下,可能就平平无奇。于是每篇论文都声称自己的方法最好,但这些"最好"根本无法横向比较。

更糟糕的是,现有的测试主要集中在视频动作识别这一个任务上,完全忽略了真实部署场景中会遇到的各种挑战,比如输入数据被干扰破坏(相当于厨师在噪音嘈杂的厨房里工作)、某个传感器突然坏掉导致数据缺失(相当于厨师突然失去了嗅觉),或者AI有没有能力知道自己"不确定"(相当于厨师诚实地说"这道菜我没把握"而非瞎猜)。

在单模态(只处理一种信息)领域,一个叫做DomainBed的评测框架曾经做过类似的"较真"工作,结果发现在公平条件下,很多精心设计的专门方法根本没有比最简单的基础方法好多少,这一发现直接重塑了整个研究领域的走向。MMDG-Bench就是要在多模态领域做同样的事情。

三、MMDG-Bench:一个尽可能公平的大擂台

MMDG-Bench的设计思路可以用一句话概括:用同样的规则、同样的场地、同样的裁判,评判所有选手。

在测试场地(数据集)的选择上,研究团队精心挑选了六个来自三个完全不同应用领域的数据集。第一个领域是日常动作识别,使用了EPIC-Kitchens数据集(在三个不同厨房环境中拍摄的八类烹饪动作,共超过一万个视频片段)和HAC数据集(同样七类动作,但分别由真人、动物和卡通人物来表演,形成三个视觉风格迥异的"领域")。第二个领域是工业机械故障诊断,使用了HUST Motor数据集,记录了一台电机在四种不同转速下运行时的振动和声学信号,涵盖健康状态和五种故障类型,每种工况就是一个"领域"。第三个领域是情感分析,使用了CMU-MOSI(英语评论视频)、CMU-MOSEI(更大规模的英语多模态情感数据集)和CH-SIMS(中文情感数据集,来自电影、电视节目等),每个数据集作为一个独立的"领域"。

在感官组合(模态配置)上,MMDG-Bench考察了六种不同的组合方式。对于动作识别,分别测试了视频加音频、视频加光流、音频加光流这三种双模态组合,以及视频加音频加光流的三模态组合;对于故障诊断,使用振动信号加声学信号;对于情感分析,使用视频加音频加文字。这样的设计让研究者可以系统地比较"多一种感官到底有没有帮助"。

在参赛选手(被评测的方法)上,共有九种代表性方法参与评测,外加一个"理想状态"参照组(叫做Oracle,即直接用测试数据训练出来的模型,代表了理论上的性能上限)。这九种方法中,最基础的是ERM(经验风险最小化),就是最简单粗暴的做法:把所有训练数据混在一起,让模型尽量拟合。其余八种方法各有各的专门设计,简单说来,RNA-Net的思路是平衡不同感官信号的"音量"大小,避免某一种信号太强盖过其他信号;SimMMDG把特征分成所有感官共享的部分和各感官独有的部分,分开处理;MOOSA借助一些自我学习的"猜谜游戏"来增强模型对陌生场景的适应能力;CMRF关注的是不同感官的特征空间是否足够"平坦",避免某个感官的特征太过尖锐;NEL专门对付某一个感官信号垄断整个模型的问题;JAT通过"对抗训练"让模型在多个层面都实现领域无关;MBCD解决不同感官的学习速度不一致问题,通过一套协作蒸馏机制来统一步调;GMP则从梯度的角度出发,动态调整不同感官信号对模型更新的贡献,避免优化方向的冲突。

在裁判规则(评测协议)上,所有方法使用完全相同的数据划分、优化器配置和模型选择标准。每个方法不仅测试默认超参数,还进行十次随机搜索,选出在训练集验证上最好的配置,再用两个额外随机种子重新训练取平均。这样做的目的是把运气因素降到最低,让最终的性能差异真正反映算法本身的优劣。

除了传统的分类准确率指标,MMDG-Bench还考察了四个额外维度:在输入数据被噪声干扰时模型是否还能保持稳定;当某个感官信号在测试时突然缺失时模型是否还能工作;当模型预测错误时它能否察觉到自己可能出了问题(错误分类检测);以及当遇到训练时从未见过的类型数据时模型能否识别出这是"陌生的"(分布外检测)。

四、比赛开始:公平条件下,谁才是真正的强者

当所有方法站在同一个赛场上,结果出乎很多人的意料。

先看动作识别任务。在EPIC-Kitchens数据集上,各种专门方法在不同感官组合和不同跨域任务上的表现起伏很大,没有哪个方法能在所有情况下都占据第一。在视频加音频组合下,最好的专门方法(MBCD)在三个测试场景的平均准确率是64.87%,而最基础的ERM是59.78%,差距大约五个百分点。在HAC数据集的同一配置下,最好的专门方法(MOOSA)平均准确率是70.95%,ERM是68.93%,差距不到两个百分点。而且同一个方法在不同配置下的排名会大幅波动,比如MBCD在视频加音频组合下表现很好,换到音频加光流组合下却跌到中游,而另一些方法则恰好相反。音频加光流这一组合在两个动作识别数据集上都是最弱的,印证了视频本身才是动作识别最核心的信息来源。

故障诊断任务上,各方法之间的差距反而更明显。MOOSA达到了78.23%的平均准确率,比ERM的69.90%高出约八个百分点,GMP和CMRF也都显著优于ERM。但值得注意的是,MBCD在动作识别上表现不俗,到了故障诊断这里却滑落到最后一名;GMP在动作识别里只是中游,到故障诊断里却跃升为第二。这种排名的"大反转"说明,一个方法在某类任务上的成功,并不代表它在其他任务上也能成功。把自己的方法说成"通用最优解",在这套评测下根本站不住脚。

情感分析任务的结果更能说明问题。最强的专门方法MOOSA平均准确率是66.60%,而ERM是65.63%,差距不到一个百分点。有一半的测试场景里,ERM与专门方法打成平手甚至更好。更糟糕的是,SimMMDG、MBCD、GMP这些在动作识别上表现可圈可点的方法,在情感分析的平均准确率上反而不如ERM,说明它们在文字主导的任务上存在明显的负迁移现象——加入了那些专门设计反而帮了倒忙。另外,大多数方法在回归任务(预测具体情感强度分数,而非只判断正负)上的误差都相当高,凸显了现有方法在细粒度情感量化上的明显不足。

单源领域泛化(即只用一个环境的数据来训练,然后测试在其他环境的表现)的结果进一步加深了这一印象。在故障诊断的单源测试里,某些极端跨域情况(比如只用1Hz数据训练,去测30Hz的故障),准确率会跌到1.75%到18.14%之间,几乎等于随机猜测。这说明,多源设置下那些看起来不错的性能,很大程度上来自于训练数据本身覆盖了足够多样的领域,而非算法真的学到了领域无关的普适能力。

横亘在所有方法和Oracle之间的那道鸿沟,则是整个研究中最触目惊心的发现。以HAC数据集的视频加音频配置为例,Oracle平均准确率高达92.81%,而最好的专门方法MOOSA只有70.95%,两者之间差了将近22个百分点。在故障诊断上,Oracle接近100%,而最好的方法只有78%出头。这个巨大的差距意味着,MMDG远远没有被"解决",现有的所有方法距离真正的目标还有很长的路要走。

五、三管齐下真的比两管更好吗

一个在多模态研究中被频繁引用的直觉是:感官越多,AI就应该越聪明。就像人类同时用视觉、听觉和触觉来判断物体,理论上比只用一种感官更可靠。然而MMDG-Bench的结果对这一直觉提出了质疑。

在HAC数据集上,把视频、音频、光流三种模态都用上的三模态组合,与最强的双模态组合相比,只有五种方法(共九种被测方法)在三模态下表现更好。ERM、RNA-Net、SimMMDG、MOOSA这几种方法在加入第三个模态后,性能要么没有提升,要么甚至有所下降。以MOOSA为例,从视频加光流的71.29%降到三模态的70.17%,加了音频反而变差了。

唯独那些明确针对"模态竞争"问题设计的方法,比如CMRF(从双模态到三模态提升1.36个百分点)、MBCD(提升0.59个百分点)、GMP(提升0.92个百分点),才在引入第三个模态后稳定地获得了收益。这背后的道理其实并不复杂:当多个感官信号同时存在时,它们会相互竞争,争夺对模型最终决策的影响力。如果不做特别处理,往往是最强势的那个感官独占鳌头,其他的反而成了干扰。只有在算法层面明确解决了这种竞争关系,增加模态才能带来真正的收益。

这个发现对整个领域的研究策略有重要启示:只是简单地把更多感官信号堆叠进来,并不是提升多模态AI性能的正确思路。关键在于如何让不同感官信号优雅地协作,而非各自为政地抢地盘。

六、真实世界的压力测试:噪音、缺失和信任

标准测试条件下的好成绩,放到真实世界里能保持住吗?MMDG-Bench专门设计了两类"压力测试"来回答这个问题。

第一类是输入被干扰的情况。研究团队对音频加入风声干扰,对视频加入失焦模糊效果,然后观察各方法的表现变化。结果相当有规律:音频被风声干扰后,大多数方法的准确率只下降了不到四个百分点,影响还算可控。但视频失焦的影响就严重得多——所有方法的准确率都下跌了约八到十三个百分点,几乎是音频干扰的三倍。更关键的是,在干净数据上的排名和在被干扰数据上的排名出现了显著的翻转。SimMMDG在干净数据上排名第二,视频失焦后却跌到第七;MOOSA则从第一跳升到了受干扰后排名最好的方法之一。这种排名反转意味着,一个方法在标准测试上表现好,并不能保证它在真实部署中一样稳定。那些明确处理了模态平衡问题的方法(如MOOSA、MBCD、GMP),在视频失焦下相对更有韧性,这暗示模态平衡策略本身也带来了一定的抗干扰能力。

第二类是感官突然缺失的情况,模拟传感器故障或数据采集失败。研究团队分别测试了测试时只有视频(去掉音频)和只有音频(去掉视频)两种极端场景。结果呈现出一种鲜明的不对称性:去掉音频后,大多数方法的准确率只下降了0.32到3.20个百分点,几乎可以忽略不计;但去掉视频后,准确率暴跌了36.50到43.93个百分点,等于说整个模型几乎"失明"了。以SimMMDG为例,去掉音频它只损失了0.33个百分点,换成只有音频时却损失了41.66个百分点。在某些测试场景下,去掉音频后性能反而略微提升,说明音频在某些跨域场景里不但没帮上忙,还带来了负担。这再次印证了动作识别中视频信号的绝对主导地位,也暗示当前多模态方法并未真正建立起对各感官平等依赖的机制,依然高度依赖视觉信号。

七、AI知道自己不确定吗:信任度评测

除了"猜得准不准",一个负责任的AI系统还需要知道"我什么时候可能猜错了"。就好比一个医生,除了诊断准确,还需要在没把握的时候说"这个我不确定,建议去做进一步检查",而不是对每一个病人都信心满满地给出结论。

MMDG-Bench是整个MMDG领域首次系统性地评测这一"信任度"维度。研究团队使用HAC数据集的视频加音频配置,评测了所有方法在两个方面的能力:错误分类检测(当模型分类错了,它的信心分数是否较低,能帮助人类识别出"这个答案可能有问题")和分布外检测(当输入数据根本不属于训练时见过的类型,模型能否识别出这是陌生数据,而非强行归入某个已知类别)。

错误分类检测的结果出人意料:SimMMDG在这里表现最好,它显式地把特征分解为共享部分和独特部分的做法,似乎让它的信心分数更加准确可靠。MOOSA在某个具体指标(FPR95,即当真正正确的样本占95%时错误样本被误判为正确的比率)上表现最好,说明它的自监督预训练任务让它的置信度估计更加稳定。然而CMRF在这个维度表现最差,尽管它在标准准确率测试中表现还不错。这暴露了一个深层次的问题:专门为提升准确率设计的方法,未必能让模型拥有更可靠的自我认知。

分布外检测的结果(用EPIC-Kitchens数据作为"陌生数据",测试模型能否把它识别为"不是HAC类型的数据")中,SimMMDG再次拔得头筹。有趣的是,CMRF在错误分类检测里垫底,在分布外检测里却排名第二,而MOOSA在错误分类里有优势,在分布外检测里却落入下游。这说明这两种能力是相互独立的,不能用同一个指标来代替另一个,提升了分布外识别能力,并不意味着对自身误差的感知也同步提升了。

MBCD在动作识别准确率上表现突出,但在这两个信任度指标上都只是中规中矩,进一步证明了高准确率与高可信度之间的脱节是一个真实存在且相当普遍的问题。

八、这一切对我们意味着什么

归根结底,MMDG-Bench这项研究做的是一件必要但不那么讨喜的事:它对整个领域过去几年"进步"的宣称做了一次认真的核查。

核查的结论是:在公平的条件下,现有的专门方法相比最简单的基础方法只有很有限的提升,在某些任务上甚至更差;没有哪个方法在所有场景下都是最好的;离理想性能的差距依然巨大;增加感官数量并不总是有帮助;在面对真实世界的挑战(噪音、缺失数据、陌生场景)时,所有方法都表现出明显的脆弱性;而且准确率高的模型并不意味着它更值得信任。

这些发现并非为了否定过去的工作,而是为未来的研究指明更值得探索的方向。研究团队认为,未来的MMDG研究需要把模态竞争的处理、对干扰和缺失的鲁棒性,以及可信赖的不确定性估计,作为与准确率同等重要的核心目标来优化,而不是把它们视为可选的附加功能。同时,MMDG-Bench本身也有待完善,目前它只覆盖了分类和回归任务,尚未纳入多模态检索或生成任务,且只测试了两种干扰类型,未来需要更广泛的干扰场景覆盖。

这项研究提醒我们,在AI领域,一个不那么激动人心但非常重要的工作是:在宣布"重大突破"之前,先花时间确认评测本身是否公平可靠。毕竟,再精美的成绩单,如果考试本身不严格,也没有太大意义。对于真正希望把多模态AI应用到工业故障检测、医疗辅助诊断或情感智能交互等现实场景中的从业者来说,MMDG-Bench提供了一个目前最接近"真实考场"的测试平台。有兴趣深入了解的读者,可以通过arXiv编号2605.06643查询完整论文及开源代码。

Q&A

Q1:MMDG-Bench和之前的多模态评测框架有什么本质区别?

A:MMDG-Bench最核心的区别在于它的全面性和公平性。之前的评测几乎只在动作识别任务上比较方法,而且各家用的数据划分、模型骨架、超参数搜索方式都不一样,导致结果没有横向可比性。MMDG-Bench统一了所有这些条件,同时扩展到了故障诊断和情感分析等完全不同的任务,还增加了抗干扰、模态缺失、错误检测和分布外识别这四个此前几乎被完全忽视的评测维度,总共训练了7402个模型,覆盖95个跨域任务。

Q2:多模态领域泛化研究的当前进展到底怎么样?

A:根据MMDG-Bench的评测结果,整体进展比很多论文宣称的要有限。在公平条件下,大多数专门设计的MMDG方法相比最简单的基础方法(ERM)提升非常有限,在情感分析任务上甚至有几种专门方法还不如ERM。同时,所有方法距离理想性能上限(Oracle)都还有巨大差距,以动作识别为例差距高达22个百分点,而在真实噪声和传感器缺失场景下,所有方法都出现了明显的性能下滑,说明该领域远未被解决。

Q3:为什么加入更多感官信息有时反而会让多模态AI变差?

A:这是因为不同感官信号之间存在"竞争"关系。当多种模态同时输入时,模型在训练时会倾向于依赖其中最强势的那个信号,导致其他信号实际上被边缘化甚至带来噪声干扰。如果算法没有专门处理这种竞争关系,直接添加第三种模态可能反而让模型更混乱。只有那些明确设计了模态平衡机制的方法,才能稳定地从增加模态中获益。这也是为什么MMDG-Bench的结果显示,三模态融合在超过一半的测试方法中并不优于最强的双模态配置。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-