这项由香港科技大学(广州)、香港科技大学计算机系、索非亚大学"圣克利门特·奥赫里德斯基"INSAIT研究所等多所全球顶尖高校的研究团队共同发表的研究论文探讨了多模态大语言模型(MLLMs)中的模态偏差问题。该论文于2025年5月24日发布在arXiv预印本平台上(arXiv:2505.18657v1),由许多领域知名学者共同完成,包括Xu Zheng、Chenfei Liao、Yuqian Fu等研究人员。
一、为什么我们需要关注多模态模型中的偏差问题?
想象你有一个聪明的朋友,他可以看图片也可以读文字,但每次你给他看有文字的图片时,他总是只看文字而忽略图片中的视觉信息。即使图片中包含重要内容,他也只依赖文字做判断。这就是当今多模态大语言模型(MLLMs)面临的一个核心问题——模态偏差。
多模态大语言模型是人工智能领域的重要进展,它们能够处理文本、图像、音频和视频等多种信息形式。理想情况下,这些模型应该平衡地利用所有可用信息来提供准确、全面的回答。然而,研究团队发现这些模型往往过度依赖文本信息,而忽视图像等其他模态提供的信息。
论文作者们形象地解释了这种现象:"即使图像模糊不清甚至完全缺失,这些多模态模型仍然会自信地生成答案,突显出模型对已学习的语言模式的明显偏好,而非真正的多模态整合。"
这篇立场论文(position paper)的核心主张是:多模态大语言模型深受模态偏差影响。作者们首先诊断了当前模态偏差的状态,然后提出了系统性的研究路线图,并确定了导致这种偏差的关键因素,最后提供了切实可行的建议来缓解这个问题。
二、什么是模态偏差?如何定义?
模态偏差是指在多模态学习过程中,某些模态(如文本)主导学习过程,而其他模态(如图像)被低估或贡献较少的现象。这种不平衡会导致模型偏向主导模态,无法充分利用其他模态的潜力。
想象一下,如果你同时听到声音和看到图像,但你总是更相信听到的内容而忽略看到的内容,这就是一种模态偏差。在人工智能领域,这种偏差表现为模型在处理多模态信息时,过度依赖某种特定模态(通常是文本)做出判断。
作者们用数学方式定义了这种不平衡。如果我们将每个模态Mi的贡献定义为C(Mi),所有模态的总贡献为这些个体贡献的总和:Ctotal = C(M1) + C(M2) + ... + C(Mn)。当某些模态的贡献远超其他模态时,就出现了模态偏差。
为了量化这种偏差程度,研究者提出了"模态不平衡比率"的概念,它是主导模态贡献与被低估模态贡献的比率:Δmodality = C(Mdominant)/C(Munderutilized)。这个比率越高,表示模态偏差越严重。
模态偏差可能导致三种潜在问题:
首先,对主导模态的过度依赖。模型可能变得过度敏感于主导模态(如文本),产生无法充分融合多模态数据多样性信息的偏向预测。
其次,某些模态的利用不足。那些在训练数据中表示不足的模态(如音频或视频)对学习表示的贡献较少,导致模型在需要这些模态时缺乏鲁棒性。
第三,缺失模态场景下的性能下降。当主导模态在推理过程中缺失时(例如,如果图像不可用),模型的性能可能急剧下降,因为它没有充分学习如何在训练期间平衡不同模态。
三、研究路线图:如何探索和解决模态偏差问题?
研究团队提出了一个系统的研究路线图,将模态偏差的探索过程分为三个方向:如何证明偏差存在?如何通过数据集解决偏差?以及如何通过方法解决偏差?
### 如何证明模态偏差的存在?
随着多模态大语言模型中的模态偏差逐渐成为研究焦点,研究者们提出了多种数据集和基准来测量这种偏差。
例如,Park等人提出了一个名为"模态重要性得分"(MIS)的指标,用于测量视频问答任务中每个模态的贡献。通过这一基准,他们证明了当前多模态数据集中存在模态不平衡。
Lee等人和Leng等人主要关注模态先验,这是MLLMs中模态偏差的一个关键原因。Lee等人在VLind-Bench中引入了反事实图像来测量语言视觉大语言模型(LVLMs)的语言先验,证明这些模型过度依赖语言先验。
Leng等人提出了一个更全面的基准,称为"多模态诅咒"(CMM),包括语言、视觉和音频三种模态。CMM的结果进一步解释了导致幻觉的因素,其中对单模态先验的过度依赖起着重要作用。
此外,Liu等人从视觉-知识冲突的角度探索了这种偏差,证明多模态大语言模型过度依赖文本查询。Tong等人提出了多模态视觉模式(MMVP)基准,进一步探索了对比语言-图像预训练(CLIP)的弱点,这些弱点导致MLLMs在理解视觉信息方面的失败。
### 如何通过数据集解决偏差问题?
既然模态偏差已被证明是数据集中的常见现象,研究者们将目光转向如何通过优化数据集来解决这个问题。
Chen等人提出了MORE,这是一个需要多跳推理并克服单模态偏差的视觉问答数据集,提供反例数据来驱动语言视觉大语言模型克服模态偏差。
同时,一些工作专注于减少多模态数据集中的模态偏差。Chen等人提出了MMStar,一个精心设计的多模态基准,其中每个样本都显示视觉依赖性,避免了数据集中的模态偏差。
Yue等人基于MMMU构建了一个强大的基准MMMU-Pro。通过将问题嵌入到图像中等步骤,MMMU-Pro具备了强制MLLMs既"看"又"读"的能力。
### 如何通过方法解决偏差问题?
除了数据集,应用特定方法来减少MLLMs中的模态偏差是另一个趋势。
Pi等人和Zhang等人引入了偏好学习方法,如引导偏好优化(BPO)和噪声感知偏好优化(NaPO),通过构建负面响应数据集来解决模态偏差问题。
同时,Zhang等人、Liu等人和Tong等人提出了框架和方法来"强制"MLLMs更多地关注图像,提升MLLMs的视觉理解能力。
此外,Li等人关注了多模态奖励模型(MM-RMs),提出了一种快捷感知MM-RM学习算法,减少MLLMs对单模态虚假相关性的依赖。大多数上述工作将单模态依赖,特别是对文本模态的依赖,视为模态偏差的关键原因。因此,提升视觉模态逐渐成为一个主要研究方向。
四、模态偏差的关键因素:为什么会出现这个问题?
基于对研究路线图的分析,研究团队总结了MLLMs中模态偏差的关键因素,包括数据集不平衡、不同模态骨干能力的不对称、训练目标以及模态之间的交互。这些因素在训练过程中导致模态的不平等利用,导致对某些模态的偏差和次优性能。研究者详细分析了三个主要因素:
### 数据集不平衡
训练数据集的组成显著影响模态利用。数据集通常具有不平衡的模态分布,其中某些模态(如文本或图像)更丰富或具有不同的信息密度。这种不平衡导致模型学习的表示偏向更频繁的模态,而低估那些代表性不足的模态,即使多种模态都可用。
此外,文本数据在某些任务中通常比视觉数据在语义上更密集或信息量更大,这是由于其结构化和明确的性质。因此,模型倾向于在学习过程中优先考虑文本输入,将图像等伴随模态仅视为辅助线索,进一步放大了对主导模态的依赖。
### 不对称的模态骨干能力
不同模态在复杂性和用于处理它们的架构设计上存在差异。语言模型通常受益于成熟且高度优化的基于Transformer的架构,这些架构不仅有效,而且得到了广泛研究和工业规模预训练的支持。
相比之下,处理视觉或声学数据通常需要更多样化和专业化的骨干网络,可能无法从同样大规模的预训练语料库中受益。此外,语言模型的快速发展,由大规模数据集和持续的社区关注推动,进一步扩大了跨模态的性能差距。
因此,具有强大语言骨干的多模态模型往往过度依赖文本输入,低估其他模态,特别是那些需要更复杂或不太成熟的处理管道的模态。
### 训练目标
训练目标的选择从根本上塑造了多模态模型如何利用不同模态,往往加剧了模态偏差。许多最先进的多模态模型中的预训练策略——如CLIP风格的对比学习、图像-文本匹配(ITM)、掩码语言建模(MLM)或生成描述——由于配对数据的丰富性和文本监督的相对容易,往往优先考虑文本-图像对齐。
这些目标隐含地鼓励模型严重依赖语言作为语义锚,如LanguageBind和UniBind。因此,音频、视频、点云或热成像等模态——这些模态更难对齐,在孤立状态下语义不够丰富,或缺乏大规模监督——在预训练期间未得到充分优化。
此外,大多数目标不明确鼓励一致的跨模态对齐或跨多样化模态的鲁棒融合,导致特征表示不平衡和对代表性不足的输入类型的有限泛化。
### 其他因素
除了这三个主要因素外,研究团队还确定了两个额外因素:
第四,收敛率的差异。每个模态在训练过程中以不同的速率收敛。由于结构和高信息密度,图像和文本等一些模态更容易与目标标签对齐,而音频或视频等其他模态需要更复杂的处理。这种差异导致某些模态在模型的最终学习表示中更具影响力,放大了模态偏差。
第五,模态交互和整合。模态之间的交互也影响模态偏差。如果模态之间的关系没有被明确学习,模型可能会倾向于更容易处理的模态,如文本,而非其他模态。整合多模态信息的复杂性可能加剧偏差,因为模型可能难以有效地结合所有模态,导致预测未充分利用可用数据。
五、案例研究:多模态大语言模型中的模态偏差实验
为了深入了解模态偏差在多模态大语言模型中的表现,研究团队使用Qwen2.5VL模型在MMMU-Pro数据集上进行了一系列实验。他们设计了三种不同的输入情况:同时使用图像和文本、只使用文本、只使用图像,并分析了模型在这些不同条件下的预测一致性和准确性。
实验结果揭示了几个关键见解,这些见解可以与模态偏差的三个主要因素联系起来:数据集不平衡、不对称模态骨干能力和训练目标。
首先,研究者发现图像模态单独使用时表现不佳。当模型只能访问视觉数据时,其预测往往不太可靠,只有约27.17%(直接推理)和28.21%(思维链推理)的样本在完整输入和仅图像输入之间保持一致。这表明图像模态单独无法为模型提供足够信息来做出一致预测,突显了模型在处理孤立视觉数据时的不足。这种现象支持了数据集不平衡因素,其中图像数据的丰富性和复杂性相比更紧凑的文本数据,对模型构成了挑战。
其次,研究者观察到完整输入和仅文本输入之间存在较高一致性。实验显示,超过一半(56.53%在直接推理中,43.64%在思维链推理中)的样本在同时使用图像和文本的完整输入与仅使用文本输入之间表现出一致性。这表明文本信息本身就是模型预测的强大基础,在许多情况下,图像模态并没有实质性地改变模型的输出。这一发现凸显了语言模态的主导地位,这种主导性源于其成熟的处理能力,与不对称模态骨干能力因素一致。
第三,实验发现仅文本和仅图像输入之间的一致性较低,仅为26.76%(直接推理)和25.95%(思维链推理)。这种低一致性突显了模型在单独处理这两种不同模态时面临的挑战。这种差异表明文本和图像提供了互补却至关重要的信息。文本数据提供丰富的语义上下文、细微差别和细节,而图像提供文本无法完全表达的视觉线索和空间关系。这两种模态之间的低一致性,特别是在思维链设置中(推理和整合至关重要),指向了有效结合这些模态的挑战,支持了训练目标因素的作用,其中现有训练策略往往无法充分平衡多模态学习。
这些发现强调了需要平衡的训练策略和模型架构来解决模态偏差并改善多模态整合。这也凸显了未来研究的必要性,以开发能更有效处理和结合多样信息源的多模态大语言模型,从而减轻模态偏差的影响。
六、针对性解决方案:当前工作与未来方向
### 当前解决模态偏差的方法
随着对模态偏差问题的深入探索,研究者们已经提出了一些针对性的解决方案:
第一,增强数据集中视觉模态的贡献。随着对模态偏差的深入探索,特别是在视觉-语言模态组合中,视觉信息往往被证明被忽视,导致MLLMs过度依赖文本模态。因此,研究者自然地尝试增强数据集中视觉模态的贡献,以平衡来自不同模态的信息。典型案例包括MMStar和MMMU-Pro,其中MMStar精心选择了具有视觉依赖性的样本,而MMMU-Pro不仅过滤掉了视觉独立的样本,还将问题嵌入到图像中。这些工作为当前多模态数据集提供了优化方向。
第二,将MLLMs的关注点从文本信息转向视觉信息。考虑到MLLMs在推理过程中忽视视觉模态,一种直观的方法是强制MLLMs更多地关注视觉模态。例如,Liu等人和Zhao等人应用策略(大多是无需训练的)来引导MLLMs关注视觉模态,而Zhao等人提出了一个新框架,帮助MLLMs压缩文本偏差的影响,增强整个模型中的视觉模态。
第三,应用偏好优化策略。除了调整多模态数据集内容和MLLMs关注点外,另一种流行方法是使用偏好优化策略来内部纠正模态偏差。Pi等人构建了一个包含反映预训练过程中产生的模态偏差样本的偏好数据集。Zhang等人通过添加噪声迫使MLLMs根据特定模态生成答案,从而创建偏好数据集。将解决模态偏差视为偏好优化目标是一个创新且合理的想法,为研究者带来了新的见解。
### 未来研究方向
针对多模态大语言模型中的模态偏差问题,研究团队提出了几个重要的未来研究方向:
第一,测量MLLMs中的模态偏差。探索客观且系统性的指标来测量模态偏差对相关研究的发展至关重要。例如,对于数据集构建,需要一个指标作为标志,为研究者提供明确的进步方向。像语义分割和图像恢复等领域已经通过评估指标的存在和优化看到了巨大发展,而MLLMs中的模态偏差仍然几乎是空白。因此,需要更多研究工作来测量MLLMs中的模态偏差。
第二,探索更多模态组合中的模态偏差。尽管几项工作尝试解决模态偏差问题,但研究重点主要集中在语言视觉大语言模型(LVLMs)中的模态偏差,这只是MLLMs的一部分。虽然文本信息和视觉信息对世界理解显示出重要性,但音频和触觉等模态也很重要。对于机器人领域,触觉信息对机器人理解环境和处理下游任务(如灵巧操作)不可或缺。由于当前去偏方法的模态限制,它们难以应用于更广泛的情况,阻碍了它们在现实世界中的应用。因此,需要更通用的去偏策略来处理更复杂且具有更多模态的条件。
第三,应用可解释人工智能解决MLLMs中的模态偏差。最后但同样重要的是,找出MLLMs中模态偏差的原因并将其可视化将对未来工作产生重大积极影响。尽管当前工作尝试挖掘MLLMs中模态偏差的原因,但他们从现象层面提出观点。模态偏差的内部机制仍然缺乏探索,这是支持未来工作的理论证据和指导。因此,这里需要可解释人工智能,例如可视化模态之间的交互过程,深入分析MLLMs中模态偏差的理论原因和工作机制,这可以为未来工作提供更坚实的灵感。
七、结论:迈向更平衡的多模态AI
这篇论文旨在突显多模态大语言模型中的模态偏差现象,并呼吁针对更好地整合多种模态的研究工作。研究团队的立场是多模态大语言模型深受模态偏差影响,这一点通过理论分析和案例研究得到了证明。
研究者们深入讨论了模态偏差在MLLMs中的问题,包括关键因素、潜在结果和针对性解决方案,希望为开发更健壮、更具一般化能力的多模态系统带来新的见解。
这项研究的核心贡献在于:首先,提出了一个清晰的模态偏差定义框架;其次,系统地梳理了研究路线图;第三,深入分析了导致模态偏差的主要因素;最后,提出了具体可行的解决方案。
通过这些工作,研究团队为多模态人工智能的发展提供了新的思路和方向。他们呼吁跨学科努力,共同解决这些挑战,推动MLLM研究的创新。这项工作为MLLMs中的模态偏差提供了新的视角,为开发更健壮、更具一般化能力的多模态系统提供了见解,推动人工通用智能的进步。
随着人工智能技术继续发展,解决模态偏差问题将成为构建真正能够理解和整合多样化信息的智能系统的关键一步。只有当模型能够平等地利用所有可用模态时,我们才能实现真正的多模态智能。
好文章,需要你的鼓励
这项研究探索了如何通过"LLM情境调节"和"持续工作流程提示"技术来提高大型语言模型在验证化学分子式时的准确性。研究者发现,普通提示方法往往不可靠,因为LLM倾向于自动"纠正"错误而非指出它们。然而,通过精心设计的情境调节提示,研究成功引导Gemini 2.5 Pro不仅识别出文本中的错误,还发现了之前人工审阅未察觉的图像中的分子式错误。这一概念验证研究表明,即使不修改模型本身,也能通过适当的提示策略显著提高LLM在科学技术文档细节验证中的表现。
复旦大学研究团队开发的uLLSAM模型成功将多模态大语言模型(MLLMs)与分割一切模型(SAM)结合,解决了显微镜图像分析的跨域泛化难题。通过创新的视觉-语言语义对齐模块(VLSA)和语义边界正则化(SBR)技术,该模型在9个领域内数据集上提升了7.71%的分割准确度,在10个从未见过的数据集上也展现了10.08%的性能提升。这一统一框架能同时处理光学和电子显微镜图像,大大提高了生物医学图像分析的效率和准确性,为科研人员提供了强大的自动化分析工具。
斯坦福大学等机构研究团队利用强化学习训练大语言模型,使其能够优化汇编代码性能。研究构建了8,072个程序的数据集,并通过近端策略优化(PPO)训练模型生成既正确又高效的汇编代码。实验表明,训练后的Qwen2.5-Coder-7B-PPO模型实现了96.0%的测试通过率和1.47倍平均加速比,超越包括Claude-3.7-sonnet在内的所有其他模型。研究发现模型能识别编译器忽略的优化机会,如用单一指令替代整个循环,为性能敏感应用提供了有价值的优化途径。
这项研究提出了一种改进的声乐效果风格迁移方法,通过在推理时间优化过程中引入高斯先验知识,解决了传统ST-ITO方法忽视参数合理性的问题。研究团队基于DiffVox数据集构建了专业效果器参数分布模型,将风格迁移转化为最大后验概率估计问题。实验结果表明,该方法显著优于基准方法,参数均方误差降低了33%,并在主观听感测试中获得最高评分。这一创新为音频处理领域融合数据驱动和专业知识提供了新思路。