当面对文字和图像同时提供的信息时,多模态大语言模型(MLLMs)会更相信哪一种?它们是否像人类一样会产生"偏听偏信"的现象?这个问题看似简单,却关系到AI如何在复杂世界中做出决策的核心机制。
来自哈尔滨工业大学(深圳)和鹏城实验室的研究团队在2025年5月发表的论文《Evaluating and Steering Modality Preferences in Multimodal Large Language Model》中,通过精心设计的实验揭示了多模态大语言模型在处理冲突信息时的偏好倾向,并提出了一种无需额外训练就能调控这种偏好的方法。该研究成果已发布在arXiv预印本平台(arXiv:2505.20977v1)。
为何要研究模态偏好?
想象一下这个场景:你向AI助手展示一张有四个人在玩飞盘的照片,但同时文字描述却说"有三个男孩在玩飞盘,角落里还有一个男孩蹲下系鞋带,总共四个人"。当你问"照片中有多少人?"时,AI会依据图像回答"五人",还是依据文字回答"四人"?
这就是模态偏好(Modality Preference)问题的核心:当多模态大语言模型面对来自不同模态(如图像和文字)的冲突信息时,它会更倾向于相信哪一种。这不仅是一个理论问题,更关系到AI在自动驾驶、医疗诊断等关键应用中的可靠性。如果模型过度依赖某一种输入模态而忽视其他重要信息,可能导致错误判断,甚至产生严重后果。
如何科学评估模态偏好?
研究团队首创了一个名为MC?(Modality Context Conflict)的评估基准,专门用来测试模型在面对模态冲突时的决策偏好。这个方法就像是一场精心设计的"谁更有说服力"的测试:
1. **冲突场景设计**:研究者为每个测试样本准备了两种冲突证据 - 一种来自视觉(图像),另一种来自文本(文字描述),这两种证据会指向不同的答案。
2. **排除干扰因素**:为确保实验公平,研究者精心筛选样本,确保模型能够正确理解问题,并且能够单独基于图像或文本正确回答问题,这样就排除了理解能力或单模态处理能力的干扰。
3. **多样化任务覆盖**:评测涵盖了8种不同类型的任务,包括计数、颜色识别、属性识别、情感分析、位置推理、活动识别、体育识别和物体识别,共计2000个精心挑选的样本。
这种设计就像是给AI出一道选择题:"你更相信眼睛看到的,还是耳朵听到的?"通过观察模型的选择,研究者可以量化其模态偏好程度。
多模态模型真的有"偏听偏信"吗?
研究团队对18个代表性的多模态大语言模型进行了全面测试,结果令人惊讶:
**所有测试模型都展现出明显的模态偏好**。不同于人类可能会根据情境灵活调整信任度,AI模型往往系统性地偏向某一种模态。例如,LLaVA1.5-13B模型在回答问题时,有高达81.3%的情况下更相信文本而非图像信息;而Qwen2.5VL-7B则相反,有52.2%的情况更相信图像。
有趣的是,模型的偏好还会随任务类型而变化。在体育识别和物体识别等高级任务中,像Qwen2.5VL和InternVL3这样的模型表现出更强的视觉偏好;而在情感分析、位置推理和计数等需要复杂推理的任务中,所有模型普遍更依赖文本信息。
研究还发现,随着模型参数规模增大,所有模型家族都表现出视觉偏好增强的趋势。这暗示着更强大的模型可能会发展出更复杂的多模态处理能力,不再过度依赖文本信息。
模型的"偏听偏信"能被改变吗?
研究团队进一步探索了如何影响和控制模型的模态偏好,发现了两种有效方法:
1. **调整输入质量**:当研究者给图像添加噪声时,模型会明显转向更依赖文本;当在文本中引入语法或拼写错误时,模型则更倾向于信任图像。这表明模型会将表面质量作为一种隐含的可靠性信号。
2. **指令引导**:通过在提示中明确指导模型"应该更依赖图像/文本内容",可以有效地引导模型的注意力。有趣的是,引导向文本的效果通常比引导向图像更明显,这可能反映了模型在训练中接触文本指令的频率更高。
更深入的分析显示,这些偏好在模型的内部表示空间中形成了可识别的几何模式。研究者通过主成分分析(PCA)发现,不同模态偏好对应的模型状态在表示空间中形成了清晰可分的簇。换句话说,模型的"偏听偏信"实际上反映在其神经网络的激活模式中。
如何控制模型的"偏听偏信"倾向?
基于对模态偏好方向的理解,研究团队开发了一种名为"模态偏好探测与引导"的方法。这种方法就像是为模型装上了一个可调节的"注意力控制器":
1. **模态偏好探测(MPP)**:首先,通过输入偏向不同模态的提示,收集模型在特定层的神经活动,计算出代表模态偏好方向的向量。这就像是找出模型"大脑"中控制"信任倾向"的特定区域。
2. **模态偏好引导(MPS)**:然后,在模型处理新输入时,研究者可以向选定层的表示添加经过缩放的偏好方向向量,从而引导模型更关注某一特定模态。
最令人印象深刻的是,这种方法不需要额外的微调或精心设计的提示,只需要两轮推理:一轮用于探测偏好方向,另一轮用于实际引导。通过这种方式,研究者能够有效地控制模型的模态偏好,使其朝着期望的方向变化。
实际应用:减少幻觉和提升翻译质量
模态偏好控制不只是理论上有趣,它在实际应用中也展现出巨大价值:
1. **减少视觉幻觉**:通过引导模型更依赖视觉信息,研究团队成功减少了多模态大语言模型在PhD数据集上的幻觉现象。在测试中,他们的方法明显优于其他基线方法,尤其是在有误导性文本输入的情况下。
2. **改进多模态机器翻译**:通过引导模型更关注文本模态,他们改进了AmbigCaps数据集上的多模态机器翻译性能。这种方法防止了模型过度关注视觉信息而在翻译中添加不必要的细节,在英土双向翻译中取得了显著提升。
这项研究的意义
这项研究不仅揭示了多模态大语言模型的一个基本特性——模态偏好,还提供了一种简单有效的方法来控制这种偏好,使模型能够更灵活地适应不同任务需求。
对于研究人员来说,这项工作提供了理解和分析多模态模型内部工作机制的新视角;对于开发者来说,模态偏好控制技术可以帮助提升模型在各种应用中的性能;而对于普通用户来说,这意味着未来的AI助手可能会更加可靠,能够在多种信息来源中做出更明智的判断。
随着多模态AI系统在自动驾驶、医疗诊断、教育辅助等领域的应用日益广泛,理解和控制模型的"偏听偏信"倾向将变得越来越重要。这项研究正是朝着更可靠、更可控的多模态AI迈出的重要一步。
好文章,需要你的鼓励
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。
这篇论文介绍了LegalSearchLM,一种创新的法律案例检索方法,将检索任务重新定义为法律要素生成。研究团队构建了LEGAR BENCH数据集,涵盖411种犯罪类型和120万案例,并开发了能直接生成关键法律要素的检索模型。实验表明,该模型在准确率上超越传统方法6-20%,且在未见犯罪类型上展现出强大泛化能力。这一突破为法律专业人士提供了更高效、精准的案例检索工具。