微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 中科院软件所揭秘:为什么AI多模态大模型总是"偏心眼",偏偏最爱看图?

中科院软件所揭秘:为什么AI多模态大模型总是"偏心眼",偏偏最爱看图?

2026-04-29 09:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-04-29 09:04 科技行者

这项由中国科学院大学与中国科学院软件研究所中文信息处理实验室联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.16902,有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有想过,当一个人工智能同时听到声音、看到图片、读到文字,却发现三者说的完全是不同的事情,它会相信哪一个?这个问题听起来像是哲学题,但它其实是当今AI研发中一个真实存在、却长期被忽视的技术难题。这篇研究正是专门为了回答这个问题而生的。

故事的起点,要从一类新型人工智能说起。过去几年,AI的发展经历了一次质变:从最初只能处理图片和文字的"视觉语言模型",进化到了如今能同时理解图片、声音、文字、视频的"全模态大语言模型"(论文中称为OLLMs,可以理解为"全能感知型AI")。GPT-5和Gemini 3就是这类模型的代表。这些AI就像是一个既能看、又能听、又能读的超级助手,把所有感知能力整合进了同一套大脑里。

然而,这种整合带来了一个意想不到的问题。当这个超级助手同时接收到来自眼睛、耳朵和书本的三种不同信号,而这三种信号讲的又是完全矛盾的故事时,它会怎么选择?研究团队发现,这些AI并不是公平地权衡每一种信息,而是存在明显的"偏心"——它们会下意识地更相信某一种输入,而忽略其他。这种现象,研究者称之为"模态偏好"。

在以往的研究中,大家普遍认为AI会优先相信文字,这被称为"文字主导偏见"。但当研究团队真正系统地测试了十个代表性的全模态AI之后,却得出了一个让所有人意外的结论:大多数全模态AI,其实更偏爱图像,而不是文字。这个发现推翻了此前的认知,也引出了这篇研究最核心的三个追问:这种偏心到底有多普遍,能不能量化?它是怎么在AI的内部形成的?弄清楚这些之后,能不能用来解决AI经常"胡说八道"的问题?

**一、给AI出一道"三选一"的难题**

要研究AI到底偏爱哪种信息,首先得设计一个能让偏好"原形毕露"的测试场景。研究团队的思路很巧妙:既然AI在三种信息一致时无法暴露偏好,那就故意让三种信息互相打架。

研究团队构建了一个专门用于此类测试的数据集,灵感来源于一个已有的跨模态基准测试数据集(XModBench中的感知子集)。每一个测试样本,都像是给AI同时呈现三张"牌":一段文字描述、一张图片、一段音频,但这三张牌讲的是完全不同的事情。比如,文字说的是"瀑布在哗哗流淌",图片展示的是有人在拉大提琴,音频里播放的却是布谷鸟的叫声。然后问AI:这个例子主要是关于什么的?选项是三者各对应的答案之一。

由于每个选项只对应一种模态的内容,AI选了哪个答案,就意味着它更相信哪一种输入。这就像是让人在三个说法各不相同的证人面前做判断,看你最终采信了谁的证词。

为了确保测试的公平性,研究团队做了很多细节上的设计。他们把所有样本按照语义内容分成六大类,包括动物、人类活动、乐器与音乐、家用电器与机械、交通工具与交通,以及自然与环境声音。在构建冲突样本时,三种模态分别来自不同的类别,保证彼此之间语义上绝对矛盾。三个选项的顺序也是随机打乱的,防止AI因为位置偏好而干扰结果。整个数据集共包含1000个这样的"冲突样本"。

测试的核心指标叫做"模态选择率"(MSR),计算方法很直观:在所有样本中,AI有多少比例的回答是倾向于某一种模态的?在三种模态都存在的情况下,如果AI完全随机选择,每种模态的选择率应该各占三分之一,也就是约33%。一旦某种模态的选择率明显高于33%,就说明AI对那种模态有偏爱。

测试结果令研究团队颇感意外。在十个被测试的全模态AI中,有八个的图像模态选择率超过了50%。其中表现最"偏心"的是Gemini 3 Flash,图像选择率高达82%,而文字的选择率仅有8%。就连谷歌旗下最强的模型Gemini 3.1 Pro,图像选择率也达到了72%,文字仅有7%。只有两个模型——Ming-Lite-Omni 1.5和Qwen3-Omni——表现出了轻微的文字偏好,文字选择率各为52%。

研究团队还设计了两两对比的测试,即每次只给AI看两种模态,看它选哪个。结果发现,在文字与图像的二选一中,所有模型都更倾向于图像;在图像与音频的二选一中,所有模型同样更倾向于图像;在文字与音频的二选一中,所有模型都更倾向于文字。换句话说,如果给这三种模态排一个"信任排行榜",结果是:图像第一,文字第二,音频垫底。

音频被忽视的程度之严重,让研究团队感到震惊。在三模态冲突场景下,所有模型的音频选择率都低于21%,大多数模型甚至不超过10%,而Ming-Lite-Omni 1.5对音频的信任率更是只有可怜的1%。这意味着,尽管这些AI号称自己能听、能看、能读,实际上对于声音信息几乎是充耳不闻的。

**二、AI大脑里的"偏心"是怎么长出来的**

发现了这种偏好之后,研究团队自然想追问:这种偏心是从哪里来的?AI的"大脑"——也就是那一层一层堆叠起来的神经网络结构——是在哪个阶段、以什么方式形成了这种偏向?

现代的全模态AI,在结构上和人脑的信息处理有一定的类比之处。信息进入AI之后,会经过许多层的"加工站"(即Transformer解码层),每一层都对信息进行一定的提炼和转化,逐渐从原始输入变成最终的回答。研究团队的核心想法是:如果在每一层"加工站"的出口,都安装一个小小的"测谎仪",看看这一层的信息是否已经足够反映出AI最终会选哪种模态,那么通过追踪这个信号在各层的强弱变化,就能知道偏好是在哪里形成的。

这个"测谎仪"在技术上叫做"线性探针"(linear probe)——一个极其简单的单层神经网络分类器。研究团队针对每一层网络,分别训练一个这样的探针,用来预测AI在那一层所提取到的信息,是否已经预示了它最终会偏向哪种模态。探针预测的准确率越高,说明那一层的信息里已经蕴含了越清晰的模态偏好信号。

为了训练这些探针,研究团队另外准备了一个专门的数据集:每种模态各1000个样本,共3000个"冲突样本",按8:1:1的比例分成训练集、验证集和测试集。每个探针都训练了200轮,最终选择验证集上表现最好的版本进行测试。

探针在各层的准确率曲线,勾勒出了一幅清晰的"偏好成长图"。在网络的前30%层,所有模型的探针准确率都在0.30到0.55之间徘徊,基本处于随机猜测的水平。这说明这些浅层结构只是在处理一些低级别的感知特征,还没有形成任何关于"相信谁"的判断。

进入网络深度的40%到70%之间,一个戏剧性的转折发生了:所有模型的探针准确率都经历了一次急剧的飙升。以Qwen2.5-Omni-7B为例,准确率从约0.50猛升到了约0.90;MiniCPM-o-2.6的准确率从0.50升至0.80;OmniVinci和Qwen2.5-Omni-3B则从0.45附近突破至0.70以上。这说明AI的模态偏好,是在网络中后段的这个区域集中形成的。

然而,在网络的最后20%层,准确率又开始出现不同程度的下滑。研究团队认为,这是因为网络的最后几层承担的是"输出准备"工作,需要把之前积累的信息压缩整理成最终的回答,这个过程会在一定程度上淡化模态偏好的信号。

研究团队进一步把模态偏好的演化过程划分成了四个阶段:缺席期、涌现期、峰值期和消退期。缺席期对应浅层,偏好信号尚未形成;涌现期是准确率急剧上升的那段过渡;峰值期是准确率维持在最高水平的阶段;消退期则是最后几层的下滑。

通过对比不同规模的模型,研究团队还发现了一个有趣的规律:参数量更大的模型,比如Qwen3-Omni-30B和Ming-Lite-Omni 1.5,它们的偏好涌现得更早(在相对较浅的层就开始出现),而且进入消退期后,准确率下滑的幅度更小;相比之下,参数量最小的Qwen2.5-Omni-3B,偏好涌现较晚,消退时的下滑幅度也更大(达到了-0.120,而Ming-Lite-Omni 1.5仅下滑-0.030)。

为了进一步验证这一发现,研究团队还做了一个更直观的可视化分析。他们针对Qwen2.5-Omni-7B,提取了四个代表性层(第5、18、24、28层)的隐层表示,并用数学方法(奇异值分解,SVD)把它们投影到二维平面上展示。结果非常直观:第5层时,代表三种模态的数据点完全混在一起,毫无规律;第18层时,不同模态的点开始出现松散的分离趋势,但仍有大量重叠;第24层时,三种模态的点形成了清晰的、边界分明的三个簇;到了第28层,簇的边界又开始变得模糊,有所扩散。这个视觉证据和探针准确率的变化趋势完全吻合,为"偏好在中后层形成"提供了直观的佐证。

**三、偏心的AI更容易"胡说八道",而且可以提前预警**

知道了偏好是怎么形成的,研究团队自然要追问:这种偏好会不会导致AI出错?又能不能用这种偏好信号来预测AI什么时候会出错?

AI的"胡说八道"有一个专门的学术名词叫"幻觉"(hallucination),指的是AI在没有充分事实依据的情况下生成错误信息的现象。在多模态场景下,"跨模态幻觉"尤为棘手:AI可能因为过度相信某一种模态,而对另一种模态传递的真实信息视而不见,进而做出错误的判断。

研究团队选择了三个被广泛使用的跨模态幻觉测试基准来验证想法。第一个是POPE,专门测试AI在图片中"看到"了实际上根本不存在的东西的幻觉,干扰来源是文字;第二个是AVHBench,包含两个子任务——一个测试AI在应该听音频时反而被视频干扰(V→A方向),另一个测试AI在应该看视频时反而被音频干扰(A→V方向);第三个是AHa-Bench,专门测试AI在应该依据音频回答时,被文字信息所干扰产生的幻觉。

研究团队的核心假设是:当AI出现幻觉时,那个它本不应该相信的"干扰模态",在AI内部偏好探针的预测中,概率值应该异常地高。换句话说,探针如果发现AI正在不正常地"偏心"某个干扰信息,就有理由怀疑AI接下来会犯错。

实验结果强有力地支持了这一假设。以Qwen2.5-Omni-7B为例,研究团队用峰值层的探针,分别计算了所有测试样本中"干扰模态"的预测概率,然后把AI答对的样本和答错(出现幻觉)的样本分成两组,画出各自的概率分布曲线。在四个测试基准上,一个一致的规律清晰地呈现出来:出现幻觉的样本,其干扰模态的概率分布曲线明显偏向更高的数值区间,而答对的样本,这个概率则集中在相对较低的区间。这意味着两者的分布是显著不同的,用统计学中的Mann-Whitney U检验来量化这种差异,结果显示四个基准的p值都极其微小——POPE的p值为1.08e-60,AVHBench两个子任务分别为4.77e-51和3.54e-30,AHa-Bench为1.92e-32。这些数字说明,幻觉的发生与干扰模态概率升高之间,绝不是巧合,而是极为显著的相关关系。

基于这个发现,研究团队正式将探针推向了一项实际任务:用它来自动检测AI是否正在产生幻觉。具体做法是把探针对"干扰模态"的预测概率当作一个风险分数——概率越高,AI越可能正在犯幻觉错误。

为了体现这个方法的价值,他们与两个基准线做了对比。第一个基准是随机猜测,代表完全不懂AI内部结构时的检测水平;第二个基准是用第一层(最浅层)的探针来做检测,目的是验证这个信号是否确实是从中后层才开始有效,而不是一开始就存在的。评估指标采用了三项:AUROC(衡量探针在各种判断阈值下区分幻觉与正常回答的综合能力,满分为1.0,随机水平为0.5)、AUPRC(在正负样本不均衡情况下评估检测可靠性)以及最优F1分数(综合精确率和召回率的最佳权衡点)。

结果显示,第一层探针的表现与随机猜测几乎毫无差别,AUROC全部在0.50左右徘徊,证明幻觉检测信号确实是在网络中后层才出现的,而非一开始就有。而峰值层的探针则取得了令人印象深刻的表现:在POPE测试上,三个模型的平均AUROC达到了0.94,其中MiniCPM-o-2.6更是高达0.99。在AVHBench和AHa-Bench上,AUROC也普遍在0.72到0.89之间,显著优于两个基准线。

研究团队还展示了几个具体案例来说明探针是如何工作的。在POPE测试的一个案例中,当AI正确回答"图中没有勺子"时,视觉模态(目标模态)的探针概率为0.81,而文字(干扰模态)的概率仅为0.17;但当AI错误地回答"有"(产生幻觉)时,视觉模态概率骤降至0.21,文字的干扰概率则飙升至0.76。在AVHBench的一个案例中,AI在正确回答时音频目标概率为0.61,幻觉时则降至0.32,而两个干扰模态的概率之和反而超过了目标模态。在AHa-Bench的案例中,幻觉发生时音频目标概率仅为0.28,而文字干扰概率高达0.70。这些案例生动地说明,探针捕捉到的模态概率变化,与AI实际的判断错误之间,存在着清晰可见的对应关系。

**四、这项研究意味着什么**

归根结底,这项研究做了一件很有意义的事:它用严格的实验手段,把原本藏在AI"黑箱"深处的一种行为倾向,从隐性变成了显性,并且进一步找到了它在网络结构中的具体位置。

说到底,全模态AI不是真正的"公平感知者"。即便它们标榜自己能听能看能读,实际运作中仍然存在明显的信息权重不均衡——图像被过度信任,音频几乎被忽视。这种偏差不是无关紧要的小毛病,而是幻觉错误的重要来源之一。当AI在回答"图里有没有这个东西"时因为文字暗示而给出错误判断,或者在听音频时因为画面干扰而误判声音内容,背后的根源很可能就是这种不均衡的模态信任。

另一方面,这项研究提供了一个不需要额外收集任务专属数据的幻觉检测工具。探针训练所用的数据,只是那些语义冲突的三模态样本,而不是幻觉任务本身的标注数据——但它却在多个幻觉测试基准上达到了相当有竞争力的检测性能。这种"迁移性"正是这个方法的实用价值所在:训练一次,用于多个场景。

这项研究也留下了一些值得思考的开放问题。目前的探针方法虽然能检测幻觉,但还不能主动纠正它。如果在发现AI正在"偏心"某个干扰模态时,能够实时干预它的注意力分配,是否就能让它重新回到正确的信息源上?此外,音频模态被普遍忽视的现象,是否部分源于训练数据中音频样本的比例不足,还是模型结构本身存在某种天然的视觉优先机制?这些问题,都是未来研究可以继续深挖的方向。

对于普通用户来说,这项研究提醒了一件实际的事:当你用全模态AI处理复杂的多媒体内容时,如果你希望AI认真参考音频信息,最好在提问时明确告知它"请特别注意音频内容",否则它很可能在不知不觉间就忽略了你最想让它听的那部分。

有兴趣进一步了解的读者,可以通过arXiv编号2604.16902找到完整论文,研究团队也在GitHub上开放了代码与相关资源(仓库名称为icip-cas/OmniPreference)。

Q&A

Q1:全模态大语言模型(OLLM)和普通的视觉语言模型(VLM)有什么区别?

A:普通的视觉语言模型只能处理图片和文字两种信息,而全模态大语言模型能同时理解图片、声音、文字、视频等多种输入,并将它们整合进同一套模型架构里,类似于从"只能看和读"升级到了"既能看、又能听、还能读"的超级助手。GPT-5和Gemini 3都属于这类模型。

Q2:模态选择率(MSR)是怎么测出来AI偏爱哪种信息的?

A:研究团队给AI同时展示三种内容完全矛盾的信息(一段文字、一张图片、一段音频),每种信息对应一个不同的选项,看AI选了哪个答案,就说明它更相信哪种输入。统计所有样本中每种模态被选中的比例,就是模态选择率。如果某种模态的选择率远超33%(三选一的随机水平),就说明AI对它有明显偏好。

Q3:线性探针是怎么预测AI幻觉的?

A:研究团队在AI神经网络的每一层都训练了一个微型分类器(线性探针),用来判断AI在那一层的内部状态是否已经预示了它会偏向某种模态。当探针检测到AI内部对"干扰模态"(即不应该相信的那种输入)的概率异常偏高时,就意味着AI很可能即将做出错误判断,发生幻觉。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    南方科技大学等机构联手破解AI推理训练难题:让大模型"一次思考"就学会解题

    本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。

  • 香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    香港科技大学数学系研究者:扩散模型原来是一个"魔法恒等式"拆成了两半

    这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。

  • 中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学研究团队打造的"AI科学家":让机器自主完成几十小时的科研工程,它是怎么做到的?

    中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。

  • 字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    字节跳动发布GRN:像人类画家一样"边画边改"的AI图像生成新范式

    这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-