
这项由阿布扎比穆罕默德·本·扎耶德人工智能大学(MBZUAI)的研究团队主导完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.10039,有兴趣深入了解的读者可以通过该编号在arXiv平台上查阅完整论文。
**一、一个让人哭笑不得的问题**
现在市面上那些最先进的AI视觉语言模型,能分析股票走势图,能看着卫星图讲解地形,能对着医学影像给出病灶描述。然而,当你把一张简简单单画着几个圆点的白纸摆在它们面前,问它"这里有几个圆"——它们往往会答错。
这不是夸张。MBZUAI的研究团队通过系统性测试发现,即便是目前最顶尖的开源视觉语言模型,在数一数图中有多少个简单形状这件事上,平均正确率也只有大约三到五成,更老一些的模型甚至低至一成左右。这让人不禁想问:这些AI到底在"看"什么?它们真的在用眼睛数数,还是在靠猜?
这个问题听起来像是在调侃AI,但它背后触及的是一个非常严肃的技术问题——视觉语言模型在处理图像时,究竟有多少决策来自于"真正看到了图像",又有多少来自于"根据以往学过的文字经验瞎猜"。研究团队专门为此构建了一套叫做 COUNTINGTRICKS 的测试工具,并深入模型内部进行"解剖式"分析,试图找到这个问题的根源。
**二、什么是视觉语言模型,为什么它该会数数却不会**
在正式进入研究内容之前,先理解一下什么是"视觉语言模型"会很有帮助。可以把它理解为一种既能"看图"又能"说话"的AI系统。它的工作原理是把一个专门处理图像的"眼睛"(视觉编码器)和一个擅长语言理解与生成的"大脑"(大型语言模型)拼接在一起。"眼睛"把图片转化成一组数字信号,再交给"大脑"来理解并回答问题。
这套机制在很多任务上表现出色,例如看图写作文、回答图片中的问题、理解复杂图表。但问题在于,这个"大脑"是从海量文字数据中训练出来的,它对世界的理解本质上是基于语言的——它见过无数关于"苹果"的文字描述,却不一定真的需要"看到"苹果来回答问题。
数数这件事偏偏需要一种非常纯粹的视觉感知:你需要把每一个物体在图像中精准定位,一个一个地识别出来,再加总计数。这没有什么语言捷径可走。但AI系统的天然倾向,恰恰是尽可能依赖语言经验来偷懒——研究团队的核心发现,正是这种"视觉偷懒"现象。
**三、研究团队造了一套专门"刁难"AI的测试**
为了系统地测试这个现象,研究团队精心设计了 COUNTINGTRICKS 测试套件,总计包含18000个测试样本,覆盖32种不同的图像布局场景。
这套测试的核心设计思路是:通过控制图中形状(正方形、三角形、圆形)与图像处理网格之间的位置关系,来检验AI在不同"视觉难度"下的表现。理解这个设计,需要先了解视觉语言模型处理图像的方式——它并不是像人眼一样整体扫视图片,而是把图片切成一块块小格子(这个过程叫"分块化",英文是patchification),每块格子单独编码,再整合起来。这就好比你不是看整张地图,而是把地图撕成小方块,每块单独记忆,然后再拼图。
问题就出在这里:如果一个圆形圆心恰好在某个格子正中间,这个格子能清晰地"拍到"整个圆;但如果圆形横跨了两个甚至四个格子的边界,每个格子都只有半个圆、四分之一个圆,AI就可能搞不清楚这算一个形状还是多个形状。
基于这个逻辑,COUNTINGTRICKS 设计了四种核心位置类型。第一种是形状圆心完全落在某个格子内部,这是最理想的情况,相当于把一张照片摆在画框正中间。第二种是圆心正好落在两个格子的垂直分界线上,形状被从中间竖切开。第三种是圆心落在水平分界线上,形状被横切开。第四种也是最糟糕的情况,圆心正好位于四个格子的交叉点,形状被切成四份,每个格子只有四分之一。
在这四种基础位置上,研究团队还额外叠加了大小变化(所有形状一样大,或者大小随机不同)和位置抖动(形状位置有轻微的随机偏移)两个维度,以及专门测试形状很大或者形状互相紧挨着时AI表现的特殊场景。
除了图像设计,这套测试还专门加入了"语言干扰"——在向AI提问时,故意在问题里埋入一个错误的数字,比如"图里有几个圆?(注意,图里大约有X个)",这里的X是刻意写错的数字。一个真正靠视觉来计数的模型应该无视这个干扰信息;但一个依赖语言经验的模型,很可能会被这个假数字带偏。
**四、测试结果:一场从尴尬到触目惊心的数据展示**
研究团队用这套测试对10款主流开源视觉语言模型进行了全面评测,涵盖从2023年到2025年间发布的各种规模和架构,包括LLaVA-1.5-7B、LLaVA-1.6、InternVL3-8B、Llama-3.2-11B、Gemma-3-4B、Qwen2.5-VL-3B、Phi-4-Multimodal、LLaVA-OneVision、Ovis-8B以及Qwen2.5-VL-7B,参数量从30亿到110亿不等。
测试结果直白地展示了当前AI的局限。最老的LLaVA-1.5-7B模型平均正确率只有可怜的11.82%,基本上接近随机猜测的水平。最新、表现最好的Qwen2.5-VL-7B平均正确率也只有50.52%——相当于每两道题里有一道答错。中间的模型分布在14%到48%之间,参差不齐。
一个颇为反直觉的发现是,模型越大不等于数数越准。参数量只有30亿的Qwen2.5-VL-3B(正确率36%)明显胜过拥有110亿参数的Llama-3.2-11B(正确率24%)。这意味着,决定模型数数能力的关键因素不是模型有多大,而是它如何处理视觉信息——具体来说,是图像分辨率的处理方式和空间位置信息的保留方式。
关于形状大小的影响,数据也给出了清晰的答案:形状越大,相对于格子网格越大,AI就数得越准。以最小尺寸的形状为基准(场景1A,平均正确率39%),把形状放大到格子边长的2.5到4倍时(场景5A,平均正确率约53%),各模型表现都有明显提升。最强的Qwen2.5-VL-7B在这种放大场景下从56%跳升到73%。道理很简单:形状够大,即使被格子边界切开,每个格子里的"碎片"也足够大,让模型认得出来这是同一个形状的一部分。
相反,当图中的形状挨得太近时(场景9到15,形状之间几乎没有间隙),所有模型的表现都出现了断崖式下跌。InternVL3-8B在某些高密度场景下正确率低至8.9%。这说明AI视觉编码器在处理紧挨在一起的独立物体时有严重的实例分离障碍——它看不清楚两个紧邻的圆到底是一个大的还是两个小的。
**五、"数字恐惧症":AI对特定数字的莫名偏见**
除了整体正确率偏低之外,研究团队还发现了一个更奇特的现象,他们把它叫做"数字回避"(Number Avoidance)。简单来说,就是AI对某些特定数字有莫名的抵触,会系统性地回避预测这些数字。
研究团队分析了正确答案(图中真实的形状数量)和模型预测准确率之间的关系,发现两者之间存在强烈的负相关,平均相关系数约为-0.78。也就是说,图中形状数量越多,模型数对的概率就越低,而且这种下降不是匀速的,而是越往后跌得越厉害。
更戏剧性的是具体到某些数字的"盲区"现象。LLaVA-1.5-7B对数字7、8、9、11这几个数字的计数正确率直接是0%——没有一次答对。而号称最强的Qwen2.5-VL-7B,在数字2的时候正确率高达99.3%,几乎完美;但到了数字11,正确率变成了0%;神奇的是,数字12的正确率又回升到了20.1%。
这种跳跃式的表现用视觉难度是解释不了的——图里有11个圆和有12个圆,从视觉感知的角度来说难度应该差不多。研究团队认为,真正的原因在于语言训练数据的频率偏差:这些模型在训练时接触过大量的文字,其中某些数字出现的频率远比其他数字高(比如10、5、20这些"整数"),模型就会对这些数字产生天然偏好;而对于在文字里出现频率较低的数字(比如11、7这样的质数),模型的"语言直觉"就会失灵,恰好在视觉证据也不够强的时候,它就索性不预测这些数字了。
换句话说,AI数数时犯的错误,很多时候不是因为视觉上真的没看清,而是在语言系统的"统计直觉"面前,视觉证据输掉了。
**六、拆解AI的"大脑":视觉信息在哪个环节消失的**
发现了问题之后,研究团队没有止步于表面测试,而是深入到模型内部,试图找出视觉信息究竟在哪个环节被"吃掉"的。
他们的方法是在模型的三个关键节点上分别"安装探针"——也就是在视觉编码器(负责把图片转换成数字信号的模块)、模态投影层(负责把视觉信号转换成语言模型能理解的格式的模块)以及大语言模型层(负责最终推理和生成答案的模块)这三个位置,分别接上一个轻量级的目标检测系统(YOLO检测头),看看在每个位置,模型保留的特征里还有多少能支撑精确的形状定位。
所有三个探针使用完全相同的轻量级架构,参数量都在170万到220万之间,可以忽略不计;真正的被冻结的大模型参数有数十亿。这种设计确保了:如果某个节点的检测效果好,那是因为那个节点的特征里真的保留了足够的空间信息,而不是因为探针本身更强大。
测试结果非常有说服力。在模态投影层,检测精度(以AP@0.5指标衡量,即在IoU阈值0.5下的平均精度)明显最高。以Qwen2.5-VL模型为例,投影层的AP值达到0.554;但到了大语言模型层,这个数值直接跌到0.282,几乎腰斩。Qwen3-VL的情况更明显,从0.705跌到0.372,同样是对半折。
从训练过程的动态来看,三个探针的表现差异也很突出。投影层的探针学得最快,而且最终达到的精度上限也最高;视觉编码器的探针学到后来会陷入平台期,精度比投影层低;大语言模型层的探针不仅最终精度低,而且训练过程波动很大,说明这一层的特征不稳定。
这些数据勾画出了一幅清晰的图景:视觉编码器能看清楚形状在哪里,并将这个位置信息编码进去;模态投影层把这些信息转换格式后基本完整地保留了下来;但当这些信息进入大语言模型进行推理时,大量的空间位置细节就被"稀释"掉了。
研究团队通过可视化热力图进一步验证了这一点。在视觉编码器阶段,注意力热力图在图中形状的位置上会出现清晰、集中的高亮点,就像聚光灯精准打在目标上。但同样的信息经过大语言模型的多层处理之后,热力图就变得散漫而模糊,高亮区域扩散到背景甚至一些与内容毫无关联的位置,形状的边界和独立性完全看不出来了。
**七、89%的注意力给了文字,只有11%留给图像**
研究团队还分析了大语言模型在生成答案时的"注意力分配"——也就是说,在回答"图里有几个形状"这个问题的时候,模型的计算资源有多少花在了真正看图上,又有多少花在了读取文字指令上。
结果令人咋舌:平均来看,模型大约把89.3%的注意力预算分配给了系统提示词和用户问题这些文字内容,只有约10.7%的注意力留给了图像信息。这种极度失衡的资源分配,导致模型在生成答案时本质上是在"闭着眼睛"根据文字经验作答,而非真正查阅图像。
研究团队尝试用提示词来干预这种行为,比如在问题里加上"请仔细观察图片"之类的引导语,但发现这种文字层面的干预效果极不稳定,往往无法真正改变模型内部的注意力分配。
更让人意外的是,即便模型答对了,它的注意力也未必真的落在正确的地方。研究团队用一个叫"注意力IoU"(Attention IoU)的指标来衡量模型注意力和图中形状位置的重合程度。结果显示,即便是答对的案例,视觉区域的注意力覆盖率也只有大约42.5%,而"注意力奖励分数"甚至是负数(-0.15)。换句话说,答对了不等于真的数清楚了——很可能只是蒙对了。
**八、能不能逼着AI多看图?MAS实验的尝试与教训**
既然问题出在大语言模型阶段对视觉信息的"无视",研究团队设计了一种叫做"模态注意力份额"(Modality Attention Share,MAS)的干预机制,试图从训练层面强制模型分配更多注意力给图像。
这个机制的设计思路类似于"最低消费规定"。定义一个叫MAS的指标,表示模型在生成答案时分配给图像token的注意力比例。然后设定一个最低阈值τ(实验中设为0.4):如果模型生成答案时视觉注意力低于这个阈值,就给它一个额外的惩罚(用一种叫"铰链损失"的函数实现);如果达到阈值,惩罚消失,正常训练。整个训练目标变成标准的语言建模损失加上这个视觉注意力惩罚项的组合,两者权重之比通过λ参数控制(实验中设为0.1)。
为了验证这个机制,研究团队在FSC-147这个计数数据集上进行了微调实验,对比了三种训练方式:直接使用预训练模型、标准的指令微调(SFT)、以及加了MAS约束的指令微调(SFT+MAS)。测试场景包括合成的圆形计数图(Circles,属于模型熟悉的分布内数据)和真实的FSC-147验证集与测试集。
实验结果呈现出复杂的图景,既有改进也有退步,具体效果因模型架构而异。对于Ovis-2.5模型,加上MAS后合成场景的正确率从84.9%微升到85.2%,FSC验证集从17.5%升到17.7%,但FSC测试集从16.6%微降到16.1%。对于Qwen3-VL模型,MAS让合成场景正确率从18.2%大幅提升到30.4%,但FSC验证集和测试集的成绩都有所下降。对于Intern3.5-VL模型,MAS提升了FSC验证集(从16.9%到17.7%),但合成场景和FSC测试集都略有下降。
这些混合的结果传达了一个重要的信息:强制增加视觉注意力确实可以在某些场景和某些模型上带来改善,但它不是一剂万灵药。问题的关键不仅仅是"看多少图",更在于"在哪里看图"以及"怎么从看图中提取和保留有用信息"。单纯增加注意力权重而不改变模型如何整合视觉与语言信息的方式,可能会在提升某些任务的同时损害另一些任务的表现。
研究团队由此得出了一个更为深刻的判断:MAS可以作为一种有效的调节工具,证明注意力分配失衡这个问题在技术上是可以干预的;但要真正解决计数问题,未来的工作可能需要更精细的策略,例如专门针对预测数字token时施加视觉约束、对不同长度的输入做归一化处理、以及设计能引导模型关注正确位置而非仅仅关注更多位置的约束。
**九、这个研究告诉了我们什么,以及它对AI发展意味着什么**
归根结底,这项研究的核心发现可以用一句话概括:AI视觉语言模型的计数失败,不是因为它们"看不见",而是因为它们在推理时没有充分使用自己看到的东西。
这个结论对理解AI的工作方式有重要意义。在通常的印象里,如果AI回答错了一个视觉问题,人们往往会觉得是AI的"眼睛"出了问题——图像质量不够好、分辨率不够高、或者视觉模块不够强大。但这项研究的探针实验清楚地表明,视觉编码器其实能清楚地"看到"图中的每个形状,并且在初始的特征表示中保留了准确的位置信息。真正的问题发生在后续的语言推理阶段——大语言模型在处理视觉信息时,会受到语言统计规律的强烈干扰,导致视觉证据被边缘化。
这也解释了为什么更大的模型不一定数得更准——如果模型的语言部分更强大、对语言统计规律的依赖更深,这种干扰反而可能更严重。而那些在设计上特别重视视觉信息保留的模型(比如Qwen系列对图像分辨率的处理方式),反而能在较小的参数量下表现更好。
对于普通用户来说,这项研究提供了一个实用的警示:当你让AI看图数数,或者做任何需要精确空间感知的视觉任务时,它的回答要打一个不小的折扣。如果任务的准确性很重要,最好自己核实,或者使用专门为这类任务优化的专业工具,而非通用的视觉语言模型。
从更宏观的角度看,这项研究为AI研究社区提供了一套具体的诊断框架——不仅要测试AI的最终答案对不对,更要深入到模型内部,追踪信息在每个处理环节的保留情况。只有找准了瓶颈在哪里,才能有针对性地加以改进。
COUNTINGTRICKS测试套件本身也有超越"数数"这个具体任务的价值。它揭示的那种视觉证据与语言先验之间的博弈,实际上是所有视觉语言模型在处理需要精细空间感知的任务时都会面临的普遍挑战。这套方法论可以被移植到更多场景中,帮助研究者系统地诊断和改进AI的视觉理解能力。
---
Q&A
Q1:视觉语言模型在数图中形状时表现有多差?
A:根据MBZUAI的研究,当前主流开源视觉语言模型在COUNTINGTRICKS测试套件上的平均计数正确率从约12%到50%不等。最老的LLaVA-1.5-7B只有约12%的正确率,而表现最好的Qwen2.5-VL-7B也仅有50%左右,相当于每两道题答错一道。更关键的是,即便答对了,模型的注意力也往往没有真正落在图中的形状上,说明很多正确答案来自于语言经验的"蒙对"而非视觉感知。
Q2:为什么模型越大不一定数数越准?
A:研究发现,决定计数能力的关键因素不是参数量,而是模型处理视觉信息的方式,尤其是图像分辨率的处理机制和空间位置信息的保留方式。拥有110亿参数的Llama-3.2-11B正确率只有24%,而只有30亿参数的Qwen2.5-VL-3B正确率达到36%。这表明在设计上更重视视觉信息保留的架构,即使体量更小,也能在计数任务上胜过更大的通用模型。
Q3:COUNTINGTRICKS测试套件测的是什么?
A:COUNTINGTRICKS是研究团队专门设计的视觉计数测试工具,包含18000个样本,覆盖32种场景。核心设计是通过控制图中形状与图像处理网格之间的位置关系(形状是否跨越格子边界),以及形状大小、密度等变量,系统性地测试AI在不同视觉难度下的计数能力。此外还设计了"语言干扰"提示,在问题中故意嵌入错误数字,用于检测模型是真正靠视觉数数还是被语言经验带偏。
好文章,需要你的鼓励
本文介绍了由南方科技大学等机构于2026年4月发表的研究(arXiv:2604.08865),提出了名为SPPO的大模型推理训练新方法。该方法将推理任务重新建模为"序列级情境赌博机",用一个轻量级价值模型预测题目难度,以单次采样替代GRPO的多次采样,解决了标准PPO的"尾部效应"问题。实验显示,SPPO在数学基准测试上超越GRPO,训练速度提升约5.9倍,配合小尺寸价值模型还能显著降低显存占用。
这项由香港科技大学数学系完成的研究(arXiv:2604.10465,2026年ICLR博客论文赛道)提出了一种从朗之万动力学视角理解扩散模型的统一框架。研究指出,扩散模型的前向加噪和逆向去噪过程,本质上是朗之万动力学这一"分布恒等操作"被拆成了两半。在这个视角下,VP、VE-Karras和Flow Matching等不同参数化的模型可被精确互译,SDE与ODE版本可被统一解释,扩散模型相对VAE的理论优势得以阐明,Flow Matching与得分匹配的等价性也得到了严格论证。
中国人民大学高岭人工智能学院等机构联合开发了AiScientist系统,旨在让AI自主完成机器学习研究的完整工程流程,包括读论文、搭环境、写代码、跑实验和迭代调试,全程无需人工干预。系统核心设计是"薄控制、厚状态":由轻量指挥官协调专业代理团队,通过"文件即通道"机制将所有中间成果持久化存储,使每轮工作都能建立在前一轮积累的基础上。在PaperBench和MLE-Bench Lite两个基准上,系统表现显著优于现有最强对比系统,论文发布于2026年4月。
这项由字节跳动发布的研究(arXiv:2604.13030)提出了生成式精化网络(GRN),一套模仿人类画家"边画边改"直觉的视觉生成新框架。其核心包括两项创新:层级二进制量化(HBQ)通过多轮二分逼近实现近乎无损的离散图像编码,以及全局精化机制允许模型在每一步对整张图像的所有位置重新预测并随时纠错,从根本上解决了自回归模型的误差积累问题。配合基于熵值的自适应步数调度,GRN在ImageNet图像重建(rFID 0.56)和生成(gFID 1.81)上均创下新纪录,并在文本生成图像和视频任务上以20亿参数达到同等规模方法的领先水平。