微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI的眼睛不会"看"?北京大学团队发现多模态大模型的致命视觉盲点

AI的眼睛不会"看"?北京大学团队发现多模态大模型的致命视觉盲点

2025-07-28 15:31
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-28 15:31 科技行者

这项由北京大学的高宏程、黄梓豪、徐林等多位研究者联合中科院大学、南京大学、新加坡国立大学等七所知名院校共同完成的研究,发表于2025年7月,论文标题为《像素、模式,但没有诗意:像人类一样看世界》。有兴趣深入了解的读者可以通过项目页面https://TuringEyeTest.github.io访问完整研究内容。

当我们看到一张图片时,大脑会在瞬间完成复杂的视觉处理过程。比如看到云朵排列成某个字母的形状,或者在色彩斑斓的点阵中识别出隐藏的数字,这对人类来说轻而易举。然而,这项研究却发现了一个令人意外的事实:那些在文本理解和逻辑推理方面表现卓越的多模态大语言模型,在这些看似简单的视觉任务上却表现得像"视觉盲人"一样。

研究团队创造性地设计了一套名为"图灵眼测试"的评估体系,就像给AI做视力检查一样。他们发现,包括OpenAI的o1、Claude-4-Sonnet、Gemini 2.5 Pro在内的15个当前最先进的多模态大模型,在面对人类能够轻松识别的视觉挑战时,成功率几乎为零。这个发现不仅颠覆了我们对AI视觉能力的认知,更揭示了当前人工智能发展中一个被忽视的关键缺陷。

这项研究的意义远超学术范畴。在自动驾驶、医疗影像诊断、安防监控等依赖视觉理解的关键应用中,AI的这种视觉局限性可能带来严重后果。研究团队通过深入的技术分析发现,问题的根源并非在于模型的推理能力不足,而是视觉编码器本身存在根本性的泛化能力缺陷。这个发现为改进AI视觉系统指明了新的方向,也为我们重新思考人工智能的发展路径提供了重要启示。

一、AI视觉能力的盲点测试:四个"简单"却致命的挑战

要理解AI视觉能力的真实水平,研究团队设计了四个看似简单却极具挑战性的测试任务。这些任务就像是专门为AI设计的"视力表",每一项都针对人类视觉系统的不同核心能力。

第一个测试叫做"隐藏文字识别",其工作原理类似于那些需要眯起眼睛才能看清的艺术作品。研究团队将文字信息巧妙地融入到美丽的风景图片中,当你近距离观看时,看到的是精美的建筑或自然景观,但当你退远一些或缩小图像时,这些景观元素的排列就会显现出清晰的英文单词。人类可以毫不费力地在这两个层面之间切换视角,既能欣赏细节,又能把握整体。然而,AI模型却完全无法理解这种"整体大于部分之和"的视觉现象。

第二个测试是"3D字符识别",就像那些立体字谜游戏一样。研究团队将普通的字母和数字扭曲成三维空间中的线框图形,从不同角度观察会呈现出不同的视觉效果。这种测试考验的是AI对三维空间中字符结构的理解能力。虽然这些扭曲的字符对人类来说仍然容易识别,但AI却完全无法将这些线条重新组合成有意义的字符。

第三个测试借鉴了经典的"色盲检测图"原理,但增加了更多的干扰元素。研究团队创建了由彩色圆点组成的复杂图案,其中特定颜色的圆点排列成字母或数字的形状,而背景则由其他颜色的圆点填充。人类的视觉系统能够自动过滤掉干扰信息,专注于目标模式,但AI却被这些"噪音"完全迷惑了。

最后一个测试涉及中文字符的创意组合。研究团队将多个汉字的部件重新组合,创造出具有特定含义的复合字符,就像书法艺术中的"合体字"一样。这些字符虽然在形式上发生了变化,但对于熟悉中文的人来说,仍然能够理解其表达的完整概念。然而,AI却无法理解这种创意性的视觉表达。

通过这四个测试,研究团队发现了一个惊人的现象:即使是最先进的AI模型,在这些任务上的成功率也几乎为零。更令人担忧的是,即使给AI多次尝试的机会,让它生成32个不同的答案,成功率仍然没有显著提升。这表明问题不在于AI的推理过程存在随机性错误,而是在视觉理解的最初阶段就出现了根本性的偏差。

二、深入AI大脑:视觉处理的"断层"在哪里

为了找出AI视觉失败的根本原因,研究团队采用了一种名为"Grad-CAM"的技术,这就像给AI的"大脑"做核磁共振扫描一样,能够可视化AI在处理图像时到底在"看"什么。

当我们观察AI处理隐藏文字图像的过程时,发现了一个有趣的现象。AI的视觉编码器确实在图像的各个区域分配了注意力,但这些注意力往往集中在错误的地方。就像一个人看画时只注意到画框的装饰,却忽略了画面的主要内容一样,AI关注的是图像中的物体细节,而完全错过了这些物体排列所形成的整体模式。

在处理3D字符时,AI的表现更加令人困惑。它似乎能够识别出图像中存在某种结构,但却无法将这些三维线条重新组装成有意义的字符。这就像看立体拼图时,能看到所有的碎片,却无法理解它们组合后的完整图案。

色盲测试揭示了AI另一个致命弱点:抗干扰能力极差。人类视觉系统具有强大的"信号过滤"能力,能够在复杂的视觉环境中迅速锁定目标信息。但AI却像没有调好频道的收音机一样,无法从背景噪音中提取出清晰的信号。

最令研究团队意外的是中文字符测试的结果。AI确实能够识别出图像中包含汉字组件,但它采用的是一种机械化的识别方式,就像只认识汽车零件却不知道如何组装汽车一样。它缺乏将这些组件整合成完整概念的"想象力"。

更深入的分析显示,这个问题不仅存在于视觉编码器中,语言处理部分也未能弥补这一缺陷。当视觉信息传递到语言模型时,错误的视觉理解已经无法被纠正。这就像翻译一份看不清楚的文件,无论翻译技巧多么高超,都无法得出正确的结果。

三、训练能否拯救AI的"视力":意外的发现

面对AI的视觉缺陷,研究团队尝试了多种"治疗"方案。他们首先测试了能否通过提供示例的方式教会AI如何处理这些视觉任务,这就像给学生做题前先展示几个标准答案一样。

然而,结果令人失望。即使给AI提供了三个完整的示例,包括图像和正确答案,AI的表现几乎没有任何改善。这表明AI的问题不在于缺乏相关知识或经验,而是在更基础的视觉理解层面存在结构性缺陷。就像一个色盲患者,无论看多少次颜色对照表,都无法突然获得辨色能力一样。

接下来,研究团队尝试了更直接的方法:针对性训练。他们设计了五种不同的训练策略,分别针对AI系统的不同组件进行优化。这就像医生针对不同器官开出不同的治疗方案一样。

第一种方案是对整个系统进行全面训练,相当于"全身治疗"。第二种方案只训练视觉编码器,专门修复"眼睛"的问题。第三种方案在训练视觉编码器的同时,也优化连接视觉和语言部分的"桥梁"。第四种方案只训练语言处理部分,看看是否能通过提升"大脑"的分析能力来补偿视觉缺陷。最后一种方案只优化视觉和语言之间的连接部分。

实验结果揭示了一个关键发现:只有包含视觉编码器训练的方案才能显著改善AI的表现。那些只训练语言部分的方案几乎没有效果,这就像试图通过提高翻译水平来弥补原文错误一样徒劳。

更有趣的是,当研究团队分析训练过程的损失曲线时,发现了AI学习的一个有趣模式。在训练初期,AI似乎优先调整语言处理部分的参数,然后才开始优化视觉组件。这就像学习一门新技能时,我们往往先从熟悉的部分开始,然后才tackle更困难的挑战。

为了进一步验证这个发现,研究团队还在传统的视觉问答任务上测试了相同的训练策略。结果显示,在这些传统任务上,所有训练方案的效果都差不多。这个对比实验证明了研究团队设计的测试确实捕捉到了AI视觉能力的一个独特盲点,而不仅仅是一般性的能力不足。

四、分辨率与视觉理解的微妙关系

在研究过程中,团队还发现了一个出人意料的现象。当他们调整隐藏文字图像的分辨率时,AI的表现发生了戏剧性的变化。

当图像被大幅缩小时,原本复杂的场景变成了简单的字符轮廓,AI的识别能力反而得到了显著提升。这就像近视眼的人摘掉眼镜后,反而能更清楚地看到远处的大标牌一样。这个现象揭示了AI视觉处理的一个根本特征:它更擅长处理简化的、类似传统OCR任务的图像,而不是需要整体理解的复杂视觉场景。

研究团队进一步比较了两种不同的图像处理方式:直接缩小和模糊处理。直接缩小图像能够显著提升AI的表现,但对图像进行模糊处理(保持原始尺寸但降低清晰度)的效果就差得多。这个差异解释了为什么缩小图像有效:现代AI视觉系统将图像分割成固定大小的"补丁"进行处理,缩小图像实际上简化了每个补丁的内容,使字符特征更加突出。

这个发现具有重要的技术意义。它表明当前AI视觉架构在处理需要整体理解的任务时存在根本性局限。AI更像是一个只能看清局部细节的显微镜,而不是能够把握全局的望远镜。

五、15个顶级AI模型的集体"失明"

研究团队选择了15个当前最先进的多模态大模型进行测试,这些模型代表了不同的技术路线和架构设计。测试结果呈现出一个令人震惊的一致性:几乎所有模型在四个测试任务上的表现都糟糕透顶。

在隐藏文字识别任务上,所有15个模型的一次性成功率都是零。即使给它们32次尝试机会,最好的模型也只达到了不到1%的成功率。这就像让15个据说"视力极佳"的人去读同一张视力表,结果发现他们全都看不清最大的字母。

3D字符识别的结果同样令人失望。所有模型都无法理解三维空间中的字符结构,成功率几乎为零。这表明当前的AI视觉系统在空间理解能力上存在根本性缺陷。

色盲测试稍微显示了一些模型间的差异,但最好的成功率也仅有1.33%。考虑到这是一个多选题场景,这样的表现实际上可能还不如随机猜测。

中文字符组合测试显示了相对较好的结果,部分模型达到了5%左右的成功率。但这仍然远远无法满足实际应用的需求。

更重要的是,研究团队发现不同架构的模型(统一多模态模型、基于API的封闭源码模型、开源模型)都表现出类似的失败模式。这表明这个问题不是特定技术路线的缺陷,而是当前整个AI视觉领域的共同盲点。

当研究团队提高生成温度,让AI产生更多样化的答案时,结果仍然没有显著改善。这进一步证实了问题出在视觉理解的根本层面,而不是推理过程的随机性不足。

六、技术解决方案的探索与启示

基于这些发现,研究团队提出了几个改进AI视觉能力的潜在方向。首先是将推理能力引入视觉处理阶段。目前的AI系统通常将视觉理解和推理严格分离,视觉编码器只负责提取特征,推理完全由语言模型承担。但人类的视觉理解过程往往伴随着即时的推理和假设验证。

另一个重要方向是在像素级别和语义级别之间建立更好的对齐。当前的视觉编码器主要关注像素级别的特征,但人类视觉更多地基于语义理解。如何让AI既能处理细节,又能把握整体语义,是亟待解决的技术挑战。

研究团队还建议采用类似大语言模型中强化学习的方法来训练视觉编码器。通过不断的试错和反馈,可能能够帮助AI学会更好的视觉理解策略。

这项研究的意义不仅限于技术层面。它提醒我们,在急于追求AI在各种高层认知任务上的突破的同时,不能忽视这些看似基础但实际上极其重要的感知能力。就像建造摩天大楼时,地基的重要性往往被忽视一样,AI的视觉"地基"可能需要更多的关注和投入。

对于普通用户而言,这项研究揭示了当前AI应用的一个重要局限性。在依赖AI进行图像理解的场景中,我们需要对其能力边界有清晰的认识,避免在关键应用中过度依赖可能存在盲点的AI系统。

说到底,这项研究为我们呈现了AI发展中的一个重要启示:真正的人工智能不仅需要强大的推理能力,更需要与人类相匹配的感知能力。只有当AI能够像人类一样"看懂"世界时,它才能真正理解和参与我们的生活。这个看似简单的视觉理解问题,实际上可能是通向真正智能AI的关键一步。当前的AI或许已经学会了处理复杂的逻辑推理,但在最基础的"看见"这件事上,它们还有很长的路要走。

这个发现也让我们重新思考什么是真正的智能。也许,能够在复杂的视觉环境中瞬间把握要点的能力,比解决复杂数学题的能力更能体现智能的本质。毕竟,在人类进化的历程中,视觉理解能力远比抽象推理能力更早出现,也更为重要。如果AI想要真正融入人类社会,学会像人类一样"看世界"可能是比学会像人类一样"想问题"更为基础和关键的能力。

Q&A

Q1:什么是"图灵眼测试"?它和传统的AI测试有什么不同? A:图灵眼测试是这项研究创造的专门评估AI视觉感知能力的测试体系,包括隐藏文字识别、3D字符识别、色盲测试和中文字符组合四个任务。与传统侧重推理能力的AI测试不同,它专门检验AI最基础的"看见"和"理解"视觉信息的能力,就像给AI做视力检查一样。

Q2:为什么顶级AI模型在这些测试上表现这么差? A:研究发现问题出在AI的视觉编码器上,而非推理能力。AI无法像人类一样进行整体性的视觉理解,它更像只能看局部细节的显微镜,缺乏把握全局模式的能力。即使是最先进的模型也存在这种根本性的视觉理解缺陷,成功率几乎为零。

Q3:这个发现对普通用户使用AI有什么影响? A:这提醒我们在使用AI处理图像相关任务时要谨慎,特别是在自动驾驶、医疗诊断等关键应用中。当前AI在某些看似简单的视觉理解上存在盲点,过度依赖可能带来风险。用户需要了解AI能力边界,在重要场景中保持人工监督和验证。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-