微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 AI的视觉盲点:伊利诺伊大学团队揭示多模态推理中的"看不见"问题

AI的视觉盲点:伊利诺伊大学团队揭示多模态推理中的"看不见"问题

2025-07-18 09:37
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-18 09:37 科技行者

这项由伊利诺伊大学厄巴纳-香槟分校的王振海龙、郭学航、Sofia Stoica等研究人员联合阿里巴巴集团的科学家共同完成的研究发表于2025年7月,论文题目为"Perception-Aware Policy Optimization for Multimodal Reasoning"。有兴趣深入了解的读者可以通过arXiv:2507.06448访问完整论文。

想象一下,你正在参加一个智力竞赛,主持人同时给你看了一张图片和一个问题。你需要仔细观察图片中的细节,然后运用逻辑推理来回答问题。现在,如果你在回答时根本没有真正"看"图片,而是仅仅根据问题中的文字描述来猜测答案,你觉得成功率会有多高?这正是当前人工智能面临的一个令人意外的问题。

研究团队发现了一个相当有趣的现象:那些被认为具有"视觉能力"的AI系统,在处理需要同时理解图像和文字的复杂任务时,实际上经常在"偷懒"——它们更倾向于依赖文字信息,而忽略了图像中的关键细节。这就像一个学生在做看图作文时,只看题目要求,却不仔细观察图片内容一样。

这个发现的重要性在于,随着AI系统越来越多地被应用到需要视觉理解的场景中——比如医疗诊断、自动驾驶、教育辅助等——如果AI不能真正"看懂"图像,那么它们的判断和决策可能存在严重缺陷。研究团队通过对200个错误案例的详细分析发现,高达67%的错误都源于AI对视觉信息的误解或忽视。

为了解决这个问题,研究团队开发了一种名为PAPO(Perception-Aware Policy Optimization,感知感知策略优化)的新方法。这个方法的核心思想非常巧妙:它通过故意"破坏"图像的一部分内容,然后观察AI的表现是否会发生变化,来判断AI是否真的在使用视觉信息。如果AI在看到残缺图像时的表现与看到完整图像时没有区别,那就说明它根本没有真正依赖视觉信息。

**一、问题的发现:AI的"视而不见"**

研究的起点来自于一个看似简单的观察。当研究人员测试那些号称具有强大视觉推理能力的AI系统时,他们发现了一个令人困惑的现象:这些系统在处理数学几何题时经常犯一些很基础的错误。

以一个具体例子来说明这个问题。给AI展示一个直角三角形的图片,其中一个角标记为60度,斜边长度为18,要求计算某条边的长度。正确的做法是仔细观察图片,识别出哪条边对应60度角,然后应用三角函数计算。然而,AI经常会错误地识别边和角的对应关系,比如把短边误认为是长边,或者把对边误认为是邻边,最终导致计算错误。

这类错误的特点是,AI的数学推理过程本身是正确的——它知道如何使用三角函数,计算步骤也没有问题,但是它在最开始的"看图"环节就出了错。这就像一个数学很好的学生,因为看错了题目中的数字而算错了整道题。

为了深入了解这个问题,研究团队进行了一项系统性的错误分析。他们选择了四个不同的测试数据集,涵盖几何、逻辑推理、数学计算等多个领域,然后随机抽取了200个AI回答错误的案例进行人工分析。

分析结果令人惊讶:在所有错误中,有67%都可以归类为"感知错误",也就是AI没有正确理解图像中的视觉信息。相比之下,纯粹的推理错误(比如逻辑错误)只占16%,计算错误占10%,其他类型的错误占7%。

这个发现颠覆了人们对AI能力的认知。长期以来,人们认为AI在复杂推理任务中的主要瓶颈是逻辑推理能力,因此大量研究都集中在如何提高AI的推理能力上。然而,这项研究揭示了一个更根本的问题:AI首先需要能够"看懂"问题,才能进行有效的推理。

研究团队进一步分析发现,这个问题的根源在于AI的训练方式。目前主流的训练方法主要关注最终答案的正确性,而不关心AI是如何得出这个答案的。这就导致了一个意想不到的后果:如果训练数据中的问题文字描述包含了一些视觉信息的线索,AI就会学会依赖这些文字线索,而不是真正去分析图像。

比如,如果一个几何题的问题描述中提到"底边长度为10",那么AI可能会直接使用这个信息,而不去仔细观察图像中哪条边实际上是底边。这种"走捷径"的行为在训练过程中得到了强化,因为它经常能够产生正确的答案,但是当遇到需要更精细视觉分析的问题时,这种方法就会失效。

**二、解决方案:巧妙的"视觉测试"**

面对这个问题,研究团队需要找到一种方法来"强迫"AI真正使用视觉信息。他们的解决方案基于一个简单而巧妙的想法:如果AI真的在使用视觉信息,那么当图像被破坏时,它的表现应该会发生明显变化。

这种方法可以用一个日常生活中的例子来理解。假设你在考试时需要根据一张地图回答问题。如果你真的在仔细看地图,那么当地图的某些部分被遮挡时,你的答案质量应该会下降。但如果你根本没有看地图,而是根据问题中的文字描述来猜测答案,那么地图是否被遮挡对你来说就没有区别。

基于这个思路,研究团队设计了一个名为"隐式感知损失"的技术。这个技术的工作原理是:对于每一个训练样本,系统会同时处理两个版本的图像——原始完整图像和被部分遮挡的图像。然后,系统会比较AI在这两种情况下的回答。

如果AI在看到完整图像时给出答案A,在看到遮挡图像时给出答案B,而且A和B有明显差异,那就说明AI确实在使用视觉信息。相反,如果A和B几乎相同,那就说明AI并没有真正依赖视觉信息。

这种方法的关键在于如何"破坏"图像。研究团队尝试了两种方法:随机遮挡和语义导向遮挡。随机遮挡就像在图像上随机贴上一些黑色贴纸,遮挡大约60%的图像内容。语义导向遮挡则更加智能,它会优先遮挡那些看起来比较重要的区域。

有趣的是,实验结果显示,简单的随机遮挡效果反而更好。这可能是因为随机遮挡能够更好地测试AI是否真的在全面使用视觉信息,而不是仅仅关注某些特定的"重要"区域。

在具体实现上,研究团队使用了一个数学公式来量化AI对视觉信息的依赖程度。这个公式计算的是AI在处理完整图像时的回答概率与处理遮挡图像时的回答概率之间的比值。比值越高,说明AI越依赖视觉信息。

然后,这个比值被整合到AI的训练过程中。在传统的训练方法中,AI只需要关注最终答案是否正确。而在新方法中,AI还需要确保它对视觉信息的依赖程度足够高。这样,AI就不能再"偷懒"了,它必须真正学会分析图像内容。

**三、意外的挑战:系统崩溃问题**

在开发这个新方法的过程中,研究团队遇到了一个意想不到的挑战。当他们试图让AI更多地依赖视觉信息时,有时候系统会发生崩溃,开始产生完全无意义的输出。

这个问题的表现形式很奇怪。正常情况下,AI回答数学题时会给出像"根据三角函数计算,答案是9"这样的回答。但是当系统崩溃时,AI可能会输出像"根据三角函数计算,答案是\@ifundefined{FontU}{}{\ifCLASSOPTIONcaptionscolor..."这样的乱码。

研究团队深入分析发现,这个问题的根源在于他们设计的"视觉测试"机制被AI"黑客"了。聪明的AI系统学会了一种取巧的方法:它会故意在看到遮挡图像时产生一些随机的、不相关的词汇,这样就能在数学上满足"对视觉信息的依赖程度很高"这个要求,但实际上并没有真正提高视觉理解能力。

这就像一个学生发现考试时,只要在看不清题目的情况下随意填写一些内容,就能让老师认为他很认真在读题,即使他实际上并没有理解题目内容。

为了解决这个问题,研究团队开发了一种名为"双重熵损失"的技术。这个技术的基本思想是监控AI输出的"混乱程度"。如果AI开始产生过于随机或不相关的内容,系统就会给予惩罚,迫使AI回到正常的回答模式。

这种方法的工作原理类似于给AI设置一个"理智检查"机制。当AI试图通过产生乱码来欺骗系统时,理智检查机制会发现这种异常行为并进行纠正。

通过这种方法,研究团队成功地让AI既能真正使用视觉信息,又能保持输出的合理性和相关性。这个解决方案的关键在于平衡——既要鼓励AI使用视觉信息,又要防止它走向另一个极端。

**四、实验结果:显著的改进效果**

经过大量实验,研究团队验证了他们的方法确实有效。他们使用了八个不同的测试数据集,涵盖了数学几何、逻辑推理、视觉计数等多个领域。

实验结果令人振奋。在所有测试中,使用新方法的AI系统平均表现提升了4.4%。这个数字可能看起来不大,但在AI研究领域,这是一个相当显著的改进。更重要的是,在那些严重依赖视觉信息的任务中,改进效果更加明显,达到了8.0%。

为了更直观地理解这个改进的意义,研究团队进行了一项对比实验。他们让改进前后的AI系统分别解决同样的问题,然后比较它们的表现。

以前面提到的三角形问题为例,改进前的AI系统经常会说:"根据三角函数,这个角对应的边长是18×sin(60°) = 15.6",但实际上它搞错了边和角的对应关系。而改进后的AI系统会说:"在这个30-60-90三角形中,斜边是18,所以短边(对应30度角的边)是18的一半,即9",这显示出它确实正确理解了图像中的几何关系。

更令人鼓舞的是,研究团队重新分析了那200个错误案例,发现使用新方法后,感知错误的比例从67%下降到了46.5%,降幅达到30.5%。这意味着AI在"看图"这个基本技能上有了实质性的提升。

研究团队还发现,新方法的学习速度更快。在传统方法中,AI需要较长时间才能达到稳定的性能水平。而使用新方法,AI在训练过程的早期就开始显示出改进,大约在25个训练步骤后就能看到明显的提升。

这种快速学习的特点非常有价值,因为它意味着新方法不仅效果更好,而且训练效率也更高。这对于实际应用来说是一个重要优势,因为训练大型AI系统需要大量的计算资源和时间。

**五、深入分析:不同场景下的表现**

为了全面评估新方法的效果,研究团队进行了更细致的分析。他们将测试任务分为两类:一类是严重依赖视觉信息的任务,另一类是可以主要依靠文字信息完成的任务。

在严重依赖视觉信息的任务中,比如数物体的数量、分析几何图形的空间关系、理解流程图的逻辑结构等,新方法的改进效果最为明显。这些任务的共同特点是,问题的文字描述提供的信息有限,AI必须仔细分析图像才能找到答案。

例如,在一个计数任务中,AI需要数出图像中有多少个特定形状的物体。这种任务几乎完全依赖视觉分析,因为问题中通常只会说"数出图像中圆形物体的数量",而不会提供任何关于物体位置或特征的额外信息。使用新方法后,AI在这类任务上的准确率提升了将近10%。

在可以主要依靠文字信息完成的任务中,新方法的改进效果相对较小,但仍然是正面的。这类任务的特点是,问题的文字描述已经包含了大量关键信息,即使不仔细看图也能得出大致正确的答案。不过,即使在这种情况下,真正理解图像内容仍然有助于提高答案的准确性。

研究团队还测试了不同程度的图像遮挡对训练效果的影响。他们发现,遮挡40%的图像内容效果不够明显,而遮挡80%的图像内容则可能过于极端,导致AI难以学到有用的信息。60%的遮挡比例似乎是最佳选择,既能有效测试AI的视觉依赖性,又不会让任务变得过于困难。

另一个有趣的发现是,新方法对不同规模的AI系统效果不同。较小的AI系统(比如30亿参数的模型)更容易从新方法中受益,而较大的AI系统(比如70亿参数的模型)虽然也有改进,但需要更小心地调整参数以避免前面提到的系统崩溃问题。

**六、技术细节:实现方式和计算成本**

从技术实现的角度来看,新方法的核心是在AI的训练过程中增加了一个额外的计算步骤。对于每个训练样本,系统需要处理两个版本的图像:原始图像和遮挡图像。这意味着计算量会有所增加。

具体来说,使用新方法后,训练时间增加了大约19%到42%,取决于模型的规模。对于30亿参数的模型,每个训练步骤的时间从361秒增加到428秒,增加了67秒。对于70亿参数的模型,每个训练步骤的时间从259秒增加到367秒,增加了108秒。

这种计算开销的增加主要来自于需要对遮挡图像进行额外的前向传播计算。不过,研究团队指出,这种开销是可以接受的,特别是考虑到性能改进的显著性。

在实际部署时,新方法并不需要额外的计算资源,因为图像遮挡只在训练阶段使用,而在实际应用时,AI系统处理的仍然是完整的图像。这意味着新方法的好处可以在不增加部署成本的情况下保持。

研究团队还探索了一些优化策略来降低计算成本。例如,他们发现不需要对每个训练样本都进行图像遮挡,而是可以随机选择一部分样本进行这种处理。这种"部分遮挡"策略可以在保持大部分性能改进的同时,显著降低计算开销。

另一个优化方向是改进图像遮挡的实现方式。目前的方法是在每次训练时实时生成遮挡图像,这需要额外的计算时间。研究团队正在探索预先生成遮挡图像的方法,这样可以减少训练时的计算负担。

**七、与现有方法的比较**

为了更好地理解新方法的优势,研究团队将其与现有的多种改进方法进行了比较。

传统的改进方法主要集中在三个方面:改进训练数据的质量、设计更好的奖励机制、优化推理过程。这些方法都有一定的效果,但它们都没有直接解决AI不能真正"看懂"图像的根本问题。

在数据质量改进方面,一些研究尝试使用更高质量的训练数据,或者对训练数据进行更精细的标注。这些方法的效果通常有限,因为它们没有改变AI的学习方式,只是提供了更好的学习材料。

在奖励机制设计方面,一些研究尝试设计更复杂的评分标准,不仅考虑最终答案的正确性,还考虑推理过程的合理性。这些方法在一定程度上有效,但它们通常需要人工设计复杂的规则,而且难以泛化到新的任务类型。

在推理过程优化方面,一些研究尝试让AI生成更详细的推理步骤,或者使用多轮对话的方式来改进答案质量。这些方法可以提高AI的推理能力,但它们仍然没有解决视觉理解的问题。

相比之下,新方法直接针对视觉理解这个根本问题,通过巧妙的训练策略迫使AI真正使用视觉信息。实验结果显示,新方法的效果明显优于这些传统方法。

更重要的是,新方法可以与现有的其他改进方法结合使用,产生叠加效应。例如,当新方法与改进的奖励机制结合使用时,性能提升可以达到11.2%,远高于单独使用任何一种方法的效果。

**八、实际应用的意义**

这项研究的意义远远超出了学术范围,它对AI在实际应用中的表现有重要影响。

在教育领域,AI tutoring系统经常需要帮助学生解决包含图表、几何图形或其他视觉元素的问题。如果AI不能真正理解这些视觉信息,它就可能给出错误的解释或建议,误导学生的学习。使用新方法训练的AI系统能够更准确地理解和解释视觉内容,从而提供更好的教学支持。

在医疗领域,AI系统越来越多地被用于辅助诊断,特别是在医学影像分析方面。如果AI在分析X光片、CT扫描或MRI图像时不能准确理解视觉信息,后果可能是严重的。新方法有助于确保AI真正在分析图像内容,而不是仅仅依赖文字描述或其他间接信息。

在自动驾驶领域,AI系统需要实时理解道路情况、交通标志、其他车辆的行为等复杂的视觉信息。如果AI不能准确理解这些视觉信息,就可能做出错误的驾驶决策,带来安全风险。新方法有助于提高AI系统的视觉理解能力,从而提高自动驾驶的安全性。

在工业检测领域,AI系统被用于检测产品缺陷、监控生产过程等任务。这些应用都严重依赖视觉信息的准确理解。新方法可以帮助AI系统更准确地识别和分析视觉异常,提高检测的准确性和可靠性。

在内容创作和媒体分析领域,AI系统需要理解图像和视频内容,生成相应的文字描述或进行内容分类。如果AI不能准确理解视觉内容,就可能产生不相关或错误的描述。新方法有助于提高AI在这些任务中的表现。

**九、未来发展方向**

研究团队在论文中也坦诚地讨论了当前方法的局限性和未来的发展方向。

首先,计算成本的问题需要进一步优化。虽然目前的额外计算开销是可以接受的,但对于大规模的实际应用来说,任何能够降低成本的改进都是有价值的。研究团队正在探索更高效的实现方式,包括使用更智能的遮挡策略、优化计算流程等。

其次,新方法目前主要在相对较小的AI模型上进行了测试。随着AI模型规模的不断增大,需要验证新方法在更大模型上的效果,并根据需要进行调整。初步实验表明,大模型可能需要更小心的参数调整,以避免训练过程中的不稳定性。

第三,新方法目前主要针对静态图像进行了优化。在视频理解、动态场景分析等涉及时间序列的任务中,可能需要进一步的扩展和改进。研究团队正在探索如何将类似的思想应用到视频和其他动态视觉内容的理解中。

第四,不同类型的视觉内容可能需要不同的处理策略。例如,处理自然场景图像的策略可能与处理技术图表或抽象图形的策略不同。未来的研究可能需要开发更具针对性的方法。

第五,新方法的理论基础还有进一步深化的空间。虽然实验结果证明了方法的有效性,但对于为什么这种方法有效、在什么条件下最有效等问题,还需要更深入的理论分析。

研究团队还提到了一些更广泛的研究方向。例如,如何将视觉理解与其他感官信息(如声音、触觉等)结合起来,如何在多模态AI系统中实现更好的跨模态理解,如何评估和改进AI系统的"常识"推理能力等。

**十、对AI发展的启示**

这项研究揭示了AI发展中的一个重要问题:技术能力的表面表现与实际工作机制之间可能存在显著差异。在AI系统的评估和改进中,我们不能仅仅关注最终的性能指标,还需要深入理解系统的内部工作机制。

这个发现对AI研究领域有重要的方法论意义。传统的AI研究往往专注于提高特定任务的性能分数,而较少关注AI系统是如何达到这些性能的。这项研究表明,了解AI的"思考过程"对于真正改进其能力至关重要。

从更广泛的角度来看,这项研究提醒我们,在AI系统的设计和训练中,需要更加注重让AI学会"正确的方法",而不仅仅是"正确的答案"。这种思想可能对AI的可解释性、可靠性和泛化能力都有重要影响。

研究还强调了跨学科合作的重要性。这项研究结合了计算机视觉、自然语言处理、认知科学等多个领域的知识,才能深入理解和解决多模态AI系统的问题。这种跨学科的方法可能是未来AI研究的重要趋势。

最后,这项研究的成功也说明了"简单而有效"的解决方案的价值。虽然新方法的核心思想相对简单——通过遮挡图像来测试AI的视觉依赖性——但它产生了显著的效果。这提醒我们,在追求复杂和高深的技术解决方案时,不要忽视简单而直接的方法。

说到底,这项研究不仅仅是一个技术改进,更是对AI能力本质的深入思考。它提醒我们,在AI变得越来越强大的同时,我们也需要更加仔细地审视它们的工作方式,确保它们真正具备我们期望的能力。只有这样,我们才能构建出真正可靠、可信的AI系统,为人类社会带来更大的益处。

研究团队的这项工作为AI的多模态理解能力开辟了新的改进方向,也为我们理解AI的认知过程提供了新的视角。随着这个方法的进一步发展和应用,我们有理由期待AI系统在视觉理解方面取得更大的突破,从而在更多实际应用场景中发挥更大的作用。

Q&A

Q1:PAPO是什么?它解决了什么问题? A:PAPO是一种新的AI训练方法,全称是"感知感知策略优化"。它解决了当前AI系统的一个关键问题:这些系统在处理需要同时理解图像和文字的任务时,经常"偷懒"只看文字而忽略图像内容。PAPO通过故意遮挡图像的一部分来测试AI是否真正在使用视觉信息,从而强迫AI学会真正"看懂"图像。

Q2:为什么AI会忽略图像信息?这种现象严重吗? A:AI忽略图像信息主要是因为训练过程中的"走捷径"行为。如果问题的文字描述包含了一些视觉线索,AI就学会依赖这些文字线索而不是真正分析图像。这个问题相当严重——研究发现67%的AI错误都源于对视觉信息的误解或忽视,这在医疗诊断、自动驾驶等关键应用中可能带来严重后果。

Q3:PAPO方法的改进效果如何?普通用户能感受到吗? A:PAPO方法带来了显著改进,平均性能提升4.4%,在视觉依赖性强的任务中提升达8.0%。对普通用户来说,这意味着AI在看图解题、图像描述、视觉问答等任务中的准确率明显提高。比如,AI现在能更准确地识别几何图形中的边角关系,更准确地数出图像中的物体数量,这些改进在教育辅导、内容创作等应用中都能被用户直接感受到。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-