微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 大学生们的"视觉智能助手"真的懂这个世界吗?加州大学圣地亚哥分校最新研究揭示AI模型的"盲点"

大学生们的"视觉智能助手"真的懂这个世界吗?加州大学圣地亚哥分校最新研究揭示AI模型的"盲点"

2025-07-02 11:01
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-02 11:01 科技行者

这项由加州大学圣地亚哥分校的高齐月教授和胡志庭教授领导的研究团队发表于2025年6月的arXiv预印本论文(论文编号:arXiv:2506.21876v1),有兴趣深入了解的读者可以通过https://wm-abench.maitrix.org/访问完整的研究成果和数据集。这个庞大的国际研究团队汇集了来自加州大学圣地亚哥分校、约翰霍普金斯大学、康奈尔科技学院、瑞士联邦理工学院以及密歇根大学等顶尖院校的研究人员。

当我们看着一个苹果从桌子上滚落时,我们的大脑会瞬间明白重力的作用,预测苹果会掉在哪里,甚至能想象出它落地时的声音。这种对世界运作规律的直觉理解,就是科学家们所说的"世界模型"。现在,那些被誉为"视觉智能助手"的大型视觉语言模型,比如GPT-4o、Gemini等,似乎也具备了这样的能力——它们能看懂图片,回答关于世界的问题,甚至帮我们分析复杂的场景。

然而,加州大学圣地亚哥分校的研究团队却发现了一个令人意外的事实:这些看起来聪明的AI助手,在理解世界运作规律方面存在着严重的"认知盲区"。就像一个从未真正接触过物理世界的人,虽然能背诵教科书上的知识,却无法真正理解苹果为什么会掉下来。

想象一下,你有一个朋友,他能准确识别各种物体的颜色和形状,甚至能背出所有的物理定律,但当你让他预测两个球相撞后会发生什么时,他却给出了完全错误的答案。这就是当前AI视觉模型面临的尴尬处境。研究团队通过创建一个名为WM-ABench的全新测试平台,就像给这些AI模型安排了一场"世界常识大考",结果发现即使是最先进的模型,在很多基础的物理常识测试中表现得就像刚学会看世界的孩子一样迷茫。

这项研究的重要性远远超出了学术范围。在我们日益依赖AI助手帮助我们理解和预测世界的今天,了解这些系统的局限性就像了解一辆汽车的刹车距离一样重要。研究团队通过对15个最新的商业和开源视觉语言模型进行了660次不同的实验,发现了一个惊人的事实:几乎所有模型在区分运动轨迹时的准确率接近随机猜测的水平,有些模型甚至会认为蓝色物体比绿色物体移动得更快——这显然是一个非常奇怪的偏见。

这个发现就像发现一个看起来很聪明的学生,在简单的加减法上却频频出错一样令人困惑。更令人担忧的是,这些模型缺乏对世界的独立、稳健的理解能力,它们的认知就像一张被随意涂抹的地图,不同的概念之间存在着奇怪的关联和混淆。

为了彻底搞清楚这个问题,研究团队设计了一个革命性的评估框架。他们从认知科学和比较心理学中汲取灵感,将AI对世界的理解能力分解为两个核心阶段:感知阶段和预测阶段。感知阶段就像我们用眼睛观察世界,收集关于空间、时间、运动、数量和视觉的信息;预测阶段则像我们的大脑根据观察到的信息来预测接下来会发生什么。

在感知阶段,研究团队测试了模型对五个基本维度的理解能力。空间感知就像测试一个人能否准确判断两个物体的相对位置,或者能否根据不同角度的照片想象出物体的三维形状。时间感知则考察模型能否准确判断事件发生的先后顺序和持续时间,就像问"哪个球先开始移动?"或"哪个动作持续的时间更长?"这样的问题。运动感知测试模型对物体移动方向、速度和轨迹的理解,这就像观察一个滚动的球并预测它会朝哪个方向移动。数量感知评估模型的计数和比较能力,包括离散数量(比如桌上有几个苹果)和连续数量(比如哪个苹果颜色更深)。视觉感知则测试模型对颜色、形状和材质的基本识别能力。

在预测阶段,研究团队设计了三种不同层次的挑战。机械仿真测试模型对基本物理规律的理解,比如当一个球撞击另一个球时会发生什么,或者当机械臂推动一个物体时物体会如何移动。传递推理考察模型进行多步预测的能力,就像预测一辆车先左转再前进后最终会到达哪里。组合推理则测试模型处理多个同时发生事件的能力,比如当两个球同时撞击第三个球时会产生什么结果。

为了确保测试的公平性和准确性,研究团队采用了一种巧妙的控制实验方法。他们就像科学家研究药物效果时使用对照组一样,系统地改变环境中的各种因素,每次只改变一个变量,然后观察模型的反应。这种方法使得研究人员能够准确识别是什么因素导致了模型的失误,而不是简单地说"模型表现不好"。

研究团队还特别注意避免模型可能利用的"捷径"。就像老师出题时要防止学生投机取巧一样,他们设计了各种"陷阱选项"来确保模型真正理解了问题的本质,而不是依靠某些表面的关联性来猜测答案。比如,他们会故意创建视觉上非常相似但物理原理完全不同的选项,迫使模型真正理解物理规律才能给出正确答案。

为了生成足够多样和复杂的测试案例,研究团队使用了六个不同的计算机仿真环境,包括ThreeDWorld、ManiSkill、Habitat 2.0、Physion和Carla等。这些仿真环境就像不同的虚拟实验室,每个都专门模拟不同类型的物理现象和环境动态。通过使用多个仿真环境,研究团队确保了测试的多样性和全面性,避免了因为单一环境的特殊性而产生偏向性结果。

整个WM-ABench基准测试包含了23个细分的评估维度和超过10万个测试实例,覆盖了从简单的颜色识别到复杂的多物体碰撞预测等各个层面。这个规模就像给每个AI模型安排了一场包含数万道题目的综合考试,每道题都经过精心设计,确保能够准确测试模型的特定能力。

研究结果令人既惊讶又担忧。在感知任务方面,虽然商业闭源模型和开源模型的表现差异并不像人们预期的那样明显,但所有模型都远远落后于人类的感知水平。在总共5个感知维度中,表现最好的Qwen2-VL模型平均准确率为67.7%,听起来还不错,但要知道人类在这些任务上的表现接近完美或者至少达到了90%以上的准确率。

更令人担忧的是模型在空间理解方面的表现。即使是最先进的模型,在空间定位任务上的准确率也不到60%,这表明当前的视觉语言模型在构建稳健的内在三维表征方面存在根本性困难。这就像一个人能够准确识别桌子和椅子,但却无法判断椅子是在桌子的左边还是右边,或者无法根据侧面的照片想象出物体从上面看是什么样子。

在时间和运动理解方面,模型的表现更是令人失望。研究发现,模型在处理连续帧之间的时间一致性表征方面表现糟糕,在时间延续性任务上的表现远低于仅依赖部分帧的时间定位任务。这意味着虽然模型能够识别单个时刻发生的事情,但却无法理解事件在时间上的发展和变化。类似地,虽然模型在运动检测方面表现相对较好,但在运动轨迹预测上的表现却接近随机水平,这表明它们缺乏对连续状态变化的深层理解。

在预测任务方面,情况变得更加严峻。所有模型的表现都明显低于人类水平,最好的Qwen2-VL模型平均准确率仅为47.5%。这个结果就像发现一个看起来很聪明的学生,在应用知识解决实际问题时却频频失误。

在机械仿真测试中,研究团队发现了一个特别有趣的现象:模型对不同类型的物理过程表现出截然不同的理解水平。比如,在ManiSkill环境中,Qwen2-VL在预测物体掉落结果时能达到95.3%的准确率,在预测举起物体时能达到91.4%的准确率,但在预测推动物体时的表现却接近随机水平。更奇怪的是,同样是预测物体掉落,当环境从ManiSkill切换到Physion时,同一个模型的准确率骤降到59.2%。这种巨大的性能差异表明,模型并没有真正掌握物理规律的本质,而更像是记住了特定环境下的特定模式。

在传递推理和组合推理任务中,所有模型的表现都令人担忧。即使是表现最好的模型,在多步导航任务中的准确率也只有43.8%,远低于人类90%的准确率。在组合推理任务中,最好的模型在碰撞预测任务中只能达到40.2%的准确率,在操作任务中达到51.3%,而人类在这些任务上的表现分别为84%和88%。这个巨大的差距就像发现一个能够解决简单算术题的学生,在面对稍微复杂一点的应用题时就完全束手无策。

研究团队还对最前沿的AI模型进行了测试,包括OpenAI的o3模型和Google最新的Gemini-2.5-Pro。虽然这些前沿模型在静态感知任务上确实表现出了显著改进,在某些任务上甚至达到了人类水平,但在涉及空间、时间和组合推理的复杂任务上仍然存在明显不足。这就像发现即使是最先进的AI,虽然在某些方面已经很出色,但在真正理解世界运作规律方面仍然有很长的路要走。

更深入的分析揭示了这些模型存在的根本性问题。研究团队发现,当前的视觉语言模型无法形成独立、稳健的世界表征,它们的不同认知维度之间存在着奇怪的相互干扰。比如,物体的颜色会影响模型对物体大小的判断,形状会影响对运动速度的感知。这种现象就像一个人因为看到红色就觉得温度更高,或者因为看到圆形就觉得速度更快,显然这些关联在现实世界中是不合理的。

研究团队通过系统地改变一个维度(比如颜色)而保持其他维度不变,测量了模型性能的变化程度,发现颜色和形状是造成多重任务干扰的主要因素。在离散数量任务中,模型对颜色变化的敏感性从5%(Gemini-1.5 Pro)到17%(Qwen-2.5 VL)不等,这表明模型并没有形成真正独立的数量概念,而是将数量与视觉特征混淆在一起。

另一个重要发现是,模型的表现与刺激差异的大小密切相关。当要区分的对象之间差异很大时,模型表现相对较好,但当需要进行精细区分时,性能就会急剧下降。这种现象就像一个人能够区分大象和老鼠的大小差异,但却无法准确判断两只大小相近的狗谁更大一些。这种"近视"特性表明,虽然模型在某种程度上能够将语言与对应的物理属性关联起来,但它们缺乏进行精细、高分辨率感知的能力。

为了验证这些发现的普遍性,研究团队还将部分测试扩展到了真实世界数据。他们从现有的真实世界数据集中选取并重新设计了一些任务,结果发现在真实世界数据上的表现模式与仿真数据上的结果高度一致。比如,模型在空间定位和运动轨迹任务上依然表现不佳,而在颜色和形状识别任务上表现相对较好。这种一致性表明,仿真数据的使用并没有引入明显的偏差,研究结果具有很好的普遍适用性。

研究团队还进行了一个特别设计的分析,试图分离感知失误和预测失误对整体性能的影响。他们筛选出所有模型都能正确回答相关感知问题的实例,然后仅在这些"感知正确"的实例上评估预测性能。令人意外的是,即使在确保感知准确的情况下,模型在物理预测任务上的表现改进非常有限,在某些情况下甚至出现了性能下降。这个发现表明,模型的预测困难并不仅仅源于感知错误,而是反映了更深层次的物理知识缺陷。

人类评估结果为这些发现提供了重要的对照。研究团队通过Amazon Mechanical Turk平台招募了多名评估者,对每个任务随机选取50个问题进行人类评估,每个问题由3名评估者独立完成,最终通过多数投票确定结果。评估者间一致性通过Fleiss kappa系数衡量,所有任务都达到了中等以上的一致性水平(kappa > 0.4),确保了评估结果的可靠性。人类在几乎所有任务上的表现都显著优于AI模型,特别是在需要物理直觉和常识推理的任务上,人类的优势更加明显。

这项研究的意义远远超出了对当前AI模型局限性的揭示。它为AI发展指明了几个重要方向。首先,未来的视觉语言模型需要更好地整合三维空间信息,而不是仅仅依赖二维图像语义。这就像教会一个只看过平面照片的人真正理解三维世界一样重要。其次,模型需要更强的时间和运动理解能力,这可能需要借鉴视频中丰富的视觉动态信息。第三,模型需要更深入的因果理解能力,能够真正掌握物理过程的本质规律,而不是简单地记忆表面模式。

最重要的是,这项研究强调了发展更强大的传递和组合推理能力的重要性。真正智能的系统应该能够像人类一样,将已学会的基本规律组合起来处理新的、复杂的情况。这就像一个真正理解数学的人,不仅能够解决练习过的题目,还能将基本概念组合起来解决从未见过的新问题。

对于普通用户而言,这项研究提供了一个重要的提醒:虽然当前的AI视觉模型在很多任务上表现出色,但我们不应该过度依赖它们进行需要深度物理理解或复杂推理的任务。在使用这些工具时,我们需要保持谨慎,特别是在涉及安全关键应用的场景中。

同时,这项研究也为AI研究者和开发者提供了一个宝贵的资源。WM-ABench作为一个开源的评估平台,为评估和改进视觉语言模型的世界建模能力提供了标准化的工具。这就像为汽车制造商提供了一套标准的安全测试程序,帮助他们更好地了解和改进产品性能。

研究团队还特别强调了他们的评估框架的"原子性"特征。与以往的评估方法不同,WM-ABench将复杂的世界理解能力分解为一系列基础的、相互正交的维度,就像化学家将复杂的化合物分解为基本元素一样。这种方法不仅能够更精确地诊断模型的具体缺陷,还能为targeted的改进提供明确的方向。

展望未来,这项研究为AI发展提出了一个重要课题:如何让机器真正理解世界,而不仅仅是识别模式。这个挑战需要我们重新思考AI系统的设计哲学,从单纯的模式匹配转向真正的世界建模。这就像从教会一个人背诵物理公式转向让他真正理解物理规律的本质一样,需要更深层次的架构创新和训练方法改进。

说到底,这项研究揭示的并不仅仅是当前AI模型的局限性,更重要的是它为我们指出了通向真正智能系统的路径。正如研究团队所说,要让AI真正服务于复杂的现实世界应用,我们还需要在深度理解、扎实的物理直觉和复杂推理能力方面取得重大突破。这不是一个简单的技术问题,而是一个需要整个AI社区共同努力的长期挑战。

对于关心AI发展的普通读者来说,这项研究提醒我们,虽然AI技术发展迅速,但距离真正理解和模拟人类智能还有相当长的路要走。在我们惊叹于AI在某些任务上的卓越表现时,也应该保持理性,认识到这些系统在基础认知能力方面仍然存在的根本性局限。这种认识不仅有助于我们更好地使用现有的AI工具,也有助于我们对AI未来发展保持realistic的期待。

Q&A

Q1:什么是"世界模型"?为什么AI需要具备这种能力? A:世界模型就像我们大脑中对现实世界运作规律的理解,比如知道苹果会往下掉、球撞球会改变运动方向等。AI需要这种能力才能真正理解环境、预测未来状态,从而做出合理的决策,而不是仅仅依靠记忆和模式匹配来工作。

Q2:当前的AI视觉模型在理解世界方面有哪些主要问题? A:主要问题包括:无法准确理解3D空间关系、在预测物体运动轨迹时表现接近随机水平、不同认知维度之间存在奇怪关联(比如颜色影响对大小的判断)、缺乏真正的物理直觉、无法进行复杂的多步推理等。

Q3:这些发现对普通用户使用AI有什么影响? A:用户应该意识到,虽然AI在图像识别、文本理解等方面表现出色,但在需要深度物理理解或复杂空间推理的任务上仍有明显局限。在使用AI辅助决策时,特别是涉及安全关键应用时,应该保持谨慎,不要过度依赖AI的判断。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-