这项由瑞士洛桑联邦理工学院(EPFL)的Maria Brbic教授和苏黎世联邦理工学院(ETH Zurich)的Michael Moor教授等人组成的研究团队于2025年6月完成,论文发表在arXiv预印本平台(论文编号:arXiv:2506.22992v1),感兴趣的读者可以通过https://marble-benchmark.github.io访问完整研究资料。
说起人工智能的发展,我们总是被各种"AI超越人类"的新闻轰炸。ChatGPT能写诗,GPT-4能看图说话,最新的模型甚至能理解视频内容。然而,当这些看似无所不能的AI遇到真正需要空间思维和多步骤推理的复杂问题时,会发生什么呢?答案可能会让你大吃一惊。
就像一个看似聪明的学生在遇到真正需要动脑筋的数学应用题时突然卡壳一样,目前最先进的多模态语言模型在面对复杂的空间推理任务时也表现得相当糟糕。这并不是因为这些AI不够先进,而是因为真正的智能推理比我们想象的要复杂得多。
这个问题的核心在于,现有的AI测试基本上都像是在考"填空题"——给AI一张图片和一个问题,它只需要从图片中找到答案就行了。但真实世界的问题往往需要像侦探破案一样,把多个线索串联起来,制定一个详细的行动计划,还要考虑各种物理限制和空间约束。这就好比你不能仅仅通过看一张厨房照片就知道如何做一道复杂的菜,你需要理解每个步骤之间的因果关系,考虑时间顺序,还要预判可能出现的问题。
正是基于这样的思考,这个国际研究团队开发了一个名为MARBLE(MultimodAl Reasoning Benchmark for Language modEls)的测试套件。这个名字听起来很学术,但它的本质就是一个"AI智力测试的地狱模式"。研究人员想要找出现有AI模型在复杂推理方面的真实水平,就像给学霸出一套特别难的综合应用题,看看他们到底有多少真本事。
MARBLE包含两个主要的测试任务,每个都像是精心设计的智力挑战。第一个叫做M-Portal,灵感来自著名的解谜游戏《传送门2》。在这个游戏中,玩家需要通过放置传送门来解决各种空间难题,就像在房间的两个不同位置开了两扇任意门,可以瞬间从一个地方跳到另一个地方。但这不是简单的传送,你还要考虑物理定律比如动量守恒——如果你带着很大的速度冲进一个传送门,你会以同样的速度从另一个传送门飞出来。
想象一下这样的场景:你站在一个复杂的房间里,房间里有按钮、激光器、移动的平台、可以推动物体的气流装置,还有各种机关。你的目标是走到出口,但路径被各种障碍物阻挡。你手中有一把"传送门枪",可以在墙面上开两个相连的传送门。现在你需要制定一个详细的计划:先从高处跳下去冲进传送门获得速度,然后利用这个速度从另一个传送门弹射出来按下远处的按钮,按钮会释放一个立方体落到另一个按钮上激活桥梁,然后你再重新放置传送门穿过桥梁,拿起立方体放到特定位置触发更多机关,最终到达出口。这样的解题过程可能需要十几步甚至几十步,每一步都必须考虑物理限制和空间关系。
第二个测试任务M-Cube则是基于"快乐立方体"(Happy Cube)拼图的3D空间推理挑战。快乐立方体是一种经典的机械拼图,最初由比利时人Dirk Laureyssens在1986年发明。这个测试给AI展示6个形状复杂的拼图片,每个片都有凹凸不平的边缘,就像拼图的边缘一样。AI需要理解如何将这6个平面拼图片组装成一个完整的立方体,其中每个拼图片都要放在立方体的一个面上,而且所有的凹凸边缘都要完美匹配,不能有缝隙也不能重叠。
这听起来可能不算太复杂,但实际的难度在于组合爆炸。每个拼图片都可以放在立方体的6个面中的任意一个面上,而且每个片还可以旋转和翻转,总共有8种不同的朝向。这意味着总的可能组合数量是6的阶乘乘以8的6次方,也就是超过1.8亿种可能性。而在这个天文数字般的搜索空间中,通常只有一种或极少数几种组合是正确的。这就像在一个巨大的迷宫中寻找唯一正确的路径,而且每走错一步都意味着前功尽弃。
更令人印象深刻的是,研究团队还为这些测试设计了不同的难度级别。对于M-Portal,他们创建了两种评估方式:一种是"计划正确性"测试,让AI判断一个给定的解决方案是否正确;另一种是"填空"测试,给AI一个不完整的解决方案,让它填补缺失的步骤。对于M-Cube,他们设计了简化版本CUBE-easy,将6个拼图片减少到只需要放置2个,并且不需要翻转操作,大大降低了搜索空间的复杂性。
当研究人员用这套测试来评估目前最先进的12个AI模型时,结果令人震惊。这些被视为人工智能领域顶尖代表的模型,包括GPT-4o、Claude-3.7、Gemini-2.5以及各种最新的多模态模型,在面对MARBLE测试时几乎全军覆没。在最困难的测试中,所有模型的表现都接近随机猜测的水平,就像蒙着眼睛答题一样。
具体来说,在M-Portal的计划正确性测试中,所有12个模型的F1分数都在6%左右,基本上等同于随机猜测。这意味着这些AI模型完全无法理解复杂的空间推理任务,更别说制定正确的解决方案了。即使在相对简单的填空测试中,只有约一半的模型能够超过随机基准线,而且提升幅度也很有限。表现最好的GPT-o3模型在填空测试中也只达到了17.6%的准确率,距离人类水平还相去甚远。
在M-Cube测试中,情况更加糟糕。在完整的CUBE测试中,所有12个先进模型都获得了0%的准确率,这意味着它们连一个正确答案都没有给出。即使在大幅简化的CUBE-easy测试中,也只有6个模型能够超过随机猜测,其中表现最好的仍然是GPT-o3,达到了72%的准确率。这个结果虽然看起来不错,但要知道这是在大幅降低难度的情况下取得的。
这些结果就像是给当前AI发展泼了一盆冷水,揭示了一个重要但常被忽视的问题:现有的AI模型在处理需要多步骤、多模态推理的复杂问题时仍然力不从心。它们就像是只会背书的学生,在面对真正需要创造性思维和综合分析能力的问题时就露馅了。
更令人担忧的是,研究人员发现这些失败不仅仅来自推理能力的不足,还有一个更基础的问题——感知能力的缺陷。为了验证这一点,他们设计了一个看似简单的感知测试:给AI展示一个5×5网格的拼图片,要求它将图像转换为相应的二维数组,其中0代表凹陷,1代表凸起。这就像是让人看着一张简单的黑白棋盘,然后用数字把它描述出来一样简单。
然而,令人震惊的是,即使是这样基础的感知任务,所有被测试的AI模型都表现得很糟糕。最好的模型Gemini-2.5-pro在单个格子的识别上也只有76%的准确率,这意味着它在描述一个5×5网格时几乎肯定会犯错。当要求完全正确地识别整个拼图片时,所有模型的准确率都是0%。这就好比让一个人看着一张简单的图表,但他连最基本的图形都无法准确描述,更别说进行复杂的分析了。
这个发现具有深远的意义,因为它表明当前AI模型的问题不仅仅在于逻辑推理能力,还在于更根本的视觉理解能力。就像一个侦探如果连基本的现场观察都做不好,就更不可能破解复杂的案件一样,AI如果连图像中的基础信息都无法准确提取,就不可能在需要视觉理解的复杂推理任务中表现出色。
研究团队还进行了一个有趣的实验,他们设计了一个"解决方案验证器"工具,可以检查M-Cube任务的答案是否正确,并提供反馈。这就像给学生配了一个会纠错的老师,可以告诉学生哪里做错了,应该如何改进。研究人员让AI模型可以反复尝试,根据验证器的反馈来调整答案。
在这个迭代改进的设置中,一些模型确实表现得更好了。比如GPT-o4-mini在CUBE-easy任务中,通过5轮反馈后准确率从10%提升到了28%。这就像是一个学生在老师的指导下逐步改正错误,最终找到了正确答案。然而,即使有了这样的"作弊"条件,在更困难的完整CUBE测试中,所有模型的表现仍然是0%,说明问题的根本难度超出了当前AI的能力范围。
这项研究还揭示了另一个有趣的现象:推理型AI模型虽然会产生大量的"思考"文本(有些模型会生成上万个词汇的推理过程),但这些长篇大论的思考并没有带来显著的性能提升。这就像是一个学生在考试时写了很多草稿纸,看起来很努力在思考,但最终的答案仍然是错的。这表明单纯增加推理步骤的数量并不能解决根本问题,关键还是在于推理的质量和方向。
从更广阔的视角来看,MARBLE测试的结果对整个AI领域具有重要的警示意义。近年来,我们经常听到AI在各种基准测试中"超越人类"的消息,但这些成功往往局限在相对狭窄和特定的领域。MARBLE测试揭示了一个不太舒服的真相:当面对需要真正智能推理的复杂、开放性问题时,当前的AI系统仍然有很长的路要走。
这并不意味着当前的AI技术毫无价值,而是提醒我们要对AI的能力有更清醒的认识。就像早期的汽车虽然在很多方面不如马车,但它代表了一个正确的发展方向一样,当前的AI模型虽然在复杂推理方面还有很大局限,但它们为未来的发展奠定了重要基础。
研究团队希望MARBLE能够成为推动AI发展的催化剂,就像历史上那些具有挑战性的测试推动科学进步一样。正如ARC(Abstraction and Reasoning Corpus)测试在抽象推理领域发挥的作用,MARBLE可能会激励研究人员开发新的方法和架构,来解决多模态空间推理的难题。
这项研究的意义还在于它提出了一个关键问题:什么才是真正的智能?如果我们的目标是创造能够在现实世界中自主行动的AI系统,那么这些系统就必须具备在复杂环境中进行空间推理和长期规划的能力。无论是自动驾驶汽车需要在复杂路况中导航,还是家用机器人需要在杂乱的房间中完成任务,都需要这种高级的推理能力。
从技术发展的角度来看,MARBLE测试指出了几个需要重点攻克的技术方向。首先是感知能力的提升,如何让AI更准确地理解和解析视觉信息。其次是推理架构的改进,如何让AI能够进行真正的多步骤逻辑推理,而不是简单的模式匹配。最后是多模态融合能力的增强,如何让AI能够有效地整合来自不同感官的信息,形成统一的世界理解。
对于普通人来说,这项研究提供了一个重要的视角来理解当前AI技术的真实状况。虽然AI在很多单一任务上表现出色,但在需要综合智能的复杂问题上仍然有很大局限。这意味着在可预见的未来,人类的创造性思维、空间推理能力和复杂问题解决能力仍然是不可替代的。
同时,这项研究也为AI的未来发展指明了方向。随着研究人员对这些挑战有了更清晰的认识,我们可以期待看到更多针对性的技术突破。也许在不久的将来,我们会看到能够真正理解空间关系、进行多步骤推理的AI系统,那时的人工智能将更接近我们对真正智能的期待。
研究团队已经将MARBLE测试公开发布,这意味着全世界的AI研究人员都可以使用这个工具来评估和改进他们的模型。这种开放的研究方式将有助于加速整个领域的进步,就像开源软件推动了互联网技术的快速发展一样。
值得注意的是,MARBLE测试的设计理念也体现了对AI发展的深度思考。与其简单地提高现有测试的难度,研究人员选择了关注AI能力的根本问题——如何在复杂、多约束的环境中进行推理和规划。这种方法论上的创新可能会影响未来AI评估标准的制定。
说到底,MARBLE测试给我们上了重要的一课:真正的智能不仅仅是在特定任务上的优秀表现,更是在面对未知和复杂问题时的适应和解决能力。当前的AI系统在这方面仍然有很长的路要走,但正是这些挑战让AI研究变得更加有趣和有意义。随着研究人员不断探索和创新,我们有理由相信未来的AI系统将能够真正理解和应对现实世界的复杂性,成为人类更好的合作伙伴。
Q&A
Q1:MARBLE测试到底是什么,为什么这么难? A:MARBLE是一个AI智力测试,包含两个超难的空间推理任务。一个是基于《传送门2》游戏的M-Portal,需要AI制定十几步的复杂计划来解决空间谜题;另一个是M-Cube,要求AI将6个复杂拼图片组装成立方体。这些任务难在需要真正的逻辑推理和空间思维,而不是简单的模式识别,所以连GPT-4o这样的顶级AI都几乎全军覆没。
Q2:为什么最先进的AI模型在MARBLE上表现这么差? A:主要有两个原因。首先是感知问题,AI连基本的图像识别都做不好,就像让一个视力模糊的人解题一样。其次是推理能力限制,现有AI更像是"记忆型学霸",擅长回忆已学过的模式,但面对需要创新思维的复杂问题就不行了。这就好比让只会背书的学生去解综合应用题,自然会力不从心。
Q3:这项研究对AI发展有什么意义? A:这项研究是给AI发展的一面"照妖镜",揭示了当前AI的真实能力边界。它告诉我们,虽然AI在很多单一任务上很厉害,但距离真正的通用智能还很远。这为研究人员指明了努力方向:需要开发更好的感知系统、推理架构和多模态融合技术,而不是只在现有技术上修修补补。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了SPIRAL框架,通过让AI与自己对弈零和游戏来提升推理能力。实验显示,仅训练AI玩简单扑克游戏就能让其数学推理能力提升8.6%,通用推理提升8.4%,且无需任何数学题目作为训练材料。研究发现游戏中的三种推理模式能成功转移到数学解题中,为AI训练提供了新思路。
同济大学团队开发的GIGA-ToF技术通过融合多帧图像的"图结构"信息,创新性地解决了3D相机噪声问题。该技术利用图像间的不变几何关系,结合深度学习和数学优化方法,在合成数据集上实现37.9%的精度提升,并在真实设备上展现出色泛化能力,为机器人、AR和自动驾驶等领域提供更可靠的3D视觉解决方案。
伊利诺伊大学研究团队通过对比实验发现,经过强化学习训练的视觉语言模型虽然表现出"顿悟时刻"现象,但这些自我纠错行为并不能实际提升推理准确率。研究揭示了AI模型存在"生成-验证差距",即生成答案的能力强于验证答案质量的能力,且模型在自我验证时无法有效利用视觉信息,为AI多模态推理发展提供了重要启示。
MIT等顶尖机构联合提出SparseLoRA技术,通过动态稀疏性实现大语言模型训练加速1.6倍,计算成本降低2.2倍。该方法使用SVD稀疏性估计器智能选择重要计算部分,在保持模型性能的同时显著提升训练效率,已在多个任务上验证有效性。