微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上海AI实验室团队提出LEGO-Puzzles:揭露多模态大模型在空间推理上的惊人短板

上海AI实验室团队提出LEGO-Puzzles:揭露多模态大模型在空间推理上的惊人短板

2025-07-30 10:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-30 10:00 科技行者

这项由上海AI实验室联合同济大学、清华大学的研究团队于2025年6月发表在arXiv预印本平台上的研究(论文编号:arXiv:2503.19990v3),通过一个巧妙的LEGO积木评测基准,深度检验了当前最先进多模态大语言模型的空间推理能力。有兴趣深入了解的读者可以通过论文编号在arXiv平台访问完整研究内容。

研究团队由唐克仙、高俊尧等多位研究者组成,他们发现了一个令人意外的现象:即使是最强大的人工智能模型,在处理需要多步骤空间推理的任务时,表现竟然只能达到人类水平的一半左右。这个发现对于我们理解人工智能的真实能力,以及未来在机器人控制、自动驾驶等领域的应用具有重要意义。

研究背景可以用一个简单的比喻来理解:就像我们从小玩积木一样,搭建一个完整的LEGO模型需要理解每个零件的形状、大小、连接方式,还要按照说明书一步步组装。这个过程看似简单,实际上需要大脑进行复杂的三维空间思维和逻辑推理。研究团队正是利用这个特点,设计了一套全面的测试体系来评估人工智能模型是否真的具备了类似人类的空间智能。

在当今人工智能飞速发展的时代,多模态大语言模型已经在图像识别、文本理解等单一任务上表现出色,但在需要多步骤空间推理的复杂场景中,它们的真实能力仍然是个谜。这项研究首次系统性地揭示了这个重要问题,为未来人工智能的发展方向提供了宝贵的洞察。

一、积木世界里的智能测试:LEGO-Puzzles基准的巧妙设计

研究团队选择LEGO积木作为测试载体绝非偶然,这背后有着深刻的认知科学依据。就像儿童通过搭积木逐步发展空间认知能力一样,人类的空间智能发展遵循着从简单到复杂的阶段性规律。首先是基础的空间理解能力,比如判断物体的高低、远近关系;然后是单步骤的组装推理,能够理解如何将一个零件正确安装到指定位置;最后是多步骤的序列推理,能够规划和执行复杂的组装流程。

基于这种认知发展模式,研究团队将测试任务分为三个递进的层次。第一层是空间理解测试,就像教孩子认识"上下左右"一样基础但重要。这包括高度判断任务,让模型比较不同LEGO积木在三维空间中的相对高度;相邻性判断任务,确定积木块是否相互接触;旋转角度计算任务,识别积木旋转了多少度;以及多视角预测任务,从不同角度观察同一个积木组合。

第二层是单步骤推理测试,这就像询问"下一步应该怎么做"。研究团队设计了旋转状态判断任务,确定某个零件在安装前是否需要旋转;位置确定任务,找出零件应该安装在哪个精确位置;下一步预测任务,根据当前状态和待安装零件预测组装后的样子;依赖关系识别任务,判断完成某个步骤需要哪些特定零件。

第三层是多步骤推理测试,这是最具挑战性的部分,需要模型像熟练的积木大师一样进行长期规划。逆向推理任务要求模型从完成品倒推中间步骤;排序任务需要将打乱的组装步骤重新排列成正确顺序;异常检测任务要求识别出不属于正确组装流程的步骤。

整个LEGO-Puzzles基准包含了1100个精心设计的视觉问答样本,涵盖11种不同类型的任务。每个任务都包含100个测试样本,确保评估结果的统计可靠性。更重要的是,这些测试样本都来自真实的LEGO积木套装,具有很强的实用性和代表性。

数据构建过程也颇具匠心。研究团队首先从互联网收集了大量开源的LEGO项目文件,这些文件包含详细的分步组装说明和零件清单。为了确保测试的合适难度,他们过滤掉了过于复杂或过于简单的项目。太复杂的项目结构繁琐,微小的视觉变化让模型难以察觉步骤差异;太简单的项目则缺乏足够的空间复杂性,无法有效测试多步推理能力。

接下来是渲染和转换阶段。研究团队使用专业软件将LEGO项目渲染成PDF格式,保持摄像机视角在各步骤间的一致性,确保空间和时间的连贯性。这个工具还允许灵活编辑源文件,可以根据任务需求修改零件属性,比如类型、数量、颜色和位置。比如在旋转和多视角任务中,他们应用POV-Ray风格渲染并调整光照来模拟不同观察角度;在逆向推理任务中,他们故意在零件属性中引入错误来生成不正确的组装状态。

质量控制环节同样严格。研究团队实施了多阶段的人工审核流程,包括重复样本过滤、图像质量检查和模板验证。每个问答对都经过三名训练有素的标注员验证,确保图像标记的正确顺序和答案的准确性。对于存在分歧的样本,要么修订要么移除,确保最终数据集的高质量。

二、令人意外的测试结果:人工智能的空间推理短板暴露无遗

当研究团队用LEGO-Puzzles基准测试了20个当前最先进的多模态大语言模型后,结果令人深思。这些模型包括了业界最顶尖的产品,比如OpenAI的GPT-4o、谷歌的Gemini-2.0-Flash,以及众多优秀的开源模型如Qwen2-VL、InternVL等。

测试结果呈现出明显的分化格局。在闭源商业模型方面,表现最好的是GPT-4o,总体准确率达到57.7%,其次是Gemini-2.0-Flash的54.0%。这个成绩看起来还不错,但要知道,这已经是目前人工智能领域最强大的模型了。相比之下,开源模型的表现就显得力不从心了,大部分模型的准确率都在随机猜测的水平附近徘徊,只有少数几个大型模型如Qwen2.5-VL-72B达到了53.0%的准确率。

更加鲜明的对比来自与人类表现的比较。研究团队邀请了30名人类专家对随机选择的220个问题进行测试,结果人类专家的平均准确率高达93.6%。这意味着即使是最强大的人工智能模型,也与人类存在超过30%的巨大差距。这个差距不是一点点的技术调优就能弥补的,而是反映了当前人工智能在空间推理能力上的根本性不足。

深入分析各项任务的表现,我们能发现更多有趣的细节。在基础的空间理解任务中,高度判断是一个特别能暴露问题的测试。研究团队故意设计了一些从二维视角看会产生误导的案例,只有真正理解三维空间关系的模型才能答对。结果显示,20个模型中有11个的表现还不如随机猜测,这说明大多数模型实际上是在用二维的思维方式处理三维问题,就像看平面照片来判断物体的真实距离一样不靠谱。

旋转角度识别任务同样困难重重。要准确识别一个物体旋转了多少度,需要模型具备精确的角度感知和空间变换理解能力。结果显示,20个模型中有6个的表现低于随机水平,大多数模型的准确率都达不到40%。这表明当前的人工智能模型在感知和区分物体方向变化方面存在严重困难。

在序列推理任务中,问题变得更加严峻。多步骤的排序任务要求模型像拼图大师一样,理解多个步骤之间的逻辑依赖关系,并将打乱的步骤重新排列成正确顺序。结果显示,几乎一半的模型在这个任务上的表现都低于统计显著性水平,有些模型如InternVL2.5-8B、LLaVA-OneVision-7B甚至完全失败,得分为零。

类似的困难也出现在逆向推理任务中。这个任务要求模型从完整的积木作品出发,识别出某个特定的中间组装阶段。这就像让模型成为一名考古学家,从最终结果推断历史过程。结果显示,14个开源模型中有8个的表现低于随机水平,说明大多数模型缺乏这种逆向思维能力。

三、深度实验:探索多模态模型的生成能力与推理步长影响

除了传统的选择题测试,研究团队还进行了一项创新性的实验:让模型不再是选择答案,而是直接生成图像。这就像从"选择题考试"变成了"作文考试",难度和要求都大大提升。他们将原本的多选题转换成图像生成任务,比如给定一个积木组合,要求模型生成它旋转60度后的样子;或者给定组装前后的状态,要求模型生成需要添加的零件图像。

这项测试涵盖了8个不同的模型,包括开源的Emu2、GILL、Anole,以及商业模型GPT-4o、Gemini-2.0-Flash等。评估方式也很有意思,研究团队请来了5名人类专家,从外观相似度和指令遵循度两个维度对生成结果进行打分,每个维度满分3分。

结果再次让人意外。即使是表现最好的GPT-4o,在外观相似度上也只得到了2.25分,在指令遵循度上更是只有1.77分。这意味着即使是最先进的模型,也只能勉强保持生成图像的基本外观,而在理解和执行复杂的空间变换指令方面还有很大不足。Gemini-2.0-Flash的表现相近,外观相似度2.15分,指令遵循度1.08分。

更早版本的GPT-4o表现则显著不同,虽然在某些任务上外观保持还可以,但整体指令遵循能力很弱。研究团队分析认为,这个版本的模型可能不是直接编辑输入图像,而是基于文本理解重新生成整个场景,这导致了较低的外观一致性,反映的是概念重构过程而非精确的视觉编辑。

开源模型的表现就更加令人担忧了。Emu2虽然在保持视觉外观方面还有一些能力(0.89分),但在指令遵循方面几乎完全失败(0.05分),基本上把这些任务当作简单的图像复制而不是基于推理的生成。GILL和Anole的表现则是全面失败,在所有任务上的得分都接近零,经常生成与指令完全无关的输出。

这些结果清楚地表明,当前的多模态模型虽然在图像识别和基础的视觉理解方面已经相当成熟,但在需要空间推理指导的图像生成方面还处于起步阶段。大多数模型要么无法理解复杂的空间变换指令,要么无法将理解转化为准确的视觉输出。

为了更深入地理解模型在多步推理方面的局限性,研究团队还设计了一个渐进式的实验:Next-k-Step任务。这个实验的巧妙之处在于,它可以精确控制推理的步骤数量,从而观察模型性能随步骤增加而变化的规律。

具体来说,研究团队设置了k=1到k=5五个不同的推理长度。k=1意味着只需要推理一步,k=5则需要连续推理五个步骤。每个设置都包含20个测试案例,确保结果的统计可靠性。同时,他们还测试了广泛使用的"链式思维"提示策略是否能改善多步推理性能。

结果显现出清晰的规律。GPT-4o和Gemini-2.0-Flash都表现出明显的性能递减趋势:随着推理步骤的增加,准确率显著下降。GPT-4o在k=1时还能达到45%的准确率,但到了k=4和k=5时就降到了5%;Gemini-2.0-Flash从k=1时的85%一路下滑到k=5时的20%。这种下降反映了这些模型在处理多步序列推理时的根本困难,就像人在心算复杂数学题时,步骤越多出错概率越大。

令人意外的是,Qwen2.5-VL-72B展现出了与众不同的稳定性。无论推理步骤有多少,它都能保持大约65%的准确率,这种一致性暗示着该模型可能具备了某种更强的多步推理稳定性。相比之下,InternVL2.5-78B的表现基本维持在随机猜测水平(25%)附近,不管步骤多少,都显示出有限的整体效果。

关于"链式思维"提示策略的效果,结果同样发人深省。在k=1的简单情况下,这种策略确实能带来显著改善,GPT-4o提升了30%,InternVL2.5-78B提升了20%。但随着推理步骤增加到k≥2,这种策略的效果就迅速消失甚至产生负面影响。GPT-4o在k=4时甚至降到了0%,InternVL2.5-78B也无法维持在随机基线之上。

这个发现特别重要,因为"链式思维"提示一直被认为是提升大语言模型推理能力的重要技术。但在空间推理任务中,它的局限性暴露得非常明显。Gemini-2.0-Flash和Qwen2.5-VL-72B对这种策略基本没有响应,表明它们可能已经有了某种内在的推理结构,不需要依赖外部的步骤分解指导。

四、真实世界的验证:从虚拟积木到自然图像的能力迁移

考虑到LEGO-Puzzles基于渲染数据构建,一个自然的疑问是:这种合成环境下的测试结果能否反映模型在真实世界场景中的空间推理能力?为了回答这个关键问题,研究团队进行了一项重要的验证实验。

他们选择了3DSRBench作为对比基准,这是一个基于自然图像的三维空间推理评测集。虽然两个基准的具体任务设计不同,但它们在核心能力要求上高度相似。LEGO-Puzzles中的高度判断任务对应3DSRBench中的高度任务,相邻性判断任务对应位置任务。这种对应关系为跨数据集的能力比较提供了基础。

研究团队对所有在LEGO-Puzzles上测试过的商业模型进行了3DSRBench上相应任务的评估,然后计算两个数据集上性能表现的皮尔逊相关系数。结果令人振奋:高度任务的相关系数达到0.93,相邻性任务更是高达0.98,两者的p值都小于0.01,表明统计显著性很强。

这种强相关性意味着什么?简单来说,就是一个模型如果在LEGO积木的虚拟世界里空间推理能力强,那么它在真实照片中处理类似问题的能力也会相应较强;反之,在虚拟环境中表现不佳的模型,在真实场景中也难以有出色表现。这个发现验证了LEGO-Puzzles作为空间推理能力评测工具的有效性和代表性。

更深层的意义在于,这表明空间推理能力是一种相对通用的认知能力,不会因为数据的具体形式(是渲染图像还是自然照片)而发生根本性改变。就像一个人的空间想象力在搭积木和看建筑图纸时都会发挥作用一样,人工智能模型的空间推理能力也具有跨域的一致性。

这个验证结果还有另一层重要含义:它证明了使用合成数据进行空间推理评测的合理性。在人工智能研究中,合成数据具有可控性强、规模可扩展、标注成本低等优势,但一直存在与真实世界差距的质疑。LEGO-Puzzles的成功验证为这类研究方法提供了有力支持,表明精心设计的合成环境确实能够有效评估模型的核心能力。

从更广阔的视角来看,这项验证实验还揭示了一个有趣的现象:空间推理能力的评估可能比我们想象的更加稳定和可预测。不管是在精心控制的实验室环境中,还是在复杂多变的真实世界里,模型之间的相对优劣关系基本保持一致。这为未来开发更好的空间推理模型提供了明确的方向指引。

五、研究启示:多模态人工智能发展的新思考

通过LEGO-Puzzles这个巧妙的测试平台,这项研究为我们理解当前多模态人工智能的真实能力提供了珍贵的洞察。就像用一面镜子照出了人工智能发展过程中一些之前被忽視的盲点。

最直接的发现是,即使是当前最先进的人工智能模型,在需要多步骤空间推理的任务上仍然存在显著不足。这种不足不是简单的技术细节问题,而是反映了当前人工智能架构在处理三维空间信息和序列推理方面的根本性局限。就像一个只会背诵公式但不理解物理原理的学生,这些模型虽然在单项任务上表现出色,但在需要综合运用多种空间认知能力的复杂场景中就暴露出明显短板。

研究结果显示的另一个重要现象是,开源模型和商业模型之间存在显著的能力差距。这种差距不仅体现在总体性能上,更体现在处理复杂推理任务的稳定性上。商业模型虽然也远未达到人类水平,但至少在大多数任务上能够超越随机猜测;而许多开源模型的表现甚至不如随机选择,这表明它们可能根本没有掌握相关的推理模式。

这种差距的背后可能隐藏着训练数据质量、模型架构设计、计算资源投入等多个因素的综合影响。商业模型通常拥有更大规模的高质量训练数据、更精细的模型调优和更充足的计算资源支持,这些优势在处理复杂推理任务时可能会被放大。但即使如此,它们与人类的巨大差距也提醒我们,单纯依靠规模扩展可能无法解决空间推理的根本问题。

从技术发展角度来看,研究揭示的问题指向了几个重要的改进方向。首先是三维空间表征能力的提升。当前的多模态模型主要基于二维图像训练,虽然能够识别图像中的物体和场景,但对真正的三维空间关系理解有限。未来可能需要引入更多三维几何知识、空间变换原理和立体视觉机制。

其次是序列推理能力的增强。多步骤推理不仅需要每一步的准确执行,更需要步骤之间的逻辑连贯和长期规划能力。当前模型在这方面的表现表明,简单的注意力机制和transformer架构可能还不足以支撑复杂的序列推理。可能需要引入更明确的推理结构、记忆机制和规划算法。

研究还揭示了一个有趣的现象:不同模型展现出了不同的推理特征。比如Qwen2.5-VL-72B在多步推理中表现出的稳定性,以及某些模型对"链式思维"提示的不同响应模式。这些差异可能反映了不同的训练策略和架构设计对推理能力的影响,为未来模型设计提供了有价值的参考。

从应用前景来看,空间推理能力的不足对许多实际应用领域都有重要影响。在机器人控制领域,机器人需要理解三维环境、规划运动轨迹、执行复杂的操作序列,这些都高度依赖空间推理能力。在自动驾驶领域,车辆需要实时理解复杂的三维交通环境、预测其他车辆的运动轨迹、规划安全的行驶路径。在增强现实和虚拟现实应用中,系统需要准确理解真实世界的三维结构并与虚拟对象进行自然交互。

目前多模态模型在空间推理方面的局限性意味着,这些应用领域可能还需要更长时间才能实现真正的智能化。但同时,这也为相关研究和技术发展指明了清晰的方向和目标。

说到底,这项研究最大的价值可能不在于揭示了人工智能的不足,而在于为我们提供了一个评估和改进空间推理能力的有效工具。LEGO-Puzzles不仅是一个测试基准,更是一个研究平台,可以帮助研究者系统地分析不同方法的优劣,追踪技术进步的轨迹,发现新的研究机会。

归根结底,空间智能是人类认知能力的重要组成部分,也是人工智能走向真正通用智能的必经之路。通过LEGO积木这个看似简单的载体,我们看到了当前人工智能发展中的重要挑战,也看到了未来突破的方向。正如儿童通过搭积木逐步发展空间认知能力一样,人工智能也需要在这个过程中不断学习和改进,最终具备真正的空间智能。

对于有兴趣深入了解这项研究技术细节和完整实验结果的读者,可以通过arXiv:2503.19990v3在相关学术平台查阅完整论文,研究团队还在项目主页提供了数据集和代码,为后续研究提供了便利的基础。

Q&A

Q1:LEGO-Puzzles是什么?它是如何测试AI模型的? A:LEGO-Puzzles是上海AI实验室开发的一个评测基准,通过1100个LEGO积木相关的视觉问答任务来测试AI模型的空间推理能力。它设计了11种不同难度的任务,从简单的高度判断到复杂的多步骤组装规划,像给AI做"空间智力测试"一样全面评估其三维思维能力。

Q2:目前最强的AI模型在空间推理方面表现如何? A:令人意外的是,即使是GPT-4o这样的顶级模型,在LEGO-Puzzles上的准确率也只有57.7%,而人类专家能达到93.6%。大多数开源模型的表现甚至接近随机猜测水平。这表明当前AI在空间推理方面还有巨大提升空间,与人类存在30%以上的性能差距。

Q3:这项研究对未来AI发展有什么意义? A:这项研究揭示了当前AI在三维空间理解和多步推理方面的重要短板,这直接影响到机器人控制、自动驾驶、AR/VR等应用的发展。同时,LEGO-Puzzles为AI研究提供了一个标准化的评测工具,帮助研究者更好地改进模型的空间推理能力,推动AI向真正的通用智能发展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-