微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 GPT-5真的实现了空间智能吗?SenseTime团队万亿token实测揭露真相

GPT-5真的实现了空间智能吗?SenseTime团队万亿token实测揭露真相

2025-08-26 14:18
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-26 14:18 科技行者

这项由SenseTime Research(商汤科技研究院)与新加坡南洋理工大学S-Lab实验室联合进行的研究发表于2025年8月,论文首作者包括蔡中港、王玉博、孙庆平等多位核心研究者,通讯作者为杨磊。这篇重量级研究论文可通过arXiv平台访问(编号:arXiv:2508.13142v1),为我们全面揭示了当前最先进AI模型在空间智能方面的真实表现。

当OpenAI在2025年8月发布GPT-5时,全世界都在好奇一个问题:这个被誉为"迄今为止最强大AI模型"的系统,是否真的具备了空间智能?空间智能听起来很抽象,但实际上就是我们人类每天都在使用的能力——比如你能够想象从不同角度看一个物体会是什么样子,或者你能够在脑海中旋转一个立方体,又或者你能够根据地图找到回家的路。这些看似简单的能力,对于人工智能来说却是极大的挑战。

为了回答这个问题,研究团队耗费了超过十亿个token(相当于数百万页文档的信息量),对包括GPT-5在内的多个最先进AI模型进行了史无前例的全面测试。这就像给AI模型进行了一次"空间智商测试",测试内容包括从简单的物体识别到复杂的三维推理,覆盖了人类空间思维的方方面面。

研究团队首先构建了一个全面的空间智能评估体系。他们发现,现有的各种测试基准就像散落的拼图碎片,每个都只关注空间智能的某一个方面,缺乏统一的标准。为了解决这个问题,他们将所有空间任务归纳为六个核心能力,就像把复杂的空间思维分解为六种基本技能。

一、六种空间智能的核心能力

第一种能力叫做"度量测量",简单来说就是AI能否像人类一样估算物体的大小。当你看到一张照片时,即使没有尺子,你也能大概判断出门有多高、房间有多大。这种能力看似简单,实际上需要AI理解现实世界中物体的常见尺寸,并能从二维图像中推断三维信息。

第二种是"心理重构"能力。这就像你能够在脑海中想象一个物体的完整形状,即使你只能看到它的一部分。比如看到桌子的一条腿,你就能想象出整张桌子的样子。对于AI来说,这意味着要从有限的视角信息中重建完整的三维物体模型。

第三种"空间关系"能力涉及理解多个物体之间的相对位置。当你说"杯子在书的左边"时,你的大脑自动建立了一个空间坐标系统。AI需要具备同样的能力,能够理解和描述物体之间的空间关系。

第四种"视角转换"能力可能是最具挑战性的。这就像你能够想象从不同角度看同一个场景会是什么样子。当你站在房间的一角,你能够想象从对面看这个房间的景象。这需要AI具备强大的三维空间想象力。

第五种"变形与组装"能力关注的是物体形状的变化。比如你能够想象一张纸如何折叠成纸飞机,或者多个积木如何组装成复杂的结构。这种能力在现实生活中无处不在,从折叠衣服到组装家具都需要用到。

最后一种"综合推理"能力要求AI将前面所有能力结合起来,解决复杂的空间问题。这就像解决一个立体拼图,需要同时考虑多个因素,进行多步骤的空间推理。

研究团队选择了八个最具代表性的测试基准来评估这些能力。这些测试就像不同难度的空间智力游戏,从简单的物体识别到复杂的空间推理,全面考查AI的空间智能水平。有趣的是,这些测试基准中的大部分都是在最近三个月内发布的,这反映了空间智能研究的热度正在急剧上升。

二、GPT-5的实际表现如何

当研究团队对GPT-5进行测试时,结果既令人鼓舞又让人担忧。好消息是,GPT-5确实在空间智能方面取得了显著进步,在大多数测试中都超越了其他AI模型,成为了新的标杆。在某些特定任务上,比如"度量测量"和"空间关系"理解,GPT-5甚至达到了接近人类的水平。

具体来看,在VSI-Bench测试中,GPT-5取得了36.27分的成绩(满分应该是100分左右),而人类的得分是95.08分。在SITE测试中,GPT-5得到了64.18分,人类得分67.5分,这个差距已经相当小了。在处理物体大小估算的任务中,GPT-5表现尤其出色,在某些子项目上甚至超过了人类表现。

但是,坏消息是GPT-5距离真正的空间智能还有相当的距离。在MMSI这个特别具有挑战性的测试中,GPT-5只得到了22.47分,而人类得分高达96.27分,差距巨大。这就像一个人在简单的几何题上表现不错,但面对复杂的立体几何问题时就完全束手无策了。

更有意思的发现是,GPT-5在不同类型的空间任务上表现差异极大。在需要"心理重构"、"视角转换"、"变形组装"和"综合推理"的任务中,GPT-5仍然远远落后于人类。这就像一个学生在某些科目上表现优秀,但在其他科目上却是不及格的水平。

三、思维模式对性能的影响

研究团队还发现了一个非常有趣的现象:GPT-5的"思考方式"对其空间推理能力有巨大影响。GPT-5有四种不同的思维强度模式:最小、低、中、高。就像人类思考问题时可以快速判断,也可以深思熟虑一样。

当研究人员让GPT-5使用更深入的思维模式时,它的准确率从48.31%提升到了56.78%。但这种提升是有代价的——思考时间大幅增加,从平均11.69秒延长到140.3秒,就像一个学生从快速作答变成了仔细思考每道题。

更极端的情况是,在最高强度思维模式下,GPT-5经常因为思考时间过长(超过15分钟)或思考内容过多而"超时",就像考试时因为在一道题上花费太多时间而无法完成整张试卷。这揭示了一个重要问题:即使是最先进的AI,在面对复杂空间推理任务时,仍然需要在速度和准确性之间做出权衡。

四、开源模型VS闭源模型的较量

研究结果还揭示了一个令人意外的发现:在最困难的空间智能任务上,昂贵的闭源模型(如GPT-5、Gemini等)并没有显示出对开源模型的决定性优势。这就像在简单的数学题上,优等生和中等生的差距很明显,但在超级难题面前,大家都是一样的困惑。

具体来说,在MMSI、OmniSpatial、STARE和SpatialViz等特别困难的测试中,无论是GPT-5这样的顶级闭源模型,还是InternVL3、Qwen2.5-VL这样的开源模型,都距离人类水平很远,彼此之间的差距相对较小。这个发现对研究社区来说是个好消息,意味着开源社区完全有机会在空间智能这个前沿领域实现突破。

五、循环评估揭示的问题

为了确保测试结果的可靠性,研究团队还采用了一种特殊的"循环评估"方法。这就像给学生出同一道题的不同版本,看他们是否能保持一致的表现。结果发现,很多AI模型在这种测试中暴露出了"蒙对答案"的问题。

比如,一个模型在标准测试中可能得到80分,但在循环测试中只能得到60分,这意味着原来20分的成绩实际上是靠运气获得的。GPT-5在这方面表现相对稳定,但仍然存在一定程度的性能下降,这提醒我们在评估AI能力时需要更加谨慎。

六、具体案例分析的有趣发现

研究团队通过具体案例分析发现了一些既有趣又令人担忧的现象。在"度量测量"任务中,GPT-5表现相当不错,能够合理估算现实世界中物体的尺寸。这可能是因为它在训练过程中见过大量包含尺寸信息的图像和文本。

在"心理重构"任务中,GPT-5展现出了一些令人印象深刻的能力。比如,当给它展示一个物体的多个视角时,它能够首次成功地重构出物体的完整三维结构。特别是在生成物体的俯视图时,当启用思维模式后,GPT-5的准确性显著提升。

但是,在"视角转换"任务中,GPT-5仍然困难重重。当需要想象从不同角度看同一个场景时,特别是当视角重叠很少时,GPT-5往往无法正确推理。研究人员发现,GPT-5试图建立不同视角之间的对应关系,但经常误解相机的旋转方向。

最令人担忧的是"变形组装"任务。GPT-5在需要想象纸张折叠或物体组装的任务中表现很差,甚至不如一些开源模型。这就像一个人虽然能够识别各种工具,但完全不会使用它们一样。

在"综合推理"任务中,GPT-5面对需要多步骤空间推理的问题时也显得力不从心。比如在一个看似简单的"数积木"任务中,GPT-5虽然能够识别可见的积木,但无法通过空间推理推断出隐藏积木的存在。

七、人类与AI的巨大差距

通过与人类表现的对比,研究揭示了一个发人深省的现象:在涉及空间智能的任务上,即使是最先进的AI模型也远远落后于人类,而在非空间智能任务上,AI往往能够达到甚至超越人类水平。

这种差距在某些测试中特别明显。比如在CoreCognition测试的"形式运算"类别(非空间智能任务)中,多个AI模型都达到或超过了人类水平。但在同一测试的"视角转换"任务中,即使是GPT-5也远远落后于人类表现。

这个发现提出了一个重要问题:为什么AI能够在语言理解、数学计算、甚至某些创造性任务上表现出色,却在人类看似轻松的空间推理上如此困难?研究团队认为,这可能反映了当前AI训练方法的局限性——大多数AI模型主要通过文本和二维图像进行训练,缺乏真实的三维空间经验。

八、空间智能的特殊挑战

研究发现,空间智能任务对AI模型提出了独特的挑战。与语言或数学任务不同,空间推理往往需要模型能够在脑海中"看到"和"操作"三维物体,这种能力很难通过传统的文本训练获得。

更具体地说,当面对需要想象物体从不同角度的外观、预测物体变形后的形状、或者在复杂环境中进行导航的任务时,AI模型往往采用错误的推理策略。它们可能会依赖二维图像的表面特征,而不是真正理解三维空间关系。

这就像一个从来没有玩过积木的人,虽然能够通过图片认识各种形状,但无法想象如何将它们组装成复杂的结构。AI模型缺乏的正是这种通过实际操作获得的空间直觉。

九、评估方法的重要性

研究还强调了建立公平、准确评估方法的重要性。由于不同的测试基准采用不同的评分方法、系统提示和输出格式,直接比较结果往往是不公平的。研究团队花费了大量精力统一这些评估标准,就像确保所有学生在相同条件下参加考试一样。

他们发现,AI模型的表现对评估细节高度敏感。比如,系统提示的微小变化可能导致开源模型性能波动达到15个百分点。这提醒我们,在评估AI能力时,必须非常小心地控制实验条件,否则可能得出误导性的结论。

说到底,这项耗费巨大资源的研究为我们提供了一个清晰的答案:GPT-5虽然在空间智能方面取得了显著进步,并且在某些特定任务上接近了人类水平,但距离真正的空间智能还有相当大的距离。这就像一个学生在某些科目上表现优异,但总体而言还没有达到毕业标准。

更重要的是,这项研究揭示了AI发展中的一个重要盲点:尽管我们在让机器理解语言和处理信息方面取得了巨大成功,但在让机器真正"看懂"和"理解"我们的三维世界方面,还有很长的路要走。这不仅仅是技术问题,更是对AI如何获得类似人类的空间直觉这一根本问题的探索。

对于普通人来说,这意味着什么呢?首先,我们不应该期待现在的AI能够完全替代需要空间推理的人类工作,比如建筑设计、工程制图或者复杂的装配任务。其次,这也提醒我们,人类的空间智能是一种非常珍贵和独特的能力,值得我们更加珍视。最后,随着研究的深入,我们可能会看到专门针对空间智能优化的AI系统的出现,这将为robotics、自动驾驶、虚拟现实等领域带来革命性的变化。

研究团队希望这项工作能够为未来的空间智能研究奠定基础。他们不仅提供了当前模型性能的全面评估,还标准化了评估方法,为研究社区提供了共同的参考框架。正如他们在论文中所说,空间智能可能是实现真正人工通用智能路上最后的几个重要frontiers之一。

这项研究最终告诉我们,虽然我们已经创造出了在某些方面超越人类的AI,但让机器真正理解我们生活的这个三维世界,仍然是一个充满挑战的目标。GPT-5的出现让我们向这个目标又迈进了一步,但这只是漫长旅程的开始,而不是终点。

Q&A

Q1:什么是空间智能?为什么对AI来说这么困难?

A:空间智能就是我们人类每天都在使用的能力,比如想象从不同角度看一个物体的样子,在脑海中旋转立方体,或根据地图找路。对AI来说困难是因为大多数AI模型主要通过文本和二维图像训练,缺乏真实的三维空间经验,就像一个从未玩过积木的人无法想象如何组装复杂结构一样。

Q2:GPT-5在空间智能测试中的表现如何?

A:GPT-5表现呈现两极分化。在简单的度量测量和空间关系任务中接近人类水平,比如在SITE测试中得到64.18分,人类得分67.5分。但在复杂的空间推理任务中差距巨大,如MMSI测试中只得22.47分,人类得分96.27分。总体而言,GPT-5虽然是目前最好的AI模型,但距离真正的空间智能还很远。

Q3:这项研究花费了多少资源?测试了哪些内容?

A:研究团队耗费超过十亿个token(相当于数百万页文档的信息量)对多个AI模型进行测试。他们将空间智能分为六种核心能力:度量测量、心理重构、空间关系、视角转换、变形组装和综合推理,使用八个代表性测试基准进行全面评估,就像给AI模型进行了史无前例的"空间智商测试"。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-