微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

上交大与美团联手打造"我的世界"AI考场：让大模型在游戏里证明自己真的"聪明"

人工智能多模态大模型开放世界探索评估

上交大与美团联手打造"我的世界"AI考场：让大模型在游戏里证明自己真的"聪明"

作者：科技行者

2026-06-08 12:16

分享至：

这项由上海交通大学与美团联合开展的研究，构建了基于《我的世界》的AI开放世界探索评估基准MINEEXPLORER，揭示了顶尖多模态大模型在长程复杂任务中的显著能力瓶颈。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-06-08 12:16 • 科技行者

这项由上海交通大学计算机科学学院与美团联合开展的研究，以预印本形式于2026年5月29日发布，编号为arXiv:2605.30931，有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

说起现在最火的AI技术，大家脑海里可能会浮现出那些能写文章、画图、回答问题的"大模型"。这些模型在各种测试中表现出色，让很多人觉得AI已经足够聪明了。但是，有一个问题一直困扰着研究者：这些模型在真实的、动态变化的世界里，真的能靠自己完成复杂任务吗？坐在考场里答题和在街上独立生存，完全是两回事。

于是，上交大与美团的研究团队想到了一个绝妙的方案：把《我的世界》（Minecraft）这款沙盒游戏变成一个考场，专门用来测试AI模型在开放世界里的探索能力。这个考场有个正式的名字——MINEEXPLORER。

为什么是《我的世界》？因为这款游戏里有草地、森林、河流、村庄、各种动物和怪物，玩家需要观察环境、制定计划、一步步完成目标。这跟真实世界里解决问题的逻辑非常相似。但麻烦的是，《我的世界》也有很多只有老玩家才知道的"秘籍"——比如特定的合成配方、特殊的游戏机制——这些跟现实世界的常识毫无关系。研究团队认为，如果AI答对了问题但只是因为它"背过游戏攻略"，那这个考试就没意义了。真正想考察的，是AI用通用的推理能力和常识，在一个动态变化的环境里灵活应对。

正因为这个核心理念，MINEEXPLORER做了一件很关键的事：从3382个游戏任务里，筛掉了所有"需要懂游戏内部规则才能完成"的任务，只保留了1497个靠现实世界常识就能搞定的任务。然后，研究团队把这些任务组合成813个经过真人验证的复合测试案例，难度从"一步到位"一直升级到"需要提前完成四个隐藏步骤"。测试结果令人警醒：哪怕是目前最顶尖的AI模型，在这个考场里的表现也远远称不上优秀。

一、如何让考场只考"真本领"而不考"游戏攻略"

打造这个考场的第一步，是解决一个根本性的矛盾：《我的世界》里有大量只属于游戏本身的规则，跟现实世界的常识完全不一样。以合成物品为例，在游戏里要做一个活塞，需要按照特定的摆放方式组合木头、圆石、铁锭和红石，这套规则在现实生活里毫无对应，普通人就算从没玩过游戏，靠常识也完全猜不出来。

研究团队把这类"只有老玩家才懂"的任务统统剔除，保留那些靠常识就能理解的任务。比如"猎杀一只羊"——找到羊、靠近它、攻击它，这个逻辑在现实世界里完全说得通。再比如"找到一条河流然后游过去"——识别水域、下水、游到对岸，这也是任何人凭直觉都能想到的。相反，"酿造一瓶治愈药水"就被剔除了，因为要知道需要把地狱疣和闪光甜瓜放进酿造台，这完全是游戏独有的设定。

为了做这个筛选，研究团队准备了一份《我的世界》规则说明书，让AI判断官：对于每一个候选任务，一个从没玩过这款游戏的普通人，能不能只凭现实世界的常识把它完成？能——留下来；不能——淘汰。这个过程很像给一套试卷做"公平性审核"，确保题目考的是真实能力而不是死记硬背。经过这轮筛选，原本3382个任务里，只有1497个通过了审核。

为了验证这个筛选过程本身是否可靠，研究团队抽取了500个任务，让真人去检验AI判官的判断是否准确，结果整体吻合率达到86.8%，误判率都在10%以下，这说明筛选过程相当靠谱。

二、用"看-想-做"的框架给AI能力画地图

光有一堆任务还不够，研究团队还需要一套系统来分析：完成每个任务，AI到底需要哪些能力？他们借鉴了一个叫"ReAct"的思路——这个名字来自英文"推理"（Reasoning）和"行动"（Acting）的组合——把AI在游戏里需要做的事情分成三大类：感知、推理和行动。

感知，就是AI"用眼睛"理解世界的能力。具体来说，它需要判断周围地形和目标位置的空间关系，需要感知任务过程中环境的变化，需要识别场景里的动物、怪物、村民等各种角色，需要监控自身状态（比如血量是否不足），还需要检查自己背包里有什么东西。这五种感知能力，共同构成了AI"睁眼看世界"的基础。

推理，是AI"用脑子"分析情况的能力。它需要用现实世界的常识做出判断——比如知道砍树可以得到木头，而木头可以用来做工具；它还需要理解因果关系，明白"先做A，才能做B"的逻辑；另外它还需要理解空间和对象之间的关系，比如判断哪个目标离自己更近、某个物品在哪个区域。

行动，是AI"用手脚"执行计划的能力。在游戏里，这包括基本移动（走路、游泳）、跳跃越过障碍、采集物品（挖矿、砍树、捡东西）、放置方块、合成物品，以及战斗。

给每个任务贴上这三类能力的标签之后，研究团队就能清楚地知道：每道考题究竟在考AI的哪些能力，考得有多难。

三、把简单任务编织成"隐藏关卡"——多跳任务的设计

MINEEXPLORER里最有意思的设计，是把若干个简单任务组合成一个"隐藏关卡"。正式的叫法是"隐式多跳任务"。

以考场里的一个例子为例：AI收到的任务指令是"去打败一只蜘蛛"。听起来很简单，对吧？但在这个精心设计的场景里，AI刚一出生，面前是一条河流挡住了去路，河对岸才有蜘蛛。所以AI必须先识别出河流是障碍，然后自己想到"得先过河"，接着发现旁边有一些材料可以合成武器，于是还得先造一把剑，然后游过河，最后才能打蜘蛛。

整个过程里，"过河"和"造剑"这两个前置步骤，在任务指令里根本没有提到。AI必须靠自己观察环境，推断出这些隐藏的前置条件，并且按正确的顺序一步步完成。这就像你老板跟你说"去给客户送份报告"，但没告诉你报告还没打印、打印机没纸、钥匙在抽屉里——你得自己发现这些问题并一一解决。

研究团队还为每个测试案例设计了一个"难度分数"。这个分数的核心逻辑是：需要提前完成的隐藏步骤越多、每个步骤涉及的能力越多样，任务就越难。一跳任务就是没有隐藏步骤，直接完成目标就行；两跳任务有一个隐藏前置步骤；三跳有两个；四跳有三个。数字越大，AI需要在脑子里维持的"计划链条"就越长，出错的可能性也就越大。

四、五个"专家"协同合作才能造出一道好题

设计出这些测试案例本身，就是一个相当复杂的工程。研究团队发现，如果只让一个AI模型来负责出题，生成的题目往往漏洞百出：场景摆放不合理、评分规则有误、任务逻辑前后矛盾。于是他们设计了一个由五个专门角色组成的"出题委员会"，每个角色各司其职。

第一个角色是任务选择员，负责从候选任务池里挑选合适的任务组合，设计它们之间的依赖关系，并写出那道"只说最终目标、不透露隐藏步骤"的任务指令。第二个角色是场景设计师，负责在游戏里搭建实际的场景——放置方块、召唤动物怪物、调整地形——并且可以"进入"游戏场景亲自走一遍，确认设计是否合理。

第三个角色是里程碑设计师，负责把每个子任务转化成可以被程序自动判断的规则。比如"采集到了煤矿"可以用"背包里煤炭数量增加了1"来判断，"打败了僵尸"可以用"僵尸从场景里消失了"来判断。这些规则必须精确且可执行，而且设计师可以在游戏里实际触发这些条件来验证规则是否有效。第四个角色是《我的世界》专家，专门审查整个设计有没有偷偷依赖游戏专属知识，必要时可以查阅游戏维基百科来核实具体机制。第五个角色是验证员，从结构上检查任务的依赖图有没有逻辑错误，评分规则有没有漏洞。

这五个角色在一个"讨论组"里协作：先各自完成初稿，然后互相审查、提意见、修改，直到所有人都认为这道题没有问题为止。这个过程跟学术论文的同行评审很像，只不过"评审人"都是AI。

研究团队还专门比较了"五人团队出题"和"一个AI单独出题"的效果。真人评审的结果很说明问题：五人团队出的题，整体合格率约为78%，质量评分约4.53分（满分5分）；而单个AI出的题，合格率只有约44%，质量评分约4.03分。在四跳任务这种最复杂的情况下，差距更为明显——单个AI只有约27%的合格率，而团队方式能达到约66%。这说明让不同专长的角色分工合作，确实能大幅提升出题质量。

五、最终的考场长什么样，AI怎么参加考试

完成所有筛选和生成之后，MINEEXPLORER最终包含813个经真人验证的测试案例，从一跳到四跳均有覆盖，分别有292、301、211和235个案例。每个案例都有明确的文字任务指令、一个精心搭建的游戏场景、一套隐藏的任务依赖图，以及一组可以自动判分的里程碑规则。

参加考试的AI模型，以第一人称视角进入游戏场景。每隔0.1秒，系统就截一张游戏画面发给AI，AI看着画面思考一下，然后输出一个动作指令——往前走、转头看、挥锤挖矿等等。AI最多能记住最近20帧的历史画面，整个测试时长不超过30秒（300个步骤）。每一步之后，系统都会自动检查里程碑规则是否被触发。

评分用两个主要指标：任务成功率（TSR）衡量最终目标有没有完成，里程碑成功率（MSR）衡量在没有完全成功的情况下，完成了多少个中间步骤。研究团队也验证了这套自动评分系统的可靠性：让真人观看AI的游戏视频并打分，发现当所有里程碑都被自动检测为"完成"时，真人的平均评分接近4分（满分4分）；当所有里程碑都被检测为"失败"时，真人的平均评分低于3分。自动判分系统与真人判断的整体吻合率同样达到86.8%。

六、顶尖AI在考场里的实际表现：差距令人吃惊

研究团队邀请了18款当前最先进的多模态大模型参加这场考试，包括各大公司的旗舰产品。结果可以用一句话概括：在一跳任务里还算说得过去，但一旦任务链条变长，几乎所有模型都急剧"失速"。

表现最好的是Claude-Opus-4.6，它的整体任务成功率约为41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview，成功率约为37%。这两款模型在一跳任务里的成功率分别约为78%和74%，看起来还不错；但到了多跳任务，Claude-Opus-4.6的成功率下降到约24%，Gemini的成功率则约为20%。

换个角度理解这组数据更直观：在一跳任务里，接近四分之三的任务能被顶尖模型完成；但在多跳任务里，超过四分之三的任务会失败。隐藏步骤增多之后，AI的表现会急剧下滑，而不是缓慢降低。大多数排名靠后的模型，整体成功率在10%到20%之间，有些模型在四跳任务里的成功率接近于零。

从能力维度来看，AI在感知得分上普遍高于推理得分，行动得分则大致居中。这个规律在几乎所有测试模型身上都成立。通俗地说，AI通常能"看到"场景里有什么，但往往想不清楚"下一步该怎么办"。这个差距在多跳任务里更加明显——当AI不仅要看清现状，还要推断出哪些隐藏的前置条件没有满足、应该先做什么，它的推理能力就明显跟不上了。

还有一个出乎意料的发现：模型越大、推理越复杂，并不意味着游戏表现越好。在Qwen系列中，参数量更多的235B版本，其表现并不总是比32B版本更好。更令人困惑的是，专门加入了"思考模式"的版本，整体表现反而有时不如普通版本。具体来说，Qwen-3-VL-235B-A22B-Instruct的整体任务成功率约为10.6%，而它的"思考"版本Qwen-3-VL-235B-A22B-Thinking只有约8.1%。

这说明在开放世界探索这件事上，光靠增加参数量或者让模型"多想想"，并不能解决根本问题。关键在于，模型需要把它的推理过程和眼前的画面实时联系起来——当环境随着每一个动作而变化，计划也必须跟着实时更新。如果推理和感知之间没有紧密耦合，多想反而可能是负担。

七、为什么失败，失败在哪里

研究团队对Claude-Opus-4.6的失败案例进行了详细分析，按照失败原因把错误分成几类。最常见的失败原因是导航失败，占所有失败里程碑的约60%——AI找不到目标在哪，或者无法到达目标位置。这说明在三维空间里定位和导航，目前仍然是多模态模型的主要短板。第二大失败原因是资源采集失败，约占20%——AI看到了目标，但就是没能成功完成采集动作。行动执行失败和目标识别错误（也就是搞错了自己该做什么）各占约10%。陷入死循环或者卡住的情况非常罕见，只占不到1%。

这三类主要失败——导航、行动、目标识别——刚好分别对应感知、行动、推理三个能力维度，说明AI在这三个方向上都还有明显的提升空间，而不是只有某一个短板。

在步骤效率方面也有一个有趣的规律：能完成任务的那些情况，大多数都在很早的阶段就完成了，而那些失败的情况，往往跑完了整个30秒的时限也没有进展。这说明当前的AI模型在短期任务上还算有效，但在长时间的持续探索上基本没有什么"越挫越勇"的能力——如果它在早期就迷失了方向，通常不会在之后找回来。

更强的模型完成任务时所花的步骤数往往更多，不是因为它们效率更低，而是因为它们能完成那些需要更长操作序列的中等难度任务，而弱一些的模型只能完成非常短小的任务。这个角度来看，步骤数多反而是能力强的一种体现。

归根结底，MINEEXPLORER揭示了一个关键矛盾：当前的AI模型在接受单一、明确的指令时表现还可以，但当任务需要它们主动发现问题、自己制定计划、在环境变化中随机应变时，表现就会大幅下滑。现实世界里的大多数任务都更像后者——你的老板不会每隔0.1秒告诉你下一步该做什么。从这个意义上说，MINEEXPLORER测出来的差距，不只是游戏里的差距，也是AI走向真正实用的那段距离。

研究团队希望MINEEXPLORER不只是一个测试台，也能成为未来训练AI的环境，帮助研究者找到让AI真正学会"长程探索"的方法。如果你对这项研究感兴趣，可以通过arXiv编号2605.30931找到完整论文，代码和数据集也已在GitHub开源，地址为github.com/Jometeorie/MineExplorer。

Q&A

Q1：MINEEXPLORER是一个什么样的测试平台，它和普通的AI测试有什么区别？

A：MINEEXPLORER是一个基于《我的世界》游戏构建的AI能力评估平台，专门用来测试多模态大模型在动态开放世界中的探索能力。与普通的AI测试不同，它不考静态问答或短期单步任务，而是要求AI在不断变化的游戏环境里，自己推断隐藏的前置条件，按顺序完成多个步骤，最终达成目标。整个过程更接近真实世界解决问题的逻辑，而不是背答案。

Q2：MINEEXPLORER里的多跳任务具体是什么意思，为什么AI在这类任务上会失败得那么惨？

A：多跳任务是指任务指令只告诉AI最终目标，但完成目标之前需要先完成一个或多个隐藏的前置步骤。比如指令说"打败蜘蛛"，但AI得自己发现前方有河流挡路、需要先造武器。失败的主要原因是AI通常能"看到"眼前的情况，却难以推理出隐藏的前置逻辑；而且随着环境变化，AI的计划没能及时跟上，导致越来越多的行动白费。

Q3：MINEEXPLORER的测试结果说明顶尖AI现在到底有多强、又差在哪里？

A：目前表现最好的模型Claude-Opus-4.6整体任务成功率约为41%，在只有一个步骤的简单任务里能完成约78%，但在需要推断多个隐藏步骤的复杂任务里成功率不到24%。主要差距在三个方向：在三维空间里找到目标（导航）、识别当前真正该做什么（推理）、以及成功执行具体操作（行动）。增加模型参数量或开启"思考模式"并不能稳定改善这些问题。

人工智能多模态大模型开放世界探索评估

分享至