微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 上交大与美团联手打造"我的世界"AI考场:让大模型在游戏里证明自己真的"聪明"

上交大与美团联手打造"我的世界"AI考场:让大模型在游戏里证明自己真的"聪明"

2026-06-08 12:16
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2026-06-08 12:16 科技行者

这项由上海交通大学计算机科学学院与美团联合开展的研究,以预印本形式于2026年5月29日发布,编号为arXiv:2605.30931,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。

说起现在最火的AI技术,大家脑海里可能会浮现出那些能写文章、画图、回答问题的"大模型"。这些模型在各种测试中表现出色,让很多人觉得AI已经足够聪明了。但是,有一个问题一直困扰着研究者:这些模型在真实的、动态变化的世界里,真的能靠自己完成复杂任务吗?坐在考场里答题和在街上独立生存,完全是两回事。

于是,上交大与美团的研究团队想到了一个绝妙的方案:把《我的世界》(Minecraft)这款沙盒游戏变成一个考场,专门用来测试AI模型在开放世界里的探索能力。这个考场有个正式的名字——MINEEXPLORER。

为什么是《我的世界》?因为这款游戏里有草地、森林、河流、村庄、各种动物和怪物,玩家需要观察环境、制定计划、一步步完成目标。这跟真实世界里解决问题的逻辑非常相似。但麻烦的是,《我的世界》也有很多只有老玩家才知道的"秘籍"——比如特定的合成配方、特殊的游戏机制——这些跟现实世界的常识毫无关系。研究团队认为,如果AI答对了问题但只是因为它"背过游戏攻略",那这个考试就没意义了。真正想考察的,是AI用通用的推理能力和常识,在一个动态变化的环境里灵活应对。

正因为这个核心理念,MINEEXPLORER做了一件很关键的事:从3382个游戏任务里,筛掉了所有"需要懂游戏内部规则才能完成"的任务,只保留了1497个靠现实世界常识就能搞定的任务。然后,研究团队把这些任务组合成813个经过真人验证的复合测试案例,难度从"一步到位"一直升级到"需要提前完成四个隐藏步骤"。测试结果令人警醒:哪怕是目前最顶尖的AI模型,在这个考场里的表现也远远称不上优秀。

一、如何让考场只考"真本领"而不考"游戏攻略"

打造这个考场的第一步,是解决一个根本性的矛盾:《我的世界》里有大量只属于游戏本身的规则,跟现实世界的常识完全不一样。以合成物品为例,在游戏里要做一个活塞,需要按照特定的摆放方式组合木头、圆石、铁锭和红石,这套规则在现实生活里毫无对应,普通人就算从没玩过游戏,靠常识也完全猜不出来。

研究团队把这类"只有老玩家才懂"的任务统统剔除,保留那些靠常识就能理解的任务。比如"猎杀一只羊"——找到羊、靠近它、攻击它,这个逻辑在现实世界里完全说得通。再比如"找到一条河流然后游过去"——识别水域、下水、游到对岸,这也是任何人凭直觉都能想到的。相反,"酿造一瓶治愈药水"就被剔除了,因为要知道需要把地狱疣和闪光甜瓜放进酿造台,这完全是游戏独有的设定。

为了做这个筛选,研究团队准备了一份《我的世界》规则说明书,让AI判断官:对于每一个候选任务,一个从没玩过这款游戏的普通人,能不能只凭现实世界的常识把它完成?能——留下来;不能——淘汰。这个过程很像给一套试卷做"公平性审核",确保题目考的是真实能力而不是死记硬背。经过这轮筛选,原本3382个任务里,只有1497个通过了审核。

为了验证这个筛选过程本身是否可靠,研究团队抽取了500个任务,让真人去检验AI判官的判断是否准确,结果整体吻合率达到86.8%,误判率都在10%以下,这说明筛选过程相当靠谱。

二、用"看-想-做"的框架给AI能力画地图

光有一堆任务还不够,研究团队还需要一套系统来分析:完成每个任务,AI到底需要哪些能力?他们借鉴了一个叫"ReAct"的思路——这个名字来自英文"推理"(Reasoning)和"行动"(Acting)的组合——把AI在游戏里需要做的事情分成三大类:感知、推理和行动。

感知,就是AI"用眼睛"理解世界的能力。具体来说,它需要判断周围地形和目标位置的空间关系,需要感知任务过程中环境的变化,需要识别场景里的动物、怪物、村民等各种角色,需要监控自身状态(比如血量是否不足),还需要检查自己背包里有什么东西。这五种感知能力,共同构成了AI"睁眼看世界"的基础。

推理,是AI"用脑子"分析情况的能力。它需要用现实世界的常识做出判断——比如知道砍树可以得到木头,而木头可以用来做工具;它还需要理解因果关系,明白"先做A,才能做B"的逻辑;另外它还需要理解空间和对象之间的关系,比如判断哪个目标离自己更近、某个物品在哪个区域。

行动,是AI"用手脚"执行计划的能力。在游戏里,这包括基本移动(走路、游泳)、跳跃越过障碍、采集物品(挖矿、砍树、捡东西)、放置方块、合成物品,以及战斗。

给每个任务贴上这三类能力的标签之后,研究团队就能清楚地知道:每道考题究竟在考AI的哪些能力,考得有多难。

三、把简单任务编织成"隐藏关卡"——多跳任务的设计

MINEEXPLORER里最有意思的设计,是把若干个简单任务组合成一个"隐藏关卡"。正式的叫法是"隐式多跳任务"。

以考场里的一个例子为例:AI收到的任务指令是"去打败一只蜘蛛"。听起来很简单,对吧?但在这个精心设计的场景里,AI刚一出生,面前是一条河流挡住了去路,河对岸才有蜘蛛。所以AI必须先识别出河流是障碍,然后自己想到"得先过河",接着发现旁边有一些材料可以合成武器,于是还得先造一把剑,然后游过河,最后才能打蜘蛛。

整个过程里,"过河"和"造剑"这两个前置步骤,在任务指令里根本没有提到。AI必须靠自己观察环境,推断出这些隐藏的前置条件,并且按正确的顺序一步步完成。这就像你老板跟你说"去给客户送份报告",但没告诉你报告还没打印、打印机没纸、钥匙在抽屉里——你得自己发现这些问题并一一解决。

研究团队还为每个测试案例设计了一个"难度分数"。这个分数的核心逻辑是:需要提前完成的隐藏步骤越多、每个步骤涉及的能力越多样,任务就越难。一跳任务就是没有隐藏步骤,直接完成目标就行;两跳任务有一个隐藏前置步骤;三跳有两个;四跳有三个。数字越大,AI需要在脑子里维持的"计划链条"就越长,出错的可能性也就越大。

四、五个"专家"协同合作才能造出一道好题

设计出这些测试案例本身,就是一个相当复杂的工程。研究团队发现,如果只让一个AI模型来负责出题,生成的题目往往漏洞百出:场景摆放不合理、评分规则有误、任务逻辑前后矛盾。于是他们设计了一个由五个专门角色组成的"出题委员会",每个角色各司其职。

第一个角色是任务选择员,负责从候选任务池里挑选合适的任务组合,设计它们之间的依赖关系,并写出那道"只说最终目标、不透露隐藏步骤"的任务指令。第二个角色是场景设计师,负责在游戏里搭建实际的场景——放置方块、召唤动物怪物、调整地形——并且可以"进入"游戏场景亲自走一遍,确认设计是否合理。

第三个角色是里程碑设计师,负责把每个子任务转化成可以被程序自动判断的规则。比如"采集到了煤矿"可以用"背包里煤炭数量增加了1"来判断,"打败了僵尸"可以用"僵尸从场景里消失了"来判断。这些规则必须精确且可执行,而且设计师可以在游戏里实际触发这些条件来验证规则是否有效。第四个角色是《我的世界》专家,专门审查整个设计有没有偷偷依赖游戏专属知识,必要时可以查阅游戏维基百科来核实具体机制。第五个角色是验证员,从结构上检查任务的依赖图有没有逻辑错误,评分规则有没有漏洞。

这五个角色在一个"讨论组"里协作:先各自完成初稿,然后互相审查、提意见、修改,直到所有人都认为这道题没有问题为止。这个过程跟学术论文的同行评审很像,只不过"评审人"都是AI。

研究团队还专门比较了"五人团队出题"和"一个AI单独出题"的效果。真人评审的结果很说明问题:五人团队出的题,整体合格率约为78%,质量评分约4.53分(满分5分);而单个AI出的题,合格率只有约44%,质量评分约4.03分。在四跳任务这种最复杂的情况下,差距更为明显——单个AI只有约27%的合格率,而团队方式能达到约66%。这说明让不同专长的角色分工合作,确实能大幅提升出题质量。

五、最终的考场长什么样,AI怎么参加考试

完成所有筛选和生成之后,MINEEXPLORER最终包含813个经真人验证的测试案例,从一跳到四跳均有覆盖,分别有292、301、211和235个案例。每个案例都有明确的文字任务指令、一个精心搭建的游戏场景、一套隐藏的任务依赖图,以及一组可以自动判分的里程碑规则。

参加考试的AI模型,以第一人称视角进入游戏场景。每隔0.1秒,系统就截一张游戏画面发给AI,AI看着画面思考一下,然后输出一个动作指令——往前走、转头看、挥锤挖矿等等。AI最多能记住最近20帧的历史画面,整个测试时长不超过30秒(300个步骤)。每一步之后,系统都会自动检查里程碑规则是否被触发。

评分用两个主要指标:任务成功率(TSR)衡量最终目标有没有完成,里程碑成功率(MSR)衡量在没有完全成功的情况下,完成了多少个中间步骤。研究团队也验证了这套自动评分系统的可靠性:让真人观看AI的游戏视频并打分,发现当所有里程碑都被自动检测为"完成"时,真人的平均评分接近4分(满分4分);当所有里程碑都被检测为"失败"时,真人的平均评分低于3分。自动判分系统与真人判断的整体吻合率同样达到86.8%。

六、顶尖AI在考场里的实际表现:差距令人吃惊

研究团队邀请了18款当前最先进的多模态大模型参加这场考试,包括各大公司的旗舰产品。结果可以用一句话概括:在一跳任务里还算说得过去,但一旦任务链条变长,几乎所有模型都急剧"失速"。

表现最好的是Claude-Opus-4.6,它的整体任务成功率约为41%。排名第二的是谷歌的Gemini-3.1-Pro-Preview,成功率约为37%。这两款模型在一跳任务里的成功率分别约为78%和74%,看起来还不错;但到了多跳任务,Claude-Opus-4.6的成功率下降到约24%,Gemini的成功率则约为20%。

换个角度理解这组数据更直观:在一跳任务里,接近四分之三的任务能被顶尖模型完成;但在多跳任务里,超过四分之三的任务会失败。隐藏步骤增多之后,AI的表现会急剧下滑,而不是缓慢降低。大多数排名靠后的模型,整体成功率在10%到20%之间,有些模型在四跳任务里的成功率接近于零。

从能力维度来看,AI在感知得分上普遍高于推理得分,行动得分则大致居中。这个规律在几乎所有测试模型身上都成立。通俗地说,AI通常能"看到"场景里有什么,但往往想不清楚"下一步该怎么办"。这个差距在多跳任务里更加明显——当AI不仅要看清现状,还要推断出哪些隐藏的前置条件没有满足、应该先做什么,它的推理能力就明显跟不上了。

还有一个出乎意料的发现:模型越大、推理越复杂,并不意味着游戏表现越好。在Qwen系列中,参数量更多的235B版本,其表现并不总是比32B版本更好。更令人困惑的是,专门加入了"思考模式"的版本,整体表现反而有时不如普通版本。具体来说,Qwen-3-VL-235B-A22B-Instruct的整体任务成功率约为10.6%,而它的"思考"版本Qwen-3-VL-235B-A22B-Thinking只有约8.1%。

这说明在开放世界探索这件事上,光靠增加参数量或者让模型"多想想",并不能解决根本问题。关键在于,模型需要把它的推理过程和眼前的画面实时联系起来——当环境随着每一个动作而变化,计划也必须跟着实时更新。如果推理和感知之间没有紧密耦合,多想反而可能是负担。

七、为什么失败,失败在哪里

研究团队对Claude-Opus-4.6的失败案例进行了详细分析,按照失败原因把错误分成几类。最常见的失败原因是导航失败,占所有失败里程碑的约60%——AI找不到目标在哪,或者无法到达目标位置。这说明在三维空间里定位和导航,目前仍然是多模态模型的主要短板。第二大失败原因是资源采集失败,约占20%——AI看到了目标,但就是没能成功完成采集动作。行动执行失败和目标识别错误(也就是搞错了自己该做什么)各占约10%。陷入死循环或者卡住的情况非常罕见,只占不到1%。

这三类主要失败——导航、行动、目标识别——刚好分别对应感知、行动、推理三个能力维度,说明AI在这三个方向上都还有明显的提升空间,而不是只有某一个短板。

在步骤效率方面也有一个有趣的规律:能完成任务的那些情况,大多数都在很早的阶段就完成了,而那些失败的情况,往往跑完了整个30秒的时限也没有进展。这说明当前的AI模型在短期任务上还算有效,但在长时间的持续探索上基本没有什么"越挫越勇"的能力——如果它在早期就迷失了方向,通常不会在之后找回来。

更强的模型完成任务时所花的步骤数往往更多,不是因为它们效率更低,而是因为它们能完成那些需要更长操作序列的中等难度任务,而弱一些的模型只能完成非常短小的任务。这个角度来看,步骤数多反而是能力强的一种体现。

归根结底,MINEEXPLORER揭示了一个关键矛盾:当前的AI模型在接受单一、明确的指令时表现还可以,但当任务需要它们主动发现问题、自己制定计划、在环境变化中随机应变时,表现就会大幅下滑。现实世界里的大多数任务都更像后者——你的老板不会每隔0.1秒告诉你下一步该做什么。从这个意义上说,MINEEXPLORER测出来的差距,不只是游戏里的差距,也是AI走向真正实用的那段距离。

研究团队希望MINEEXPLORER不只是一个测试台,也能成为未来训练AI的环境,帮助研究者找到让AI真正学会"长程探索"的方法。如果你对这项研究感兴趣,可以通过arXiv编号2605.30931找到完整论文,代码和数据集也已在GitHub开源,地址为github.com/Jometeorie/MineExplorer。

Q&A

Q1:MINEEXPLORER是一个什么样的测试平台,它和普通的AI测试有什么区别?

A:MINEEXPLORER是一个基于《我的世界》游戏构建的AI能力评估平台,专门用来测试多模态大模型在动态开放世界中的探索能力。与普通的AI测试不同,它不考静态问答或短期单步任务,而是要求AI在不断变化的游戏环境里,自己推断隐藏的前置条件,按顺序完成多个步骤,最终达成目标。整个过程更接近真实世界解决问题的逻辑,而不是背答案。

Q2:MINEEXPLORER里的多跳任务具体是什么意思,为什么AI在这类任务上会失败得那么惨?

A:多跳任务是指任务指令只告诉AI最终目标,但完成目标之前需要先完成一个或多个隐藏的前置步骤。比如指令说"打败蜘蛛",但AI得自己发现前方有河流挡路、需要先造武器。失败的主要原因是AI通常能"看到"眼前的情况,却难以推理出隐藏的前置逻辑;而且随着环境变化,AI的计划没能及时跟上,导致越来越多的行动白费。

Q3:MINEEXPLORER的测试结果说明顶尖AI现在到底有多强、又差在哪里?

A:目前表现最好的模型Claude-Opus-4.6整体任务成功率约为41%,在只有一个步骤的简单任务里能完成约78%,但在需要推断多个隐藏步骤的复杂任务里成功率不到24%。主要差距在三个方向:在三维空间里找到目标(导航)、识别当前真正该做什么(推理)、以及成功执行具体操作(行动)。增加模型参数量或开启"思考模式"并不能稳定改善这些问题。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-