
这项由电子科技大学深圳信息与人工智能研究院(SIAS, UESTC)联合新加坡科技研究局计算智能研究院(A\*STAR CFAR/IHPC)共同完成的研究,于2026年4月以预印本形式发布在arXiv平台,编号为arXiv:2604.08340v1,研究方向为计算机视觉与人工智能交叉领域。有兴趣深入了解的读者可通过该编号在arXiv.org查询完整论文。
现在的AI视觉语言模型,就像一个读了很多书、看了很多照片的博学学生。你给它一张猫咪的图,它能告诉你"这是一只橘猫,正在晒太阳";你问它"法国大革命是什么时候",它对答如流。但如果你把这个学生放进一个真实的三维世界,让他靠着自己的眼睛去导航、去找人、去完成一系列任务——他会怎么表现?
这正是这支研究团队想要回答的问题。而他们选择的测试场地,是任天堂的3D开放世界游戏《宝可梦传说:Z-A》。
研究团队将这套测试系统命名为**PokeGym**。它的核心思路是:给AI看游戏屏幕上的原始像素画面,让AI自己决定按什么键、怎么移动、去哪里找目标,完全不提供任何"作弊信息"——不告诉AI角色坐标在哪里,不告诉它面前是什么物体,AI只能像真正的玩家一样,靠眼睛看,靠大脑想,靠手(虚拟手柄)操作。测试结束后,系统通过扫描游戏内存来自动判断任务是否完成,不需要人工逐一评判,既省力又客观。
这套系统填补了一个长期存在的空缺。在此之前,研究者们要么用简化的2D游戏来测AI(视觉太简单,不够真实),要么虽然用了3D游戏,却偷偷把角色坐标等内部数据喂给AI(这样AI就不需要真正"看"了,相当于开了上帝视角),要么虽然用了真实3D游戏且只给AI看画面,却需要人工一个个判断任务成功没有(费时费力,而且带有主观性)。PokeGym同时解决了这三个问题。
---
一、为什么偏偏选了宝可梦游戏来"折磨"AI
要理解PokeGym的设计逻辑,不妨把AI视觉语言模型比作一个刚入职的新员工。这个新员工读过大量培训手册(互联网上的海量图文数据),理论知识相当扎实。但真正的工作能力,要在实际工作场景中才能检验。
《宝可梦传说:Z-A》这款游戏之所以被选中,是因为它同时具备三个让AI极度头疼的特性。
第一个特性是摄像头会动。游戏里的视角不是固定的,玩家可以自由旋转镜头来观察四周。这意味着AI必须主动"转头"才能看到更多信息——目标可能在你左边,也可能被建筑物遮住了,你不转动视角就永远发现不了。这跟那些固定镜头的2D游戏完全不同,后者你永远知道屏幕的每个角落有什么。
第二个特性是场景极其复杂。游戏里有密集的建筑群、茂密的植被、各种路人NPC、乱跑的野生宝可梦、各式各样的可互动道具,还有覆盖在画面上的各种UI界面元素。场景里有多个深度层次,光影会随时间变化,物体之间还会相互遮挡。AI需要在这一团视觉"噪音"中准确找到自己的目标,而不是被其他东西迷惑。
第三个特性是任务进展依赖结构化剧情。和《我的世界》那种"你想干嘛就干嘛"的沙盒游戏不同,《宝可梦传说:Z-A》的进展是由任务、事件触发器和特定互动来推动的。AI不仅要能在空间里导航,还要理解"现在应该先完成哪个步骤,才能触发下一个事件"。这要求AI具备真正的长期规划能力,而不只是短视地处理眼前的单步操作。
---
二、游戏规则是怎么设计的:30个任务、三种难度模式
研究团队在PokeGym里设计了30个长时序任务,这些任务来自游戏里的10条主线支线任务。按照任务性质,它们被分成三类:导航类(走到某个地方)、互动类(和特定物体或NPC发生互动)以及混合类(既要走路又要互动,还可能要打架)。每个任务都有明确的起始存档、明确的成功条件、以及一个固定的"步骤预算",大约在180到360个操作步骤之间——这是根据人类玩家的实际操作时长估算出来的。步骤一旦用完,任务就判定失败。
更有意思的是,每个任务都有三种指令版本,形成了三个递进的难度层次,专门用来拆解AI的不同能力。
最简单的版本叫做"视觉引导模式",指令会详细描述每一步要做什么,并且给出视觉锚点,比如"走近那扇有门牌号的棕色木门,进入后找到站在前台背后的旅馆老板"。这个模式考验的是AI把语言描述转化为像素级视觉搜索的能力——说白了,就是"我告诉你看什么,你能不能准确找到"。
中等难度的版本叫"步骤引导模式",指令保留了每个步骤要干什么,但去掉了那些视觉线索,比如"走进房子的门,找到并和旅馆老板说话"。这时候AI不再知道"棕色木门"在哪,必须靠自己的常识和语义理解去判断——一般旅馆的前台大概长什么样,在哪个方向?
最难的版本叫"仅目标模式",只告诉AI最终目标,比如"找到旅馆老板并和他说话"。AI必须自行分解目标、自行规划路线、自行探索空间,就像一个第一次来到陌生城市却只知道"我要去找个叫老王的人"的旅行者。这个模式考验的是AI完整的自主探索和长期规划能力。
---
三、让AI玩游戏需要一套精密的机器:系统架构解析
PokeGym的运行需要四个部分协同工作,就像一场戏剧演出需要演员、剧本、舞台和评委各司其职。
演员是AI视觉语言模型本身。每隔一定的时间步,系统就截取当前游戏画面(还可以额外提供"上一帧画面"和"左右两侧的侧视角画面",共四张图),把这些画面连同任务指令一起送给AI,让AI决定下一步怎么做。关键在于,这些画面是直接从游戏的GPU纹理里取出来的,不经过操作系统层面的截图,这样可以减少延迟、避免窗口遮挡问题,而且绝对不会把任何游戏内部状态数据(如坐标、地图ID)混入画面提供给AI。
舞台是Ryujinx模拟器,这是一个开源的任天堂Switch模拟器,游戏就在它上面运行。AI的决策会被转换为具体的按键操作发送给模拟器。这里有两种操作模式:一种是预定义的高级动作(比如"前进"、"向右转"、"按A键"),系统会把它们转换为固定时长的按键;另一种是参数化控制,AI直接指定摇杆的角度(X和Y轴各在-1.0到1.0之间)和持续时间,控制更精细但也更难。对于需要快速反应的战斗场景,系统还有一个"自适应暂停机制"——在AI思考的时候游戏暂停,AI给出决策后游戏继续,这样不同AI的思考速度快慢就不会影响测试公平性。
评委是一套完全独立的自动评估系统。它通过"字节数组扫描"(Array of Bytes,AOB)技术,在游戏启动时扫描内存,找到与地图ID、角色坐标、任务标志相对应的内存地址,然后持续监控这些数值。当任务成功条件满足时(比如角色坐标落入特定区域的边界框内,或某个任务标志位被触发),评估系统立即判定任务成功。这些内存数值只用于评判,绝对不会提供给AI。
AI的"大脑"里还有一个可选的自我反思模块。每隔5个决策步骤,系统会触发一次反思流程:让AI回顾最近的行动历史,评估当前策略是否有效,更新短期记忆,并把有价值的经验教训写入长期的"经验库"(支持新增、删除、修改、保留四种操作)。这种机制让AI能够在没有人类介入的情况下,在任务进行中不断迭代优化自己的策略。
---
四、这套测试场到底有多难?用数字来感受一下
研究团队专门做了一个数学分析,来直观展示PokeGym对AI的挑战程度。
先看空间状态的复杂度。游戏地图里任何一个位置,加上角色朝向角度(每隔1度算一个状态),最小的地图有约67320种可能状态,最大的地图有约870840种可能状态。AI只能靠画面来判断自己在哪里、该往哪走,没有导航仪,没有坐标显示。
再看动作空间的复杂度。如果用预定义的7个高级动作,每次决策输出3个连续动作,那么每个决策点有7的3次方=343种可能组合。如果用参数化控制,每次决策的动作空间高达约6.38万亿种可能,这对AI的精确控制能力是极端的考验。
最后看决策序列的深度。最长任务有360个操作步骤。用高级动作来算,整个游戏树的大小约为10的304次方;用参数化控制来算,约为10的1536次方。这两个数字都远远超过了宇宙中的原子总数。换句话说,靠随机尝试是绝无可能完成任务的——AI必须真的"懂"在做什么。
---
五、测试结果:AI们的成绩单
研究团队测试了8款主流AI视觉语言模型,包括开源模型(GLM-4.6V、Qwen 3/3.5系列的多个版本)和闭源商业模型(GPT-5.2、Gemini-3-Pro、Claude-Sonnet-4.6),每个任务设置重复5次取平均,力求结果可靠。
从整体排名看,Gemini-3-Pro和GPT-5.2并列第一,总体成功率均为58.70%,紧随其后的是GPT-5.4(53.33%)和Claude-Sonnet-4.6(53.15%)。开源模型里表现最好的是Qwen3-VL-30B,达到52.04%,和顶尖闭源模型差距不大。表现垫底的是GPT-5.4-nano,仅有36.67%。作为对比,随机乱按的基线成功率只有2.22%,说明这个测试根本不可能靠运气蒙过去。
分任务类型看,互动类任务对所有AI来说是最容易的——Gemini-3-Pro和GPT-5.2在仅目标模式下甚至达到了100%的成功率。直观理解:互动类任务通常是"找到这个东西,按A键",只要AI能准确识别目标并走到近前,成功率自然高。导航类任务居中,混合类任务则是所有AI的噩梦,成功率普遍偏低,最高也只有60%,最低的Claude-Sonnet-4.6在仅目标模式下只有6.67%。
三种难度模式之间的比较揭示了一个有趣的分化。Gemini-3-Pro在"视觉引导"模式下表现平平(平均44.45%),但到了"步骤引导"模式(去掉视觉锚点)反而大幅提升到74.44%,导航成功率从20%跳升到70%。这说明对Gemini来说,过于详细的视觉描述反而成了干扰,可能让它产生错误的视觉预期。而Qwen系列模型则恰恰相反——去掉视觉锚点后,Qwen3.5-122B从60%的平均成功率骤降至37.22%,说明它更依赖具体的视觉描述来定位目标。
---
六、最关键的发现:AI频繁"卡住",而且以两种截然不同的方式卡住
研究团队在分析失败原因时发现了一个贯穿整个测试的核心问题:AI最主要的失败原因不是"不知道大方向该往哪走",而是"走着走着就被墙或障碍物卡住了,然后再也出不来"。
研究团队专门定义了一个指标叫做"无效移动率"(IM%),它统计的是那些AI下了移动指令但角色纹丝未动(被障碍物卡住)的决策步骤占总决策步骤的比例。通过分析240个不同AI、不同任务的数据点,研究发现"无效移动率"和"任务成功率"之间存在强烈的负相关关系——在视觉引导、步骤引导、仅目标三种模式下,皮尔逊相关系数分别为-0.57、-0.65和-0.52,且统计显著性极高(p<0.001)。简单说:卡得越多,成得越少,而且这绝不是巧合。
更深刻的发现是:成功和失败的轨迹在"卡住"这件事上有着截然不同的表现。成功的任务轨迹里,AI也会偶尔卡住,但随后的"恢复率"(IM后立刻脱困的比例)很高,说明是"碰一下就弹开了"的短暂碰撞,不影响大局。而失败的任务轨迹里,"最大连续无效移动次数"(MaxIM)会大幅攀升,AI会在同一个地方反复卡住,像一只无头苍蝇一样打转。
研究团队还测量了AI卡住时的"动作熵"(Ent)——这个指标衡量AI在卡住时候的动作有多随机。成功轨迹中卡住时的动作熵接近0,说明AI在做有目的、有方向的脱困尝试。失败轨迹中动作熵显著升高(比如GPT-5.2在混合任务的失败轨迹里从0跳升到1.11),说明AI已经陷入了混乱的乱按状态,在拼命挣扎但毫无章法。
---
七、强AI和弱AI以不同方式"卡死":一个关于自我认知的发现
为了更深入理解失败的本质,研究团队让GPT-5.2扮演"裁判",自动分析所有失败轨迹,把失败原因归入四个类别。
第一类叫"无意识卡死":AI的身体明明没动,它的"内心独白"(推理文本)却在说"我已经成功前进了,路很畅通"。它压根没意识到自己被卡住了,活在虚假的进展感中。
第二类叫"有意识卡死":AI的推理文本明确写道"我发现自己被障碍物卡住了,上一步没有前进",但它随后的动作选择依然无法让自己脱困,原地反复横跳。
第三类叫"迷失":AI的坐标在不停变化(说明身体在动),但它就是找不到目标,在地图里漫无目的地徘徊,推理文本显示"当前视野中没有目标物体"。
第四类叫"执行失败":AI已经找到了目标,推理文本里写着"我看到了目标,就在前方",但在最后几步的执行上出了问题——要么被旁边一个小花盆绊住,要么在目标的触发范围边缘反复按A键却没有触发互动。
这个自动分类系统对100个随机抽样的失败案例进行了人工验证,微F1值达到0.7368,说明分类结果是可信的。
分析所有五款被深入研究的AI模型(GPT-5.2、Gemini-3-Pro、Qwen3-VL、Qwen3.5-Plus、Claude),"执行失败"是所有AI共同的最高比例失败原因,这说明把"我看到了目标"转化为"我准确地走到目标面前并正确互动"这一步,对所有当前AI来说都是挑战。
但在"卡死"类型上,开源和闭源模型出现了明显分化。Qwen系列等开源模型主要受"无意识卡死"困扰——它们感知不到自己被卡住的事实,还在幻想自己在前进。而GPT-5.2则主要遭受"有意识卡死"——它知道自己被卡住了,却找不到出路。这就像两种截然不同的困境:一种是"我不知道我迷路了",另一种是"我知道我迷路了,但我不知道该怎么回家"。研究者把这个现象称为"元认知分化"——这实际上揭示了一个关于AI"自我感知能力"的深层差异。
---
八、被卡住的三种典型场景,以及为什么AI那么容易中招
研究团队还收集整理了导致"无意识卡死"的高频障碍场景,归纳出三种典型模式,这些分析相当生动地展示了AI视觉理解的局限性。
第一种模式叫"视觉可穿透屏障"。游戏里有很多这样的地方:眼前有一根柱子或一道栅栏,但透过它你能看到远处的草地、树木、房屋。AI会把"远处的开阔空间"理解为"前方可以通行",于是不顾眼前实际存在的物理障碍物,一次次尝试向前走。Claude-Sonnet-4.6在某个场景里就是这样——左视角画面显示远处有片绿地,它的推理文本写道"左侧显示有开阔路径",于是不断向左冲,但实际上两根红色柱子之间根本过不去。
第二种模式叫"不规则微型几何体"。AI能识别大的墙壁和建筑,会绕着走。但游戏里有很多小道具——一盆植物、一个NPC、一个路边摊——这些小物件的碰撞体积往往比视觉呈现要大,或者形状不规则。AI在接近目标的最后几步,经常被这些"小拦路虎"绊住。
第三种模式叫"误导性可互动元素"。游戏里有各种各样可以互动的对象——门、电梯、告示牌等。当AI在某个区域导航时,如果视野里出现了这类可互动物体,它就会产生强烈的"我应该去和这个东西互动"的冲动,即便这个物体和当前任务毫无关系。Gemini-3-Pro曾在一段导航任务中,因为右视角出现了一扇门,就停下来反复尝试开门,完全忘记了自己的真正目标。
这三种模式共同揭示了一个深层问题:当前的AI视觉语言模型对"外观上可通行"和"物理上可通行"的概念还没有建立清晰的区分,它更多依赖视觉语义("这块区域看起来像可走的地方")而非几何物理约束("这块区域的碰撞边界在哪里")。
---
九、干预实验:知道自己卡了有没有用?
既然卡死是核心障碍,研究团队专门对GPT-5.2做了一组干预实验,测试不同的脱困策略效果如何。实验条件是:只要AI连续3步无效移动,就触发干预,同时减少等量步骤预算保证公平。
纯文字提示干预的效果非常糟糕。告诉AI"你被卡住了,请尝试换个方向"之后,GPT-5.2的平均成功率反而从58.70%降到了43.33%,三类任务全面下降。结合之前"有意识卡死"的发现,这个结果说明GPT-5.2本来就已经知道自己卡住了,再告诉它一遍,它还是不知道该怎么办,反而可能因为这个提示干扰了原本的思路。
强制执行3步后退的效果明显好得多。成功率从58.70%提升到62.22%,导航任务的提升尤其显著(从31.67%到40.00%),同时平均消耗步骤数也减少了(从91.40减至85.38),说明强制脱困不仅提高了成功率,还让AI更高效。
强制执行后退加转向的效果居中,比纯文字提示好,但略低于纯后退。
这组实验的核心结论是:当AI自己的语言理解能力不足以转化为有效的空间脱困动作时,一个简单、粗暴的确定性规则(往后退)反而比任何语言指导都更管用。物理层面的解决方案胜过了认知层面的提醒。
---
十、左右视角、回顾历史帧、反思模块:这些加分项效果如何
研究团队还做了一系列消融实验,研究不同的辅助信息对GPT-5.2表现的影响。
关于左右侧视角的问题,结论是"对互动任务很有帮助,但对导航任务有害"。加入左右视角后,互动任务成功率从46.67%跳升至86.67%(甚至在有历史帧辅助时达到93.33%)。但导航任务的成功率却下降了。可能的解释是:互动任务需要看清目标物体周围的情况,侧视角拓展了视野,大有帮助;但导航任务需要专注于正前方的路径,侧视角引入了额外的视觉信息,可能造成分散注意力的效果。
关于回顾上一帧历史画面的问题,效果则非常稳定,在所有场景下都有正向或中性的影响。特别是混合任务,在没有侧视角的情况下,仅加入历史帧就让成功率从33.33%跳升至73.33%。这说明"把当前画面和刚才的画面做对比,看看自己刚才的动作是否有效果",是AI维持跨步骤一致性的重要手段。
关于自我反思模块的有效性,结论是"因模型能力而异,对弱模型可能适得其反"。对Gemini-3-Pro来说,加入反思模块后平均成功率从58.70%提升到65.93%,同时步骤数减少,说明反思真的让它更高效了。但对Qwen3-VL而言,反思模块导致混合任务成功率从44.44%骤降到28.89%;Qwen3.5-Plus的导航任务也有所下降。更值得关注的是,所有被测试的AI,在混合任务上都无法从反思中获益。混合任务涉及场景的剧烈转换(比如从街道导航突然切入宝可梦对战再回到导航),历史经验在这种情况下不仅无用,反而会让AI倾向于沿用已经不适用的旧策略。
---
十一、PokeGym的成绩与其他AI测试的关系:一张相关性地图
研究团队把PokeGym的8款模型成绩,与8套主流AI评测(包括MMMU-Pro、VideoMMMU、ScreenSpot-Pro、CharXiv-R、Humanity's Last Exam、GPQA、SWE-Bench、Text-Arena)的成绩进行了交叉相关分析。这张相关性地图揭示了一些值得深思的模式。
互动类任务与大部分外部测试呈正相关,相关系数在0.63到0.88之间。这说明互动任务考察的能力(识别目标、走到近前、正确操作)和主流评测考察的能力有相当大的重叠。换言之,总体上更强的AI在互动任务上也确实表现更好。
导航类任务则与几乎所有外部测试呈负相关或接近零相关,包括与MMMU-Pro(-0.42)、VideoMMMU(-0.41)、ScreenSpot-Pro(-0.80)等。这是一个很重要的发现:在主流评测上得分高,根本不能预测AI在三维空间导航上的表现。导航需要的是持久的空间记忆、路径规划、障碍规避和稳定的长时序控制——这些能力在当前主流评测中几乎没有被系统测量过。
视觉引导模式整体上与外部测试呈负相关(最低达到-0.66,对应Text-Arena)。这个反常现象说明,那些在文字交互测试里表现强的模型,在需要把细粒度视觉描述精确对应到像素操作的场景下,反而表现不佳。文字能力和视觉锚定能力,是两套相对独立的技能。
---
说到底,PokeGym这项研究告诉了我们一件颇为有趣的事:我们以为AI视觉语言模型已经相当聪明了——能看图、能答题、能写文章——但一旦让它"活在"一个真实的三维世界里,靠眼睛看、靠手操作、一步步完成长链任务,它立刻就暴露出了根本性的短板。最顶尖的AI,成功率也不超过60%,而且最主要的失败原因不是"不知道去哪",而是"走着走着就卡在了一个角落里,出不来了"。
更耐人寻味的是那个"元认知分化":较弱的AI不知道自己卡住了,较强的AI知道自己卡住了但不知道怎么出来。这两种困境指向同一个结论:当前AI缺乏真正的"空间直觉"——那种人类婴儿期就通过爬行和触碰积累起来的、对物体碰撞和空间边界的本能感知。
这对AI未来的发展方向有明确的启示:光靠在大量图文数据上做预训练是不够的,AI还需要获得某种形式的具身物理经验,才能真正理解"我被墙挡住了"和"我应该往左绕"之间的因果关系。
对于普通读者来说,这项研究意味着:当有人告诉你"AI现在很强了,什么都会"的时候,你可以说——好,让它在游戏里找个NPC说话试试,要靠自己的眼睛,不许用地图导航。
有兴趣深入了解的读者,可以在arXiv.org上通过编号arXiv:2604.08340查找完整论文,标题为《PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models》。
---
Q&A
Q1:PokeGym和之前的AI游戏测试有什么不同?
A:PokeGym最核心的区别有三点。第一,游戏环境是真实的3D开放世界(《宝可梦传说:Z-A》),而非简化的2D格子世界,视觉复杂度接近真实世界。第二,AI只能看屏幕画面,没有任何坐标、地图等"上帝视角"数据,彻底排除了作弊可能。第三,任务成功与否通过扫描游戏内存来自动判断,完全不需要人工评审,可以大规模运行。这三个特点在此前的评测系统中从未被同时满足。
Q2:AI在宝可梦游戏里卡死是什么意思,为什么这个问题这么重要?
A:卡死是指AI发出了移动指令,但角色因为被墙壁或障碍物挡住而完全没有移动。这个问题之所以重要,是因为研究发现它和任务失败率有极强的统计关联,皮尔逊相关系数达到-0.52到-0.65。更关键的是,失败轨迹里AI会陷入长时间连续卡死并做出混乱的随机动作,说明AI缺乏真正的空间感知能力来识别和解决碰撞问题。
Q3:测试中表现最好的AI模型是哪个?
A:Gemini-3-Pro和GPT-5.2并列第一,总体任务成功率均为58.70%。两者各有优势:Gemini-3-Pro在去掉视觉提示的步骤引导模式下表现尤为突出(74.44%),对语义理解依赖更强;GPT-5.2在互动类任务的仅目标模式下达到100%成功率,目标识别和操作能力较强。开源模型里最强的是Qwen3-VL-30B,以52.04%的成功率位列第五,和顶级闭源模型差距不大。
好文章,需要你的鼓励
加州大学洛杉矶分校等机构联合推出的Unify-Agent突破了传统AI图像生成的知识局限,通过整合"思考-搜索-整理-绘制"四步工作流程,让AI画师具备主动查找资料的能力。该系统在FactIP基准测试中相关性指标提升61%,特别擅长处理需要准确世界知识的长尾内容和文化特色图像生成任务。
中科院团队开发的FlowPIE系统首次将动态文献探索与创意进化相结合,突破传统AI科学创意生成的同质化局限。该系统通过流引导蒙特卡洛树搜索实现文献检索与创意生成的紧密耦合,并采用类生物进化机制持续优化创意质量。实验显示,FlowPIE在新颖性、可行性等维度显著超越现有方法,展现出强大的跨领域泛化能力,为AI辅助科研开辟了新路径。
阿里巴巴DAMO研究院推出Lingshu-Cell虚拟细胞建模系统,采用掩码离散扩散模型技术,能够精确模拟和预测细胞在基因编辑、药物刺激等干预下的反应。该系统在国际虚拟细胞挑战赛中表现出色,为个性化医疗和药物开发开辟了全新路径,标志着数字生物学时代的到来。
上海AI实验室联合多所高校发布GEMS技术,通过智能团队协作机制让60亿参数的小模型在图像生成上超越顶级商业模型。该系统包含循环优化、记忆管理和技能库三大核心,采用多轮迭代和专业技能匹配,在主流测试中提升14分以上,为资源受限环境下的高质量AI应用提供新方案。