微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

电子科技大学造了一个"宝可梦游戏试炼场"，专门测试AI的眼睛够不够用

具身智能视觉语言模型游戏评测基准

电子科技大学造了一个"宝可梦游戏试炼场"，专门测试AI的眼睛够不够用

作者：科技行者

2026-04-17 10:46

分享至：

这项由电子科技大学深圳信息与人工智能研究院与新加坡A\*STAR联合发布的研究（arXiv:2604.08340），提出了一套名为PokeGym的视觉驱动长时序评测基准，将AI视觉语言模型放入3D开放世界游戏《宝可梦传说：Z-A》中进行测试。AI只能看原始画面，不获取任何内部状态数据，任务成功通过内存扫描自动判断。测试包含30个任务和三种指令难度，系统揭示了当前AI在三维空间中最核心的短板：物理碰撞脱困能力，而非高层规划，才是最大的失败瓶颈。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2026-04-17 10:46 • 科技行者

这项由电子科技大学深圳信息与人工智能研究院（SIAS, UESTC）联合新加坡科技研究局计算智能研究院（A\*STAR CFAR/IHPC）共同完成的研究，于2026年4月以预印本形式发布在arXiv平台，编号为arXiv:2604.08340v1，研究方向为计算机视觉与人工智能交叉领域。有兴趣深入了解的读者可通过该编号在arXiv.org查询完整论文。

现在的AI视觉语言模型，就像一个读了很多书、看了很多照片的博学学生。你给它一张猫咪的图，它能告诉你"这是一只橘猫，正在晒太阳"；你问它"法国大革命是什么时候"，它对答如流。但如果你把这个学生放进一个真实的三维世界，让他靠着自己的眼睛去导航、去找人、去完成一系列任务——他会怎么表现？

这正是这支研究团队想要回答的问题。而他们选择的测试场地，是任天堂的3D开放世界游戏《宝可梦传说：Z-A》。

研究团队将这套测试系统命名为**PokeGym**。它的核心思路是：给AI看游戏屏幕上的原始像素画面，让AI自己决定按什么键、怎么移动、去哪里找目标，完全不提供任何"作弊信息"——不告诉AI角色坐标在哪里，不告诉它面前是什么物体，AI只能像真正的玩家一样，靠眼睛看，靠大脑想，靠手（虚拟手柄）操作。测试结束后，系统通过扫描游戏内存来自动判断任务是否完成，不需要人工逐一评判，既省力又客观。

这套系统填补了一个长期存在的空缺。在此之前，研究者们要么用简化的2D游戏来测AI（视觉太简单，不够真实），要么虽然用了3D游戏，却偷偷把角色坐标等内部数据喂给AI（这样AI就不需要真正"看"了，相当于开了上帝视角），要么虽然用了真实3D游戏且只给AI看画面，却需要人工一个个判断任务成功没有（费时费力，而且带有主观性）。PokeGym同时解决了这三个问题。

---

一、为什么偏偏选了宝可梦游戏来"折磨"AI

要理解PokeGym的设计逻辑，不妨把AI视觉语言模型比作一个刚入职的新员工。这个新员工读过大量培训手册（互联网上的海量图文数据），理论知识相当扎实。但真正的工作能力，要在实际工作场景中才能检验。

《宝可梦传说：Z-A》这款游戏之所以被选中，是因为它同时具备三个让AI极度头疼的特性。

第一个特性是摄像头会动。游戏里的视角不是固定的，玩家可以自由旋转镜头来观察四周。这意味着AI必须主动"转头"才能看到更多信息——目标可能在你左边，也可能被建筑物遮住了，你不转动视角就永远发现不了。这跟那些固定镜头的2D游戏完全不同，后者你永远知道屏幕的每个角落有什么。

第二个特性是场景极其复杂。游戏里有密集的建筑群、茂密的植被、各种路人NPC、乱跑的野生宝可梦、各式各样的可互动道具，还有覆盖在画面上的各种UI界面元素。场景里有多个深度层次，光影会随时间变化，物体之间还会相互遮挡。AI需要在这一团视觉"噪音"中准确找到自己的目标，而不是被其他东西迷惑。

第三个特性是任务进展依赖结构化剧情。和《我的世界》那种"你想干嘛就干嘛"的沙盒游戏不同，《宝可梦传说：Z-A》的进展是由任务、事件触发器和特定互动来推动的。AI不仅要能在空间里导航，还要理解"现在应该先完成哪个步骤，才能触发下一个事件"。这要求AI具备真正的长期规划能力，而不只是短视地处理眼前的单步操作。

---

二、游戏规则是怎么设计的：30个任务、三种难度模式

研究团队在PokeGym里设计了30个长时序任务，这些任务来自游戏里的10条主线支线任务。按照任务性质，它们被分成三类：导航类（走到某个地方）、互动类（和特定物体或NPC发生互动）以及混合类（既要走路又要互动，还可能要打架）。每个任务都有明确的起始存档、明确的成功条件、以及一个固定的"步骤预算"，大约在180到360个操作步骤之间——这是根据人类玩家的实际操作时长估算出来的。步骤一旦用完，任务就判定失败。

更有意思的是，每个任务都有三种指令版本，形成了三个递进的难度层次，专门用来拆解AI的不同能力。

最简单的版本叫做"视觉引导模式"，指令会详细描述每一步要做什么，并且给出视觉锚点，比如"走近那扇有门牌号的棕色木门，进入后找到站在前台背后的旅馆老板"。这个模式考验的是AI把语言描述转化为像素级视觉搜索的能力——说白了，就是"我告诉你看什么，你能不能准确找到"。

中等难度的版本叫"步骤引导模式"，指令保留了每个步骤要干什么，但去掉了那些视觉线索，比如"走进房子的门，找到并和旅馆老板说话"。这时候AI不再知道"棕色木门"在哪，必须靠自己的常识和语义理解去判断——一般旅馆的前台大概长什么样，在哪个方向？

最难的版本叫"仅目标模式"，只告诉AI最终目标，比如"找到旅馆老板并和他说话"。AI必须自行分解目标、自行规划路线、自行探索空间，就像一个第一次来到陌生城市却只知道"我要去找个叫老王的人"的旅行者。这个模式考验的是AI完整的自主探索和长期规划能力。

---

三、让AI玩游戏需要一套精密的机器：系统架构解析

PokeGym的运行需要四个部分协同工作，就像一场戏剧演出需要演员、剧本、舞台和评委各司其职。

演员是AI视觉语言模型本身。每隔一定的时间步，系统就截取当前游戏画面（还可以额外提供"上一帧画面"和"左右两侧的侧视角画面"，共四张图），把这些画面连同任务指令一起送给AI，让AI决定下一步怎么做。关键在于，这些画面是直接从游戏的GPU纹理里取出来的，不经过操作系统层面的截图，这样可以减少延迟、避免窗口遮挡问题，而且绝对不会把任何游戏内部状态数据（如坐标、地图ID）混入画面提供给AI。

舞台是Ryujinx模拟器，这是一个开源的任天堂Switch模拟器，游戏就在它上面运行。AI的决策会被转换为具体的按键操作发送给模拟器。这里有两种操作模式：一种是预定义的高级动作（比如"前进"、"向右转"、"按A键"），系统会把它们转换为固定时长的按键；另一种是参数化控制，AI直接指定摇杆的角度（X和Y轴各在-1.0到1.0之间）和持续时间，控制更精细但也更难。对于需要快速反应的战斗场景，系统还有一个"自适应暂停机制"——在AI思考的时候游戏暂停，AI给出决策后游戏继续，这样不同AI的思考速度快慢就不会影响测试公平性。

评委是一套完全独立的自动评估系统。它通过"字节数组扫描"（Array of Bytes，AOB）技术，在游戏启动时扫描内存，找到与地图ID、角色坐标、任务标志相对应的内存地址，然后持续监控这些数值。当任务成功条件满足时（比如角色坐标落入特定区域的边界框内，或某个任务标志位被触发），评估系统立即判定任务成功。这些内存数值只用于评判，绝对不会提供给AI。

AI的"大脑"里还有一个可选的自我反思模块。每隔5个决策步骤，系统会触发一次反思流程：让AI回顾最近的行动历史，评估当前策略是否有效，更新短期记忆，并把有价值的经验教训写入长期的"经验库"（支持新增、删除、修改、保留四种操作）。这种机制让AI能够在没有人类介入的情况下，在任务进行中不断迭代优化自己的策略。

---

四、这套测试场到底有多难？用数字来感受一下

研究团队专门做了一个数学分析，来直观展示PokeGym对AI的挑战程度。

先看空间状态的复杂度。游戏地图里任何一个位置，加上角色朝向角度（每隔1度算一个状态），最小的地图有约67320种可能状态，最大的地图有约870840种可能状态。AI只能靠画面来判断自己在哪里、该往哪走，没有导航仪，没有坐标显示。

再看动作空间的复杂度。如果用预定义的7个高级动作，每次决策输出3个连续动作，那么每个决策点有7的3次方=343种可能组合。如果用参数化控制，每次决策的动作空间高达约6.38万亿种可能，这对AI的精确控制能力是极端的考验。

最后看决策序列的深度。最长任务有360个操作步骤。用高级动作来算，整个游戏树的大小约为10的304次方；用参数化控制来算，约为10的1536次方。这两个数字都远远超过了宇宙中的原子总数。换句话说，靠随机尝试是绝无可能完成任务的——AI必须真的"懂"在做什么。

---

五、测试结果：AI们的成绩单

研究团队测试了8款主流AI视觉语言模型，包括开源模型（GLM-4.6V、Qwen 3/3.5系列的多个版本）和闭源商业模型（GPT-5.2、Gemini-3-Pro、Claude-Sonnet-4.6），每个任务设置重复5次取平均，力求结果可靠。

从整体排名看，Gemini-3-Pro和GPT-5.2并列第一，总体成功率均为58.70%，紧随其后的是GPT-5.4（53.33%）和Claude-Sonnet-4.6（53.15%）。开源模型里表现最好的是Qwen3-VL-30B，达到52.04%，和顶尖闭源模型差距不大。表现垫底的是GPT-5.4-nano，仅有36.67%。作为对比，随机乱按的基线成功率只有2.22%，说明这个测试根本不可能靠运气蒙过去。

分任务类型看，互动类任务对所有AI来说是最容易的——Gemini-3-Pro和GPT-5.2在仅目标模式下甚至达到了100%的成功率。直观理解：互动类任务通常是"找到这个东西，按A键"，只要AI能准确识别目标并走到近前，成功率自然高。导航类任务居中，混合类任务则是所有AI的噩梦，成功率普遍偏低，最高也只有60%，最低的Claude-Sonnet-4.6在仅目标模式下只有6.67%。

三种难度模式之间的比较揭示了一个有趣的分化。Gemini-3-Pro在"视觉引导"模式下表现平平（平均44.45%），但到了"步骤引导"模式（去掉视觉锚点）反而大幅提升到74.44%，导航成功率从20%跳升到70%。这说明对Gemini来说，过于详细的视觉描述反而成了干扰，可能让它产生错误的视觉预期。而Qwen系列模型则恰恰相反——去掉视觉锚点后，Qwen3.5-122B从60%的平均成功率骤降至37.22%，说明它更依赖具体的视觉描述来定位目标。

---

六、最关键的发现：AI频繁"卡住"，而且以两种截然不同的方式卡住

研究团队在分析失败原因时发现了一个贯穿整个测试的核心问题：AI最主要的失败原因不是"不知道大方向该往哪走"，而是"走着走着就被墙或障碍物卡住了，然后再也出不来"。

研究团队专门定义了一个指标叫做"无效移动率"（IM%），它统计的是那些AI下了移动指令但角色纹丝未动（被障碍物卡住）的决策步骤占总决策步骤的比例。通过分析240个不同AI、不同任务的数据点，研究发现"无效移动率"和"任务成功率"之间存在强烈的负相关关系——在视觉引导、步骤引导、仅目标三种模式下，皮尔逊相关系数分别为-0.57、-0.65和-0.52，且统计显著性极高（p<0.001）。简单说：卡得越多，成得越少，而且这绝不是巧合。

更深刻的发现是：成功和失败的轨迹在"卡住"这件事上有着截然不同的表现。成功的任务轨迹里，AI也会偶尔卡住，但随后的"恢复率"（IM后立刻脱困的比例）很高，说明是"碰一下就弹开了"的短暂碰撞，不影响大局。而失败的任务轨迹里，"最大连续无效移动次数"（MaxIM）会大幅攀升，AI会在同一个地方反复卡住，像一只无头苍蝇一样打转。

研究团队还测量了AI卡住时的"动作熵"（Ent）——这个指标衡量AI在卡住时候的动作有多随机。成功轨迹中卡住时的动作熵接近0，说明AI在做有目的、有方向的脱困尝试。失败轨迹中动作熵显著升高（比如GPT-5.2在混合任务的失败轨迹里从0跳升到1.11），说明AI已经陷入了混乱的乱按状态，在拼命挣扎但毫无章法。

---

七、强AI和弱AI以不同方式"卡死"：一个关于自我认知的发现

为了更深入理解失败的本质，研究团队让GPT-5.2扮演"裁判"，自动分析所有失败轨迹，把失败原因归入四个类别。

第一类叫"无意识卡死"：AI的身体明明没动，它的"内心独白"（推理文本）却在说"我已经成功前进了，路很畅通"。它压根没意识到自己被卡住了，活在虚假的进展感中。

第二类叫"有意识卡死"：AI的推理文本明确写道"我发现自己被障碍物卡住了，上一步没有前进"，但它随后的动作选择依然无法让自己脱困，原地反复横跳。

第三类叫"迷失"：AI的坐标在不停变化（说明身体在动），但它就是找不到目标，在地图里漫无目的地徘徊，推理文本显示"当前视野中没有目标物体"。

第四类叫"执行失败"：AI已经找到了目标，推理文本里写着"我看到了目标，就在前方"，但在最后几步的执行上出了问题——要么被旁边一个小花盆绊住，要么在目标的触发范围边缘反复按A键却没有触发互动。

这个自动分类系统对100个随机抽样的失败案例进行了人工验证，微F1值达到0.7368，说明分类结果是可信的。

分析所有五款被深入研究的AI模型（GPT-5.2、Gemini-3-Pro、Qwen3-VL、Qwen3.5-Plus、Claude），"执行失败"是所有AI共同的最高比例失败原因，这说明把"我看到了目标"转化为"我准确地走到目标面前并正确互动"这一步，对所有当前AI来说都是挑战。

但在"卡死"类型上，开源和闭源模型出现了明显分化。Qwen系列等开源模型主要受"无意识卡死"困扰——它们感知不到自己被卡住的事实，还在幻想自己在前进。而GPT-5.2则主要遭受"有意识卡死"——它知道自己被卡住了，却找不到出路。这就像两种截然不同的困境：一种是"我不知道我迷路了"，另一种是"我知道我迷路了，但我不知道该怎么回家"。研究者把这个现象称为"元认知分化"——这实际上揭示了一个关于AI"自我感知能力"的深层差异。

---

八、被卡住的三种典型场景，以及为什么AI那么容易中招

研究团队还收集整理了导致"无意识卡死"的高频障碍场景，归纳出三种典型模式，这些分析相当生动地展示了AI视觉理解的局限性。

第一种模式叫"视觉可穿透屏障"。游戏里有很多这样的地方：眼前有一根柱子或一道栅栏，但透过它你能看到远处的草地、树木、房屋。AI会把"远处的开阔空间"理解为"前方可以通行"，于是不顾眼前实际存在的物理障碍物，一次次尝试向前走。Claude-Sonnet-4.6在某个场景里就是这样——左视角画面显示远处有片绿地，它的推理文本写道"左侧显示有开阔路径"，于是不断向左冲，但实际上两根红色柱子之间根本过不去。

第二种模式叫"不规则微型几何体"。AI能识别大的墙壁和建筑，会绕着走。但游戏里有很多小道具——一盆植物、一个NPC、一个路边摊——这些小物件的碰撞体积往往比视觉呈现要大，或者形状不规则。AI在接近目标的最后几步，经常被这些"小拦路虎"绊住。

第三种模式叫"误导性可互动元素"。游戏里有各种各样可以互动的对象——门、电梯、告示牌等。当AI在某个区域导航时，如果视野里出现了这类可互动物体，它就会产生强烈的"我应该去和这个东西互动"的冲动，即便这个物体和当前任务毫无关系。Gemini-3-Pro曾在一段导航任务中，因为右视角出现了一扇门，就停下来反复尝试开门，完全忘记了自己的真正目标。

这三种模式共同揭示了一个深层问题：当前的AI视觉语言模型对"外观上可通行"和"物理上可通行"的概念还没有建立清晰的区分，它更多依赖视觉语义（"这块区域看起来像可走的地方"）而非几何物理约束（"这块区域的碰撞边界在哪里"）。

---

九、干预实验：知道自己卡了有没有用？

既然卡死是核心障碍，研究团队专门对GPT-5.2做了一组干预实验，测试不同的脱困策略效果如何。实验条件是：只要AI连续3步无效移动，就触发干预，同时减少等量步骤预算保证公平。

纯文字提示干预的效果非常糟糕。告诉AI"你被卡住了，请尝试换个方向"之后，GPT-5.2的平均成功率反而从58.70%降到了43.33%，三类任务全面下降。结合之前"有意识卡死"的发现，这个结果说明GPT-5.2本来就已经知道自己卡住了，再告诉它一遍，它还是不知道该怎么办，反而可能因为这个提示干扰了原本的思路。

强制执行3步后退的效果明显好得多。成功率从58.70%提升到62.22%，导航任务的提升尤其显著（从31.67%到40.00%），同时平均消耗步骤数也减少了（从91.40减至85.38），说明强制脱困不仅提高了成功率，还让AI更高效。

强制执行后退加转向的效果居中，比纯文字提示好，但略低于纯后退。

这组实验的核心结论是：当AI自己的语言理解能力不足以转化为有效的空间脱困动作时，一个简单、粗暴的确定性规则（往后退）反而比任何语言指导都更管用。物理层面的解决方案胜过了认知层面的提醒。

---

十、左右视角、回顾历史帧、反思模块：这些加分项效果如何

研究团队还做了一系列消融实验，研究不同的辅助信息对GPT-5.2表现的影响。

关于左右侧视角的问题，结论是"对互动任务很有帮助，但对导航任务有害"。加入左右视角后，互动任务成功率从46.67%跳升至86.67%（甚至在有历史帧辅助时达到93.33%）。但导航任务的成功率却下降了。可能的解释是：互动任务需要看清目标物体周围的情况，侧视角拓展了视野，大有帮助；但导航任务需要专注于正前方的路径，侧视角引入了额外的视觉信息，可能造成分散注意力的效果。

关于回顾上一帧历史画面的问题，效果则非常稳定，在所有场景下都有正向或中性的影响。特别是混合任务，在没有侧视角的情况下，仅加入历史帧就让成功率从33.33%跳升至73.33%。这说明"把当前画面和刚才的画面做对比，看看自己刚才的动作是否有效果"，是AI维持跨步骤一致性的重要手段。

关于自我反思模块的有效性，结论是"因模型能力而异，对弱模型可能适得其反"。对Gemini-3-Pro来说，加入反思模块后平均成功率从58.70%提升到65.93%，同时步骤数减少，说明反思真的让它更高效了。但对Qwen3-VL而言，反思模块导致混合任务成功率从44.44%骤降到28.89%；Qwen3.5-Plus的导航任务也有所下降。更值得关注的是，所有被测试的AI，在混合任务上都无法从反思中获益。混合任务涉及场景的剧烈转换（比如从街道导航突然切入宝可梦对战再回到导航），历史经验在这种情况下不仅无用，反而会让AI倾向于沿用已经不适用的旧策略。

---

十一、PokeGym的成绩与其他AI测试的关系：一张相关性地图

研究团队把PokeGym的8款模型成绩，与8套主流AI评测（包括MMMU-Pro、VideoMMMU、ScreenSpot-Pro、CharXiv-R、Humanity's Last Exam、GPQA、SWE-Bench、Text-Arena）的成绩进行了交叉相关分析。这张相关性地图揭示了一些值得深思的模式。

互动类任务与大部分外部测试呈正相关，相关系数在0.63到0.88之间。这说明互动任务考察的能力（识别目标、走到近前、正确操作）和主流评测考察的能力有相当大的重叠。换言之，总体上更强的AI在互动任务上也确实表现更好。

导航类任务则与几乎所有外部测试呈负相关或接近零相关，包括与MMMU-Pro（-0.42）、VideoMMMU（-0.41）、ScreenSpot-Pro（-0.80）等。这是一个很重要的发现：在主流评测上得分高，根本不能预测AI在三维空间导航上的表现。导航需要的是持久的空间记忆、路径规划、障碍规避和稳定的长时序控制——这些能力在当前主流评测中几乎没有被系统测量过。

视觉引导模式整体上与外部测试呈负相关（最低达到-0.66，对应Text-Arena）。这个反常现象说明，那些在文字交互测试里表现强的模型，在需要把细粒度视觉描述精确对应到像素操作的场景下，反而表现不佳。文字能力和视觉锚定能力，是两套相对独立的技能。

---

说到底，PokeGym这项研究告诉了我们一件颇为有趣的事：我们以为AI视觉语言模型已经相当聪明了——能看图、能答题、能写文章——但一旦让它"活在"一个真实的三维世界里，靠眼睛看、靠手操作、一步步完成长链任务，它立刻就暴露出了根本性的短板。最顶尖的AI，成功率也不超过60%，而且最主要的失败原因不是"不知道去哪"，而是"走着走着就卡在了一个角落里，出不来了"。

更耐人寻味的是那个"元认知分化"：较弱的AI不知道自己卡住了，较强的AI知道自己卡住了但不知道怎么出来。这两种困境指向同一个结论：当前AI缺乏真正的"空间直觉"——那种人类婴儿期就通过爬行和触碰积累起来的、对物体碰撞和空间边界的本能感知。

这对AI未来的发展方向有明确的启示：光靠在大量图文数据上做预训练是不够的，AI还需要获得某种形式的具身物理经验，才能真正理解"我被墙挡住了"和"我应该往左绕"之间的因果关系。

对于普通读者来说，这项研究意味着：当有人告诉你"AI现在很强了，什么都会"的时候，你可以说——好，让它在游戏里找个NPC说话试试，要靠自己的眼睛，不许用地图导航。

有兴趣深入了解的读者，可以在arXiv.org上通过编号arXiv:2604.08340查找完整论文，标题为《PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models》。

---

Q&A

Q1：PokeGym和之前的AI游戏测试有什么不同？

A：PokeGym最核心的区别有三点。第一，游戏环境是真实的3D开放世界（《宝可梦传说：Z-A》），而非简化的2D格子世界，视觉复杂度接近真实世界。第二，AI只能看屏幕画面，没有任何坐标、地图等"上帝视角"数据，彻底排除了作弊可能。第三，任务成功与否通过扫描游戏内存来自动判断，完全不需要人工评审，可以大规模运行。这三个特点在此前的评测系统中从未被同时满足。

Q2：AI在宝可梦游戏里卡死是什么意思，为什么这个问题这么重要？

A：卡死是指AI发出了移动指令，但角色因为被墙壁或障碍物挡住而完全没有移动。这个问题之所以重要，是因为研究发现它和任务失败率有极强的统计关联，皮尔逊相关系数达到-0.52到-0.65。更关键的是，失败轨迹里AI会陷入长时间连续卡死并做出混乱的随机动作，说明AI缺乏真正的空间感知能力来识别和解决碰撞问题。

Q3：测试中表现最好的AI模型是哪个？

A：Gemini-3-Pro和GPT-5.2并列第一，总体任务成功率均为58.70%。两者各有优势：Gemini-3-Pro在去掉视觉提示的步骤引导模式下表现尤为突出（74.44%），对语义理解依赖更强；GPT-5.2在互动类任务的仅目标模式下达到100%成功率，目标识别和操作能力较强。开源模型里最强的是Qwen3-VL-30B，以52.04%的成功率位列第五，和顶级闭源模型差距不大。

具身智能视觉语言模型游戏评测基准

分享至