微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

游戏测试揭秘：大语言模型玩游戏到底有多厉害？——加州大学圣地亚哥分校研究团队带你了解LMGAME-BENCH

人工智能游戏评估大语言模型

游戏测试揭秘：大语言模型玩游戏到底有多厉害？——加州大学圣地亚哥分校研究团队带你了解LMGAME-BENCH

作者：科技行者

2025-05-27 14:37

分享至：

LMGAME-BENCH是一项创新研究，通过六款经典游戏评估大语言模型的游戏能力。研究发现直接让模型玩游戏效果不佳，因此团队设计了感知、记忆和推理支架来解决视觉识别弱、提示敏感和数据污染等问题。测试13款顶级模型显示，o3和o1表现最佳，且不同游戏考验不同能力组合。有趣的是，在某一游戏上训练模型不仅提升该游戏表现，还能增强其在规划和决策任务上的能力，证明游戏环境既是有效的评估工具，也是有价值的训练场景。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-27 14:37 • 科技行者

近日，来自加州大学圣地亚哥分校、MBZUAI和加州大学伯克利分校的研究团队联合发表了一项有趣的研究：LMGAME-BENCH。这项研究由Lanxiang Hu和Mingjia Huo领衔，并得到了Eric P. Xing、Ion Stoica、Tajana Rosing、Haojian Jin以及Hao Zhang等人的支持，于2025年5月发表在arXiv预印本平台（arXiv:2505.15146v1）。研究团队创建了一个游戏基准测试集，用来评估大语言模型（LLM）玩游戏的能力。感兴趣的读者可以通过https://github.com/lmgame-org/GamingAgent/lmgame-bench访问他们的评估代码。

一、为什么要用游戏测试大语言模型？

想象一下，如果你要判断一个人是否聪明，除了让他做数学题和解答知识问题外，观察他玩游戏的表现也是一个不错的方法。游戏需要玩家具备观察环境、记忆信息和规划行动的能力，这恰恰是我们希望现代大语言模型（LLM）能够掌握的核心技能。

游戏一直是人工智能领域的标准测试场。从早期的TD-Gammon到近年的AlphaGo，游戏环境为研究规划和序列决策提供了理想的平台。随着大语言模型技术的发展，研究人员发现这些模型可以通过强化学习训练成为能在交互环境中导航的智能体，包括游戏世界。

研究团队指出，游戏之所以成为测试LLM的绝佳选择，有两个主要原因：首先，游戏考验的技能（观察、推理和多步规划）正是实用型LLM智能体需要掌握的；其次，已有数千种现成游戏可以转化为基准测试。但问题来了：直接把LLM放入游戏环境中，真的能有效评估它们的能力吗？

二、直接让模型玩游戏行不通？三大挑战浮出水面

乍看之下，评估LLM的游戏表现似乎很简单：把游戏截图发送给视觉-语言模型（VLM），让它生成下一步动作就行了。但研究团队发现，即使最先进的推理模型，在没有辅助的情况下，表现往往与随机行动差不多。这是因为模型在视觉感知和长期决策方面存在明显短板。

研究团队识别出三个主要挑战：

首先是"脆弱的视觉感知"。想象一下你戴着极度模糊的眼镜玩游戏，看不清屏幕上的细节和元素，这就是当前模型面临的困境。它们无法准确识别游戏中的各种视觉元素，导致决策失误。

其次是"提示敏感性"。就像同一个游戏规则，用不同的解释方式会导致玩家理解差异巨大。研究团队发现，即使是经验丰富的提示工程师设计的提示，在性能上也会出现超过±1标准差的变化。提示语言的微小变化可能导致模型表现截然不同。

最后一个挑战是"数据污染风险"。由于流行游戏的资产和解决方案可能已经出现在训练数据中，模型可能不是靠实时推理解决问题，而是回忆训练中看到的内容。这让我们难以判断模型是真正理解了游戏，还是只是在"背答案"。

三、LMGAME-BENCH：将游戏转变为可靠的评估工具

针对这些挑战，研究团队开发了LMGAME-BENCH，这是一套能将游戏转变为可靠评估工具的基准测试框架。它包含平台跳跃类、解谜类和叙事类游戏，通过统一的Gym风格API提供，并配备了轻量级感知和记忆支架。

LMGAME-BENCH的核心创新在于三个方面：

第一，它通过开发游戏支架（gaming harness）丰富了评估环境。这个支架包括感知模块和记忆模块，前者帮助模型更好地理解游戏视觉信息，后者则辅助长期规划。想象一下，这就像给模型配备了一副能看清游戏细节的特殊眼镜，以及一个能记录重要信息的笔记本。

第二，它能检测并减轻数据污染。当发现可能的数据污染情况时，LMGAME-BENCH会调整游戏设置，确保测试的公平性。比如在《逆转裁判》游戏中，研究团队发现模型可能记住了公开的游戏脚本，于是他们采用了实体掩码、改述和强制推理等方法进行缓解。

第三，它采用了标准化的提示优化技术来减少提示敏感性。具体来说，研究团队使用了两阶段优化方法：首先按照经验设计基准提示，然后利用DSPy框架中的SIMBA优化器进一步优化提示，使其在不同模型间表现更加稳定。

四、测试场景：六款经典游戏挑战不同能力

LMGAME-BENCH精心选择了六款经典游戏，每款游戏都设计用来测试模型的不同能力：

**超级马里奥兄弟**：这款侧滚平台游戏要求玩家控制马里奥穿越障碍、击败敌人并到达每个关卡的终点。游戏考验(1)视觉感知能力，(2)在2D环境中进行空间推理以控制角色，以及(3)在交互环境中进行目标导向规划的能力。这有点像让模型在一条充满陷阱的道路上，精确地操控一个角色前进。

**俄罗斯方块**：在这款拼图游戏中，玩家必须战略性地旋转和放置由7种不同几何形状组成的下落方块，以完成并清除水平线。游戏强调(1)视觉感知的模式识别能力，(2)正确匹配方块和几何旋转的空间推理，以及(3)在部分可观察环境中进行长期规划，决定在哪里以及如何放置方块。这相当于要求模型像建筑师一样，在有限空间内放置形状各异的积木，并预见每个决策的长期后果。

**推箱子**：这是一个基于网格的解谜游戏，玩家需要在有限空间内将箱子推到指定目标位置。游戏考验(1)视觉感知，(2)同时导航角色和箱子的空间推理，以及(3)避免死锁的长期规划。游戏的低容错性尤为突出——许多动作是不可逆的，一步错误就可能导致整个谜题失败。这就像在迷宫中移动家具，一旦卡在角落，就无法取出了。

**糖果粉碎**：这是一款三消游戏，玩家交换相邻的糖果形成对齐序列，触发连锁反应消除匹配的序列。游戏要求(1)视觉感知来识别不同糖果，(2)空间推理来预测不同位置的连锁反应，以及(3)长期规划来节省步数以最大化总分数。游戏特点是步数有限，因此必须谨慎规划每一步。

**2048**：这是一款滑动拼图游戏，玩家在网格上合并数字相同的方块，目标是达到2048方块。游戏评估(1)视觉感知以跟踪方块值和移动，(2)管理合并路径的空间推理，以及(3)最大化合并潜力的目标导向规划。由于游戏空间有限，错误很快累积，可能导致不可逆的失败状态。

**逆转裁判**：这是一款互动法庭剧视觉小说，玩家扮演辩护律师菲尼克斯·莱特，必须调查犯罪现场、询问证人并在法庭上出示证据，揭示矛盾并确保"无罪"判决。游戏强调(1)长上下文语言理解，跟踪数百个对话轮次、证词和证据事实，(2)部分可观察性下的因果和演绎推理，连接分散的线索、推断隐藏动机并发现逻辑差距，以及(3)长期、低容错决策，决定何时追问、反对或出示证据。

五、如何提升评估效果？LMGAME-BENCH的三大支架

为了解决直接评估模型游戏表现中的挑战，研究团队在LMGAME-BENCH中设计了三类关键支架：

**感知模块**：在基于网格的游戏（如推箱子、糖果粉碎、2048和俄罗斯方块）中，该模块将视觉布局转换为基于文本的表格，列出对象坐标及其属性，如"(2,3)处有一个箱子"、"(4,5)处有一堵墙"。这使模型能直接理解空间关系，无需从原始图像输入中解析。对于基于文本的游戏（如逆转裁判），该模块提取对话并以文本格式描述视觉元素，提供叙事上下文和关键视觉线索。

**记忆模块**：某些游戏如推箱子和俄罗斯方块，随着游戏进展和交互元素扩展（如箱子、网格大小、方块类型），决策空间会迅速增长。为了更好地区分模型，研究团队在LMGAME-BENCH中集成了额外的记忆模块。这个设置允许选择性激活两个组件：(1)瞬态记忆模块，记录过去N个游戏状态和动作；(2)反思模块，编码明确的经验教训以避免失败，引导特定游戏状态下的行动，从而帮助缩小行动空间。

**推理模块**：近期涌现的推理模型（如DeepSeek-R1、o3、Gemini-2.5等）引入了新的推理范式，模型探索多条推理路径并在最后综合出更准确的答案。这些模型在数学、代码生成和规划等任务中表现出色。LMGAME-BENCH支持对模型进行有无长链思考（long-CoT）推理的评估。

研究结果显示，在使用支架前，排除纯文本模型的游戏运行中，有40%未能超过随机游戏基准。启用支架后，游戏分数远超随机游戏和无支架设置，在模型间创造了更清晰的性能差距。配备支架后，86.7%的游戏运行击败了随机基准，而成对样本t检验证实，相比无支架对应项，支架运行在糖果粉碎、2048、俄罗斯方块、逆转裁判和推箱子上得分显著更高。

这些支架的效果各不相同：感知模块在空间推理任务（如推箱子）中更有用，而记忆模块对2048等时间规划至关重要。它们一起放大了模型性能差异，使LMGAME-BENCH的基准测试结果更具信息量。

六、谁是游戏高手？13款顶尖模型的表现揭晓

研究团队对13款领先模型进行了测试，结果表明LMGAME-BENCH是一个具有挑战性的基准测试，距离饱和还有很长的路要走，因为模型性能与人类水平能力之间存在明显差距。

测试中的模型包括Claude-3.5-Sonnet、Claude-3.7-Sonnet-Thinking、DeepSeek-R1、Gemini-2.5-Flash-Preview、Gemini-2.5-Pro-Preview、Grok-3-Mini-Beta、LLaMA-4-Maverick、GPT-4.1、GPT-4o、o1、o1-mini、o3和o4-mini。

测试结果显示，基准测试有效区分了不同模型：o3和o1在所有游戏中取得了前两名的最佳表现，随后是其他具有推理能力的模型，如Gemini-2.5-pro-preview和Claude-3.7。在非推理模型中，GPT-4.1领先。

以推箱子游戏为例，o3在有支架条件下达到了8.0分（满分未知），而无支架条件下为2.0分；相比之下，大多数其他模型在无支架条件下得分为0，有支架条件下也很少超过5分。这显示了支架的重要性，也突显了o3在空间推理和规划方面的优势。

七、解密游戏表现：揭示模型的核心能力

游戏是为了挑战人类的推理、感知和规划能力而设计的。同样，它们也需要模型具备多种核心能力才能表现出色。为了揭示这些能力之间的关系，研究团队对8个模型在20个已建立的基准测试上进行了全面评估。

**相关性分析**：研究人员计算了Spearman等级相关系数，评估LMGAME-BENCH游戏与广泛使用的基准测试之间的一致性。结果显示，不同游戏与特定基准测试存在明显的正相关。特别是，推箱子与数学和编程基准测试显示出强相关性。俄罗斯方块和2048与模式识别任务如EnigmaEval和NYT-connections密切相关。糖果粉碎与编程明显相关，暗示着算法推理能力。逆转裁判与LiveBench-Language强相关，表明其侧重于叙事理解，与其他游戏不同。高方差游戏如超级马里奥兄弟被排除在分析之外。

**潜在能力分解**：为了揭示基准测试与模型能力之间的关系，研究人员对模型-基准测试性能矩阵应用了低秩矩阵分解。这将每个LLM分解为潜在能力空间中的向量，每个基准测试（包括游戏）则是这些能力的稀疏加权组合。

虽然低秩矩阵分解产生的成分不一定是人类可解释的，但仍能观察到有意义的模式。特征1与语言和多任务知识（如MMLU-Pro、MultiChallenge）相关。特征2捕获编码能力（如BigCodeBench、Aider）。特征3对应符号和解谜技能（如EnigmaEval、NYT Connections）。特征4反映物理推理（如PHYBench、EMMA）。

LMGAME-BENCH中的每个游戏都依赖于这些潜在能力的不同子集。推箱子强调符号和物理推理（特征3和4），而逆转裁判则强烈依赖长上下文语言推理（特征1）。俄罗斯方块和2048主要代表数学和空间推理（特征3），而糖果粉碎则反映视觉模式识别，与编码有中等联系（特征2和3）。这种分解与上述相关性研究一致，同时也表明游戏涵盖了组合能力而非孤立技能。

**线性建模**：研究团队还使用线性模型预测基于不同类别的模型能力的游戏排名。在使用语言、物理理解、视觉理解、数学和编程五个基准测试类别作为解释变量时，长期游戏如推箱子、俄罗斯方块和2048的排名主要由数学和编程性能驱动。需要空间推理的游戏如推箱子、糖果粉碎和超级马里奥兄弟与物理理解和视觉理解基准测试密切相关。文本丰富的叙事游戏如逆转裁判则由语言相关基准测试主导。

八、游戏训练的惊人效果：能力不仅提升，还能迁移！

研究团队进一步探究了一个有趣的问题：在游戏上训练LLM是否能提高其在其他任务上的表现？为此，他们在简化版推箱子和俄罗斯方块上训练了Qwen2.5-7B-Instruct模型，然后评估其在各种下游任务上的表现。

**跨游戏和规划迁移**：如研究结果所示，在推箱子上训练产生了强大的跨游戏和空间推理性能提升——提高了更大推箱子棋盘的结果，促进了Blocksworld 1D/2D至少10%的性能，并在俄罗斯方块上实现了高达8%的零样本改进。同样，在俄罗斯方块上训练也增强了跨游戏和规划任务的表现。这些结果表明，训练期间学到的空间推理和规划启发式有效地跨规则和设置转移。

**数学、编程和智能体任务迁移**：尽管在棋盘游戏和规划方面取得了进展，但推箱子或俄罗斯方块训练都没有迁移到GSM8K和BIRD等任务，表明空间推理和搜索启发式本身不足以应对数学和编程所需的推理技能。然而，在多轮WebShop基准测试上，游戏训练模型实现了至少6%的改进，表明基于网格游戏衍生的技能可以有益于现实世界的决策。

这些发现表明，游戏环境不仅有效评估核心LLM能力，还可作为提升这些能力的宝贵训练环境。特别是，基于游戏的训练似乎最适合改善长期规划和空间推理技能，这正是许多实际应用所需的核心能力。

九、总结：游戏世界中的AI智能新标杆

LMGAME-BENCH为我们提供了一个全新的视角来评估大语言模型的能力。通过将模型放入精心设计的游戏环境中，研究人员能够测试它们的视觉理解、记忆和规划能力——这些都是现实世界应用中至关重要的技能。

研究表明，直接让模型玩游戏并不能有效评估它们的能力，因为即使最先进的模型也会因视觉感知问题、提示敏感性和数据污染风险而表现不佳。LMGAME-BENCH通过引入感知模块、记忆模块和推理模块等支架，成功克服了这些挑战，使游戏成为有效的评估工具。

在13款领先模型的测试中，o3和o1表现最为出色，而其他推理模型如Gemini-2.5-pro-preview和Claude-3.7紧随其后。这表明推理能力对于游戏表现至关重要。

更有趣的是，相关性分析和矩阵分解揭示了游戏性能与其他能力的联系——推箱子与数学和编程相关，俄罗斯方块和2048与模式识别相关，逆转裁判则与语言理解密切相关。这证实了游戏确实能测试模型的多种核心能力。

最后，研究还发现在游戏上训练模型不仅能提高它们的游戏表现，还能增强它们在规划和实际决策任务上的能力。这表明游戏环境不仅是评估工具，还可以作为训练LLM的有效场景。

随着大语言模型继续发展，LMGAME-BENCH这样的游戏基准测试将变得越来越重要，帮助我们更全面地了解这些模型的能力和局限性，并指导未来的改进方向。正如研究团队所示，通过游戏，我们不仅能看到模型"知道什么"，还能看到它们"能做什么"——而这正是构建真正有用的AI智能体的关键。

人工智能游戏评估大语言模型

分享至