用游戏测试人工智能：伯克利团队的"生成游戏测试台"如何衡量AI的通用智能

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

用游戏测试人工智能：伯克利团队的"生成游戏测试台"如何衡量AI的通用智能

作者：科技行者

2025-05-15 13:52

分享至：

想象一下，你在考试前记住了所有可能的问题和答案。当考试来临时，你看似表现优秀，但实际上只是在背诵，而非真正理解。当前的大语言模型（如ChatGPT）也面临类似问题——它们在很多传统测试中表现出色，但这真的代表它们具备了通用智能吗？

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-05-15 13:52 • 科技行者

你有没有想过，如何测试人工智能是否真的"聪明"，而不仅仅是记住了很多数据？加州大学伯克利分校的计算机科学团队最近给出了一个有趣的答案：让AI自己设计游戏，然后测试其他AI是否能玩好这些游戏。这项由Vivek Verma、David Huang、William Chen、Dan Klein和Nicholas Tomlin领导的研究刚刚发表在2025年5月的预印本平台arXiv上，论文编号为2505.07215v1。

传统AI测试的局限性

伯克利团队指出，随着AI被训练的数据越来越多，原本被视为"测试智能"的许多任务，现在更像是"测试记忆"。例如，如果一个语言模型在训练中已经"看过"上百万盘国际象棋对局，那么它在国际象棋相关任务上表现出色，可能只是因为它"记住"了棋谱，而非真正理解策略。

研究团队解释道："许多曾经被认为是测试领域外泛化能力的任务，现在已经成为这些模型训练数据的一部分。"简单来说，我们需要全新的、AI从未见过的任务来真正测试它们的通用智能。

gg-bench：让AI设计新游戏来测试其他AI

伯克利团队构建了一个名为"gg-bench"的测试平台，概念非常巧妙：利用强大的语言模型创造全新的策略游戏，然后测试其他AI是否能玩好这些游戏。这就像是让一位象棋大师设计一种全新的棋类游戏，然后测试其他棋手是否能理解规则并制定有效策略。

这个测试平台的工作流程分为三个主要步骤：

首先，研究团队使用OpenAI的o1大语言模型生成独特的游戏规则和描述。这些都是全新的、两人轮流进行的策略游戏，从未出现在任何AI的训练数据中。想象一下，这就像是请一个创意十足的游戏设计师不断创造新游戏。

接着，他们让同一个语言模型将这些文字规则转化为可运行的计算机代码，创建了虚拟游戏环境。这相当于把游戏规则变成了可以在电脑上运行的程序。

最后，他们使用强化学习技术训练专门的AI玩家在这些新游戏中自我对弈，不断学习和提升。这些AI玩家就像是在新游戏中反复练习的专业玩家，掌握了相当高的游戏水平。

测试时，研究人员会给一个从未见过这些游戏的AI提供游戏规则说明、当前游戏状态和可选的移动列表，然后评估它能否做出好的决策并战胜那些经过专门训练的AI玩家。

一个具体的游戏例子："数字决斗"

为了帮助理解gg-bench中的游戏类型，让我们看看其中一个名为"数字决斗"的游戏：

游戏目标是捕获对手的所有数字。每个玩家开始时拥有从1到N的一组数字（例如1到5）。比赛分回合进行，每回合一名玩家作为"攻击者"，另一名作为"防御者"。

游戏流程十分简单：攻击者从自己的数字组中选择一个数字发起攻击，防御者也选择一个数字进行防御。如果攻击者的数字大于防御者的数字，攻击成功，防御者失去那个数字，而攻击者保留自己的数字。游戏继续进行，直到一方失去所有数字。

例如，在一个回合中，如果攻击者选择数字3，防御者选择数字2，由于3大于2，防御者的数字2将被捕获，而攻击者的数字3保留在他的数字组中。

这个简单的游戏需要策略思考：作为攻击者，是应该先用大数字消灭对手的小数字，还是保留大数字应对未来可能的困境？作为防御者，是该用小数字冒险还是用大数字确保安全？这种权衡和决策正是测试AI通用智能的理想场景。

研究结果：传统AI表现不佳，推理增强型AI表现更好

研究结果相当有趣：当前最先进的大语言模型（如GPT-4o和Claude 3.7 Sonnet）在这些游戏中表现相当一般，平均胜率仅为7%到9%。这是使用标准的上下文学习方法，即只给AI提供游戏规则和当前状态，让它根据上下文做出决策。

相比之下，那些专门为推理能力而设计的AI模型，如OpenAI的o1、o3-mini和DeepSeek-R1，表现明显更好，胜率在31%到36%之间。这表明，专门训练推理能力的AI在面对全新任务时确实具有优势。

这个差距非常引人深思：即使是当前最先进的大语言模型，在面对全新的策略性游戏时，也难以与经过专门训练的AI玩家相抗衡。这说明它们虽然在许多领域表现出色，但在需要多步骤推理和策略规划的全新任务中仍有明显短板。

失败案例分析："穿越战"游戏

研究团队分析了AI失败的具体例子，其中"穿越战"游戏展示了AI在多步骤策略思考中的局限性。在这个游戏中，玩家需要控制棋子在线性轨道上移动，既可以入侵对手领地，也可以消灭对手棋子。

研究人员观察到，语言模型（在例子中是o1）在游戏初期表现不错，但在关键时刻却做出了战略性错误：它将一枚棋子P1-C移动到了位置6，一个容易被对手捕获的位置。更糟糕的是，它让自己的一枚棋子P1-A在整个游戏中一直停留在起始位置0，完全没有参与战斗。

这个例子生动地展示了当前AI在长期策略规划中的局限性。即使是最先进的模型也会忽视棋子位置的长期后果，难以制定和执行多步骤的战略计划。就像一个国际象棋新手可能专注于眼前的战术，而忽视整体战略一样。

gg-bench的游戏类型多样性

gg-bench不只包含一种类型的游戏。通过分析，研究团队将这126个游戏分为五大类：

数字游戏（占36.7%）：如"质数声明"，玩家轮流从1到25中选择整数。质数会加上自身的值，合数则加上自身的值并将因子和赠予对手。所有数字选完后总分高者胜，最后的选择可打破平局。

棋盘游戏（占27.6%）：如"隔离"，玩家在一条有13个方格的线上轮流占领未被占领且不与任何已占领方格相邻的方格。第一个让对手无法移动的玩家获胜。

卡牌游戏（占14.6%）：如"高低战"，玩家在五轮中同时出示1-9之间选定的卡牌，高卡获得1分，或通过之前低卡的平局打破机制获得2分。总分最高者获胜。

机会游戏（占11.7%）：如"数字困境"，从随机的20位数字线中，玩家轮流从任一端取一个数字并将其添加到自己的数字中；当线空了，较大的数字获胜（平局时第二个移动者获胜）。

战斗游戏（占9.4%）：如"元素冲突"，两名玩家从10生命值和四个一次性法术开始。元素按照石头剪刀布的方式互动；赢家造成伤害，平局双方受伤。第一个生命值降至0或用完所有法术的玩家输掉比赛。

研究团队发现，数字游戏在筛选过程中存活率最高，可能是因为它们更容易实现和测试。相比之下，战斗类游戏从原始样本中的31.1%降至筛选后的9.4%，可能是因为它们的胜负条件更复杂，更难描述和实现。

未来证明：gg-bench的可扩展性

这个测试平台的一个关键优势是它的可扩展性。随着AI技术的进步，研究人员可以使用更先进的模型生成更复杂、更有挑战性的游戏。

研究团队进行了一个小规模实验，比较了GPT-4o和OpenAI o1生成的游戏质量。结果发现，GPT-4o生成的游戏中有8个是井字棋的变体，而o1生成的游戏则展现出更多的创新性和多样性。这表明，随着生成模型能力的提升，测试的质量和难度也会相应提高。

这种动态扩展的特性让gg-bench成为一个"未来证明"的基准测试：即使当前的AI模型逐渐适应了现有游戏，研究人员也可以简单地使用更先进的模型生成新的、更具挑战性的游戏，保持测试的有效性。

结论：通向通用智能的新路径

伯克利团队的研究为评估AI通用智能提供了一个新颖而有效的方法。通过让AI自己创造测试任务，然后用这些任务测试其他AI，我们可以不断推动AI向真正的通用智能迈进。

这种方法有几个明显优势：首先，它可以持续生成全新的测试案例，避免AI通过记忆获得高分；其次，它可以随着AI技术的进步而提高测试难度；最后，它通过游戏这种直观的形式，为评估复杂的智能能力提供了一个清晰的框架。

当然，正如研究人员所承认的，没有任何单一框架能完全捕捉通用智能的所有方面。例如，gg-bench专注于策略性思考和规划，但没有测试社交智能或创造力等其他重要的智能维度。

不过，这项研究无疑为AI评估领域带来了重要贡献，提醒我们真正的智能不仅仅是记住已知答案，而是能够适应全新环境并在其中表现出色。就像一个真正的象棋大师不仅能玩好标准象棋，还能迅速适应并玩好任何变体棋类游戏一样。

研究团队已将数据集和代码开源，有兴趣深入了解的读者可以访问 https://github.com/vivek3141/gg-bench 获取更多信息，或直接在arXiv上阅读完整论文。

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

用游戏测试人工智能：伯克利团队的"生成游戏测试台"如何衡量AI的通用智能

至顶头条

科技行者

码客人生

奇客Solidot

高飞的电子替身

奇客情报站

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接