你有没有想过,为什么AlphaGo能下赢围棋世界冠军,但今天最先进的AI可能连一个简单的90年代游戏都通关不了?这正是普林斯顿大学研究团队最新研究关注的问题。在2025年5月发表于arXiv的论文《VideoGameBench: Can Vision-Language Models complete popular video games?》中,Alex L. Zhang、Thomas L. Griffiths、Karthik R. Narasimhan和Ofir Press创建了一个新的基准测试,挑战当前最先进的视觉语言模型(VLM)在现实游戏环境中的表现能力。
现代的视觉语言模型在许多复杂任务上表现出色,特别是在对人类来说具有挑战性的编程和数学问题上。然而,研究团队注意到,这些模型在人类自然擅长的任务上——如感知、空间导航和记忆管理——却鲜有系统性的评估。研究人员提出,视频游戏是测试这些能力的理想平台,因为游戏设计师精心设计了各种机制,使得人类玩家可以直观地学习和掌握游戏。
这个名为VideoGameBench的基准测试包含了10款90年代(也被称为32位时代)的流行视频游戏,来自Game Boy、Game Boy Color和Microsoft DOS平台。这些游戏包括《塞尔达传说:林克的觉醒》、《毁灭战士II》、《星之卡比梦之泉》等经典作品。不同于以往的AI游戏测试,VideoGameBench有三个重要的创新特点:
首先,它向AI模型提供的环境比之前的测试(如简单的网格世界或纯文本游戏)复杂得多,是首批使用90年代视频游戏作为测试平台的基准之一。想象一下,AI不仅要理解游戏画面,还要实时做出反应,就像我们人类玩游戏一样。
其次,它评估单个AI代理如何在不同游戏中表现,包括三款秘密游戏,专门用于测试AI对未见过环境的泛化能力。与之前的工作不同,VideoGameBench挑战AI适应它可能没有经过训练的环境。这就像让一个只学过围棋的人突然去玩一款从未见过的棋类游戏,测试其真正的学习和适应能力。
第三,也是最重要的,VideoGameBench只提供原始游戏画面作为输入,不允许使用游戏特定的提示、视觉叠加层或辅助工具。这与最近的"Gemini玩精灵宝可梦"项目形成鲜明对比,后者使用了专门为寻路设计的工具、游戏特定提示和记忆辅助。简单来说,VideoGameBench就像让AI带着蒙眼罩玩游戏,只能看到游戏画面,没有任何额外帮助。
研究团队使用他们开发的VG-Agent框架评估了多个前沿视觉语言模型在VideoGameBench上的表现。结果令人惊讶:所有模型都难以在任何游戏中取得进展——表现最好的模型Gemini 2.5 Pro在VideoGameBench上的平均得分仅为0.48%,这代表了该模型平均完成每个游戏的百分比。
研究人员发现,当前视觉语言模型在实时游戏环境中的主要瓶颈是推理延迟。简单来说,模型思考的时间太长,等它决定采取行动时,游戏状态已经改变,导致行动选择过时。为了解决这个问题,研究团队引入了VideoGameBench Lite版本,在这个版本中,游戏会在AI思考时暂停,只有在AI做出决定时才继续,有效地将实时游戏转变为回合制游戏。即使在这种有利条件下,模型的表现也只略有提高,最好的模型在VideoGameBench Lite上的得分为1.6%。
为了更细致地了解AI在游戏中的表现,研究团队还开发了一种新颖的方法来检测AI在游戏中的进度:他们从YouTube上收集游戏通关视频,使用视频描述中的时间戳创建一个(图像帧,里程碑)对的数据集。然后,他们使用感知哈希技术对发送给AI的帧进行处理,检测AI完成了游戏的哪些部分。这种方法大大增加了将新任务纳入基准测试的便捷性,为创建其他挑战性基准测试打开了大门。
研究人员还设计了三个简单的练习游戏来评估基本技能,如鼠标点击、拖拽和2D导航。结果显示,即使在这些基础任务上,大多数模型也表现不佳。Claude Sonnet 3.7和Gemini 2.5 Pro能够完成位置点击游戏,但在其他练习游戏上表现不佳,而其他模型则在所有练习游戏上都表现不佳。
研究者通过分析游戏轨迹,发现了几个关键的失败模式:
首先是"知行差距"。在《塞尔达传说:林克的觉醒》中,所有模型都观察到出门的路在屏幕底部,但无论角色在房间中的位置如何,都会反复按"下"键,导致角色无法对准门口。这就像人类知道出口在哪里,但就是走不到那个方向一样。
其次,前沿模型难以正确处理视觉输入。在《毁灭战士II》中,有的模型会对已经死亡的敌人继续开火,浪费所有弹药;在《塞尔达传说》中,模型误以为已经与NPC对话,仅仅因为在之前的画面中看到自己站在NPC旁边。这就像一个人分不清电视上的画面是实时的还是录播的。
最后,AI代理缺乏规划和记忆管理能力。在《毁灭战士II》中,一个模型在到达新区域后覆盖了其文本记忆,删除了之前去过哪里的信息,因此反复在相同区域间来回移动。这就像一个人进入一个迷宫,却总是忘记自己已经走过的路,不断回到原点。
通过这项研究,普林斯顿团队希望VideoGameBench能成为推动视觉语言模型在空间感知、记忆管理和实时交互等方面进步的重要基准。研究人员指出,虽然视频游戏只是虚拟环境,但在这些环境中取得的进步可能会转化为现实世界的应用,如控制自主机器人和无人机。
研究团队认为,评估和理解AI系统在这种虚拟环境中的能力对于监控未来系统中潜在的有害现实世界行为至关重要。通过VideoGameBench,他们不仅提供了一个测试平台,还提出了一个重要问题:如果我们希望AI系统真正接近人类水平的智能,它们不仅需要解决抽象问题,还需要展示人类在感知、空间推理和记忆管理方面的自然能力。
这项研究已经在开源平台上发布,感兴趣的读者可以访问vgbench.com查看代码和数据。
好文章,需要你的鼓励
AIM Intelligence联合多所知名大学揭示了音频AI系统的重大安全漏洞,开发出名为WhisperInject的攻击方法。这种攻击能让看似无害的音频指令操控AI生成危险内容,成功率超过86%,完全绕过现有安全机制。研究暴露了多模态AI系统的系统性安全风险,对全球数十亿智能设备构成潜在威胁。
新加坡国立大学研究团队系统梳理了视觉强化学习领域的最新进展,涵盖超过200项代表性工作。研究将该领域归纳为四大方向:多模态大语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,分析了从RLHF到可验证奖励范式的政策优化策略演进,并识别出样本效率、泛化能力和安全部署等关键挑战,为这一快速发展的交叉学科提供了完整的技术地图。
浙江大学研究团队通过OmniEAR基准测试揭示了当前AI模型在物理世界推理方面的严重缺陷。测试显示,即使最先进的AI在明确指令下能达到85-96%成功率,但面对需要从物理约束推断行动的任务时,成功率骤降至56-85%。研究发现信息过载反而降低AI协作能力,监督学习虽能改善单体任务但对多智能体协作效果甚微,表明当前架构存在根本局限性。
纽约大学和Aimpoint Digital Labs的研究团队首次揭示了Transformer模型训练中"大规模激活"的完整发展轨迹。这些影响力比普通激活大千倍的"超级激活"遵循可预测的数学规律,研究者开发出五参数公式能以98.4%准确率预测其变化。更重要的是,通过调整模型架构参数如注意力密度、宽深比等,可以在训练前就预测和控制这些关键激活的行为,为设计更高效、量化友好的AI模型提供了全新工具。